УДК 621.391
Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления.
Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.
Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.
Работу рецензировали и рекомендовали к изданию: академик АН СССР А.А.Дородницын кандидат физико-математических наук
М.Н.Маричук© Издательство "Штиинца",1985 г.
О I5Q3000000 - 62 39-85 M755(I2) - 85
ВВЕДЕНИЕ
Проблема реализации речевого диалога человека и технических средств -
актуальная задача современной кибернетики. В настоящее время пользователями
вычислительных машин и средств, оснащенных вычислительными машинами,
становятся люди, не являющиеся специалистами в области
программирования. Особенно актуальной стала задача общения человека и
ЭВМ с появлением микропроцессоров и больших интегральных схем. Новая
технология оказала прогрессивное влияние на психологию как
разработчиков современных многопроцессорных ЭВМ .так и неспециалистов-
пользователей,не подготовленных к тому, чтобы пользоваться сложной
функциональной клавиатурой, языком программирования, комплексными
средствами управления техникой. Проблема речевого управления возникла,
кроме того,в связи с тем, что в некоторых областях применения речь
стада единственно возможным средством оощения с техникой (в условиях
перегрузок, темноты или резкого изменения освещенности,при занятости
рук, чрезвычайной сосредоточенности внимания на объекте, который не
позволяет отвлечься ни на секунду, и т.д.).
Массовое внедрение различных бытовых технических средств, содержащих
микропроцессоры и другие большие интегральные схемы, в частности,
сложных микрокалькуляторов, пег-зональных ЭВМ, также требует упрощения,
"демократизации" систем управления такими средствами. Мы должны
пользоваться новой сложной техникой так же, как пользуемся часами,
радиоприемником, стиральной машиной.Приближается время, когда будут
созданы "механические слуги" человека - роботы, помогающие в быту,
выполняющие работу по уборке помещения, оказывающие помощь в
сельскохозяйственных и строительных работах и т.д. Безусловно, человек
будет заинтересован в голосовом управлении сложной бытовой техникой и в конечном счете такими роботами.
Ближайшие перспективы развития вычислительной техники, создание
высокопроизводительных ЭВМ пятого поколения, надеденных способностью
анализировать зрительные и звуковые образы, также
3
требуют того, чтобы задачи автоматического распознавания и синтеза
речевых сигналов не оставались без внимания. Невозможно предположить,
чтобы вычислительные системы обладали производительностью в десятки и
сотни миллионов операций в секунду и в качестве вводных устройств
использовали традиционную клавиатуру дисплея, перфоленты или перфокарты.
В первой главе рассматривается современное состояние автоматического
распознавания и синтеза речевых сигналов (по публикациям до 1981 г.
включительно). Отмечается возрастающий поток публикаций по этим
проблемам, причем многие работы посвящены вопросам практического
построения систем распознавания и синтеза речи на специализированных
микроЭВМ. В настоящей монографии не нашли отражение работы,
опубликованные после 1981 г., так как материалы к публикации
готовились в основном до бтого времени. (южно лишь отметить, что за 1982
и 1983 гг. практическое направление работ в области автоматического
распознавания и синтеза речи интенсифицировалось. В нашей стране
появились первые промышленные системы автоматического ввода/вывода
речевой информации - "ИКАР", разработанная в НИИСчетмаше (г.Москва), СРД-
1,изготовленная в ОКБ Института кибернетики АН УССР им. В.М.Глушко-ва, и
Марс, созданная Минским отделением ЦНИИС. Эти системы,широко
демонстрировавшиеся на ВДНХ и других промышленных выставках, обладают
примерно сходными техническими характеристиками -они обучаются,
настраиваются на голос конкретного пользователя и словарь, достигающий
йОО слов, и обеспечивают точность распознавания около 95& и реальное
время распознавания. В качестве метода, обеспечивающего нелинейное
сравнение входных реализации и эталонов, используется динамическое
программирование. Большие успехи в области создания систем такого рода
достигнуты также в QUA и Японии. В США с 1982 г. начал выходить
специальный журнал Speech Technology (Речевая технология), в котором
описываются области применения промыиленных систем распознавания и
синтеза речи, их тестирование, технические характеристики и
технологические особенности.
В монографии основное внимание уделяется описанию систем
распознавания речи, работающих без предварительной настройки на
диктора. Авторы в течение ряда лет совместно работали над этой
проблемой в Вычислительном центре Академии наук СССР.Идеология
неадаптивных систем распознавания сложилась еще в 60-е гг.-в совместных
разработках Вычислительного центра и Института проблем передачи
информации АН СССР. Но основные результаты, описанные в книге, получены
авторами в конце 70-х - начале 80-х гг.
Глава 1
СОВРЕМЕННЫЕ ТЕНДЕНЦИИ РАЗВИТИЯ ПРОБЛЕМЫ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ
«ЧЕЛС ВЕК - ЭВМ»
§ I.I. Некоторые аспекты исследования речевых сигналов на современном этапе
В 70-х гг. повысился интерес к проблемам исследования речи. Это связано с возросшими успехами дискретной обработки сигналов на современной микроэлектронной технике и широким распространением микроЭВМ и мультимикроцессорньк систем, появление которых означало революцию в информатике. Научные достижения в области автоматического распознавания и синтеза речи поставили вопрос о практическом общении человека с миром мощных по своей производительности и возможностям микроЭВМ на языке, близком к естественному. Сложнейшая техника приблизилась к пользователю- неспециалисту, и пользователь "потребовал", чтобы общение о ЭВМ (в частности, с информационными и управляющими ЭВМ) производилось на более привычном ему естественном языке.
В связи с этим привлекли внимание работы по созданию первых промышленных устройств ограниченного речевого ввода и вывода информации, а также достаточно широко разрекламированных систем автоматического понимания естественной, слитной речи, над которыми работали в ОДА в течение I972-I976 гг. по проекту айра.
Следует отметить, что автоматическое распознавание и синтез речи - не единственное в речевых исследованиях, что привлекает внимание специалистов и возможных потребителей.
Наряду с автоматическим распознаванием смысла сообщения и синтезом речи (проблемами, которым в основном и посвящена настоящая монография), исследователи речевых сигналов успешно решают задачи: автоматического распознавания личности говорящего (т.е. решают задачу, кто это сказал), автоматической верификации говорящего (подтверждение, тот ли конкретный человек произнес эту фразу), оценки по голосу эмоционального состояния оператора,распознавания речи, произносимой в другой воздушной среде
(гелиевая речь), определения по речевому сигналу патологии органов речеобразования, разработки более совершенных методов преподавания иностранных языков (выработка правильного акцента и интонации по картине
"эталонных" параметров речевого сигнала ), помощи лицам
с дефектами органов слуха и речеобразования, очистки и анализа
затупленной речи, создания систем узкополосной помехоустойчивой связи, а
также ряд других задач. Рассмотрение всех этих проблем не входило в
планы авторов, которые ограничиваются здесь простым их перечислением.
В данной главе кратко рассматриваются основные публикации по проблемам автоматического распознавания и синтеза речи, появившиеся в I976-I98I гг. Сведения о более ранних работах в этой области можно получить из [58,79,8б].
В СЮ9] приводятся основные лаборатории США, Великобритании, Франции и
Западной Германии, тематика которых связана с автоматическим распознаванием и синтезом речи. В [127] сообщается, что проблема построения машин,
способных воспринимать речь человека (желательно с использованием пра' л
естественного языка), остается главным направлением речевых исследований,
одной из ключевых проблем кибернетики. В [144] отмечается
возрастающий интерес к этой проблеме, связанный с увеличением спроса
на малые устройства распознавания слов и появлением новых компаний,
активно участвующих в создании промышленных систем автоматического
распознавания речи на новой технологической базе.
В нашей стране наблюдается широкий интерес к проблеме исследования речевых сигналов. Регулярно проводятся всесоюзные школы-семинары по проблеме автоматического распознавания слуховых образов (APGO). В каждой союзной республике существуют лаборатории или группы, решающие эти задачи.
Стало традиционным классифицировать системы автоматического
распознавания речи на адаптивные, работающие с подстройкой под диктора
и словарь, и неадаптивные, обеспечивающие работу с произвольным
диктором-носителем нормы произношения данного языка. К практическим
системам первого типа относятся vip- юо, WRS и ИКАР, СРД-1, МАРС, к
неадаптивным - экспериментальные системы лаборатории Bell, ВЦ и ИППИ АН
СССР, устройство фирмы Dialog Systems . Следует отметить, что
системы автоматического распознавания речи пока не получили широкого
распространения, хотя и выпускаются с 1973 г. серийно.
Более доведенными до уровня коммерческих образцов являются системы
автоматического речевого ответа, т.е. системы, основанные на
автоматическом синтезе речи. Промышленность США и Японии выпускает большими
партиями синтезаторы речи, ориэнтированные на самое разнообразное
применение, - от детских игрушек,оснащенных голосовым выводом, до мощных
информационных систем, отвечающих голосом по речевому запросу
пользователя. В основе современных
б
коммерческих систем речевого ответа лежат три основных способа синтеза -
непосредственное кодирование речевой волны (дискретизация и сжатие),
формантный синтез и синтез, основанный на линейном предсказании [5].
(Подробное описание достижений науки и промышленности в области
автоматического синтеза речи дано
в § 1.4).
В пятой главе подробно рассматриваются особенности разработанной
авторами экспериментальной запросной системы речевого ввода, работающей с проблемно-ориентированным языком, словарный запас которого составляет 120
слов. Система базируется на аппаратурно-программном методе
распознавания, использующем информативные признаки речевых отрезков
^23,13,9?].
§ I. W l•/•л-номера соответственно признака, сегмента в слове и слова во фразе.
Процесс распознавания слов начинался с выбора эталонов -претендентов, идентичных входной реализации, и кодов макровре-ненной структуры и отличных от нее числом квазифонетичвских сегментов на величину не более заданного порога. Наиболее вероятные пары гипотез о слове принимались методом динамического программирования. При этом учитывались лексические ограничения на место слова во фразе. Далее блок семантико-синтаксического анализа принимал решение об истинной последовательности слов во фразе. При работе с шестью операторами и обучении системы на каждом из них надежность распознавания слов составила 8836,а надежность распознавания фраз за счет блока лингвистического анализа - 95%. Точность верификации диктора по произвольной фразе - 96%. Система устойчива к внешним шумам до 65 дБ.
Другая система, разработанная в Институте систем управления АН
ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и
выше) СЗб]. Основной особенностью этой системы распознавания фраз,
произносимых с паузами между словами, было наличие комплекса
помехозащищенных датчиков, который обеспечил приемлемое отношение
сигнал/шум на входе системы распознавания. В качестве приемника речевой
информации применялся ларингофон ЛЭМ-3, а также дополнительные
помехозащитные признаки устной речи, в качестве которых использовались
артикуляционные характеристики ре-чеобразования. Бесконтактные датчики
позволяли выделять:
- признак, отражающий изменение величины раствора ротовой щели во время произнесения неогубя°нных звуков;
- признак степени огубяения;
- признак скорости воздушного потока у потового отверстия [42].
Зак.480
17
Изучение свойств речевого сигнала в пространстве выбранных признаков позволило разработать процедуру описания слов, обеспечивающую восстановление как макровременной (имеется в виду пос-хедовательность звонких и глухих участков, а также пауз),так и квазифонемной структуры речи. При испытании систем [ЗЬ,??] выявилась высокая точность распознавания фраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающей малым объемом оперативной памяти и слабым быстродействием, из-за чего время распознавания фраз было в 30 - 50 раз больше реального.
В ранках традиционного аппаратурно-программного направления
автоматического распознавания речи ведутся работы в ВЦ и Институте
проблем передачи информации АН СССР [13,67,6?] .В основе метода лежит
алгоритмическая обработка выделяемых специальной аппаратурой информативных
параметров коротких отрезков речевого сигнала (сегментов длительностью 10-
20 мс). Последовательность этих отрезков и составляет высказывание,
которое требуется дешифрировать. Параметры (признаки) сегментов
характеризуют (в большей или меньшей степени) параметры речеобразующего
тракта человека, определяющие особенности порождаемых звуков.
В Cl3] рассмотрены алгоритмы распознавания названий чисел от нуля до
ста, причем система предусматривает реальное время распознавания и
произвольного диктора. Алгоритм распознавания двухступенчатый и состоит
из блоков распознавания и подтверждения фонетической структуры
(верификации). Если гипотезируемое слово не подтверждается (блоком
верификации), то входная реализация сравнивается с другими словами,
близкими к ней в пространстве признаков, или подается сигнал переспроса.
При распознавании двухсловных сочетаний второе слово анализируется с конца в направлении к его началу. Варианты произношения, на основании
которых создавался алгоритм, исследовались на материале около 2200
реализации названий чисел, произносимых 20 дикторами. В результате анализа
получены варианты произношения двузначных чисел. Многие из них
произносятся сравнительно единообразно и различаются степенью редукции
безударных гласных, степенью аффрицирова-ния мягких взрывных, наличием или отсутствием смычек перед аффрикатами и т.д. В других числах может
существенно нарушаться фонетическая структура, пропуски отдельных
согласных.В условиях, когда возможно множество вариантов произнесения,
алгоритм должен использовать лишь наиболее употребительные варианты, в
которых сохраняются "оперные" звуки - ударные гласные, щелевые, взрывные, а также начальные и конечные звуки.
I&
В OS?] рассмотрено использование речевого Управления в подсистеме АСУП
на базе мини-ЭВМ. Аппаратурно-программная система, разработанная в
Львовском ордена Ленина государственном университете им. И.Франко, уже
эксплуатируется. Система использует мини-ЭВМ ЕС-1010 в режиме реального
времени и параллельной работы около 90 производственных задач. Это
налагает жесткие условия на объем оперативной памяти, используемой для
программ обработки речевого сигнала (всего 10 Кбайт). Словарь системы
40 слов, которые могут быть организованы в командные фразы (5 слов во
фразе). Используется девять типов запроса, примерами которых могут быть:
"оперативная сводка выпуска", "ресурсы смены", "выходные характеристики
участка первой настройки" и т.п. Из-за жест-' ких ресурсов памяти система
ориентирована на работу с одним диктором, сформировавшим свои эталоны и
имеющим свой пароль. Работа системы в помещении машинного зала с уровнем
шумов 68-75 дБ показала надежность распознавания фраз, превышающую У0%, а
после переспроса - более 9Ь%.
Недостаточная надежность распознавания с первого ^^произнесения обусловлена в основном упрощениями алгоритма распознавания, на которые пришлось пойти ради экономии'места и оперативной памяти.
Аппаратурно-программное направление представлено также системой [33] , которая на первом уровне распознавания обнаруживала в словах сегменты и классифицировала их по способу образования звуков на гласные, щелевые, аффрикаты, дрожащие , а также глухие и звонкие. На втором этапе некоторые звуки классифицировались внутри данной группы по месту их образования. В результате каждому сегменту присваивалась Кодовая последовательность,занимающая I байт. Четыре старших разряда этого кода указывали групповую принадлежность данного звука, четыре младших разряда определяли тип звука внутри данной группы.
Для распознавания слов образуется элементарная последовательность
псевдослогов, сравнивающаяся с эталонами последовательности. При
экспериментальной проверке работы система распознавания на материале 50 и
200 слов с участием трех дикторов она показала 93 и 84% точности
распознавания соответственно.Анализ ошибок показал, что в большей
части они вызвали неправильными формированиями сегментов контрольной
реализации или эталонов, возникающими при срабатывании системы до начала
произнесения от посторонних шумов или шумов дыхания.
Интерес к построении систем распознавания речи, работающих с
множеством дикторов,стали проявяять и исследователи, тради-
19
ционно работавшие с одним диктором. Т.К.Винцюк и соавторы [21] показали,
что в рамках существующей однодикторной системы фонемного распознавания
речи может быть создана многодикторная система распознавания, которую
авторы назвали кооперативной,поскольку система предварительно обучается по выборке кооператива дикторов. Основные результаты экспериментов: при индивидуальном обучении системы распознавания речи средняя
надежность распознавания по чужим дикторам не превышает 80% (на словаре
из 100 слов);
- при кооперативном обучении средняя надежность распознавания для четырех членов кооператива составляем 98^, что вполне приемлемо для практического использования;
- кооперативное обучение способствует существенному превышению
надежности распознавания речи лиц, не участвовавших в получении обучающей
выборки (для двух новых дикторов средняя надежность распознавания 97 и
92%).
S 1.3. Развитие систем распознавания/понимания слитной речи
Задача общения человека и ЭВМ с помощью естественной,слитной речи оказалась гораздо более сложной, чем построение систем распознавания изолированных слов. Одной из первых практических систем распознавания последовательности слитных словосочетаний (пять слов исходного словаря) явилась система фирмы KdC .описанная ранее.
В дальнейшем будем различать системы распознавания *и системы понимания слитной речи. В первых, как правило, рассматриваются фразы, составленные из последовательности слов, между которыми синтаксическая и семантическая связь либо отсутствует,либо слишком жесткая (используется автономная грамматика).Системы понимания, в отличие от систем распознавания, при декодировании входного высказывания используют высшие лингвистические уровни языков, близкие к естественным, работая с фразами, в которых допустимы стилистические ошибки, бессмысленные звуковые сочетания, произвольные паузы и междометия.
При построении систем понимания речи необходимо в большей степени,
чем при создании систем распознавания слитной речи, использовать опыт
специалистов по искусственному интеллекту, а также привлекать
специальные знания о синтаксисе, семантике и прагматике языка общения.
В то же время отметим, что деление на системы автоматического распознавания
и понимания является 20
достаточно условным и фактически определяется коэффициентом ветвления,
который показывает, сколько возможных слов допускается после каждого слова
высказывания. В современных системах распознавания слитной речи средний
коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в
системах понимания этот коэффициент достигает 200-300 (бессмысленные
звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и
междометия можно рассматривать в СПР как возможные варианты слов).
Так как автоматическое распознавание 300 - 300 слов в непрерывном речевом потоке - сложная задача, веди использовать обычные математические методы распознавания, то для ее решения и привлекаются высшие уровни знания о языке (синтаксис, сематика и прагматика), а также другие способы, обеспечивающие сужение числа альтернатив на каждом шаге принятия решения о слове, используемые обычно в задачах искусственного интеллекта (ИИ). В связи с этим в системах понимания говорят о семантической точности распознавания смысла фразы, когда не все составляющие (слова) могут быть распознаны правильно.
Перейдем к рассмотрению систем распознавания слитной речи. Как
правило, такие системы работают по принципу фонемного распознавания, от
точности которого зависит общая надежность работы системы. Одной из
наиболее интересных отечественных систем с обучением на конкретного
диктора и словарь является система, построенная в Институте кибернетики
АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная
система распознавания рвчи[213.
В основу этой системы положена математическая модель речевого сигнала, в которой каждой фонеме соответствует полученный алгоритмически (на
основе анализа текущей автокорреляции сигнала, параметров линейного
предсказания и текущего энергетического спектра) определенный набор
бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв
эффекты, изменение длительности фонем и динамику интенсивности сигнала.
Модель автоматического распознавания Института кибернетики АН СССР
использует анализ сигнала посредством синтеза.
Некоторый процеср порождает из элементарных эталонных сигналов по
определенным правилам эталонную слитную речь (общий для всех слов алфавит
эталонных элементов содержит около 80 элементов кодов). Распознавание
слитной рччи сводится к необходимости нахождения наиболее правдоподобного
эталонного сигнала слитной речи.
21
В этой модели автоматически находятся границы отдельных фонем, паузы, тип и общее количество фонем в распознаваемой последовательности о учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал слитной речи формируется из эталонных сигналов отдельных слов путем нелинейного преобразования исходных словесных эталонов. При этом эталонные сигналы слов складывались в эталонную слитную речь так, что паузы между словами имели различную длительность (в том чис/ie и нулевую),а длительность элементов фразы изменялась плавно. Параметрами грамматики, порождающей эталонные фразы, являлись: алфавит эталонных элементов, акустике-фонетические транскрипции слов, правила стыковки слов во фразе, правила нелинейной деформации сигналов вдоль оси времени и некоторые другие параметры.
Для экспериментов по распознаванию слитной речи ( словарь включал 200
слов) были получены 1000 реализации этих слов, произнесенных одним
диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3%
отказов при распознавании слов в слитном потоке. Расширение словаря до 300
слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При
экспериментах со словарем из 100 слов удалось получить время
распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим,
что близкий к этому метод используется в системах распознавания слитной
речи (СРСР), разработанных в Отделе вычислительной науки
исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна
(так же, как и фирма Sperry Univac ) активно занимается
исследованиями по распознаванию слитной речи после завершения проекта
arpa , рассмотрим эти работы более подробно.
В С39] описана СРСР, в основе которой лежит модель акустического канала, обеспечивающая автоматическое порождение всех возможных поверхностных форм предполагаемого высказывания совместно с вероятностями их порождения. Это порождение осуществляется с помощью акустико-фонологических правил (АФП).приложенных к базовой цепочке высказывания. АФП учитывают в слитной речи такие фонологические явления, как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон речи, диалектные особенности, изменения на стыках слов и т.д.
Удобной структурой для выражения поверхностных форд высказывания
явился направленный граф, дуги которого помечены возможными звуками.
Каждому узлу графа соответствует распределение вероятностей, указанных на
выходящих дугах. Дуги на концах графа, соответствующего совокупности всех
поверхностных форм произнесен-
22
ного слова, имеют связанные с начальными и конечными состояни-яни условия
соединения, определяемые фонологическими явлениями на стыках слов.
Язык системы определяется автоматной грамматикой, представленной графом и включающей 250 слов. Для распознавания использовался лингвистический декодер-алгоритм последовательного декодирования, обеспечивающий нахождение предложения о максимальной апостериорной вероятностью по последовательности цепочки фонем, поступающих с выхода специального акустического процессора. Точность декодирования высказываний на контрольной выборке составила (по данным на август 1977 г.) 95% при 6% ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного распознавания слов. Следует отметить, что рассматриваемая система была сияьно модифицирована за последние три года: упрощен акустический процессор, с которого быви сняты функции фонемной сегментации и маркировки. Сказалось возможным, используя алфавит из 33 фонем, маркировать ими десятимиллисвкундные отрезки речевого сигнала непосредственно по акустическим данным.Преимущество такого представления авторы работы [Ю5Д видят в том, что, во-первых, информация о звуке,распределенная по длине фонем, оказывается более полезной для распознавания, так как при этом возрастает количество информации, поступающей от акустического процессора к лингвистическоу декодеру. Во- вторых, сегментация и маркировка (принятие решения о звуке) разнесены во времени, и лингвистический декодер может, основываясь на структуре отдельных слов, во время сравнения решить, представляет ли короткая маркированная цепочка десятимиллисекунцных сегментов истинный звук или же это - ошибочная ложная ставка.
Дальнейшее совершенствование сантисенундного акустического процессора (
asAJ ) за счет использования 45 эталонных фонетических меток вместо 33
позволило повысить точность классификации (на языке со словарем из 250
слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует
отметить, что еще более совершенный процессор ( wbap ), на котором
получены наилучшие результаты распознавания (0% ошибок), использует лишь
пять параметров, один из котррых - кратковременные изменения общей
энергии сигнала, а четыре - отражают параметры гласных и описаны ранее в [l4l] . Этот процессор осуществляет акустическое сравнение
непосредственно, используч величины акустических параметров, а не
фонетические метки, связанные с сантисекундными отрезками. Для каждого
слова используется модель с конечным числом состояний, которая
порождается алгоритмически из отображенного
23
произношения. Число состояний модели равно длине этого произнесения в
сантисекундах. В модели обеспечиваются переходы из состояния к этому же
состоянию, к соседнему и через одно.С каждым переходом связано пятимерное
гауссовское распределение в пространстве первичных параметров. Средние
значения и дисперсии выходных распределений, а также переходные
вероятности формируются автоматически при обучении на дополнительных
реализациях слов при формировании обобщенных эталонов с помощью алгоритма
Вктер-би [39].
В процессоре wbap используемая статистика основана скорее на особенности слов, чем на особенности звуков.
Следует отметить, что за I976-I978 гг. предпринимались попытки
увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов
(тезаурус лазерных патентов). Предварительные результаты испытаний этой
системы описаны в [106} . На тестовом множестве фраз, куда входило
486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из
й0 контрольных фраз не была определена правильно - программа распознавания
делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы
[107] позволило за счет увеличения числа фонетических меток до 52
снизить ошибки в распознавании слов до 20%.
В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие
уменьшить число ошибок при распознавании слов за счет использования
более совершенного сантисекундного акустического процессора сзар-зоо,
в котором число эталонных фонетических меток было расширено до двухсот.
При распознавании 50 п"едл°жений, включающих 980 слов, неверно распознано
87 слов, в числе которых 34 слова, составившие односложные слова типа
"of", " а ", " are ","as" и др. Переход к работе этой системы с
множеством дикторов описан в [l59]. Работа с новыми дикторами
реализована за счет использования автоматической селекции акустических
эталонов, выполняющейся двумя различными способами.Один из методов, в
основе которого лежит процедура Витерби С 39], реализован с помощью
сантисекундного акустического процессора TPIVIAI [l07], а другой,
основанный на алгоритме кластеризации, использует акустический
процессор autociust. (В первом методе использовалось 85 эталонов, во втором
- 20D.) Точность распознавания слов составила при использовании первого алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы
о распознавании словаря деловой переписки общим объемом 5000 слов.
Над проблемами распознавания слитной речи продолжает работать фирма
Sperry Univas, участвовавшая в проекте АЙРА. Эта
24
фирма разработала с"стему автоматического распозньвания слов,словосочетаний и естественных предложений {l74] . На основе спектрального анализа и
линейного предсказания в спектральной об-дасти звуки классифицировались
по способу и месту образования. Система была испытана на словаре из 31
слова двумя дикторами. Точность распознавания изолированных слов при
использовании синтаксиса задачи составила 95%. Предварительные результаты
по распознаванию слитной последовательности слов, произносимые тремя
дикторами, составили от 54 до 74% для задачи с ограничечным порядком
следования слов. Предполагалось, что в дальнейшем будут использованы
акустико-фонетичзские и фонологические правила, нормализация дикторских
произношений, просодические характеристики речи. Предполагалось также, что
будут использованы более сложные процедуры для синтаксического и
семантического анализа. В 1977 г. система работала с двумя словарями -
из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого
управления) [123, 153] . Для обоих словарей точность распознавания
составила 95^, а средней точности распознавания слитялс словосочетаний -
88%.Дальнейшие разработки включали расширение словарного состава системы,
числа типов предложений, использование правил фонетической и словесной
верификации.
В [l54] сообщается, что система Sperry Univac. была модернизирована
для поиска и верификации ключевых слов в потоке слитной речи. В этой
системе использовались измеряемые на деся-тимиллисекундных интервалах
параметры речевого сигнала, проведшего через телефонный канал.
Исследователями был выбран достаточно мощный набор параметров-
Непосредственно по речевой волне определилась частота основного тона.
Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял
получить следующие признаки речевых отрезков: общую энергию в полосе
100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию
сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность
энергий низких и высоких частот 1
кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из
сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним
быстродействием 600 тыс. операций в I с. Параметры (число нулевых
пересечений и амплитудное значение сигнала на интервале анализа для каждого
из диапазонов) формируются программно, и их значения дают возможность грубо
классифицировать сегменты на 10 различных типов - пауэы (глухая смычка),
наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный
согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой,
свистящий, гласный высокого иди низкого подъема. В дальнейшем
производится пере классификация сегментов на 59 классов, некоторые из них
пересекаются в пространстве признаков.
На второй стадии к среднему участку сегментов применяют сравнение с
эталонами (этих эталонов для каждого класса сегментов может быть до 100).
При сравнении средний участок сегмента по-ступившей на вход реализации
сравнивается с множеством эталонов, которые подучены от специально
обученных дикторов. Использование сегментации I уровня позволяет, как
отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению
с унифицированной, основанной .исключительно на коэффициентах линейного
предсказания.
Как уже отмечалось, ключевой проблемой систем понимания Речи является
верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний.
Блок словесной верификации должен оце-нвдь, насколько акустические данные
входной реализации соответствуют фонетической транскрипции
гипотезируеного слова.
2S
В соответствии с оценкой, словесный верификатор отбрасывает большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы впоследствии отобрать единственное с помощью инфор~ мации высших уровней.
В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу вверх (блоком POMOW), либо преде называются сверху вниз семантико- синтаксическим блоком sass . Блок словесной верификации wizard обрабатывает гипотезы о словах снизу вверх, используя акустическую информацию и результаты автоматической сегментации. Каждый сегмент высказывания представлен вектором фонемных вероятностей (т.е. с каждым отрезком высказывания связываются определенные звуки, которым присваиваются некие веса), Каждое слово словаря записывается эталонным графом возможных фонетических произнесений, учитывающим все альтернативные варианты произнесений. Однородная модель, используемая блоком словесной верификации, дает возможность найти оптимальное совпадение одного из эталонов (соответствующее пути на одном из эталонных графов) и участка входной реализации, соответствующего слову.
В системе Hearsay-П при словесной верификации стыки между словами не рассматриваются, делается лишь их внутренняя обработка. wizard пытается верифицировать слова, как будто они находятся в изоляции.
При верификации слова обрабатываются снизу вверх следующим образом:
предсказанные моменты начала и конца слова связываются с
соответствующими сегментами высказывания bseg и eseg. Исследуются все пути
в эталонных графах возможных слов, которые совпадают с отрезками и
входной реализацией. Сравниваются с эталонами отрезки, которые начинаются
в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е.
параллельно рассматриваются девять возможных участков высказывания,
что приводит к девяти оптимальным путям на эталонных графах, из
которых выбирается тот. оценки которого наибольшие, или наиболее
соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо
или влево позволяет избегать ошибок при представлении входного,
высказывания (акустических данных) различными источниками знаний. В
результате блок словесной верификации может изменять время словесных
гипотез, а также их оценки. Следует отметить, что если в проектах ВШ
(Speechlis и HWIM) идет непосредственный переход от фонетического
описания к словесному, то в Hearsay-П используется еще промежуточный,
слоговый уровень между словами и звуковыми сегментами. Для поддержки
словесных гипотез используются так называемые типовые слоги, слоготипы
(syltypes).
Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты
(наприм