История машинного перевода
Е. Н. Филинов
Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., Наука, 1981).
Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". В январе 1954 г. состоялась первая публичная демонстрация машинного перевода с русского языка на английский, осуществленного на машине ИБМ-701. Сообщение об этом событии было опубликовано в журнале Computers and Automation, 1954, № 2. А реферат этого сообщения, сделанный Д. Ю. Пановым, появился в РЖ ВИНИТИ "Математика", 1954, № 10: "Перевод с одного языка на другой при помощи машины: отчет о первом успешном испытании".
Это сообщение явилось толчком для начала работ по машинному переводу в СССР. Д. Ю. Панов, бывший тогда директором ВИНИТИ (в то время Института научной информации - ИНИ) привлек к работам по машинному переводу И. К. Бельскую, которая затем возглавила группу машинного перевода в ИТМ и ВТ АН СССР. Первый опыт перевода с английского языка на русский с помощью машины БЭСМ был получен уже к концу 1955 г. Программы для БЭСМ составляли Н. П. Трифонов и Л. Н. Королев, кандидатская диссертация которого была посвящена методам построения словарей для машинного перевода.
Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. К работам по машинному переводу математических текстов с французского языка на русский он привлек О. С. Кулагину, аспирантку МИАН, своих учениц Т. Д. Вентцель и Н. Н. Рикко. С конца 1955 г. в этих работах принимала участие Т. Н. Молошная, которая затем приступила к самостоятельной работе над алгоритмом англо-русского перевода. А. А. Ляпунов и О. С. Кулагина свои представления об использовании вычислительных машин для перевода с одного языка на другой опубликовали в журнале "Природа",1955, № 8. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела".
Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").
Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.
Как большой ученый, которому свойственно видеть всю проблему в целом, А. А. Ляпунов с самого начала работ по машинному переводу говорил о переводе путем извлечения смысла переводимого текста и его представления на другом языке. Однако такая постановка проблемы перевода оказалась в то время преждевременной. Более того, она не решена в общем виде мировой информатикой и в настоящее время, несмотря на усилия, предпринимавшиеся Международной федерацией IFIP - мировым сообществом ученых в области обработки информации. Однако многие частные результаты, связанные с семантическим анализом текстов, были получены и опубликованы в трудах IFIP.
Первый опыт создания программ машинного перевода показал, что необходимо решать эти задачи постепенно и по частям.
Слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.
Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.
Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.
Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой. Формирование этого направления в СССР относится ко второй половине 50-х годов. Ведущую роль в нем сыграли математики А. А. Ляпунов, В. А. Успенский, (ученик А. Н. Колмогорова), О. С. Кулагина, лингвисты В. Ю. Розенцвейг, П. С. Кузнецов, А. А. Реформатский, И. А. Мельчук, В. В. Иванов.
6 мая 1960 г. было принято Постановление Президиума АН СССР "О развитии структурных и математических методов исследования языка", во исполнение которого были созданы подразделения по структурной лингвистике в Институте языкознания, Институте русского языка АН СССР. В Постановлении Президиума АН СССР отмечалось, что "недостаточное развитие теоретических исследований в области структурных и математических методов в лингвистических учреждениях тормозит практически важные работы по теории и практике машинного перевода, построению информационных языков и информационных машин, логической семантике и другим приложениям языкознания, разрабатываемым в настоящее время в ряде технических и математических научно-исследовательских институтов". С 1960 г. началась подготовка кадров в области автоматической переработки текстов на филологическом факультете МГУ, в Ленинградском и Новосибирском университетах, МГПИИЯ. Под математической лингвистикой понималось изучение языка как абстрактной знаковой системы с целью построения теоретической основы машинного перевода и создания конкретных алгоритмов перевода. В таком понимании математическая лингвистика составляла часть семиотики - общей теории знаковых систем.
Задача аксиоматизации лингвистики была выдвинута одним из виднейших лингвистов московской школы П. С. Кузнецовым как задача формализации грамматики, восходящая к идеям выдающегося русского языковеда Ф. Ф. Фортунатова (1848-1914).
Исследованию формальной теории грамматик, была посвящена диссертация О. С. Кулагиной, выполненная под руководством А. А. Ляпунова.
Заметим, что в те же годы формальная теория грамматик развивалась в США в трудах Н. Хомского, ставших классическими для области искусственных языков, в частности языков программирования.
Двадцатилетие (1956-1976) один из основателей направления математик В. А. Успенский в своих воспоминаниях назвал "серебряным веком" структурной, прикладной и математической лингвистики в СССР (видимо, по аналогии с "серебряным веком" русской поэзии).
В 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова. В результате в 1993 г. была создана промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ.
Практическое применение принципов смыслового анализа текстов потребовалось при создании систем машинного перевода с иероглифических языков (китайского, японского и др.). Вопросы создания таких систем были разработаны в диссертации В. М. Зелко в 80-х годах.
Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Они были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты.
Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:
"Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;
ПРОМТ, образованная в 1991 г.;
"Медиа Лингва".
Однопользовательская "коробочная" версия продукта Retrans Vista фирмы "Виста текнолоджиз" предназначена для автоматизированного перевода текстов с русского языка на английский и обратно. В ней использованы оригинальные алгоритмы сжатия словарных баз и поиска переводных эквивалентов, позволяющих транслировать "на лету" не только фрагменты текста, импортируемые из текстового редактора MS Word, но и Web-страницы.
В словарях Retrans Vista хранятся миллионы понятий, к которым относятся не только традиционные устойчивые фразеологические обороты, но, прежде всего, словосочетания, используемые в повседневной речи. Кроме того, есть программа концептуального анализа, автоматически выделяющая из текста новые словосочетания и включающая их в словарь. Основные словари системы Retrans Vista содержат термины и фразеологические единицы по естественным и техническим наукам, экономике, бизнесу и политике. Объем политематического машинного словаря - около 3,4 млн. слов (1,8 млн. в русско-английской части, 1,6 млн. - в англо-русской), причем 20% из них являются словами, а 80% - устойчивыми словосочетаниями со средней "длиной" в 2,2 слова.
Продукт Retrans Vista реализован на ПК с процессором, имеющим частоту от 166 МГц и ОЗУ от 32 Мб и выше и жестким диском от 170 Мб. Продукт работает под управлением ОС Windows 98/NT/2000.
Фирма ПРОМТ (http://www.promt.ru/rus1/news/news.htm ) разработала и поставляет Интернет-переводчик PROMT Internet Translation Server, обеспечивающий перевод "на лету" Web-страниц, запросов к поисковым системам или к базам данных, представленным в Интернете.
Для корпоративных сетей многонациональных корпораций фирма ПРОМТ предлагает аналогичный продукт PROMT Intranet Server.
Модуль перевода PROMT Internet встраивается в браузер Microsoft Internet Explorer, образуя средство для синхронного перевода Web-страниц Web View. При этом можно устанавливать для перевода различные языковые пары: английский - русский; английский - немецкий; английский - испанский; французский - английский; французский - немецкий. Бесплатный онлайновый переводчик PROMT доступен в Интернете по адресу: http://www.translate.ru .
PROMT Internet Translator Server установлен на поисковой системе Voila, принадлежащей оператору France Telecom.
Для систем офисной автоматизации предлагается коммерческий пакет PROMT Lingvo OFFICE - результат сотрудничества двух лидеров российского рынка лингвистического программного обеспечения - ПРОМТ и ABBYY.
Компания "Медиа Лингва" выпустила электронные словари серии "МультиЛекс 3.5. Новый большой англо-русский словарь" и "МультиЛекс3.5. Английский. Экономика и право". Такие словари, работающие под управлением операционных систем Windows CE или PalnOS, могут быть размещены на карманных компьютерах.
С практической точки зрения, имея в виду качество результирующего текста и его соответствие исходному, программы машинного перевода подразделяют на три категории:
полностью автоматический перевод;
автоматизированный машинный перевод при участии человека;
перевод, осуществляемый человеком с использованием компьютера.
Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов.
Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка.
В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.
К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ, упомянутые выше, в том числе программы для просмотра содержимого Web-страниц в сети Интернет с целью поиска нужного документа.
Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Эту категорию программ применяют профессиональные переводчики, осознавшие выигрыш от автоматизации их работы с помощью компьютеров. Основу ТМ-программ составляют специализированные словари, соответствующие тематике переводимого текста. При переводе используются конструкции и значения слов и устойчивых словосочетаний, выбранные профессиональным переводчиком и занесенные в словари системы, а полученный текст подвергается интенсивному редактированию. Словари и уже переведенные фрагменты текстов, запоминаемые в ТМ-системе, могут быть повторно использованы в больших коллективных проектах, ими можно обмениваться. Поэтому ТМ-системы представляют собой важное средство автоматизации труда профессиональных переводчиков.
Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation's Workbench фирмы Trados (для краткости часто также называемый Trados).
За 17 лет своего существования фирма Trados продала 45 тыс. лицензий на свою систему. Все они приобретены профессиональными переводчиками. В конце 2001 г. Российская фирма ПРОМТ, известная своими продуктами машинного перевода категории МТ, объявила о получении статуса эксклюзивного дистрибьютера системы Trados в России и других странах СНГ. Для совместного использования своих МТ-программ и продуктов Trados фирма ПРОМТ предлагает специальные средства их сопряжения.
История машинного перевода насчитывает немногим более 50 лет. За это время сменилось несколько поколений систем машинного перевода - от первых программ, использовавших ограниченные ресурсы универсальных компьютеров первого поколения до современных коммерческих продуктов, использующих мощные ресурсы серверов и персональных компьютеров, включая ПК, в которых можно размещать карманные словари, а также компьютерные сети.
По мере снятия технических ограничений, налагаемых возможностями компьютеров по производительности и памяти, становилось ясно, что проблема перевода текста с одного естественного языка на другой принципиально не сводится только к перекодировке слов. Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст.
Вместе с тем современные достижения в области вычислительной техники, информационных технологий и технологий телекоммуникаций позволяют выдвигать на перспективу практические задачи поиска и выбора требуемой информации, представленной на разных языках, из разнородных источников, находящихся в корпоративных и глобальных информационно-телекоммуникационных сетях.
В качестве примера такой перспективной задачи можно привести системы запросов к информационным ресурсам сетей, например к базам данных, с возможностью формирования ответов по телефону в виде устной речи. Для этого требуется сочетание систем машинного перевода с системами распознавания и синтеза речи.
Список литературы
Ляпунов А. А., Кулагина О. С. Использование вычислительных машин для перевода с одного языка на другой. Природа, 1955, № 8.
Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.
Панов Д. Ю., Ляпунов А. А., Мухин И. С. Автоматизация перевода с одного языка на другой. В сб.: Сессия по научным проблемам автоматизации производства. М., Изд. АН СССР, 1956.
Кулагина О. С. О роли А. А. Ляпунова в развитии работ по машинному переводу в СССР. Проблемы кибернетики, 1977, вып. 32 (в переработанном и дополненном варианте - в книге "Очерки истории информатики в России". Новосибирск, ОИГГМ СО РАН, 1998)
Кулагина О. С. Исследования по машинному переводу. М., Наука, 1979.
Молошная Т. Н. Алгоритм перевода с английского языка на русский. Проблемы кибернетики, 1960, вып. 3.
Багриновская Г. П., Кулагина О. С., Ляпунов А. А. О некоторых методологических вопросах, относящихся к машинному переводу. В сб.: О некоторых вопросах теоретической кибернетики и алгоритмах программирования. Новосибирск, Изд. СО АН СССР, 1971.
Успенский В. А. Серебряный век структурной, прикладной и математической лингвистики в СССР и В. Ю. Розенцвейг Как это начиналось (заметки очевидца) в кн.: Очерки истории информатики в России. Новосибирск, НИЦ ОИГГМ СО РАН, 1998.
Панов Д. Ю. Автоматический перевод. М., Изд. АН СССР, 1958 (первое издание - 1956.)
Стеблин-Каменский М. И. Значение машинного перевода для языкознания. В сб.: Материалы по машинному переводу. Сб. 1. Л., Изд. ЛГУ, 1958
Зелко В. И. Автореферат кандидатской диссертации.
MacDonald N. Language translation by machine - a report of the first successful trial. Computors and automation. 1954, v. 3, № 2, p. 6-10.
Машинный перевод. Сб. статей. М., АН СССР, 1958.
Кулагина О. С. Машинный перевод: современное состояние. В сб.: Семиотика и информатика. Вып. 29. М., ВИНИТИ, 1989.
Иванов В. В. Некоторые вопросы машинного перевода в СССР. Доклады Конференции по обработке информации, машинному переводу и автоматическому чтению текста. М., ВИНИТИ АН СССР, 1961. Вып. 10.
Компьютерра, 2002, № 21. Тема номера: "Ты меня понимаешь?" Проблемы машинного перевода, с. 26-37. Статьи: Жигалов В. Тестер Тьюринга; Жигалов В. Отложенный разговор; Ножов И. Синтаксический анализ; Сокурко А. Будущее машинного перевода.