Начала компьютерной лингвистики
Машинный перевод
Методы подхода к решению этой задачи можно подразделить на два типа: дедуктивный и индуктивный. Первый основан на формальном описании семантики с использованием модели «текст — смысл — текст», второй — на переводных соответствиях с использованием модели «текст — текст».
При первом подходе стремятся получить полностью автоматизированный высококачественный машинный перевод с максимальным использованием семантики языка. Общую схему можно представить себе как переход от независимого анализа и синтеза морфологического, синтаксического и семантического уровней к смыслу текста.
Основой системы является, таким образом, переход от поверхностной структуры к глубинной, от текста к его смыслу. Этот переход осуществляется с использованием словарей входного и выходного языков, а также грамматических правил. Образец обработки текста представлен на рис.7.21.
На первый блок поступает входная фраза, на вход каждого последующего — результат работы предыдущего, на выходе последнего блока образуется перевод входной фразы. Первая процедура выдает лексемы с приписанными морфологическими и словарными характеристиками, вторая образует поверхностно-синтаксическое дерево, третья формирует глубинно-синтаксическое дерево, четвертая подключается только при наличии «несовместимостей» в предыдущем представлении. В результате на выходе этапа анализа возникает базисная структура, по синтаксическим свойствам более приближенная к выходной. Пятая процедура заменяет входные лексемы соответствующими выходными эквивалентами, шестая формирует глубинно-синтаксическое представление выходной фразы, седьмая образует выходное поверхностно-синтаксическое представление, восьмая устанавливает линейный порядок лексем, девятая формирует выходную фразу.
На схеме просматривается аналогия между преобразованием информации в вопросно-ответных системах и процедурами дедуктивного перевода. Разница заключается в охвате предметной области.
Рис.7.21.
Второй подход рассматривает текст как избыточную многоуровневую систему, на верхних ярусах которой находятся наиболее информативные лексические единицы, на нижних — малоинформативные. Речь идет о бинарном переводе, при построении которого структура входного и выходного языков объединяется в суперструктуру. Перевод производится следующим образом: лексический перевод при помощи автоматического словаря, семантический перевод, опирающийся на алгоритмы устранения многозначности, составление грамматических алгоритмов.
Такая модель перевода имеет два состояния.
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52