Начала компьютерной лингвистики

Машинный перевод

Методы подхода к решению этой задачи можно подразделить на два типа: дедуктивный и индуктивный. Первый основан на формальном описании семантики с использованием модели «текст — смысл — текст», второй — на переводных соответствиях с использованием модели «текст — текст».

При первом подходе стремятся получить полностью автоматизированный высококачественный машинный перевод с максимальным использованием семантики языка. Общую схему можно представить себе как переход от независимого анализа и синтеза морфологического, синтаксического и семантического уровней к смыслу текста.

Основой системы является, таким образом, переход от поверхностной структуры к глубинной, от текста к его смыслу. Этот переход осуществляется с использованием словарей входного и выходного языков, а также грамматических правил. Образец обработки текста представлен на рис.7.21.

На первый блок поступает входная фраза, на вход каждого последующего — результат работы предыдущего, на выходе последнего блока образуется перевод входной фразы. Первая процедура выдает лексемы с приписанными морфологическими и словарными характеристиками, вторая образует поверхностно-синтаксическое дерево, третья формирует глубинно-синтаксическое дерево, четвертая подключается только при наличии «несовместимостей» в предыдущем представлении. В результате на выходе этапа анализа возникает базисная структура, по синтаксическим свойствам более приближенная к выходной. Пятая процедура заменяет входные лексемы соответствующими выходными эквивалентами, шестая формирует глубинно-синтаксическое представление выходной фразы, седьмая образует выходное поверхностно-синтаксическое представление, восьмая устанавливает линейный порядок лексем, девятая формирует выходную фразу.

На схеме просматривается аналогия между преобразованием информации в вопросно-ответных системах и процедурами дедуктивного перевода. Разница заключается в охвате предметной области.

Рис.7.21.

Второй подход рассматривает текст как избыточную многоуровневую систему, на верхних ярусах которой находятся наиболее информативные лексические единицы, на нижних — малоинформативные. Речь идет о бинарном переводе, при построении которого структура входного и выходного языков объединяется в суперструктуру. Перевод производится следующим образом: лексический перевод при помощи автоматического словаря, семантический перевод, опирающийся на алгоритмы устранения многозначности, составление грамматических алгоритмов.

Такая модель перевода имеет два состояния.

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52