Машинный перевод на основе правил


Машинный перевод на основе правил (RBMT от англ. rule-based machine translation) — обозначение технологий машинного перевода на основе лингвистической информации об исходном и переводящем языках. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков, и структурируется в виде машиночитаемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.

Системы машинного перевода на основе правил делятся на три группы:

  • системы пословного перевода;
  • системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции переводящего языка;
  • системы, использующие промежуточный искусственный язык (интерлингву).

Типичная система машинного перевода на основе правил может включать следующие компоненты:

  • лингвистические базы данных: двуязычные словари, справочники имён собственных и правила транслитерации, морфологические таблицы;
  • модуль перевода: грамматические правила, алгоритмы перевода.

Исторически использование систем правил в машинном переводе предшествовало применению корпусных методов, в связи с чем такой подход также называют классическим. Преимущества классических систем — синтаксическая и морфологическая точность, стабильность и предсказуемость результата, возможность настройки на предметную область; недостатки — трудоёмкость и длительность разработки, необходимость поддерживать и актуализировать лингвистические базы данных; «машинный акцент» при переводе. По мере развития технологий машинного перевода получил получил распространение гибридный подход, сочетающий как методы на основе правил, так и корпусные технологии (в том числе статистический перевод и перевод на основе примеров).