Машинный перевод на основе правил
Машинный перевод на основе правил (RBMT от англ. rule-based machine translation) — обозначение технологий машинного перевода на основе лингвистической информации об исходном и переводящем языках. Такая информация извлекается, как правило, из словарей (как лингвистических, так и переводных), описаний грамматики языков, и структурируется в виде машиночитаемых правил, охватывающих основные семантические, морфологические и синтаксические закономерности каждого языка. На основе таких правил исходный текст последовательно, по предложениям преобразуется в текст перевода.
Системы машинного перевода на основе правил делятся на три группы:
- системы пословного перевода;
- системы машинного перевода на основе трансформации — преобразуют структуры исходного языка в грамматические конструкции переводящего языка;
- системы, использующие промежуточный искусственный язык (интерлингву).
Типичная система машинного перевода на основе правил может включать следующие компоненты:
- лингвистические базы данных: двуязычные словари, справочники имён собственных и правила транслитерации, морфологические таблицы;
- модуль перевода: грамматические правила, алгоритмы перевода.
Исторически использование систем правил в машинном переводе предшествовало применению корпусных методов, в связи с чем такой подход также называют классическим. Преимущества классических систем — синтаксическая и морфологическая точность, стабильность и предсказуемость результата, возможность настройки на предметную область; недостатки — трудоёмкость и длительность разработки, необходимость поддерживать и актуализировать лингвистические базы данных; «машинный акцент» при переводе. По мере развития технологий машинного перевода получил получил распространение гибридный подход, сочетающий как методы на основе правил, так и корпусные технологии (в том числе статистический перевод и перевод на основе примеров).