Машинный перевод- настоящее и будущее

Машинный перевод

Машинный перевод

Исследование области машинного перевода (МП) как части компьютерной лингвистики началось в 1950 – 1960-х годах. Вначале предполагаемой целью был автоматический перевод всех видов документов на уровне качества равного лучшим переводам, сделанным человеком. Но вскоре стало очевидно, что эту цель в обозримом будущем не достигнуть. Если результат машинного перевода нужно было опубликовать в любой форме, было необходимо редактирование человеком. В то же время, однако, было обнаружено, что для многих целей «сырой» (неотредактированный) машинный перевод может быть полезен тем, кто хочет получить общее представление о содержании текста на незнакомом языке как можно быстрее.


Тем не менее, на протяжении многих лет, упомянутое применение машинного перевода (т.е. в качестве инструмента ассимиляции – сбора информации и мониторинга) в значительной степени игнорировалось. Предполагалось, что МП станет прикладным инструментом при выполнении переводов человеком.
Многие крупные организации имеют большие объемы технической и административной документации, которые нужно перевести на многие языки. Многие годы машинный перевод при участии человека был экономичным выбором для многонациональных корпораций и других многоязычных учреждений (например, Европейского Союза).

С помощью систем машинного перевода получают «грубый» перевод, который затем проверяется переводчиками (постредактирование). Но качественное постредактирование может быть дорогим, и многие организации стараются снизить затраты и повысить качество результата МП с помощью “управляемых” языков, то есть за счет снижения (или даже исключения) лексической неоднозначности и упрощения сложных структур предложений – что само по себе может повысить удобопонятность оригинальных текстов. Таким образом, процесс перевода тесно связан с разработкой технической документации и интегрирован в автоматизацию всего документооборота, что дает возможность дополнительной экономии времени и расходов.

В то же время, когда организации добились эффективного применения систем МП, труд переводчиков намного облегчился посредством компьютерных инструментов поддержки перевода. Например с помощью машинных систем перевода стало возможным управлять терминологией, создавать свои специальные словари и глоссарии, индексировать и согласовывать,  заниматься последующим редактированием, и прежде всего (начиная с конца 1980-х годов) хранить и находить в базе данных ранее переведенные тексты («памяти переводов»). Чаще всего эти инструменты объединены в рабочие станции переводчика – которые также часто полностью включают системы Машинного перевода. В действительности случилось обратное: системы MП, разработанные для крупных организаций, включают памяти переводов и другие инструменты перевода. Что касается систем распространения (публикуемые переводы), то прежние различия между МП при помощи человека и человеческим переводом при содействии компьютера стираются, и в ближайшем будущем могут исчезнуть совсем.

Общепризнанно, что там, где перевод должен соответствовать качеству, предъявляемому к публикациям, важную роль играет как человеческий фактор так и сам автоматический перевод. Очевидно, что машинный перевод экономически эффективен для крупномасштабных и/или экспресс-переводов технической документации и материалов, локализации программного обеспечения. В этих и многих других ситуациях, расходы на машинный перевод в дополнении к важной подготовке и редактировании перевода человеком или затраты на использование компьютеризированных инструментов перевода (рабочих станций, памяти переводов и т.д.) значительно меньше, чем в случаях с традиционных человеческим переводом без каких-либо средств вычислительной техники. Напротив, в переводе неповторяющихся лингвистически сложных текстов (например, в литературе и юриспруденции), а также при переводе разовых текстов в специализированных технических дисциплинах человеку нет (и не будет в обозримом будущем) равных.

И все же, не всегда нужен перевод безупречного качества. Скорость и доступность могут быть становиться важнее. С самого начала машинные переводы, неотредактированные после систем МП переводы стали полезны для малотиражных технических докладов, административных меморандумов, информационной деятельности, личной переписки, т.е. там, где документ предназначен для прочтения только одним или двумя людьми, заинтересованными только в содержании сообщения и не заботящимися о стилистическом качестве или даже точной терминологии. Спектр возможностей значительно расширился с начала 1990-х годов, с ростом использования и быстрого развития персональных компьютеров и Интернета.
Более мощные ПК позволяют производителям программного обеспечения для автоматического перевода разрабатывать и продавать свои продукты широким массам. Так как такие системы предназначены для массового использования, то качество перевода неизбежно страдает. Входные тексты часто содержат высокий процент нетехнической, разговорной лексики, которая для систем МП всегда была наиболее проблематична. Качество, как правило, не устраивает профессиональных переводчиков (хотя некоторые используют текст перевода в качестве заготовки), но такое качество приемлемо для отдельных “случайных” пользователей, например, при вольном переводе иностранных текстов на родной язык, или для общения с другими людьми на незнакомом языке, для перевода веб-страниц и электронной почты.
С появлением онлайн-перевода в Интернете, однако, произошли значительные изменения, которые могут иметь далеко идущие последствия для будущего. Размещение информации на многих языках создало быстро растущий спрос, а это вполне может стать свободной нишей на рынке машинного перевода: предоставление «сырых» переводов в режиме реального времени для обеспечения личного общения и иных информационных потребностей. Такой перевод может быть (и часто бывает) смешным, но нет никаких сомнений, что он все же полезен, особенно если язык оригинала незнаком совсем, или если предмет и контекст в некоторой степени знакомы.

Ситуация вряд ли улучшится (по крайней мере в ближайшем будущем), но в зависимости от специализации можно ожидать некоторого улучшения качества, т.е. при разработке систем, предназначенных для конкретных предметных областей (как в системах для больших организаций), или для конкретных типов документов (например, патенты, письма), или даже для специфичных регистров языка (например, электронной почты и текстовых сообщений). Уже сейчас существуют автономные компьютерные системы для перевода медицинских и патентных документов, но очевидно, что Интернет станет приютом для таких специализированных систем МП. Вероятно, они будут не бесплатны (как и многие услуги онлайн-перевода в настоящее время), но, безусловно, пользователи готовы будут раскошелиться за лучшее качество.
С другой стороны, доступность автоматизированного перевода низкого качества в Интернете и коммерческое автономное программное обеспечение могут также способствовать увеличению спроса на перевод более высокого качества, выполненный человеком-профессионалом, особенно у тех, кто не имеет опыта перевода. Некоторые провайдеры онлайн-перевода уже предоставляют дополнительные услуги человеческого перевода (например, постредактирование или полный перевод). В настоящее время они используются главным образом организациями, не имеющими свои услуги по переводу. Но в будущем следует ожидать более широкого применения такого рода услуг.
Желательно, чтобы развитие сектора автоматизированного онлайн-перевода происходило в интеграции с другими языковыми приложениями. Пользователи ищут именно информацию, на каком бы языке она не была написана или сохранена – перевод – всего лишь средство для достижения этой цели. Многим бы понравилась полная интеграция автоматизированного перевода с резюмированием, разработкой базы данных, поиском документов, извлечением информации и т.д. Уже ведутся исследования по межъязыковому извлечению информации, многоязычному резюмированию, многоязычному преобразованию текста из базы данных, и так далее, и многое еще предстоит сделать в этом направлении.
Возможно, самой желанной из всех является система автоматизированного перевода, способная переводить разговорную речь – не только для подготовленных сообщений в ограниченных сферах деятельности (например, бронирование гостиниц и деловые переговоры, которые внесены в исследовательские проекты в Японии, США и Германии), но и для всех других ситуаций. Пользователи ожидают надежные и точные результаты – плохое качество текста можно перечитать и догадаться о смысле его содержания, то о чем говорят должно быть понятно сразу. Автоматический перевод открытой речи не сможет появиться  даже в ближайшем будущем, а может быть не появится никогда, но в среднесрочной перспективе мы можем рассчитывать на системы, способные переводить распространенные высказывания в хорошо знакомых ситуациях (банки, театры, аэропорты, железнодорожные вокзалы и т.п.).
На более приземленном уровне, охват языков всех систем МП должен быть шире. В настоящее время большинство программ сконцентрированы на основных деловых языках (английский, французский, немецкий, испанский, японский, китайский, корейский), а языки многих развивающихся стран с большой численностью населения игнорируются не только производителями программ автоматического перевода ,но и исследовательскими группами. Равным образом, существует реальная потребность в системах, акцентирующих внимание на разговорном (часто с плохой формулировкой и ошибками) языке, который например, часто можно встретить письмах электронной почты и чатах.
Традиционные подходы, основанные на правилах, в настоящих системах, вероятно, не всегда могут справиться с такой задачей самостоятельно. В исследования МП большой интерес проявляется в отношении изучения новых методов работы нервной системой, параллельной обработки, и особенно, корпусного подхода: статистического анализа текста (выравнивания и т.д.), автоматического машинного перевода на основе примеров, гибридных систем, сочетающих традиционные языковые правила и статистические методы, и так далее. Прежде всего, основное внимание многих исследовательских групп уделяется ключевой проблеме выбора лексики (уязвимое место для MП), в частности за счет использования большого объема доступных сейчас лексических и текстовых ресурсов  (например, из КЛД и самого Интернета). Эти разработки обещают быструю работу систем и более широкий и глубокий языковой охват.
Со временем «чистых» систем машинного перевода (коммерческих, онлайн или иных) будет становиться все меньше. Напротив, больше будет компьютерных инструментов и приложений, где автоматический перевод является лишь одним из компонентов – это относится в частности к специализированным системам для конкретных пользователей и конкретных областей. Комплексное программное обеспечение для автоматического перевода будет нормой, доступной для всех, кто имеет компьютер (настольный компьютер, ноутбук, сетевой компьютер и т.д.), а также другое оборудование, подключенное к сети (телевизоры, мобильные телефоны, портативные устройства и т.д.). Скорее всего, программное обеспечение больше не будет приобретаться для автономных компьютеров (будь то ПК или клиент-сервер), но будет доступно в Интернете в случае необходимости. Автоматический перевод станет повседневной и существенной частью глобального информационного общества.