Машинный перевод: вчера, сегодня, завтра

Вопрос о том, заменит ли машинный перевод живого переводчика, интересует самих переводчиков, бюро переводов и их клиентов.

masintõlge

Машинный перевод. Начало

В 1949 году американский ученый Уоррен Уивер, вдохновленный в числе прочего развитием методов криптоанализа во время Второй мировой войны, опубликовал меморандум под заголовком «Translation» («Перевод»), в котором одним из первых рассмотрел возможности использования компьютеров для перевода человеческих языков. Несмотря на то, что не все отнеслись к меморандуму с энтузиазмом, он стал отправной точкой для дальнейших исследований возможностей машинного перевода, в том числе и в стане скептиков.

Как результат этих исследований в 1954 году в Нью-Йорке состоялась публичная презентация разработанной совместно Джорджтаунским университетом и корпорацией IBM первой системы автоматического перевода. В ходе мероприятия с английского языка на русский было переведено около 60 тщательно отобранных предложений. Для этого русское предложение сначала пробивали на перфокартах, затем вводили перфокарты в суперкомпьютер IBM 701, после чего через шесть-семь секунд машина распечатывала предложение на английском языке.

Несмотря на крайнюю ограниченность продемонстрированной системы, Джорджтаунский эксперимент широко освещался в прессе и рассматривался как успех, чем он, без сомнения, и был, а его авторы заявили, что через три-пять лет проблема машинного перевода может быть полностью решена. В результате правительство США в надежде на еще большее ускорение процесса выделило на научно-исследовательские работы в области машинного перевода значительные средства. Как известно, всё оказалось не так радужно, и первоначальное воодушевление (и значительная часть финансирования) на довольно долгое время практически сошли на нет.

С тех пор в области машинного перевода было совершено немало прорывов, произошел ряд провалов, а утопические заголовки в СМИ регулярно сменялись глубоким разочарованием и сомнениями в том, что качественный полностью автоматический перевод вообще возможен. Далее мы обратимся подробнее к нескольким важнейшим событиям в истории машинного перевода и посмотрим, как сквозь сегодняшний хайп, чисто маркетинговую пену дней разглядеть реальные перспективы в этой области.

Машинный перевод на основе правил

В реализации систем машинного перевода на сегодняшний день использовалось три основных подхода. Первый из них – это машинный перевод на основе правил, он заключается в максимально точном описании грамматики и семантики рассматриваемых языков и установлении между ними соответствий. В сущности, это означает составление автоматических словарей и грамматических программ, в которых элементы одного языка по заложенным правилам связываются с прямо им соответствующими словами другого языка.

reeglipõhine-masintõlge

Главное преимущество и в то же время слабость такой системы – ее жесткость: каждое правило, каждое написание слова, все контекстные значения, исключения и т. д. нужно выписать отдельно, а это очень дорогое и долгое программирование. Впрочем, поскольку грамматические правила для текстов на разные темы по большей части одинаковы, для того, чтобы адаптировать систему под другую тему, нужно изменить только правила подбора слов. Кроме того, ей для работы не требуется никаких корпусов текстов, поэтому она хорошо подходит для переводов малых языков или по крайней мере для того, чтобы сделать в их отношении первые шаги.

И в Джорджтаунском эксперименте использовалась система машинного перевода на основе правил. Их в ней было всего шесть, причем ее разработчики предполагали, что для успешного перевода произвольного научного текста с русского языка на английский может оказаться достаточно около 100. Сегодня существуют системы на десятках тысяч правил, однако результаты их работы всё равно далеки от приемлемых. Более того, чем больше правил, тем сложнее система, тем больше в ней внутренних противоречий и опасностей появления новых ошибок.

Статистический машинный перевод

Принципы статистического машинного перевода описаны Уорреном Уивером еще в 1949 году в упомянутом меморандуме, но реализовали их только в конце 1980-х, поскольку до этого времени отсутствовали необходимые для этого двуязычные корпусы текстов и технические возможности. Статистический машинный перевод состоит именно в статистическом анализе двуязычных параллельных корпусов (наборов написанных на разных языках текстов одинакового содержания). Это значит, что машина выдает переводы на основании того, с насколько большой частотой представленные в корпусе одного языка слова или фразы соответствуют словам или фразам в другом.

statistiline-masintõlge

И Google, и Европейская комиссия (и многие другие) пользовались сначала основанной на правилах системой перевода SYSTRAN, но в конце концов перешли (в 2007 и 2010 годах) на статистические системы. Это произошло в первую очередь потому, что статистические системы дешевы, основную работу в них выполняет машина, а не программист, для создания этих систем не требуется глубокого знания рассматриваемых языков, эти системы выдают более естественные переводы, во многих языках результаты их работы можно использовать без адаптаций, а по мере роста корпусов они, по сути дела, самосовершенствуются.

Недостатками систем статистического машинного перевода являются, соответственно, необходимость наличия больших корпусов (которых для многих языков всё еще не существует), тематическая ограниченность (если в корпусе присутствуют тексты из разных областей, результаты становятся неоднородными), а также сложности при переводе между языками с очень разной структурой и при обработке морфологически сложных языков. Например, в статье в журнале Õiguskeel («Язык права», издание Министерства юстиции Эстонии) переводчик Ингрид Сибуль отметила, что оценка статистического машинного перевода в Европейской комиссии показала, что используемая там система при переводе с английского языка выдавала самые качественные результаты на португальском и испанском, а наиболее слабые – на эстонском, финском и венгерском.

Нейронный машинный перевод

Самый новый подход к машинному переводу – это нейронный машинный перевод. При нейронном машинном переводе тоже используются языковые корпусы и статистические расчеты, но в основе всего лежат искусственные нейронные сети. Их тренируют на перевод, заставляя в процессе работы искать шаблоны в подаваемых на вход текстах (примерно так, как это делает человеческий мозг), чтобы на их основе формировать конечный результат. В отличие от статистических систем перевода нейронные системы рассматривают не отдельные фразы, а целое исходное предложение, в результате чего перевод получается более грамматически правильным, а сами предложения в переводе – более стройными.

neuromasintõlge

До уровня, которого системы статистического перевода достигли за несколько десятилетий, системы нейронного перевода добрались за несколько лет, и к концу 2016 года нейросети стали использоваться в большинстве лучших решений машинного перевода, в том числе в разработках Google, Microsoft, SDL и многих других. В конце 2017 года на нейроперевод перешли и в Европейской комиссии. И хотя разного рода сравнения и оценки по многим темам и языковым парам показали превосходство нового подхода на нейронных сетях над статистическими системами, у победителя тоже есть свои недостатки.

Во-первых, нейропереводу также требуется много исходных данных, по некоторым исследованиям даже больше, чем статистическим системам, потому что без этого машина просто не сможет установить правильные паттерны. Во-вторых, нейросистемы склонны жертвовать языковой точностью в пользу языковой гладкости, из-за чего возникает больше смысловых и терминологических ошибок, чем у статистических систем. А по причине того, что полученный результат в целом выглядит естественно, читатель может этих неточностей просто не заметить. По этому поводу говорят, что нейронный машинный перевод «фантазирует», в некоторых ситуациях он вполне может переделать Ингвара Бергмана в Игоря Бермана просто потому, что второй вариант ему показался лучше. И, в-третьих, нейронные системы машинного перевода – это своего рода черные ящики, которые выстраивают собственную картину мира, в основном невидимую, поэтому их работу сложно корректировать, а найти источник ошибки бывает практически невозможно.

Гибридные системы

Поскольку у каждого из описанных подходов есть свои сильные и слабые стороны, делается всё больше попыток комбинирования разных систем, используя, например, предварительную или постобработку нейроперевода статистическим движком, и наоборот. При правильных условиях так достигаются и более верные результаты, но это означает усложнение системы. Кроме того, подчинение переводов дополнительным правилам или статистике ограничивает их общеприменимость, давая наилучший результат в узких темах с четким стилем и терминологией. Такие решения предлагает, например, компания Omniscien Technologies в своей платформе машинного перевода Language Studio.

Текущее положение дел в машинном переводе

По поводу текущего положения дел в машинном переводе можно сказать, что в профессиональном контексте он пригоден в первую очередь для узких тем, где лексика очень однородна и однозначна: прогноз погоды, некоторые юридические тексты, таблицы технических характеристик и т. п. Но и тогда текст обычно просматривает человек. Поэтому, как правило, машинный перевод может служить средством повышения производительности, но не самостоятельным инструментом перевода.

Впрочем, чтобы получать пользу от машинного перевода, он и не обязан быть совершенным. Сегодня на рынке есть десятки приложений общего машинного перевода, которые переводят и тексты, и речь, в том числе хорошо известные Google Translate, Skype Translator, Baidu Translate и другие. По причине своей всеядности эти системы часто делают грубые и глупые ошибки, однако они обычно всё равно позволяют понять общий смысл. Они могут также помогать людям понимать друг друга в соцсетях, быть подспорьем при самостоятельном изучении иностранных языков, а благодаря наличию мобильных приложений – и в незнакомой языковой среде.

Взгляд за кулисы хайпа

Поскольку возможности применения машинного перевода продолжают расти, он превратился в прибыльный глобальный бизнес. Потому-то вокруг этой темы так много маркетингового хайпа, который зачастую еще и усиливается в СМИ из-за неосведомленности и охоты за кликами. О сложностях оценки реального уровня систем машинного перевода есть хороший обзор в магистерской диссертации Матиаса Мадсена, защищенной в Копенгагенском университете.

masintõlge

Он, помимо прочего, отмечает, что исследования в области машинного перевода часто ведутся в обстановке строгой секретности, методы оценивания имеют много недостатков, основа самих методов часто не раскрывается, из-за острой конкуренции достижения стремятся раздувать, а проблемные моменты – преуменьшать.

Всему этому была масса примеров даже за один лишь 2018 год. Например, в марте в СМИ погнали волну о том, что в Microsoft создали первую систему машинного перевода с китайского языка, и она переводит так же хорошо, как человек.

Для начала надо отметить, что переводили только с китайского на английский, а по обоим языкам имеется масса исходных данных для развития систем, да и переводили-то только новости общей тематики. Свои сомнения высказали и многие лингвисты, которые раскритиковали еще и тот факт, что к оцениванию качества перевода не привлекли профессиональных переводчиков, а переводы оценивались по отдельным предложениям, а не по текстам (с чем у машинного перевода по-прежнему проблемы). В блоге социологической фирмы Common Sense Advisory пришли к выводу, что было бы вернее говорить о том, что «в сугубо искусственных условиях машинный перевод теперь оказывается так же плох, как человеческий».

Другая большая новость пришла в октябре, когда китайский технологический гигант Baidu сообщил о создании системы синхронного перевода STACL, которая переводит в режиме реального времени с английского языка на немецкий и с китайского на английский. Раньше системы устного машинного перевода переводили по предложениям, а вот в системе от Baidu, как утверждается, можно для улучшения качества выбрать, будет ли машина, прежде чем переводить, дожидаться, пока человек договорит. За счет предсказания текста на основе уже услышанного это должно очень помочь в преодолении проблем, связанных с разным порядком слов в разных языках .

В СМИ об этом писали с большим придыханием и советовали даже переводчикам обновить свои CV, однако, хоть данное достижение и действительно стало большим шагом вперед, это не такой уж и прорыв, как старались показать. Как заключила в своей статье фирма Slator, занимающаяся исследованием рынка языковых технологий, качество перевода STACL даже после большого времени ожидания в пять слов уступает лучшим современным системам перевода, а еще решение не умеет исправлять свои неверные (и, скажем прямо, неизбежные) переводческие забегания вперед. С другой же стороны, в будущем подобные системы, разумеется, сделают крайне дорогие услуги устного перевода доступнее и дешевле, хотя оба вышеприведенных примера могли бы послужить предостережением по поводу того, что не всем опубликованным в СМИ заявлениям о серьезных достижениях следует доверять.

Заменит ли машинный перевод живого переводчика?

В ходе своего 70-летнего развития машинный перевод зашел довольно далеко. Настолько далеко, что даже пессимист мог бы подумать, что до полного решения проблемы машинного перевода и окончательного упразднения профессии переводчика осталось не более десяти, максимум двадцати лет. Особенно сегодня, когда в игру вступили искусственные нейронные сети и технологии глубокого обучения, которые, по крайней мере на первый взгляд, могут показаться фантастикой. На самом деле в статистическом и нейронном машинном переводе нет ничего нового и магического, первые принципы этих концепций был заложены еще в 1940-х годах.

И, как заметил в журнале Wired специалист по машинному обучению из Google Франсуа Шолле, одним лишь скармливанием машине в 1000 раз большего количества данных и укладкой друг на друга в 100 раз большего числа слоев нейронных сетей человека не заменить. Процесс перевода для этого просто слишком сложен.

Система машинного перевода может одновременно рассматривать хоть отдельное слово, хоть целую фразу, хоть всё предложение – этого всегда будет мало. Потому что (хороший) живой переводчик при переводе учитывает и т. н. скрытую информацию: отношение автора, связи между предложениями, текст в целом, место текста в обществе, т. е. и его культурный контекст, и цель текста, а также весь свой личный опыт и знания. Он, в сущности, задействует всю свою связанную картину мира, выстроенную на принадлежности к обществу, на попытках в нем сориентироваться и понять других людей. Он не отталкивается от одной лишь статистики или общих схем. А при необходимости он ищет дополнительную информацию.

Даже объединяющая целые энциклопедии программная система не в состоянии понять взаимосвязи содержащихся в ней записей так, как это может человеческий разум, т. е. требуется гораздо больше, чем просто хранение чисел и слов. Поэтому, как сказал в интервью газете Linnaleht лингвист-технолог компании Tilde Мартин Лутс, «до тех пор пока машине не будет стыдно за свой перевод, машинный перевод не будет достаточно хорошим».

tõlketuru-tulevik

Каково вероятное будущее машинного перевода?

Технический прогресс и влияние общества

Как уже говорилось, машинному переводу для того, чтобы быть полезным, не обязательно быть совершенным. Так, уже сейчас с помощью имеющего массу недостатков Google Translate переводится по последним данным около 143 миллиардов слов в день. Развитие систем машинного перевода, конечно, еще не остановилось, многие мелкие проблемы, очевидно, удастся решить путем одной лишь комбинации и оптимизации имеющихся решений. Да и объем доступных данных по малым языкам растет с каждым днем.

С совершенствованием машинного перевода, а также в результате развития электронной торговли, международных социальных, торговых и туристических связей можно ожидать, что машинный перевод продолжит проникать в повседневную жизнь и будет всё шире использоваться в социальных сетях, в аудио и видеоприложениях для смартфонов, в интернет-магазинах и т. д. Можно даже порассуждать о том, что в мире, в котором житейские языковые барьеры можно преодолевать одним нажатием кнопки, может, во-первых, снизиться уровень владения иностранными языками, а, во-вторых, если машинный перевод не будет достаточно быстро становиться естественным, это может повлиять и на сами естественные языки.

Будущее перевода

Развитие машинного перевода, разумеется, не может не затронуть работу переводчиков и бюро переводов. Можно ожидать, что более сухие, безликие коммерческие тексты, инструкции по эксплуатации и документооборот всё больше будут становиться добычей машинного перевода. Тем не менее, не представляется вероятным, что и в отношении них полностью исчезнет человеческий надзор, хотя на переводчика всё больше будут возлагаться обязанности редактора и он должен будет всё лучше чувствовать внутренний мир машин, знать их узкие места, уметь реагировать на проблемы.

Поскольку машинный перевод по крайней мере некоторые время продолжит выдавать наилучшие результаты только в некоторых ограниченных областях, будущим переводчикам нужно будет лучше, чем сегодня, владеть разными системами, уметь подбирать их под проекты, выступая таким образом всё больше в роли технолога. В случае текстов, переводы которых должны быть безупречны, живой переводчик в ближайшее время определенно останется незаменим. То же самое касается творческих и плохо составленных (составленных не по правилам и потому непонятных для машины) текстов. Как было замечено в процитированном выше блоге Common Sense Advisory, это всё значит, что переживать по поводу машинного перевода должны только такие переводчики, которые сами переводят, как машины.

Будущее рынка машинного перевода

Но значит ли улучшение качества и распространение машинного перевода, что поле деятельности переводчиков и бюро переводов станет меньше? Даже если машинный перевод всё и не осилит, можно предположить, что, если он увеличит производительность переводчиков, т.е. один переводчик сможет делать с помощью машинного перевода больше, чем прежде, то уже не нужно будет столько переводчиков, как сегодня. В реальности по крайней мере сейчас мы имеем противоположную тенденцию. Удешевление услуг перевода, повышение их доступности и более быстрое исполнение заказов лишь увеличивают спрос. В 2014 году американский деловой журнал Inc. назвал сектор услуг перевода одним из лучших для начала предпринимательской деятельности, а Common Sense Advisory по состоянию на 2018 год предсказывал продолжение роста данной отрасли.

За этим ростом, кроме всего прочего, стоит глобализация предприятий и развитие электронной торговли, которые, в свою очередь, только усиливаются за счет более дешевых, качественных и доступных лингвистических услуг. Из электронной торговли и прочих интернет-услуг опять-таки выросли, например, услуги локализации сайтов, а это весьма творческая работа, до которой машинный перевод еще не особенно добрался.

Машинный перевод влияет на индустрию перевода именно в плане удешевления услуг, роста их доступности и более быстрого исполнения заказов, что, конечно же, откроет и новые двери. Хотя, как и по поводу искусственного интеллекта в целом, пока не ясно, будет ли таких дверей открываться всё больше и больше, когда закроются старые, по крайней мере в ближайшие десятилетия машинный перевод наверняка не отнимет у переводчиков кусок хлеба, особенно у тех, кто работает не с самыми большими языками.

ОТПРАВЬТЕ НАМ ЗАПРОС!

Укажите также свой адрес электронной почты, приложите файлы и отправьте запрос. Ждем.