Поиск по сайту Поиск

Google преодолевает барьер между человеческим и машинным переводом

Нейронный машинный перевод (НМП) позволяет преодолеть многие недостатки традиционных систем перевода по фразам. Но в то же время нейронные модели более сложны как в обучении, так и в самом переводе. Мы подготовили статью, в которой Google представила новую систему нейронного перевода GNMT для решения этих проблем.

Чем хорош нейронный переводчик

Нейронный машинный перевод, в отличие от традиционных систем, может напрямую изучать преобразование входных предложений в связанный с ними выходной текст. Его архитектура обычно состоит из двух рекуррентных нейронных сетей (RNN), одна из которых обрабатывает исходную последовательность, а другая генерирует переведённый документ. НМП часто использует механизм внимания, который помогает ему справляться с большим объемом входных данных, где важно сохранить контекст.

Однако на практике НМП оказывается менее точным, чем системы, основанные на статистике фраз (Phrase-Based Machine Translation, PBMT). Особенно это проявляется при обучении на больших наборах данных. 

Чем плох нейронный переводчик

Можно выделить три слабые стороны нейронного перевода: медленное обучение и скорость вывода, неэффективность при работе с редкими словами, а иногда и невозможность перевести все слова в исходном предложении. 

Первый недостаток связан с тем, что для обучения системы НМП требуется очень много времени и вычислительных ресурсов. Медленный вывод — следствие использования большого количества параметров. Вторая слабая сторона проявляется в нехватке устойчивости при переводе редких слов. И последний недостаток таких систем — иногда они оказываются не способны перевести все части исходного предложения, то есть полностью «покрыть» входные данные. Это может привести к неожиданным вариантам перевода.

Как же с этим справился Google?

В их реализации (Google’s Neural Machine Translation, GNMT) используются рекуррентные сети (Recurrent neural network, RNN) с долгой краткосрочной памятью (Long Short-Term Memory, LSTM): декодер и энкодер. Они состоят из 8 слоёв с промежуточными остаточными соединениями. 

Способы, которые Google применил для решения названных выше проблем:

Ускорить обучение и вывод: обе сети обучаются параллельно с помощью механизма внимания. Нижний слой сети декодера соединён с верхним слоем сети энкодера. Для сокращения времени вывода используется низкая точностью арифметики и ускорение с помощью TPU (Tensor Processing Unit).

Переводить редкие слова: для качественного перевода используются так называемые подслова (“wordpieces”) входных и выходных данных: символы или их последовательности. Неизвестное слово можно перевести по частям или по буквам.

Избегать пробелов в переводе: во время декодирования происходит сравнение длины переведённого предложения и исходного. Если эти длины сильно различаются, то модель «штрафуется» — это заставляет её обрабатывать все входные данные.

Модель GNMT надёжная и хорошо работает с различными датасетами на многих парах языков. Она показала гораздо лучшие результаты по сравнению с системой перевода по фразам от того же Google. Тестировавшие её люди отметили, что GNMT сократила ошибки перевода на 60% на многих парах языков и её качество приближается к людям-переводчикам.

Архитектура модели

Модель обучается по стратегии «от последовательности к последовательности» (sequence-to-sequence) с механизмом внимания. Она состоит из трёх компонентов: сеть энкодера, сеть декодера и сеть внимания. Декодер представляет собой комбинацию сети RNN и слоя softmax. Энкодер преобразует исходное предложение в список векторов, по одному на каждый входной символ. Из этого списка декодер производит по одному символу за раз, пока не будет создан специальный символ конца предложения (end-of-sentence symbol, EOS). Сети соединены через модуль внимания, который позволяет декодеру фокусироваться на разных областях входного предложения в процессе декодирования. 

На рисунке слева — сеть энкодера, справа — декодера, посередине — модуль внимания. Нижний слой энкодера является двунаправленным: розовые узлы собирают информацию слева направо, а зелёные — справа налево. Остальные слои однонаправленные. Остаточные соединения используются, начиная с третьего слоя снизу. 

Для ускорения обучения модель разбита на несколько графических процессоров. Она состоит из 8 LSTM-слоёв энкодера (1 двунаправленный и 8 однонаправленных) и 8 слоёв декодера. Каждая из сетей размещается на 8 GPU, обычно принадлежащих одному хосту. Слой softmax тоже размещён на нескольких графических процессорах. В зависимости от размера выходного словаря используются либо те же GPU, что и для сетей энкодера и декодера, либо выделенные процессоры.

В ходе экспериментов было обнаружено, что для достижения хорошей точности RNN энкодера и декодера должны быть достаточно глубокими. Это поможет им улавливать неравномерности в исходном и целевом языках. В реализации Google каждый дополнительный слой уменьшал перплексию почти на 10%. Перплексия — мера того, насколько хорошо модель предсказывает детали тестовой коллекции (чем меньше перплексия, тем лучше модель).

Остаточные соединения

Несмотря на глубину сетей, недостаточно просто использовать большое число идущих друг за другом слоёв. Чем глубже нейросеть, тем более медленной и труднообучаемой она становится. Скорее всего, это связано с проблемами взрыва или вымывания градиента. В опытах Google простые LSTM сети хорошо работали с 4 слоями, более-менее с 6 и совсем плохо с 8 и более.

Для решения этой проблемы исследователи ввели остаточные соединения между слоями. Они значительно улучшают спуск градиента и позволяют обучать очень глубокие сети энкодера и декодера. В большинстве экспериментов используется 8 слоёв, но можно обучать и гораздо более глубокие архитектуры.

На рисунке слева изображены простые слои LSTM, справа — слои с остаточными соединениями. Входные данные для нижнего слоя поэлементно добавляются к его выходным данным, и их сумма будет служить новым входом для верхнего слоя.

Двунаправленный слой энкодера

В европейских языках чаще всего предложения воспринимаются слева направо. Но в системах перевода, в зависимости от языковой пары, контекст для конкретного слова может находиться в разных областях исходной фразы. Поэтому имеет смысл использовать двунаправленную RNN-сеть для энкодера, чтобы получить наилучший возможный контекст. 

Рисунок ниже иллюстрирует использование двунаправленных LSTM на нижнем слое энкодера.

Слой LSTMf обрабатывает предложение слева направо, а LSTMb — справа налево. Выходы из них объединяются и подаются на следующий слой LSTM1.

Перевод редких слов

Модели нейронного машинного перевода обычно оперируют фиксированными словарями. Но в языках часто встречаются слова и выражения, которых нет в словарях (имена, даты, числа, слэнг и так далее), поэтому перевод — проблема открытого словаря.  Существует два подхода к их переводу. Первый — просто скопировать слово из исходного предложения в вывод, используя либо модель внимания, либо более сложные сети. И второй — использовать сегментацию на единицы подслов: символы и наборы символов.

Сегментация тоже может применяться двумя способами. В первом используется смешанный перевод (слово/символ). Он предполагает разбиение слова на последовательность символов, к которым добавляются специальные префиксы: начало слова, середина и конец. Модель может переводить как отдельные символы, так и их комбинации. Полученное слово с помощью префиксов можно обратить к исходному, если в дальнейшем потребуется обработать его повторно.

Наиболее успешным оказалось применение второго способа сегментации с помощью модели Wordpiece (Wordpiece model, WPM), которая изначально разрабатывалась для решения этой проблемы в японском и корейском языках. Она полностью основана на данных и генерирует подслова для любой возможной последовательности символов. 

Модель Wordpiece работает следующим образом: сначала слова разбиваются на подслова с добавлением символов границы. Затем во время декодирования последовательность подслов снова преобразуется в последовательность слов. Более наглядно это можно увидеть на примере:

— Слова: Jet makers feud over seat width with big orders at stake

— Подслова: : _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake  

Здесь слово “Jet” разбито на две части: “_J” и “et”, а слово “feud” на “_fe” и “ud”. Остальные слова остались без изменений. “_” — символ, обозначающий начало слова.

Подслова помогают модели работать практически с бесконечным словарём и улучшают её показатели BLEU. BLEU (bilingual evaluation understudy) — это алгоритм оценки качества текста, автоматически переведённого с одного языка на другой. Мерой качества считается соответствие между эффективностью машины и человека.

Эксперименты и результаты

Эксперименты проводились на двух общедоступных датасетах: WMT’14 English-to-French (WMT En→Fr) и English-to-German (WMT En→De). На этих наборах исследователи Google сравнили модели GNMT четырёх видов: основанные на словарных, символьных, смешанных (слово/символ) и wordpiece-словарях. Также им удалось улучшить эффективность модели с помощью точной настройки обучения с подкреплением и применения ансамбля методов (ансамбль методов использует несколько обучающих алгоритмов для получения лучшей эффективности прогнозирования). Основная цель — показать вклад этих компонентов в реализацию.

Оценка метода максимального правдоподобия

Рассмотрим четыре вида моделей с различными размерами словарей.

Для словарной модели выбрано 212 тыс. наиболее часто встречающихся слов в качестве исходного обучающего словаря и 80 тыс. популярных слов в качестве целевого словаря. Неизвестные слова преобразуются в специальные символы <first_char>_UNK_<last_char>. С помощью механизма внимания исходное слово копируется и заменяет неизвестное слово во время декодирования. 

Словарный запас для смешанной модели составляет 32 тыс. слов.  Для символьной модели слова разделяются на составные элементы, в результате чего обычно получается набор из нескольких сотен основных символов. Модель Wordpiece обучена на трёх словарях размером 8, 16 и 32 тыс. слов.

В таблице ниже отражены результаты на наборах данных WMT En→Fr (слева) и WMT En→De (справа). В нижней части таблицы также приведены результаты архитектур, в которых не используется ансамбль методов.

Перевод с английского на немецкий (WMT En→De) считается более сложным, чем с английского на французский, поскольку в нём гораздо меньше обучающих данных. Модель WPM-32K показала наилучший результат и самую быструю скорость вывода (здесь используется средняя оценка восьми разных моделей).

Оценка моделей обучения с подкреплением

Модели из предыдущего раздела оптимизируются с помощью логарифмической функции правдоподобия. Но поскольку они могут плохо коррелировать с качеством перевода, для них использовалось обучение с подкреплением. Результаты точной настройки лучших моделей En→Fr и En→De представлены в таблице:

Точная настройка обучения с подкреплением на WMT En → Fr помогает улучшить оценку BLEU почти на 1 балл, хотя на En → De эффективность немного снизилась. Исследователи предположили, что в менее точно настроенном декодере оценка была бы выше, как видно из сравнения результатов предыдущих моделей.

Оценка ансамбля методов 

Оценки для En→Fr:

Оценки для En→De:

Ансамбль методов существенно повысил оценки BLEU для обоих моделей.

Результаты на данных Google

Оценка BLUE не полностью отражает качество перевода. По этой причине введены параллельные оценки (“side-by-side evaluations”) для сравнения машинного и человеческого переводов. Параллельные оценки варьируются от 0 до 6, где 0 — совершенно бессмысленный перевод, 6 — идеальный перевод. Оценки ставятся людьми, которые совершенно свободно владеют обоими языками.

Google провели обширные эксперименты на своих внутренних наборах данных. Поскольку из приведённых выше опытов не было ясно, улучшает ли обучение с подкреплением качество перевода или просто повышает метрику BLEU, они не использовали его на этих данных. 

Исследователи попросили людей оценивать три способа перевода:

  1. перевод системы, основанной на статистике фраз (PBMT)
  2. перевод GNMT
  3. перевод людей, свободно говорящих на обоих языках.

В таблице приведены усреднённые оценки для датасетов English ↔ French, English ↔ Spanish и English ↔ Chinese. Оценивающие данные состоят из 500 произвольно выбранных предложений из Википедии и новостных вебсайтов, а также соответствующих им человеческих переводов.

Результаты показывает, что модель GNMT уменьшает ошибки перевода более чем на 60% по сравнению с моделью PBMT. Распределение оценок показано на рисунке:


Гистограмма параллельных оценок для 500 выборочных предложений из Википедии и новостных сайтов для пары языков английский → испанский (синий — PBMT, красный — GNMT, оранжевый — человек). 

В некоторых случаях (обычно в простых предложениях) человеческий и GNMT-перевод почти неразличимы. Хотя стоит учитывать, что оценщики могут не в полной мере понимать контекст каждого предложения из выборки, а переводчики — предлагать наилучший вариант перевода. Поэтому однозначно оценить качество довольно затруднительно. 

Что дальше?

Мы знаем, что профессиональные переводчики передают смысл предложений, не обращая внимания на структуру исходного текста. Нейронный переводчик же оперирует смыслом более мелких элементов (слов и фраз) и жёстко привязан к их структуре. Поэтому машинному переводу всё ещё не хватает более широких смысловых трансформаций. 

Тем не менее, на качество перевода сильно влияют тематика и стиль исходного текста. Например, художественные произведения переводить сложнее всего. Но чем более формальный стиль используется в документе, тем большего качества перевода можно ожидать.

Вот пример сравнения машинного и человеческого переводов:

Оригинал: Green Lantern can’t turn lemons into lemonade and I'm left equally equipped to make smart decisions about the spectrum which shades our world.

Google: Зеленый Фонарь не может превратить лимоны в лимонад, и я остаюсь в равной степени способным принимать разумные решения относительно спектра, который затеняет наш мир.

Человек: Как Зеленый фонарь не сможет превратить свои лимоны в лимонад, так и я чувствую себя беззащитным, когда мне требуется принять взвешенное решение и выбрать подходящие оттенки.

Оригинал: But the truth is that color is too dependent on personal experiences to be universally translated to specific feelings.

Google: Но правда в том, что цвет слишком зависит от личного опыта, чтобы повсеместно переводиться на конкретные чувства.

Человек: Однако истина заключается в том, что восприятие цвета слишком сильно зависит от личного опыта.

(Пример взят из перевода статьи “The Psychology of Color in Marketing and Branding” сайтом vc.ru)

С оригинальной статьёй можно ознакомиться на портале arxiv.org.

Domains weekly: повышение цен на .ORG, кража $1 млн с поддельным доменом и крупнейшие сделки недели

Domains weekly: повышение цен на .ORG, кража $1 млн с поддельным доменом и крупнейшие сделки недели

Привет! На связи редакция блога. Вы наверняка знаете, что все начинания часто откладываются на «после Нового года», «со следующего месяца»,...
Read More
Отличается умом и сообразительностью: неожиданные применения нейросетей

Отличается умом и сообразительностью: неожиданные применения нейросетей

В последнее время становится всё больше новостей, убеждающих нас в пользе искусственного интеллекта как для бизнеса, так и для обычных...
Read More
Какой хостинг выбрать для чат-бота?

Какой хостинг выбрать для чат-бота?

Чат-боты — это не всегда такие же сложные и продвинутые программы, как, например, голосовые помощники на основе нейросетей. Тем не...
Read More
Какие проблемы решил новый Личный кабинет REG.RU

Какие проблемы решил новый Личный кабинет REG.RU

Около года назад мы запустили новый Личный кабинет REG.RU. Без преувеличения наши коллеги проделали огромную работу. Этим текстом мы бы...
Read More
Как зарегистрировать домен и не попасть под суд

Как зарегистрировать домен и не попасть под суд

Итак, вы хотите стать владельцем доменного имени. Скорее всего, на этом этапе вас волнуют вопросы, где и как его регистрировать...
Read More
Что такое ЭДО и почему вам нужно подключить его прямо сейчас  

Что такое ЭДО и почему вам нужно подключить его прямо сейчас 

Ещё каких-то 15 лет назад принтеры, факсы и подобное оборудование были неотъемлемой частью любого крупного или небольшого офиса, но постепенно...
Read More
6 трендовых доменных зон для онлайн-бизнеса

6 трендовых доменных зон для онлайн-бизнеса

Первое знакомство клиента с организацией сегодня чаще всего происходит через всемирную паутину. Чем ярче проект — тем больше шансы выделиться...
Read More
Обучаем виртуального дракона фигурам высшего пилотажа

Обучаем виртуального дракона фигурам высшего пилотажа

В наши дни компьютерная графика присутствует во всех популярных видах визуального контента: от видеороликов YouTube-блогеров до полнометражных фильмов. Но проработка...
Read More
Стэнфордский курс: лекция 9. Архитектуры CNN

Стэнфордский курс: лекция 9. Архитектуры CNN

На прошлом уроке мы узнали о наиболее популярных библиотеках и фреймворках для глубокого обучения, рассмотрели их особенности и области применения....
Read More
GPT-2: нейросеть, которая закончит за вас предложение

GPT-2: нейросеть, которая закончит за вас предложение

Встречали ли вы когда-нибудь собеседника, который после нескольких сказанных вами слов заканчивал за вас предложение? GPT-2 умеет и не такое:...
Read More