Поиск по сайту Поиск

Топ-5 голосовых приложений, созданных с помощью GPU

Речевой ИИ активно развивается и набирает популярность. Появляется всё больше приложений, распознающих речь и обрабатывающих естественный язык. Мы решили выделить пять наиболее популярных проектов с речевым ИИ, разработанных с помощью графических процессоров NVIDIA.

5. Amazon Alexa: распознавание человеческих эмоций

Разработчики из Amazon Research опубликовали статью, описывающую, как они используют состязательное обучение для улучшения распознавания речевых эмоций.

«Тон человека может многое рассказать о том, как он себя чувствует. Неудивительно, что распознавание эмоций становится все более популярной темой для разговорного ИИ», — сказал Виктор Розгич, старший специалист по прикладным исследованиям в группе Alexa Speech.

Работа проделана в сотрудничестве со Сринивасом Партхасарати, аспирантом факультета электротехники в Техасском университете.

4. Text2Scene: генерация изображений по их описанию

Чтобы улучшить распознавание запросов пользователей, исследователи из IBM и Университета Вирджинии разработали модель глубокого обучения Text2Scene. Она может генерировать изображения из их голосового описания на естественном языке. В отличие от других недавних решений, этот подход не использует GAN. 


Сравнение Text2Scene с другими решениями

«Мы показываем, что с помощью незначительных модификаций модель может генерировать сцены в различных стилях, в том числе карикатуры, синтетические и реалистичные изображения», — заявили исследователи. 

3. DeepZen: создание аудиокниг

Ежегодно в Соединенных Штатах издаётся и публикуется почти миллион книг, но лишь около 40 тысяч из них переводятся в аудиокниги. Это связано в основном с большими затратами и долгим временем их создания.

Чтобы упростить этот процесс, компания DeepZen разработала систему глубокого обучения, которая может генерировать аудиокниги. При этом создаваемые голоса похожи на человеческие и произносят фразы с эмоциональной окраской.

«Традиционная запись аудиокниг занимает слишком много времени и дорого стоит», — говорит Тайлан Камис, соучредитель и генеральный директор DeepZen. «Нужно найти рассказчика, арендовать звукозаписывающую студию и записать множество фраз. Это довольно длительный процесс, который может продолжаться от трех недель до нескольких месяцев. Цена создания одной аудиокниги достигает 5000 долларов. Мы решили упростить задачу: пользователи DeepZen могут выбирать голоса из готовой библиотеки, изменять и настраивать их, а затем генерировать рассказ.»

Вот отрывок повести «Превращение» Франца Кафки, сгенерированный нейросетью:

2. Multi-Task DNN: новые результаты GLUE

Microsoft AI Research недавно объявила о прорыве диалогового ИИ, который достиг новых результатов в задачах обработки естественного языка (Natural Language Processing, NLP) и, в частности, общего понимания языка (General Language Understanding Evaluation, GLUE). 

NLP-алгоритм называется Multi-Task DNN. Впервые его выпустили в январе этого года и обновили в апреле. Модель включает нейросеть BERT NLP от Google.


Оценки GLUE для трёх моделей: BERT, MT-DNN и Distilled MT-DNN.

«Для каждой задачи мы обучаем ансамбль разных методов MT-DNN (учителя), который превосходит любую отдельно взятую модель, а затем с их помощью обучаем одну сеть MT-DNN (учащегося) через многозадачное обучение.» — говорят исследователи. Исходный код MT-DNN доступен на GitHub.

1. VOCA: анимация речи

Исследователи из Института интеллектуальных систем Макса Планка разработали алгоритм глубокого обучения VOCA, который из аудиозаписи голоса и статичной 3D-модели создаёт реалистичную анимацию говорящего. 

«Существует множество книг и работ по оценке формы головы, выражений и движений лицевых мышц по изображениям и видео. Воссозданию анимации лиц по звуку уделяется гораздо меньше внимания», — заявляют исследователи. «Понимание связи между произносимой речью и движениями лица даёт ценную информацию для этой задачи, особенно если визуальные данные зашумлённые, неоднозначные или вовсе отсутствуют».

Интересный факт: для создания всех пяти приложений использовались самые мощные на сегодняшний день GPU NVIDIA Tesla. Если вы тоже планируете масштабный проект с обучением речевого ИИ и вам нужна максимальная производительность — воспользуйтесь нашими облачными серверами с GPU NVIDIA Telsa V100 (от 90 рублей в час).


⌘⌘⌘

Надеемся, что на этом развитие речевого искусственного интеллекта не закончится, и скоро он сможет достигнуть уровня человека в некоторых задачах (а может, и превзойдёт его). Какими приложениями с голосовым ИИ пользуетесь вы? Алиса, Сири или Google Ассистент? Делитесь в комментариях!

С оригинальной статьёй можно ознакомиться в блоге NVIDIA.

Domains weekly: конец стабильности .COM, детали продажи .ORG и сделки недели

Domains weekly: конец стабильности .COM, детали продажи .ORG и сделки недели

Из нового доменного дайджеста вы узнаете, может ли проигрыш спора за домен стать победой, чего ждать от повышения цен на...
Read More
PHP 7 или Как ускорить сайт за минуту без регистрации и СМС

PHP 7 или Как ускорить сайт за минуту без регистрации и СМС

Вы наверняка в курсе, что PHP удерживает лидерство среди языков, применяющихся для создания сайтов. В конце 2019 года версия PHP...
Read More
Приключенческая игра с самым опасным ИИ в мире

Приключенческая игра с самым опасным ИИ в мире

Долгие праздничные каникулы уже позади, но многим наверняка хочется ещё немного отдохнуть от серьёзных тем. Поэтому сегодня мы расскажем вам...
Read More
Новогодний чек-лист: не пропразднуй свой домен

Новогодний чек-лист: не пропразднуй свой домен

Не все задачи и дела подходят под фразу «А давайте уже после праздников». И те, что «горят прям горят», мы...
Read More
Domains weekly: рост Интернета, зона .AMAZON и домен на миллион

Domains weekly: рост Интернета, зона .AMAZON и домен на миллион

Приближаются праздники, и в доменной индустрии всё становится спокойнее… Или нет? Из последней подборки в этом году вы узнаете, насколько...
Read More
Итоги 2019 года в блоге REG.RU: создание сайтов, бэкапы, нейросети и UX‑дизайн

Итоги 2019 года в блоге REG.RU: создание сайтов, бэкапы, нейросети и UX‑дизайн

Год приближается к финишной прямой, и редакция блога, следуя тренду, подводит его итоги. Сегодня мы поделимся материалами, которые вы больше...
Read More
Стэнфордский курс: лекция 10. Рекуррентные нейронные сети

Стэнфордский курс: лекция 10. Рекуррентные нейронные сети

В прошлый раз мы рассказали о нескольких популярных свёрточных архитектурах и узнали об их влиянии на развитие машинного обучения. В...
Read More
Domains weekly: карта Интернет-мира, перспективы Китая и доменная зависть

Domains weekly: карта Интернет-мира, перспективы Китая и доменная зависть

Новая подборка новостей будет очень полезной для домейнеров. Насколько активно страны мира регистрируют сайты в своих национальных доменных зонах? Есть...
Read More
Shared или VPS — какой хостинг выбрать для сайта?

Shared или VPS — какой хостинг выбрать для сайта?

Один из наших читателей попросил рассказать, какой же вариант хостинга стоит использовать для своего онлайн-проекта. Этим вопросом задаётся почти каждый...
Read More
С чего начать SEO-продвижение сайта

С чего начать SEO-продвижение сайта

Вы создали красивый и яркий сайт, грамотно расписали контент, добавили акценты для целевой аудитории, но трафик не растёт? Скорее всего,...
Read More