Поиск по сайту Поиск

Голосовой помощник Apple, которому можно доверять

Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и манера разговора похожи на наши собственные. Этот факт послужил для Apple толчком к созданию голосового ассистента, который учитывает предпочтительный образ общения пользователя и тем самым вызывает доверие. Сегодня мы расскажем, что получилось из этого эксперимента.

Цифровые ассистенты становятся всё более продвинутыми и используются в разных сферах жизни. Но, согласитесь, в некоторых случаях нам важен не просто сам факт наличия помощника, а степень доверия к нему и его способностям. Например, больному человеку хотелось бы быть уверенным в том, что программа правильно подскажет ему принять нужные лекарства в определённое время.

В человеческих взаимоотношениях люди используют особенные типы поведения для установления взаимопонимания. Один из них — «отражение», когда мы копируем манеру общения партнёра, например, позу, интонации или выражение лица. Это явление также упоминается под названиями мимикрия, социальный резонанс, координация, синхронность, подстройка, эффект хамелеона и так далее. Apple предположили, что эффективный метод повышения доверия к цифровым ассистентам — отражение разговорного стиля запросов, в частности, их степень «болтливости». Чтобы проверить свою гипотезу, они провели исследование среди пользователей и установили, что людям больше нравится общение с более похожим на них помощником.

Почему и зачем

Как сказано выше, люди могут заслужить первоначальное доверие, подражая поведению собеседника. Отражение помогает выявить качественные меры оценки взаимодействия между людьми, а его степень показывает, насколько естественным будет взаимопонимание. Эти характеристики вызывают растущий интерес в областях человеко-компьютерного взаимодействия, робототехнике и машинном обучении. Например, процесс отражения использовался для модели прогнозирования тем разговора, к которым приведёт беседа нескольких людей. Такая система обычно объединяет последовательность действий собеседников и пытается предсказать их высказывания. 

В робототехнике отражение может послужить обучению роботов человеческому языку. Наблюдая за людьми, они научатся копировать их действия и общаться с ними на равных. Этот метод использовался для разработки социальных роботов. Людям с ограниченными возможностями очень важно иметь условия, помогающие реабилитироваться и вливаться в общественную жизнь.

Эксперименты

Авторы описали два опыта: интерактивное обучение пользователей под названием «Волшебник страны Оз» (Wizard-of-Oz, WOZ) и автоматическое прогнозирование предпочтительного стиля разговора с учётом запросов, ответов и отзывов участников. 

Привет, Сири, как дела?

Исследователи из Apple предположили, что взаимодействие с цифровым помощником, который копирует вашу манеру общения, повысит степень доверия к нему. Также они проверили, предпочитают ли болтливые люди взаимодействовать с разговорчивыми собеседниками, а тихони — с такими же, как они, молчунами. Участники заполнили анкету, предназначенную для оценки их уровня «болтливости» и других черт характера (для выявления экстравертов и интровертов). Это позволило выбрать группы пользователей, сбалансированные по определённым особенностям. После этого каждый из участников прошёл опрос об использовании голосовых помощников (частота использования, типы запросов, стиль взаимодействия, надёжность, привлекательность и тому подобное).

Эксперимент проходил в три этапа взаимодействия:

  1. с разговорчивым ассистентом;
  2. с неразговорчивым ассистентом;
  3. с цифровым помощником-отражателем.

Во всех случаях цифровой ассистент контролировался «волшебником» (то есть экспериментатором), которому было дано указание не взаимодействовать с участниками напрямую. Если вы помните сказку «Волшебник страны Оз», примерно так в ней происходило общение чародея с главными героями: он представал перед ними в разных формах, но не показывал себя.

Во время экспериментов авторы записывали аудио и видео с каждым участником. Испытуемые сидели на расстоянии примерно 2.5 метра от настенного экрана. Волшебник находился за разделительной стеной и управлял цифровым помощником и дисплеем, а также синхронизировал оборудование и собирал данные с помощью ROS.

В разговорчивой и неразговорчивой обстановке участникам было предложено (с помощью инструкций на ТВ-экране) сделать устные запросы помощнику для выполнения задач в каждой из следующих областей: таймеры / будильники, календари / напоминания, навигация / маршруты, погода, новости и поиск в интернете. Для каждого запроса на экране всплывала текстовая подсказка, например: «Будильник на 8 утра». Подсказки были намеренно короткими, чтобы ограничить возможность повторять одни и те же фразы. 

Ответы ассистента генерировались для каждого запроса одинаково и не различались между участниками. Например, в подсказке написано: «Время следующей встречи». Тогда развёрнутый ответ будет: «Похоже, следующая встреча у вас после обеда в 2 часа дня», а короткий: «В 2 часа дня».  Выслушав ответ, участники должны были устно оценить его качество: хороший, не по теме, неверная информация, невежливый, небрежный и тому подобное. Все показания фиксировались «волшебником» в текстовом виде.

После погружения в разговорчивую и неразговорчивую обстановку участники ответили на вопросы о том, какая им больше пришлась по душе. Затем они приступили к взаимодействию с помощником-отражателем.

Поведение отражателя было разработано таким образом, чтобы выглядеть максимально естественно в рамках WOZ. Тот же «волшебник», что и в предыдущих опытах, снова незримо контролирует процесс. Обратите внимание, что в первых двух экспериментах ему не надо было оценивать степень развёрнутости ответа, поскольку она была задана по умолчанию в зависимости от обстановки. Здесь же его роль заключается как раз в том, чтобы дать оценку «разговорчивости» помощника для каждого его высказывания.

Каков вопрос — таков ответ

Чтобы сформировать естественный разговор, участников попросили разыграть сценарий «вечернего отдыха», который включал встречу с друзьями, поход в театр и ужин. «Волшебник» двигал сюжет, побуждая пользователей делать запросы с помощью изображений (примеры на рисунке ниже), текстовые подсказки при этом не использовались.

Изображения отсылали к воображаемым вечерним событиям, а значки указывали, какую из функций помощника участник должен использовать (например, над картинкой с одеждой был значок погоды). Набор возможных ответов для каждой подсказки был фиксирован, а уровень разговорчивости выбирался волшебником. Вот примеры ответов для запроса о погоде в порядке увеличения «болтливости»:

  1. 23, ясно.
  2. Будет 23 градуса, ясно.
  3. Будет тепло, 23 градуса и солнечное небо.
  4. Должно быть 23 градуса и ясно, так что можете не брать с собой свитер.
  5. Мои источники сообщают, что будет 23 градуса и ясно. Вам определённо не нужно брать с собой куртку.

Так же, как в разговорчивой и неразговорчивой обстановке, участники оценивали каждый ответ ассистента. После завершения испытания они снова отвечали на вопросы о его привлекательности и надёжности.

Результаты

Всего в исследовании приняли участие 20 человек (3 женщины и 17 мужчин), продолжительность сеанса варьировалась от 17 до 56 минут. Большинство людей (70%) сделали выбор в пользу общительного помощника. Согласно предварительным опросам, 60% участников были довольно болтливы, а 40% не отличались общительностью. Это говорит о том, что стиль общения не всегда указывает на то, что собеседник должен полностью ему соответствовать. Но в целом, участники-экстраверты предпочитали разговорчивого помощника, а интроверты — немногословного.

Влияние отражения на мнение о привлекательности ассистента было проверено с помощью одностороннего дисперсионного анализа. Авторы сравнили рейтинги доверия участников до исследования (среднее = 4.0, стандартное отклонение = 0.48) и после (среднее = 4.46, стандартное отклонение = 0.31). Пользователей попросили оценить, насколько они согласны с утверждением, что им нравится или не нравится взаимодействовать с ассистентом по семибалльной шкале Ликерта (1 — совсем не нравится, 4 — нейтрально, 7 — очень нравится). Разница между средними показателями до и после взаимодействия оказалась статистически значительной (f-мера = 7.12, p ≤ 0.01). Это означает, что отражение оказывает положительное влияние на доверие. 

После исследования участники делились комментариями и отмечали, что им больше понравился помощник-отражатель. В связи с этим авторы приступили к созданию классификаторов, чтобы определить, можно ли использовать особенности речи пользователя для установки соответствующего уровня разговорчивости.

Классифицируем болтунов и молчунов

Авторы создали два вида классификаторов: speaker-independent (не зависящий от говорящего) и multi-speaker (для множества говорящих). Они должны определить, указывает ли высказывание на болтливость или молчаливость и какой из ответов будет предпочтительнее: развёрнутый или короткий. Классификация «разговорчивый или нет» основывается исключительно на особенностях речи и не анализирует длительность высказывания. Продолжительность фразы далеко не всегда соотносится с тем, как много мы успели сказать.

Метки пользователя «разговорчивый» и «неразговорчивый» были извлечены из результатов опросов, а метки ответа «развёрнутый» и «короткий» получены из оценок участников. Каждому высказыванию присваивалось две метки, где одна указывала на болтливость говорящего, а вторая — на предпочтительный ответ. Из речи извлекалось 95 акустических характеристик: среднее значение, стандартное отклонение, минимум и максимум основной частоты, энергия, первые 12 MFCC (мел-кепстральных коэффициентов) и первые 5 формант.

Десять классификаторов были обучены на задачах бинарной классификации: логистическая регрессия, теорема Байеса, искусственная нейронная сеть, случайный лес с коэффициентом Джини, случайный лес с энтропией, SVM  с различными ядрами. Для всех задач использовались стандартные реализации из scikit-learn. Данные были разделены для обучения и тестирования в соотношении 80/20 (multi-speaker), а также для перекрёстной проверки (speaker-independent). Эффективность оценивалась с помощью F1-меры.

Количественные оценки

Оценки классификации показаны в таблице, которая демонстрирует, что результаты оказались хорошими для обеих задач.

Сверху: перекрёстная проверка, снизу: разбиение 80/20.

Это говорит о том, что можно вполне надёжно определить как степень разговорчивости говорящего, так и его предпочтения в ответных репликах. Эффективность разделения 80/20 указывает на то, что классификаторам не требуется большое число примеров для обучения, а эффективность перекрёстной проверки — что модели можно обобщить на новых говорящих. 

⌘⌘⌘

Исследователи Apple не собираются останавливаться на этом: для будущих голосовых помощников они планируют ввести целые диапазоны разговорчивости. Тогда развёрнутые и забавные ответы цифровых ассистентов смогут не только поднять нам настроение, но и повысить комфорт общения для самых разных людей. 

С оригинальной статьёй можно ознакомиться на сайте arxiv.org.

Domains weekly: конец стабильности .COM, детали продажи .ORG и сделки недели

Domains weekly: конец стабильности .COM, детали продажи .ORG и сделки недели

Из нового доменного дайджеста вы узнаете, может ли проигрыш спора за домен стать победой, чего ждать от повышения цен на...
Read More
PHP 7 или Как ускорить сайт за минуту без регистрации и СМС

PHP 7 или Как ускорить сайт за минуту без регистрации и СМС

Вы наверняка в курсе, что PHP удерживает лидерство среди языков, применяющихся для создания сайтов. В конце 2019 года версия PHP...
Read More
Приключенческая игра с самым опасным ИИ в мире

Приключенческая игра с самым опасным ИИ в мире

Долгие праздничные каникулы уже позади, но многим наверняка хочется ещё немного отдохнуть от серьёзных тем. Поэтому сегодня мы расскажем вам...
Read More
Новогодний чек-лист: не пропразднуй свой домен

Новогодний чек-лист: не пропразднуй свой домен

Не все задачи и дела подходят под фразу «А давайте уже после праздников». И те, что «горят прям горят», мы...
Read More
Domains weekly: рост Интернета, зона .AMAZON и домен на миллион

Domains weekly: рост Интернета, зона .AMAZON и домен на миллион

Приближаются праздники, и в доменной индустрии всё становится спокойнее… Или нет? Из последней подборки в этом году вы узнаете, насколько...
Read More
Итоги 2019 года в блоге REG.RU: создание сайтов, бэкапы, нейросети и UX‑дизайн

Итоги 2019 года в блоге REG.RU: создание сайтов, бэкапы, нейросети и UX‑дизайн

Год приближается к финишной прямой, и редакция блога, следуя тренду, подводит его итоги. Сегодня мы поделимся материалами, которые вы больше...
Read More
Стэнфордский курс: лекция 10. Рекуррентные нейронные сети

Стэнфордский курс: лекция 10. Рекуррентные нейронные сети

В прошлый раз мы рассказали о нескольких популярных свёрточных архитектурах и узнали об их влиянии на развитие машинного обучения. В...
Read More
Domains weekly: карта Интернет-мира, перспективы Китая и доменная зависть

Domains weekly: карта Интернет-мира, перспективы Китая и доменная зависть

Новая подборка новостей будет очень полезной для домейнеров. Насколько активно страны мира регистрируют сайты в своих национальных доменных зонах? Есть...
Read More
Shared или VPS — какой хостинг выбрать для сайта?

Shared или VPS — какой хостинг выбрать для сайта?

Один из наших читателей попросил рассказать, какой же вариант хостинга стоит использовать для своего онлайн-проекта. Этим вопросом задаётся почти каждый...
Read More
С чего начать SEO-продвижение сайта

С чего начать SEO-продвижение сайта

Вы создали красивый и яркий сайт, грамотно расписали контент, добавили акценты для целевой аудитории, но трафик не растёт? Скорее всего,...
Read More