Поиск по сайту Поиск

Нейросеть описывает мир незрячим людям

Голосовые ассистенты могут не только играть в «города» и рассказывать о погоде — они способны на гораздо большее! Например, помогать незрячим людям ориентироваться в современном мире. Для этого используются специальные вопросно-ответные системы Visual Question Answering (VQA). В этой статье мы расскажем, что лишённые зрения люди хотят узнать и как научить нейросеть отвечать на их вопросы.

Поиск ответов на вопросы незрячих людей

Цель систем VQA — дать правильный ответ на вопрос о заданном изображении, взаимодействуя с человеком на естественном языке. Для этой (как и для любой другой) задачи машинного обучения важно собрать достаточное количество данных. 

В последнее время стали набирать популярность искусственные датасеты, создаваемые генеративными сетями. Но для VQA они не подходят: незрячие люди часто могут делать размытые фотографии, закрывать объектив посторонними предметами или снимать при недостаточном освещении. Из-за этого на некоторые задаваемые ими вопросы нельзя найти ответ. Поэтому группа исследователей создала новый набор данных VizWiz, состоящий более чем из 31000 визуальных вопросов от слепых людей, каждый из которых делал снимок с помощью мобильного телефона и записывал устный вопрос о нем. На все вопросы также дано 10 краудсорсинговых ответов.


Примеры фотографий с задаваемыми слепыми людьми вопросами, а также записанными ответами на них. Изображения снизу демонстрируют вопросы, на которые нельзя ответить.

VizWiz создан для разработки более эффективных алгоритмов, которые смогут помочь слепым. Например, решения от современных частных компаний TapTapSee и CamFind уже позволяют делать снимки объекта и узнавать, что это такое и где это можно купить. Социальные сети помогают поддерживать связь с друзьями, предоставляя возможность автоматически отмечать людей на опубликованных фотографиях. Следующий шаг — позволить человеку напрямую задавать естественные вопросы об окружающем мире. 

Как создавался VizWiz

Датасет построен на основе предыдущей работы исследователей, в ходе которой было разработано специальное приложение VizWiz для сбора визуальных вопросов (доступно на смартфонах с iOS и Android). Люди спрашивали о своих повседневных бытовых заботах, делая снимки и записывая голосовые сообщения. Приложение выпущено в мае 2011 года и активно использовалось 11 045 людьми в течение эксперимента. Для разработки набора данных были анонимно выгружены 48 669 визуальных вопросов. 

Основное отличие VizWiz от существующих датасетов — все вопросы задаются незрячими людьми, которые могут не видеть то, о чём спрашивают. Из-за этого в наборе оказалось большое число «вопросов без ответа» (“unanswerable”). Чтобы датасет был эффективным, необходимо проанализировать его и узнать:

  1. Насколько разнообразны задаваемые вопросы, изображения и ответы;
  2. Как часто визуальные вопросы остаются без ответа.

Разнообразие задаваемых вопросов исследовалось с помощью визуализации частоты, с которой вопросы начинаются с разных слов / фраз. Оказалось, что большинство вопросов начинаются со слова «что». На диаграмме ниже можно увидеть общий результат:

Анализ изображений показал, что 28% фотографий помечены как «неподходящие» (“unsuitable image”). Результаты анализа ответов визуализированы с помощью карты наиболее популярных слов, которая исключает варианты “unanswerable” и “unsuitable image”:

Можно увидеть, что самыми распространёнными оказались ответы «да» и «нет».

Без ответа остаётся примерно столько же вопросов, сколько и неподходящих фотографий: 28.63%. Этот вывод подтверждает практическую важность дополнения существующих наборов данных. Более того, VizWiz позволяет автоматически определять, связана ли проблема с плохим качеством фотографии (“unsuitable image”) или с тем, что на ней изображено (“unanswerable”).

Пришло время обучить нейросеть

Не так давно исследователи из Amazon разработали новую нейросеть для задач VQA, анализирующую вопросы с помощью механизма внимания (Question Type-guided Attention, QTA). Обобщённая архитектура показана на рисунке:

Для прогнозирования ответа важно знать тип вопроса независимо от того, соответствует ли ему изображение. Например, на вопросы, начинающиеся со «сколько», обычно даются ответы в виде чисел. Чтобы глубже понять, каким образом различные типы вопросов связаны с фотографиями, авторы попытались соотнести их с помощью механизма внимания (QTA). Для этого они извлекали признаки изображений, используя предварительно обученные нейросети (ResNet, VGG и Faster R-CNN). Затем признаки сопоставлялись с типами вопросов и весами внимания. Типы вопросов определялись с помощью нейросети Word2Vec и энкодера Neural Machine Translation (NMT) от Google. Веса внимания рассчитывались, исходя из соотношения между текстовыми и визуальными признаками.

Очевидное ограничение QTA — чтобы ответить на вопрос, необходимо заранее знать его тип. В процессе реального применения нейросеть не знает, к какому типу относится вопрос. Но можно попытаться спрогнозировать его из текста и использовать в качестве входных данных для сети QTA. Таким образом, авторы разработали многозадачную модель, которая фокусируется как на VQA, так и на прогнозировании типа вопроса. Модель работает в условиях, когда типы вопросов доступны только во время обучения.


Архитектура многозадачной модели

Эксперименты

Набор данных

Учёные из Amazon проводили эксперименты на наборе данных TDIUC (Task Directed Image Understanding Challenge). Он содержит более 1.6 миллиона визуальных вопросов 12 различных типов и включает в себя датасеты VQA v1, Visual Genome, а также дополнение из некачественных фотографий и вопросов без ответа. Точность модели рассчитывались отдельно для каждого типа вопроса.

Модели

Для сравнения результатов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA). Первая относится к классу многослойных перцептронов (multilayer perceptron), а вторая использует концепцию Multimodal Compact Bilinear Pooling

Чтобы проверить, улучшает ли механизм внимания работу нейросети, авторы дополнительно обучили две архитектуры, которые анализируют только тип вопроса без весов внимания. Первая, CAT-QT, использует для этих целей Word2Vec, а вторая, CATL-QT, применяет механизм долгой краткосрочной памяти (Long short-term memory, LSTM). 

И, наконец, многозадачная модель для определения метки типа вопроса, о которой упоминалось выше — CATL-QTA-M, основанная на CATL-QTA и применяющая обратное распространение.

Результаты

На рисунке ниже можно увидеть, что механизм внимания действительно повышает точность модели. С использованием одинаковых текстовых и визуальных признаков и примерно такого же числа параметров эффективность сети QTA оказалась на 3-5% выше, чем QT:

Наилучшие результаты были достигнуты у архитектуры, использующей объединение взвешенных признаков изображения с выходными признаками LSTM и Word2Vec (CATL-QTAw). Её точность увеличилась на 5% по сравнению с такими сетями как RAU и MCBA:

Многозадачная модель CATL-QTA-M смогла достичь 84.33% точности, что оказалось ниже, чем у CATL-QTAw. В таблице можно увидеть сравнение результатов (Символ «*» означает обучение и тестирование на наборе данных, не содержащем вопросы без ответа и неподходящие изображения):

При этом распознавание типа вопроса в среднем достигает около 95% точности для 12 типов: 

  1. Другие признаки 
  2. Настроение
  3. Спорт
  4. Местоположение
  5. Возможности/свойства объекта
  6. Вид активности
  7. Классификация сцены
  8. Цвет
  9. Объект
  10. Наличие объекта
  11. Подсчёт объектов
  12. Вопросы без ответа

Заключение

Пример с датасетом VizWiz доказал, что сбор и анализ данных для создания VQA-систем требуют долгой и кропотливой работы. Исследователи из Amazon смогли применить нестандартные подходы при разработке нейросетей, отвечающих на вопросы незрячих людей, и показать их эффективность и актуальность. Надеемся, что на этом работа учёных не закончится и скоро появится больше решений, которые помогут лишённым зрения людям по-новому увидеть мир.

7 советов для работы с небольшими данными

7 советов для работы с небольшими данными

В современном мире считается, что Big Data — ключ к созданию успешных проектов машинного обучения. Но проблема в том, что...
Read More
Квантовые нейронные сети на процессорах будущего

Квантовые нейронные сети на процессорах будущего

Законы квантовой механики в теории позволяют создать новый тип вычислительных машин, способных решать сверхпроизводительные задачи, недоступные даже самым мощным современным...
Read More
Стэнфордский курс: лекция 7. Обучение нейросетей, часть 2

Стэнфордский курс: лекция 7. Обучение нейросетей, часть 2

В шестой лекции мы начали рассказывать про обучение нейросетей: выяснили, как выбрать функцию активации, подготавливать данные, настраивать параметры и следить...
Read More
Нейросеть распознаёт узор вязания по фото

Нейросеть распознаёт узор вязания по фото

Автоматизированным производством сегодня уже никого не удивишь. Но мы попробуем. Один из наиболее необычных примеров автоматических устройств — вязальные машины,...
Read More
Бариста, учитель и работник типографии: кем были сотрудники REG.RU до того, как стали айтишниками

Бариста, учитель и работник типографии: кем были сотрудники REG.RU до того, как стали айтишниками

Сегодня, 30 сентября, День Интернета в России. В честь этой даты мы расскажем семь историй о том, как сотрудники REG.RU...
Read More
Чек-лист, который заряжен на защиту домена

Чек-лист, который заряжен на защиту домена

Время от времени мы сталкиваемся со случаями, когда мошенники уводят домены наших клиентов. Происходит это по самым разным причинам: от...
Read More
Методы распознавания радужной оболочки глаз. Часть 1

Методы распознавания радужной оболочки глаз. Часть 1

Не так давно идентификация людей по радужной оболочке глаз казалась фантастической технологией, использующейся только для защиты суперсекретных военных и правительственных...
Read More
Стэнфордский курс: лекция 6. Обучение нейросетей, часть 1

Стэнфордский курс: лекция 6. Обучение нейросетей, часть 1

В прошлый раз мы обсудили историю возникновения свёрточных архитектур, а также узнали об их устройстве и широких возможностях применения. В...
Read More
Три слова, которые поймут только айтишники

Три слова, которые поймут только айтишники

Если вы не разработчик, но работаете в IT-компании, или в вашем окружении есть программисты, то, скорее всего, часто слышите странные...
Read More
Customer development: почему при выборе идеи нужно учитывать мнение клиентов

Customer development: почему при выборе идеи нужно учитывать мнение клиентов

Вместе с менеджером по продуктам REG.RU Никитой Атучиным разбираем, почему MVP — не всегда хорошее решение для старта бизнеса. Если вы...
Read More