Предложенный метод позволяет использовать нейросети даже на смартфонах
Учёные лаборатории искусственного интеллекта Сбербанка предложили инновационный подход к распознаванию эмоций в реальных условиях. Результаты исследования они представили в работе Leveraging Lightweight Facial Models and Textual Modality in Audio-visual Emotional Understanding in-the-Wild («Использование легковесных моделей анализа лица и текстовых модальностей в аудиовизуальном понимании эмоций в естественных условиях»). Её приняли к публикации на международном воркшопе Affective Behaviour Analysis in-the-Wild (ABAW) конференции CVPR (Core A*).
Работа демонстрирует, как комбинация визуальных, акустических и текстовых данных повышает точность эмоционального анализа на основе моделей искусственного интеллекта. На практике системы распознавания эмоций часто сталкиваются с несколькими проблемами. Во-первых, это низкая точность в условиях изменяющегося освещения, ракурсов или фонового шума. Во-вторых, высокие вычислительные затраты современных алгоритмов, затрудняющие возможность обработки чувствительной персональной информации (видео лиц) на пользовательских устройствах. Наконец, для обучения моделей необходимы большие объёмы данных, при этом качественная разметка несколькими экспертами эмоций на видео обычно занимает много времени.
Решение исследователей Сбера основано на трёх ключевых аспектах. Эксперты предложили использовать обученные на открытых наборах фотографий эмоциональных лиц эффективные нейронные сети (EmotiEffNet, MobileViT, MobileFaceNet) для анализа мимики, что позволяет эффективно работать в режиме реального времени даже на обычных смартфонах. Кроме этого, для снижения нагрузки на систему и повышения точности проводится фильтрация кадров, эмоции на которых надёжно распознаются с помощью предобученных моделей. Также учёные доказали, что комбинирование данных из разных источников (текст, аудио, видео) с помощью метода «позднего слияния» (late fusion) ускоряет адаптацию модели к решению новых задач.
На восьмом международном конкурсе ABAW такой подход занял 1-е место в задачах распознавания выражений лица и амбивалентности (нерешительности) и 3-е место в оценке интенсивности эмоций и детектировании микровыражений (action units). Точность (средняя F1-мера) выросла на 1,5–15% по сравнению с базовыми методами, которые основаны на традиционных нейросетевых моделях лиц (VGGFace) и акустических признаках (wav2vec 2). Материалы, которые были использованы в исследовании, собраны в библиотеке EmotiEffLib.
Виртуальные ассистенты и чат-боты на базе технологии российских учёных будут точнее определять эмоции пользователей. Например, образовательные платформы смогут адаптировать контент под настроение ученика, повышая эффективность обучения. Бизнес может получить инструмент для анализа эмоциональных реакций клиентов на продукты и рекламные кампании. В медицинской сфере умные системы мониторинга психического здоровья научатся выявлять признаки тревожности или депрессии на ранних стадиях. Инструменты на основе искусственного интеллекта, которые уже применяют в социальной сфере, станут более естественно взаимодействовать с людьми и точнее обрабатывать их запросы.
Глеб Гусев, директор Лаборатории искусственного интеллекта Сбербанка:
«Коллегам удалось разработать новые методы мультимодального анализа эмоций с оптимизацией вычислений. Это исследование приближает нас к созданию эмпатичного искусственного интеллекта, который сможет точно и быстро распознавать эмоции человека в реальных условиях. Возможности для прикладного применения этой технологии очень широки — от виртуальных помощников до интеллектуальных систем в медицине и образовании. Такие решения в любой области помогут создать индивидуальный подход к каждому пользователю и, самое главное, будут эффективнее помогать людям справляться с разными задачами».
# # #
ПАО Сбербанк — один из крупнейших банков в России и один из ведущих глобальных финансовых институтов. На долю Сбербанка приходится около трети активов всего российского банковского сектора. Сбербанк является ключевым кредитором для национальной экономики и занимает одну из крупнейших долей на рынке вкладов. Основным акционером ПАО Сбербанк является Российская Федерация в лице Министерства финансов Российской Федерации, владеющая 50% уставного капитала ПАО Сбербанк плюс 1 голосующая акция. Оставшимися 50% минус 1 голосующая акция от уставного капитала банка владеют российские и международные инвесторы. Генеральная лицензия Банка России на осуществление банковских операций № 1481 от 11.08.2015. Официальные сайты банка: www.sberbank.com (сайт Группы Сбербанк), www.sberbank.ru.
Более подробная информация — в журналах РБА