GigaChat Сбера лучше других моделей, представленных в открытом доступе, справилась с задачами на разные типы и области знаний, представленных в бенчмарке MERA (Multimodal Evaluation for Russian-language Architectures).
Для замера были использованы модели Сбера — GigaChat PRO и GigaChat Lite. Согласно итогам тестов, GigaChat PRO набрала 53,7 балла из 100. Результат GigaChat Lite составил 50,4 балла, что лучше показателя ближайшего конкурента более чем на два балла.
Показать такие результаты удалось за счет того, что модели получили обновление. Они стали лучше отвечать на вопросы пользователей из сферы экономики, медицины, химии, биологии и других сфер. У GigaChat появилось больше экспертности и точности в сложных терминах. Также разработчики добавили различных персонажей для решения специализированных задач, например, в области создания контента.
Бенчмарк представляет собой набор из 21 задачи в формате инструкций на различные области знаний, в которых проверяется широкий ряд навыков искусственного интеллекта: от знаний о мире до умения программировать.
Система такой открытой оценки даёт возможность более объективно и прозрачно проверять способности современных больших языковых моделей. Чем больше баллов набирает искусственный интеллект, тем лучше он может решать различные интеллектуальные или бытовые задачи. Например, помогать писать статьи в нужном стиле и формате, искать информацию и проводить аналитику. Бизнес разного масштаба может создавать свои собственные решения и оптимизировать процессы.
В создании тестов бенчмарка MERA участвовал ряд компаний — участников Альянса в сфере искусственного интеллекта, а также академические партнёры Skoltech AI и Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ).
Модель GigaChat PRO доступна всем пользователям в веб-версии, Telegram, а также в соцсети «ВКонтакте». Разработчикам и бизнесу все модели доступны через GigaChat API.
Более подробная информация — в журналах РБА