В России запустили первый открытый продуктовый бенчмарк для комплексной оценки решений с применением искусственного интеллекта в реальных бизнес-задачах — RRNCB (Russian RAG Normative-Corporate Benchmark). Новый бенчмарк позволит составить рейтинг лучших ИИ-продуктов для бизнеса на российском рынке. Прием заявок от разработчиков RAG-продуктов открыт до 21 ноября, результаты будут опубликованы в декабре. Среди участников бенчмарка ожидаются такие решения, как GigaChat от Сбера, «Нейроэксперт» от Яндекса, Cotype от МТС, Prefentum от Softline, а также продукты от Авито, Точка Банк, Just AI и других ключевых игроков ИИ-рынка в России.
Компания «Аватар Машина» при поддержке Ассоциации лабораторий искусственного интеллекта (АЛРИИ) запустила RRNCB (Russian RAG Normative-Corporate Benchmark) – первый в России открытый продуктовый бенчмарк для комплексной оценки RAG-решений. Инициатива призвана решить проблему отсутствия прозрачных критериев оценки эффективности ИИ-решений для бизнеса: RRNCB протестирует полные RAG-пайплайны на реальных корпоративных задачах.
«В России уже есть бенчмарки, которые проверяют работу отдельных компонентов ИИ-системы — например, качество LLM-моделей. Но таких бенчмарков, которые бы оценивали весь пайплайн ИИ-продукта и могли бы дать объективное представление о его сильных и слабых сторонах для потенциальных заказчиков — то есть людей, которые с помощью ИИ хотят решить свои бизнес-задачи, — просто нет. RRNCB оценивает весь пайплайн целиком: от извлечения данных до финальной генерации. Мы проверяем, насколько разработчики ИИ-решений квалифицированы в настройке всех компонентов, и даем компаниям объективный инструмент для принятия решений о закупке того или иного решения», — Захар Понимаш, Технический директор «Аватар Машина».
Принять участие в бенчмарке призывают все российские компании, разрабатывающие и продающие собственные ИИ-продукты бизнесу. Участие в первом независимом российском бенчмарке дает компаниям объективное подтверждение качества продукта и инструмент для продаж. Организаторы ожидают заявки от команд разработки из Сбера (“GigaChat”), Яндекса (“Нейроэксперт”), МТС (“Cotype”), Softline (“Preferentum”), Авито, Точка Банка, Just AI и других ключевых игроков рынка. Свое участие подтвердили разработчики ИИ-решений от «Дюк Технологии», AutoFAQ.ai, AI Research, Новосибирского государственного университета, Simbirsoft и других.
Компании-разработчики RAG-решений могут подать заявку на участие до 21 ноября через форму на сайте бенчмарка. Первый этап тестирования пройдет с 22 по 28 ноября, второй — с 29 ноября по 10 декабря. Публикация результатов и рейтинга лучших ИИ-решений запланирована на 12 декабря. Подробная информация о методологии, датасетах и процессе участия доступна на сайте бенчмарка.
Бенчмарк проводится при поддержке Ассоциации лабораторий разработки искусственного интеллекта (АЛРИИ), которая обеспечивает экспертное сопровождение и методологическую поддержку проекта.
«Бенчмарк решает важную задачу для индустрии — создает единый стандарт оценки RAG-продуктов. Сейчас компании сталкиваются с проблемой: как объективно сравнить решения, если существующие инструменты тестируют только языковые модели? RRNCB оценивает готовые продукты целиком, что дает рынку прозрачный механизм сравнения и помогает заказчикам принимать обоснованные решения при выборе поставщика», — Вячеслав Береснёв, Исполнительный директор Ассоциации Лабораторий Разработки Искусственного Интеллекта (АЛРИИ), Директор ЦТИИ «Нейролаб», Федеральный эксперт АЦ Минобрнауки России.
Эксперты участвуют в оценке результатов участников и формировании финальных выводов бенчмарка.
Справочно:
Для чего России независимый бенчмарк RAG-решений для бизнеса? На российском рынке работают десятки RAG-решений для обработки корпоративных документов — от систем анализа регламентов до помощников по нормативной документации. Однако компаниям, выбирающим решение для внедрения, не хватает объективного инструмента для сравнения — существующие бенчмарки (MERA, SuperGLUE и др.) оценивают только отдельные компоненты (к примеру, языковые модели), а не решения целиком. Качество RAG-решения зависит не только от языковой модели, но и от всех компонентов пайплайна – системы поиска, обработки документов, формирования контекста. В результате лица, принимающие решения о закупке, не могут объективно оценить, насколько хорошо то или иное решение справится именно с их задачами — работой с техническими ГОСТами, юридическими кодексами или внутренними регламентами.
Как работает первый в России независимый бенчмарк RAG-решений? RRNCB (Russian RAG Normative-Corporate Benchmark) – первый в России бенчмарк, который оценивает не языковые модели, а готовые RAG-продукты целиком. Бенчмарк специализируется на корпоративном применении и работает с реальными типами документов: технической документацией, юридическими кодексами, ГОСТами, СНИПами, строительными нормативами, регламентами и финансовыми отчетами. Методология RRNCB обеспечивает прозрачность и объективность: часть датасета публикуется открыто, для оценки используются гибридные метрики и зарубежные языковые модели в качестве независимых судей.
Бенчмарк проходит в два этапа. На открытом этапе компании получают часть датасета и могут улучшать свои решения в течение двух недель, повторно отправляя результаты. Затем проводится закрытое тестирование на данных, которые участники не видели. Прозрачность методологии обеспечивается публикацией части датасета и открытым описанием системы оценки – любой участник может проверить корректность результатов.
По итогам бенчмарка будет опубликован публичный лидерборд — рейтинг RAG-решений по их эффективности в работе с корпоративной документацией. Организаторы представят детальный анализ результатов в публичных материалах, включая методологию оценки, сравнение подходов участников и экспертные комментарии.
Кто вошел в экспертный совет первого в России независимого бенчмарка RAG-решений RRNCB? В экспертный совет бенчмарка вошли ведущие специалисты индустрии искусственного интеллекта и цифровой экономики:
- Нина Адамова, заместитель руководителя аппарата комиссии Госсовета РФ по направлению «Связь, коммуникации, цифровая экономика»
- Андрей Богданов, директор Технопарка физтех-лицея имени П. Л. Капицы, исполнительный директор
- Фонда развития физтех-школ
- Артём Кострюков, генеральный директор Тест АйТи («Девелоника» FabricaONE.A), эксперт по маркетингу цифровых продуктов
- Евгений Борисов, директор по развитию Фонда развития интернет-инициатив (ФРИИ)
- Вячеслав Береснёв, исполнительный директор АЛРИИ, директор ЦТИИ «Нейролаб», федеральный эксперт АЦ Минобрнауки Росси
- Роберт Васильев, вице-президент АЛРИИ, CEO&Founder z-union.ru, эксперт в области AI/ML/DL/CV
ООО «Аватар Машина»
ООО «Аватар Машина» – российская компания, разработчик решений на базе мультиагентного и генеративного искусственного интеллекта, основанная в 2020 году. Среди продуктов компании – ИИ-ассистент для работы с корпоративной документацией и базами знаний Fractal TechDocs, различные решения в области обработки естественного языка, диалоговые системы и боты. С 2023 года стратегическим фокусом компании является развитие перспективного направления agentic AI (агентный ИИ) для создания автономных систем, способных самостоятельно выполнять сложные бизнес-задачи за счет кооперации и сотрудничества ИИ агентов.
Ассоциация лабораторий искусственного интеллекта (АЛРИИ)
Ассоциация лабораторий искусственного интеллекта (АЛРИИ) — крупнейшее в СНГ объединение команд-разработчиков ИИ, включающее более 230 участников, среди которых научные коллективы, стартапы и ИТ-компании. Организация создана для развития рынка ИИ-технологий, обмена экспертизой и представления интересов отрасли. Она обеспечивает доступ к мерам поддержки, формирует стандарты в области ИИ и участвует в регуляторных инициативах.
Более подробная информация — в журналах РБА

Снижение темпов жилищного строительства вызвало падение в сегменте минеральной изоляции
НДС 22% — что делать в переходный период
«Т-Технологии» открыли второй ИТ-хаб в Казани
Рынок базовых инфраструктурных сервисов в России: фокус на устойчивость, совместимость и безопасность
Ускорение оформления отправлений на 25%: BIA Technologies внедрила в ГК «Деловые Линии» решение для самостоятельной маркировки грузов клиентами
СберСтрахование жизни сохранила лидерство по объёмам страховых выплат россиянам в стране
Светогорский ЦБК получил награду за успешное импортозамещение