Цель проекта: Создание доверительных систем ИИ для надежной работы критической инфраструктуры, предназначенных для разметки данных с отслеживанием авторства и возможностью учета коэффициента доверия.

Эффект от внедрения: Практически все языковые модели периодически дают неверные или выдуманные ответы, которые еще называют «галлюцинациями», этот показатель варьируется от 15% до более чем 90% в зависимости от сложности задачи, наличия веб-поиска и настроек самой модели.

Использование фреймворка «КАППА» позволит, во-первых, выявить на стадии испытаний те модели, которые имеют высокий процент ошибок и существенно снизить долю ошибок у остальных, за счет дообучения на эталонных наборах и поддержки эволюции модели. Таким образом, эффективность дальнейшего использования ИИ-решений заказчиком вырастет в полтора-два раза, а сам процесс проверки перед внедрением ускорится в среднем на 50-70% за счет ее автоматизации и стандартизации.

Руководитель проекта Павловский Евгений Николаевич

Руководитель проекта: Павловский Евгений Николаевич, к.ф.-м.н., ведущий научный сотрудник Центра ИИ НГУ, зав.лаб. аналитики потоковых данных и машинного обучения НГУ

– Евгений, расскажите, почему проблема доверия к ИИ стала настолько острой, что потребовала создания отдельного фреймворка?

– Сегодня ИИ-решения внедряются повсеместно: от городского управления до промышленности. Но цена ошибки здесь колоссальна. Модели машинного обучения имеют вероятностную природу. Представьте, что система управления теплоснабжением или диагностики оборудования даёт сбой из-за ошибки такой модели – последствия могут исчисляться миллионами рублей и часами простоя.

По нашим данным, доля ошибок у языковых моделей достигает от 15% до 90% в зависимости от сложности задачи. Это значит, что каждая вторая рекомендация генеративного ИИ может быть неверной. И главная проблема – заказчик узнаёт об этом только после внедрения, когда исправлять что-либо уже дорого и долго.

– Как «КАППА» решает эту проблему?

– Мы создали фреймворк «Каппа», который позволяет выявить и отсеять ненадёжные модели на стадии испытаний, а не после их внедрения. Это как техосмотр для автомобиля: проверяем, работает ли ИИ правильно, если нет – до-обучаем его на эталонных данных до приемлемого уровня.

Принцип прост: заказчик формирует свой эталонный набор данных (те результаты, которые он считает правильными), а «КАППА» автоматически прогоняет через него любую модель – как собственную, так и стороннюю. В результате мы получаем объективный отчёт о надёжности, а не субъективное мнение разработчика.

– Какой конкретный эффект получает заказчик?

– Два ключевых результата:

  1. Снижение доли ошибок в полтора-два раза после до-обучения модели с помощью «КАППА». Это прямые сбережения – меньше аварий, меньше простоев, меньше судебных исков.
  2. Ускорение приёмки в эксплуатацию на 50–70%. Вместо того чтобы месяцами разрабатывать собственные методики тестирования, заказчик получает готовый, стандартизированный инструмент, который работает в соответствии с ГОСТ Р 71484 2024 года.

И это не теория – у нас уже есть промышленная эксплуатация с двумя партнёрами (компании «Мета» и «Сити-Эйр»), и мы адаптируем платформу для ГПНТБ СО РАН. То есть продукт проверен в реальных условиях и готов к тиражированию. 

– Кто является потенциальным пользователем «КАППА»?

– Любая организация, которая активно внедряет ИИ и хочет управлять рисками, а не гадать на кофейной гуще. Это:

  1. Министерства и ведомства – для проверки государственных ИИ-сервисов.
  2. Региональные правительства и муниципалитеты – чтобы быть уверенными в решениях для городского хозяйства.
  3. Крупные промышленные компании – для диагностики оборудования, прогнозирования аварий, управления цепочками поставок.

Все они сталкиваются с одной и той же болью: как проверить десятки разных ИИ-решений от разных поставщиков по единому стандарту. «КАППА» даёт этот стандарт и автоматизирует процесс.

– Каков уровень готовности продукта?

– Мы находимся на 7-м уровне готовности технологии (TRL-7) – это значит, что платформа уже эксплуатируется в промышленных условиях, но пока не вышла на серийное производство. Однако мы готовы к поставке полностью документированного решения с размещением внутри контура заказчика – это критично для работы с государственными и корпоративными данными.

– И последний вопрос: что бы вы посоветовали потенциальному заказчику, который сомневается?

– Начните с малого. Мы предлагаем бесплатный экспресс-аудит одной из ваших моделей – вы получите объективный отчёт о её надёжности и рекомендации по улучшению. Это не обязывает вас к покупке, но даёт чёткое понимание, насколько вы защищены от ошибок ИИ.

Заявку можно оставить на нашем сайте https://kappa.nsu.ru или связаться с отделом продаж ЦИИ НГУ (ai-center@nsu.ru). Время – критический фактор: чем дольше вы ждёте, тем больше рисков накапливается в вашей инфраструктуре.