Индустрия попала в ловушку самолюбования: популярный метод оценки нейросетей с помощью самих же нейросетей (LLM-as-a-Judge) оказался глубоко порочным. Исследование Садмана Кабира Соумика, опубликованное на arXiv, вскрывает неприятную правду: модели-арбитры от OpenAI, Google, Anthropic и Meta выставляют баллы не за фактическую точность, а за «красивые глазки». Уровень стилевой предвзятости у лидеров рынка зашкаливает в диапазоне 0,76–0,92. Для сравнения: пресловутая позиционная предвзятость, с которой разработчики так усердно боролись, едва достигает 0,04. Проще говоря, нейросеть-судья с гораздо большей вероятностью похвалит уверенную и вежливую чушь, чем сухой, но верный ответ.

Бизнесу пора признать: использование одной языковой модели для аудита другой создает замкнутую эхо-камеру. Ваши отчеты о качестве могут оказаться пустышкой, если модель-арбитр реагирует на структуру и лаконичность (к которой, как выяснилось, у всех протестированных систем особая слабость), игнорируя при этом галлюцинации. Да, на синтетических тестах вроде MT-Bench и LLMBar модели еще пытаются имитировать объективность и показывают точность до 1,00 на усеченных текстах, доказывая, что они не просто выбирают «самый длинный ответ». Но как только дело доходит до реальных корпоративных данных, алгоритмы устранения предвзятости буксуют. Тот же Claude Sonnet 3.5 смог улучшить свои показатели лишь на 11,2 процентных пункта после внедрения сложных и дорогостоящих стратегий коррекции — это лишь временные костыли, а не системное решение.

Проблема в том, что имитация компетентности обходится дешевле, чем реальная точность. Пока компании доверяют внутренний аудит качества тем же моделям, которые они проверяют, риск инвестиций в «красивые фасады» остается критическим. На наш взгляд, текущая методология автоматизированной оценки — это карточный домик. Без внедрения независимых внешних контроллеров и жесткого перекрестного тестирования моделей вы рискуете выстроить бизнес-процессы на базе решений, которые просто научились имитировать «структурированный тон», пока их реальный КПД стремится к нулю. Вежливость не заменяет экспертизу, даже если она написана на Python.

ИИ в бизнесеБольшие языковые моделиИнвестиции в ИИБезопасность ИИAnthropic