Фреймворк (N,K) от Google: решение проблемы субъективности в ИИ

Индустрия оценки ИИ-моделей столкнулась с кризисом воспроизводимости, корни которого уходят в зыбкую почву человеческого мнения. Как справедливо отмечают исследователи Google Research Флип Корн и Крис Велти, пресловутая «истина» (ground truth) в датасетах слишком часто зависит от того, с какой ноги встал конкретный асессор. Когда разработчики игнорируют фактор человеческого несогласия, бенчмарки превращаются в лотерею. Если две команды тестируют одну и ту же модель, но получают разные цифры из-за разброса мнений разметчиков, метрика теряет смысл.

Стратегия «леса» против «дерева»

Исторически индустрия предпочитала экономить, выбирая стратегию «леса»: прогнать модель по тысячам примеров, но выделить на каждый лишь 1–5 оценщиков. Google Research в своей работе «Forest vs Tree: The (N,K) Trade-off in Reproducible ML Evaluation» доказывает, что этот стандарт безнадежно устарел.

Субъективность в таких тонких материях, как детекция токсичности или разжигания ненависти, невозможно «усреднить» случайным набором из трех человек. Это не математическая погрешность, а фундаментальное свойство данных, которое нужно учитывать архитектурно.

Фреймворк (N,K): математический подход к разметке

Для решения этой дилеммы Google представила фреймворк (N,K), позволяющий оптимизировать соотношение между количеством объектов (N) и числом асессоров на каждый объект (K). Проведя стресс-тест на симуляторе с бюджетами от 100 до 50 000 позиций, команда обнаружила, что привычные «золотые стандарты» разметки часто не выдерживают никакой статистической критики.

Вместо того чтобы гадать, сколько людей должны проверить реплику чат-бота, техлиды теперь могут использовать симулятор для точного расчета бюджета оценки без потери надежности. Математическое обоснование позволяет избежать ложных выводов о качестве работы алгоритмов. Подход (N,K) выявляет скрытые противоречия в данных, которые раньше списывались на ошибки модели.

Что это значит для бизнеса

Для бизнеса это означает переход от хаотичных трат на RLHF к математически обоснованному аудиту систем. Вместо бесконечного расширения штата асессоров ради призрачной «точности», компаниям предлагается внедрить статистически валидированные показатели. Такой подход гарантирует, что прогресс вашей модели — это реальное улучшение алгоритма, а не удачное стечение обстоятельств в предвзятой выборке разметчиков. Пора перестать верить, что три асессора могут выдать «правильный» вердикт по вопросам безопасности; воспроизводимость должна стать жестким стандартом, а не опцией для избранных.

Источник: Google Research Blog →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеБезопасность ИИИИ в бизнесеGoogle Research

Конец эпохи хаотичной разметки: как Google (N,K) меняет оценку ИИ-моделей