Google Ads сократил нужду в данных для LLM в 10 000 раз

Эпоха «прожарки» моделей гигантскими массивами данных ради минимального прироста качества подходит к логическому финалу. Традиционный подход к дообучению LLM для специфических задач — вроде модерации токсичного рекламного контента — всегда упирался в непомерные бюджеты и неповоротливость. Как отмечают Маркус Краузе и Нэнси Чанг из Google Ads, старая школа буксует на поворотах: стоит рекламной политике измениться, и вы попадаете в ловушку «сдвига концептов» (concept drift). Старый датасет летит в корзину, а компания сжигает ресурсы на повторную разметку и переобучение.

Хирургическая точность активного обучения

Команда Google Ads выкатила метод активного обучения, который превращает этот бесконечный цикл в точечную хирургию. В ходе экспериментов инженерам удалось сократить объем обучающей выборки со 100 000 примеров до жалких 500. При этом точность совпадения с оценками живых экспертов выросла на 65%. В боевых условиях на тяжелых моделях аппетиты к данным упали на четыре порядка.

Вместо того чтобы скармливать нейросети всё подряд, алгоритм кластеризует результаты и выявляет зоны «неуверенности» модели. На стол к человеку попадают только самые спорные и информативные кейсы, что превращает дообучение в итеративный и осознанный процесс.

Смена парадигмы: интеллект против грубой силы

Главный сдвиг здесь не в цифрах, а в смене парадигмы: индустрия наконец отказывается от философии «больше — значит лучше». Фокусируясь на границе принятия решений, где модель путается чаще всего, Google доказал, что качество можно удерживать на выборке, которая в 10 000 раз меньше стандартной.

Радикальное снижение совокупной стоимости владения (TCO) ИИ-инфраструктурой. Возможность адаптации систем к рынку и законодательству практически на лету. Отказ от услуг огромных армий разметчиков в пользу точечной экспертизы.

Эффективность и интеллект в управлении данными наконец-то начали вытеснять грубую вычислительную силу.

Источник: Google Research Blog →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеДообучение моделейИИ в бизнесеСнижение затратGoogle

Эффективность вместо массы: как Google Ads обучает LLM на крошечных датасетах