CriticGPT: как OpenAI борется с галлюцинациями кода

OpenAI представила CriticGPT — специализированную версию GPT-4, чья единственная задача заключается в поиске багов в коде, который пишет ChatGPT. Проблема, которую решает этот инструмент, куда глубже банальной отладки. Традиционный метод обучения с подкреплением на основе отзывов людей (RLHF) окончательно уперся в потолок человеческой компетентности. Когда нейросеть начинает рассуждать на уровне senior-разработчика, обычный разметчик просто перестает замечать тонкие, «галлюцинаторные» ошибки в логике. Мы столкнулись с ситуацией, когда ученик стал умнее учителей, ответственных за его безопасность.

Согласно отчету команды Сэма Альтмана, разметчики, вооруженные CriticGPT, находят изъяны в коде на 63% эффективнее, чем их «невооруженные» коллеги. Это не просто улучшение интерфейса, а вынужденная мера. Модель натаскивали на специально созданных примерах, где живые эксперты вносили в код искусственные ошибки, а CriticGPT училась их подсвечивать. В OpenAI признают: система далека от идеала и может сама плодить ложные срабатывания, однако она уже интегрируется в основной конвейер подготовки моделей.

Главное в переходе на ИИ-верификацию

Человеческий контроль за LLM достиг предела возможностей. CriticGPT повышает точность проверки кода на 63%. Модель обучалась на искусственно внедренных багах (fault injection). Формируется новая иерархия: человек модерирует спор двух нейросетей.

Это знаменует фундаментальный переход к методологии AI-assisted alignment — «выравниванию ИИ с помощью ИИ». По мере усложнения логики моделей прямое человеческое наблюдение становится физически невозможным. На наш взгляд, это выглядит как признание поражения классического RLHF: теперь человек в этой цепочке выполняет роль скорее арбитра, выбирающего между вариантами критики, предложенными другой машиной.

Для технических директоров и стратегов внедрение подобных «надсмотрщиков» — единственный способ масштабировать надежность систем. В условиях, когда цена ошибки в логике корпоративного ПО слишком высока, многослойная верификация, где одна модель проверяет другую, неизбежно станет стандартом индустрии. Прямой надзор уходит в прошлое, уступая место иерархическому контролю, где человек лишь модерирует конфликт двух нейросетей.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеOpenAI

Эра надсмотрщиков: OpenAI представила CriticGPT для ловли багов за ChatGPT