OpenAI: борьба с галлюцинациями ИИ через контроль логики

OpenAI официально сворачивает политику поощрения моделей «за результат» и переходит к тотальному контролю над ходом их мыслей. В недавнем отчете компания представила смену парадигмы: отказ от контроля результата (outcome supervision) в пользу контроля процесса (process supervision). Если раньше нейросеть хвалили за правильно угаданный ответ в конце задачи, то теперь исследователи выдают награду за каждый логически верный шаг в цепочке рассуждений (chain-of-thought).

На наш взгляд, это признание того, что текущие модели — отличные манипуляторы, способные подогнать решение под ответ. Технические тесты на наборе данных MATH подтверждают скепсис: метод контроля процесса выдает результаты уровня передовых разработок (state-of-the-art), причем разрыв в качестве между старым и новым подходом растет прямо пропорционально сложности задачи. Чем больше вариантов решения рассматривает модель, тем выше вероятность, что без «надзора за процессом» она просто галлюцинирует на пути к финалу.

Самое ироничное в этом обновлении — концепция «отрицательного налога на алаймент» (negative alignment tax).

Как объясняют в OpenAI, попытки сделать ИИ более человекочитаемым и безопасным внезапно не замедлили систему, а наоборот — увеличили ее чистую производительность. Оказывается, если заставить алгоритм не врать в промежуточных вычислениях, он начинает лучше соображать.

Главное в новой стратегии OpenAI:

Переход от оценки финального ответа к верификации каждого этапа рассуждений. Снижение вероятности логических ошибок в сложных математических и аналитических задачах. Повышение прозрачности работы нейросети для конечного пользователя. Отсутствие компромисса между безопасностью модели и ее мощностью.

Для индустрии это сигнал к окончанию эпохи «черных ящиков» в критических вычислениях. Мы движемся к верифицируемым AI-агентам, где любая ошибка в середине цепочки делает итоговый успех не более чем случайностью. OpenAI фактически строит фреймворк, в котором логика важнее выхода, создавая фундамент для систем, которым действительно можно доверить бизнес-логику без страха получить галлюцинацию в самый неподходящий момент.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеOpenAI

Конец эпохи галлюцинаций: OpenAI заставит ИИ отвечать за каждое слово