OpenAI GPT-5.5 и GeneBench: новый этап в автономных R&D

Эра милых чат-ботов, способных лишь поддерживать светскую беседу, официально заканчивается. Судя по отчету OpenAI о запуске GeneBench, компания Сэма Альтмана окончательно смещает фокус с генерации текстов на многоэтапный логический вывод в геномике и количественной биологии. Это не просто обновление, а фундаментальный архитектурный сдвиг. Как объясняют Джереми Ли и Эндрю Хо из OpenAI, старые бенчмарки тестировали нейросети на уровне простых поручений, проверяя отдельные шаги анализа. GeneBench же требует от модели полноценной имитации работы биоинформатика: от очистки сырых данных до выявления селективного смещения и подбора статистических моделей. Для бизнеса это четкий сигнал: OpenAI больше не оптимизирует «помощников», она создает агентов для вытеснения дорогостоящего линейного персонала в отделах исследований и разработок.

Данные исследования GeneBench вскрывают ту самую пропасть, которая пока мешает повсеместному внедрению ИИ в сложные B2B-процессы. GPT-5.5 в режиме продвинутых рассуждений показала точность в 25%, а версия Pro добралась до 33,2%. Для сравнения: Gemini 3.1 Pro от Google плетется в хвосте с результатом 11,2%. Однако радоваться рано — в 60,2% задач точность все еще не превышает 20% даже при многократных попытках. Проблема не в нехватке знаний, а в дефиците элементарной логики. Исследователи отмечают характерный баг: модель видит локальную ошибку в данных, но не понимает, как она влияет на последующие этапы анализа. Она замечает «грязные» данные, но продолжает упрямо идти по неверному пути. Этот разрыв между диагностикой и действием — последний барьер на пути к полной автоматизации научных отделов.

OpenAI методично превращает GPT-5.5 в инструмент для принятия трансляционных решений, а не в генератор картинок. Фреймворк GeneBench включает 103 теста в 10 доменах, проверяя способность агента продираться сквозь ошибки измерений к единственно верному ответу. Каждая такая задача — это цепочка развилок, где одна неверная интерпретация множит на ноль весь последующий анализ. Да, текущая надежность системы пока оставляет желать лучшего. Но если посмотреть на динамику — скачок с 10,8% у GPT-5.2 Pro до 33,2% у GPT-5.5 Pro выглядит как агрессивный захват территории здравого смысла. Как только семейство GPT научится не просто находить ошибку в данных, но и полностью перестраивать свою статистическую стратегию «на лету», экономическое обоснование содержания огромных команд по очистке данных в фармгигантах станет, мягко говоря, сомнительным.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыАвтоматизацияИИ в здравоохраненииOpenAI

GPT-5.5 против GeneBench: OpenAI делает ставку на автономных ИИ-ученых