Anthropic обошла OpenAI в FrontierMath: Claude лидирует

Эпоха, когда OpenAI считалась безальтернативным лидером в «тяжелой атлетике» для разума, официально завершена. Свежий отчет Epoch AI фиксирует тектонический сдвиг: Claude Fable 5 от Anthropic не просто обошла конкурентов, а создала двузначный разрыв там, где каждый процент дается кровью инженеров. На самом беспощадном математическом бенчмарке FrontierMath модель показала 87% точности на первых трех уровнях и феноменальные 88% на элитарном Tier 4.

Прыжок с 10% до 88% менее чем за год — это не плановое обновление, а радикальная перестройка архитектуры логического вывода.

Чтобы осознать масштаб прогресса, достаточно взглянуть в зеркало заднего вида: еще в начале 2026 года предшественник в лице Opus 4.5 беспомощно барахтался на отметке ниже 10% в задачах четвертого тира. Пока рынок гадал, не упрутся ли большие языковые модели в потолок сложности, Anthropic этот потолок просто демонтировала.

На этом фоне GPT-5.5 от OpenAI выглядит неожиданно бледно. С результатом около 75% на Tier 4, детище Сэма Альтмана отстает на 13 пунктов. В мире FrontierMath, где используется стандартный скаффолдинг Epoch AI для исключения манипуляций и «маркетинговой полировки», такая дистанция — это не погрешность, а пропасть. Это разница между автономным инжинирингом, которому можно доверять, и системой, требующей постоянного присмотра. Пока OpenAI готовит GPT-5.6, лидерство в секторе R&D и сложного финансового моделирования де-факто переходит к Anthropic.

Главное для бизнеса:

Превосходство в верифицируемых вычислениях делает Claude приоритетным выбором для задач с высокой ценой ошибки.

Модели Claude Mythos и OpenAI совместно решили застарелую задачу Эрдёша, подтвердив переход от теории к реальным научным прорывам.

В сольной гонке на выносливость логики Anthropic задает темп, заставляя OpenAI примерить непривычную роль догоняющего.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиПроизводительностьAnthropicOpenAIИИ в бизнесе

Математический триумф Anthropic: почему Claude Fable 5 сильнее новой GPT