Gemini Deep Think взяла золото на IMO: прорыв в логике ИИ

Эпоха галлюцинирующих чат-ботов уступает место эре верифицируемых логических агентов. На Международной математической олимпиаде (IMO) — главном полигоне для юных гениев с 1959 года — продвинутая версия Gemini с системой Deep Think официально взяла золото. Это не просто косметическое улучшение прошлогоднего «серебряного» результата, а фундаментальный сдвиг в том, как ИИ справляется с глубокими рассуждениями. Решив пять из шести сложнейших задач по алгебре, комбинаторике, геометрии и теории чисел, модель набрала 35 баллов. В мире, где лишь 8% лучших человеческих умов удостаиваются золота, Gemini фактически вошла в элитарный клуб мировых талантов.

От костылей к сквозным рассуждениям

Еще год назад для серебряного стандарта Google DeepMind требовался «зоопарк» из разрозненных инструментов. На IMO-2024 связка AlphaProof и AlphaGeometry 2 полагалась на экспертов, которые переводили условия задач с человеческого на формальные языки вроде Lean. Процесс был запредельно дорогим и медленным: на поиск решения уходило до трех дней. Сегодняшний Deep Think работает иначе — это унифицированный интеллект. Модель прошла путь от условия до доказательства полностью в среде естественного языка, уложившись в стандартный лимит 4,5 часа. Этот переход доказывает: общие рассуждения (General Reasoning) созрели настолько, что специализированные «костыли» в виде ручного перевода бизнес-задач в код становятся анахронизмом.

В этом году Gemini работала по принципу end-to-end, выдавая строгие доказательства напрямую из официальных условий задач.

Прорыв обеспечил режим Deep Think. В отличие от стандартных моделей, идущих по одной линейной цепочке мыслей, эта система использует параллельный поиск. Как поясняют в Google DeepMind, архитектура позволяет одновременно проверять и комбинировать несколько гипотез, прежде чем выдать финал. Это до боли напоминает работу живого исследователя: черновики, проверка догадок и отсев тупиковых ветвей. Чтобы добиться такой «человечности», команду Gemini дрессировали с помощью новых техник обучения с подкреплением на массивах теорем и выверенных математических решений.

Архитектура проверяемой логики

Для бизнеса и руководителей R&D ценность здесь не в самой математике, а в ее «четырех столпах»: алгебре, комбинаторике, геометрии и теории чисел. Это фундамент современного инжиниринга и криптографии. Способность Gemini сохранять строгость доказательства в рамках естественного языка снимает главный барьер для внедрения ИИ в критических доменах — тотальную ненадежность. Мы видим переход от вероятностного угадывания к проверяемой логике. Это означает, что R&D-департаментам пора готовиться к инструментам, которые не просто «предлагают» текст или код, но способны автономно верифицировать структурную целостность своих выводов.

ИИ превращается из креативного ассистента в логического аудитора. Конечно, между олимпиадной задачей и оригинальным научным открытием всё еще лежит пропасть: на IMO правила заданы заранее, а в реальной науке их нужно формулировать самому. Однако для энтерпрайза сигнал ясен: пришло время «параллельного мышления». Если алгоритм за четыре часа щелкает комбинаторику уровня IMO, используя обычный язык, он с той же степенью верифицируемой точности способен оптимизировать сложнейшие логистические цепочки или инженерные процессы вашего бизнеса.

Источник: Google DeepMind News →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБольшие языковые моделиИИ-агентыGoogle DeepMind

Золото Gemini Deep Think: почему эра галлюцинаций ИИ подходит к концу

От костылей к сквозным рассуждениям

Архитектура проверяемой логики