Нас кормят обещаниями о золотых горах автоматизации благодаря AI-агентам, но реальность оказалась куда прозаичнее. Когда правила игры меняются, эти «умники» пасуют. Бенчмарк ARC-AGI-3 от Николаса Шолле безжалостно бьёт по самонадеянности разработчиков. В отличие от прежних тестов, где AI решал задачи с чётко заданными параметрами, ARC-AGI-3 помещает агентов в интерактивные среды с неизвестной механикой и целями. Человек справляется со 100% таких задач. Нынешние AI-агенты, включая передовые модели вроде Gemini 3.1, демонстрируют результативность менее чем в 1% попыток. Это прямое указание на их фундаментальные слабости: они не умеют самостоятельно исследовать, быстро обучаться на ходу и гибко планировать — качества, без которых ваш бизнес долго не протянет.
ARC-AGI-3 — это холодный душ для инвесторов, вложившихся в AI-агентов, способных лишь решать заученные задачи. Бенчмарк проверяет то, что пока остаётся прерогативой человеческого интеллекта: способность ориентироваться в неизвестности, мгновенно обучаться и оперативно менять стратегию. Нынешние AI-агенты оказываются беспомощными перед лицом реальной непредсказуемости. ARC-AGI-3 вполне может стать новым отраслевым стандартом, смещая фокус с оценки способности решать заученные задачки на реальную производительность в динамичных условиях. Призовой фонд в $2 миллиона намекает, что борьба за лидерборд ARC-AGI-3 будет жаркой, ведь победят те, кто сможет преодолеть этот критический разрыв.
Почему это важно для вас? Текущие AI-инструменты, построенные на базе существующих агентов, с высокой вероятностью окажутся бесполезными для большинства реальных бизнес-задач, требующих настоящей гибкости. Стоит пересмотреть инвестиционные стратегии в AI. Вместо того чтобы «обучать» алгоритмы решать вчерашние проблемы, фокусируйтесь на системах, способных к адаптации в реальном времени. Настоящая трансформация бизнеса с помощью AI начнется лишь тогда, когда ваши цифровые помощники научатся действовать с сопоставимой или большей эффективностью, чем человек, в условиях полной неопределенности.