Архитектурные войны в AI официально перетекли из плоскости «у кого больше видеокарт» в сухую и беспощадную математику. Пока скептики ворчали на прожорливость трансформеров и пытались реанимировать старые добрые рекуррентные сети (RNN), конференция ICLR 2026 расставила всё по местам. Как выяснилось, мы выбрали архитектуру внимания (attention) не из-за моды, а потому, что это самый короткий путь к истине, доказанный теоремами.
Работа немецких ученых «Трансформеры лаконичны по природе», забравшая статус Outstanding Paper, переводит этот спор в разряд законченных. Если очистить текст от академического налета, вывод прост: трансформеры экспоненциально компактнее любых классических моделей или логических формул при описании сложных зависимостей. Там, где RNN или жестким алгоритмам требуются километры кода и миллиарды связей, трансформер справляется «парой фраз». За эту феноменальную лаконичность мы платим прозрачностью: чем плотнее упакован смысл, тем сложнее превратить «черный ящик» в понятный комплаенс-отчет. Однако для бизнеса математика сулит радикальное снижение совокупной стоимости владения (TCO) в долгосроке: при одинаковой сложности задач трансформер всегда потребует меньше параметров, чем любая альтернатива.
Впрочем, пока теоретики воспевают изящество формул, практики из Red Hat AI, ETH Zürich и Yandex Research приземляют индустрию в вопросах реальной экономии. Все ждали «бесплатного» ускорения через 4-битное квантование (FP4), которое так активно продвигала NVIDIA, но маркетинговые лозунги разбились о деградацию качества. Исследования показали, что стандартные методы в FP4 работают ощутимо хуже прогнозов. Ситуацию спасает алгоритм MR-GPTQ, предложенный в том числе командой Яндекса: разработчики научились адаптировать сжатие под специфику железа нового поколения, возвращая точность в строй. Это классический пример того, что просто купить новые чипы недостаточно — чтобы реально экономить на инфраструктуре, приходится переписывать математику запуска.
На этом фоне попытки Apple заскочить в уходящий поезд RNN выглядят как героическое строительство сверхзвукового паровоза в эпоху реактивной авиации. Apple представила метод параллелизации вычислений в сетях типа LSTM и GRU, разогнав их в 600 раз и обучив модель на 7 миллиардов параметров. Это впечатляющая попытка спасти инвестиции в старые подходы ради экономии памяти на устройствах, но против доказанной «лаконичности» трансформеров это лишь паллиативная помощь.
Мы входим в фазу зрелого скепсиса. Для CEO это прямой сигнал: любые заигрывания с альтернативными архитектурами ради мифической экономии сегодня — это тяжелый технологический долг завтра. Главным барьером остается разрыв между изяществом теории и реальностью облачных счетов. До тех пор, пока внедрение методов вроде MR-GPTQ не станет стандартом, расходы на инфраструктуру будут расти быстрее эффективности моделей. Будущее за интеграцией компактных архитектур с инструментами формальной верификации (например, Lean 4), которые превратят непредсказуемый «черный ящик» в надежный инструмент для критических бизнес-процессов.