Alibaba в очередной раз пытается удивить мир, представив алгоритм Future-KL Influenced Policy Optimization (FIPO). Разработчики уверяют, что он способен удваивать «длину мыслительной цепочки» ИИ. В отличие от стандартных моделей, где каждый токен информации получает одинаковое значение, FIPO присваивает им разный вес в зависимости от того, насколько токен влияет на дальнейшие рассуждения. В Alibaba считают, что это позволяет ИИ глубже анализировать проблему и преодолевать некий «потолок», присущий традиционным подходам, вроде GRPO. Для сравнения: обычное обучение с подкреплением выдает лишь финальную оценку «правильно/неправильно», совершенно игнорируя важность промежуточных шагов. Именно этот фундаментальный недочёт, ограничивающий глубину рассуждений, и призван исправить FIPO.
Механика FIPO выглядит действительно изощрённее. Алгоритм моделирует, как изменение поведения после генерации одного токена повлияет на последующие выводы, просчитывая кумулятивное изменение вероятности. Токены, ведущие к продуктивной цепочке, получают больший вес, а тупиковые — меньший. Любопытно, что FIPO показывает результаты, сопоставимые с PPO, без необходимости в отдельной вспомогательной модели для оценки каждого токена. Это, к слову, избавляет от риска «утечки» внешних знаний, которая могла бы исказить оценку реальных достижений самого алгоритма. Таким образом, можно точнее понять, насколько именно новый подход отвечает за улучшения, а не посторонние факторы.
Но давайте не будем спешить с выводами. Пока вся демонстрация эффективности FIPO упирается исключительно в решение математических задач. Почему это важно для бизнеса: пока FIPO не докажет свою состоятельность за пределами математических головоломок, его практическая ценность остаётся под большим вопросом. Планируемый open-source релиз, конечно, позволит сторонним разработчикам проверить гипотезы и, возможно, адаптировать технологию. Или, что более вероятно, займёт их на несколько месяцев, пока они будут разбираться в новом фреймворке. До тех пор, пока алгоритм не покажет сопоставимую эффективность в областях, критичных для бизнеса — анализ текстов, генерация отчётов, поддержка клиентов — его влияние на конкурентную среду будет нулевым. Для CEO это означает одно: стоит запастись терпением, внимательно следить за тестированием алгоритма в реальных условиях и не принимать очередной академический эксперимент за реальный инструмент оптимизации бизнес-процессов.