Стохастический бэктрекинг: новая логика ИИ от Qualcomm

Масштабирование вычислений на этапе инференса (test-time scaling) стало новым полем боя за качество рассуждений LLM. Однако стандартные методы, вроде поиска по границам (frontier-only search) под присмотром процессных моделей наград (PRM), страдают от «куриной слепоты». Как отмечают исследователи Qualcomm AI Research Дао Тран и Дук Ань Ле, PRM часто ошибаются или выдают неоднозначные оценки на промежуточных этапах. В итоге модель преждевременно отсекает верные ветки рассуждений. Это «преждевременное обязательство» (premature commitment) приводит к коллапсу разнообразия: одна случайная низкая оценка — и правильное решение навсегда отправляется в корзину, заставляя систему топтаться в тупиковых сценариях.

Вместо того чтобы плодить бесконечные итерации в надежде на чудо, Qualcomm предлагает внедрить стохастический бэктрекинг над постоянным пулом исторических префиксов. Суть метода проста и изящна: система перестает необратимо удалять «плохие» пути, сохраняя все сгенерированные состояния для возможного возврата. Чтобы этот процесс не превратился в финансовую катастрофу, команда внедрила механизмы Subpool Selection и Power Backtrack Sequential Monte Carlo. Эти инструменты используют случайные выборки и скорректированные веса, позволяя модели возвращаться к недооцененным ранее вариантам, которые были заблокированы более «уверенными» на бумаге, но ошибочными кандидатами.

По оценке Qualcomm, такой подход демонстрирует более высокую точность на каждый затраченный токен по сравнению с традиционными методами на базе PRM.

Мы видим важный концептуальный сдвиг: вместо грубой силы и бесконечного сжигания GPU-часов на повторение одних и тех же ошибок, инженерам предлагают управлять деревом поиска как гибким архивом, а не дорогой с односторонним движением. Для автономных систем и инструментов написания кода, где единственная логическая ошибка в цепочке обнуляет весь результат, это критически важный предохранитель.

Для бизнеса это четкий сигнал:

Эпоха «чем больше модель, тем лучше» сменяется эпохой умного поиска на уровне инференса. Если ваша AI-стратегия до сих пор строится на простом переборе ответов, вы переплачиваете за посредственную логику. Внедрение бэктрекинга с сохранением пула гипотез позволяет радикально повысить надежность рассуждений при заметном снижении операционных расходов.

Хватит позволять вашим моделям выбрасывать хорошие идеи только потому, что они не вписались в сиюминутный прогноз вероятности.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ в бизнесеПроизводительностьСнижение затратQualcomm

Второй шанс для идей: как Qualcomm учит нейросети исправлять свои ошибки