Проблема систем Text-to-SQL давно уперлась в «стеклянный потолок»: корпоративным заказчикам приходится выбирать между черепашьей скоростью точной генерации и быстрыми, но склонными к галлюцинациям результатами. Исследователи в препринте «PExA: Parallel Exploration Agent for Complex Text-to-SQL» предложили выход из этого тупика. Фреймворк PExA (Parallel Exploration Agent) отказывается от линейного перевода запроса в пользу логики покрытия тестами. Согласно данным бенчмарка Spider 2.0, такой подход позволил достичь точности исполнения в 70,2%, что выглядит как серьезная заявка на стабилизацию больших языковых моделей (LLM) при работе с перегруженными корпоративными базами данных.

Механика PExA избавляет модель от необходимости угадывать структуру сложных запросов с множественными объединениями (JOIN). Вместо этого агент дробит входящий запрос на атомарные SQL-компоненты — своего рода тест-кейсы — и запускает их параллельно. Как поясняют авторы работы, это позволяет собрать эмпирические данные из «живой» среды базы данных еще до того, как будет синтезирован финальный код. По сути, мы видим процесс приземления (grounding) генерации на реальные результаты тестов: ИИ сначала проверяет, как работают отдельные части механизма, и только потом собирает из них готовый агрегат.

Этот переход от последовательного написания кода к итеративному покрытию тестами делает ИИ-агентов пригодными для работы с реальными данными, где цена ошибки слишком высока. В отличие от прежних моделей, пытавшихся исправлять баги постфактум, архитектура PExA превентивно использует обратную связь от базы данных как основной драйвер логики. И хотя исследователи прочат технологии большое будущее в автономном анализе данных, разрыв между рекордными 70,2% на бенчмарке и надежностью в 99,9%, необходимой для автоматизированной финансовой отчетности, все еще остается дорогостоящей пропастью, которую индустрии только предстоит преодолеть.

ИИ-агентыБольшие языковые моделиАвтоматизацияИИ в бизнесеPExA