Тест BEAVER: почему ИИ проваливает Text-to-SQL в бизнесе

Высокие баллы, которые большие языковые модели (LLM) демонстрируют в стандартных тестах вроде Spider или BIRD — не более чем опасная иллюзия для бизнеса. Пока GPT-4o щеголяет точностью в 82% на стерильных наборах данных, столкновение с реальным корпоративным хранилищем превращается для нее в катастрофу. Исследование команд из MIT, Intel и Гарварда, в котором принял участие легендарный Майкл Стоунбрейкер, подтверждает: индустриальные стандарты перевода текста в SQL-запросы безнадежно оторваны от жизни. Публичные бенчмарки строятся на маленьких, вылизанных схемах, тогда как реальные хранилища данных (Data Warehouses) — это архитектурный хаос из сотен таблиц с криптическими названиями и неявными связями, которые никто не удосужился задокументировать.

Чтобы вскрыть этот вакуум производительности, группа под руководством Питера Бэйла Чена представила BEAVER — первый бенчмарк, собранный на базе закрытых корпоративных систем. Это не академическая песочница: 9128 пар «вопрос-SQL» были извлечены из реальных логов запросов в 19 различных доменах. Методология BEAVER наглядно демонстрирует, что нейросети спотыкаются не на синтаксисе SQL, а на пяти критических узлах: поиске нужных таблиц, определении ключей объединения (join keys), сопоставлении колонок, извлечении контекста и декомпозиции запроса. Когда топовые агентские фреймворки на базе GPT-4 прогнали через BEAVER, их точность рухнула до позорных 10,8%.

Этот коллапс обнажает точки, где ИИ начинает галлюцинировать системно. Даже когда исследователи давали моделям «подсказки оракула» — идеальные аннотации для всех промежуточных этапов — точность не поднималась выше 30,1%. Это означает, что проблема не в нехватке памяти, а в глубоком непонимании сложной бизнес-логики и продвинутых аналитических функций SQL. Как отмечают в MIT и Intel, текущие метрики «всё или ничего» бесполезны для инженеров. BEAVER же позволяет детально разобрать, почему упал запрос: из-за того, что модель не нашла ключ, или из-за отсутствия доменного контекста для специфического термина.

Для директоров по данным (CDO) и руководителей R&D это прямой сигнал: путь к автономной аналитике гораздо длиннее, чем обещают маркетинговые брошюры. Провал моделей в 90% случаев на реальных данных означает, что любые «обертки» над стандартными API сегодня непригодны для критически важных задач. Чтобы сдвинуться с мертвой точки, компаниям нужно перестать гоняться за размером контекстного окна и заняться специализированными архитектурами, способными распутывать недокументированные схемы. Пока ИИ не закроет этот 70-процентный разрыв в точности, естественный интерфейс к корпоративным данным останется лабораторным экспериментом, а не рабочим инструментом.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ в бизнесеПроизводительностьЦифровая трансформацияMIT