Бенчмарк ThermoQA: проверка ИИ в инженерных расчетах

Инженерный интеллект окончательно перерастает стадию простого поиска данных. Свежая публикация на arXiv представляет ThermoQA — специализированный бенчмарк, состоящий из 293 задач по термодинамике. Его цель — отделить реальные физические расчеты от банальной языковой мимикрии. Исследователи разделили проверку на три уровня сложности: от поиска свойств веществ до анализа полных циклов и системных компонентов. В отличие от стандартных тестов, где ИИ может «выехать» на зазубренных текстах, ThermoQA использует библиотеку CoolProp 7.2.0 для программной верификации ответов. Чтобы получить высокий балл при работе с водой, хладагентом R-134a или воздухом с переменной теплоемкостью, модели недостаточно просто угадать ответ — ей нужно продемонстрировать строгое следование физическим законам.

Результаты зафиксировали колоссальный разрыв между лидерами рынка и догоняющими. Согласно отчету, рейтинг возглавила модель Claude Opus 4.6 с точностью 94,1%, за ней вплотную следуют GPT-5.4 (93,1%) и Gemini 3.1 Pro (92,5%). Судя по всему, эти тяжеловесы действительно освоили глубокие физические рассуждения. На другом полюсе находятся малые модели (такие как MiniMax), которые демонстрируют катастрофическое падение результативности — на 32,5 процентных пункта — при переходе от справочных данных к анализу термодинамических циклов. Как отметили авторы работы, задачи по сверхкритической воде и газотурбинным установкам комбинированного цикла стали естественными фильтрами: разброс производительности между сильными и слабыми игроками здесь достигает внушительных 60 пунктов.

Для руководителей, принимающих решения в индустрии, это плохие новости: знание справочника материалов больше не является индикатором пригодности ИИ для промышленного применения. Измерение консистентности рассуждений (с отклонением сигма от 0,1% до 2,5%) подтверждает неприятный факт: модель может знать температуру кипения фреона, но оказаться абсолютно беспомощной при проектировании системы охлаждения. Способность рассчитывать циклы требует логики, которую малые модели утрачивают под давлением высокой сложности.

Промышленное внедрение ИИ требует математической точности, а не «правдоподобно звучащих» галлюцинаций. На наш взгляд, результаты ThermoQA — это прямой сигнал: при интеграции больших языковых моделей (LLM) в инженерные процессы стоит игнорировать любые решения, не подтвердившие способность к многоэтапному системному анализу. Эпоха доверия к нейросетям за их умение цитировать технические характеристики закончена. Ваша стратегия закупок должна сместиться в сторону моделей с доказанной программной верификацией.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБольшие языковые моделиИИ в бизнесеClaude

Эпоха цифровых галлюцинаций в инженерии окончена: как ThermoQA тестирует ИИ