Пока индустрия восторгается тем, как бодро ChatGPT пишет шаблонные скрипты, Mistral AI тихой сапой выводит программирование в высшую лигу, где цена ошибки измеряется не временем на отладку, а миллионными убытками. Компания выпустила Leanstral 1.5 под лицензией Apache 2.0 — специализированную модель для языка Lean 4, которая занимается не «сочинительством», а формальной верификацией. Это фундаментальный сдвиг: переход от вероятностного угадывания кода к математически доказанной корректности.
Цифры из отчета Mistral бьют наотмашь по скептикам. Модель выдала стопроцентный результат на бенчмарке miniF2F и раскатала PutnamBench, решив 587 из 672 задач. Но куда интереснее показатели уровня докторантуры: 87% на FATE-H и 34% на FATE-X в области абстрактной алгебры. Это уже не просто поиск паттернов в Stack Overflow, а работа с логикой на уровне теории групп и колец, которая не под силу большинству рядовых разработчиков.
Для бизнеса в критических секторах — от финтеха до промышленного ПО — это означает конец эпохи «веры на слово» искусственному интеллекту. Практическая ценность Leanstral 1.5 подтверждается реальными кейсами:
Прочесав 57 репозиториев с открытым исходным кодом, модель нашла пять критических багов, которые просмотрели и люди, и стандартные тесты. В частности, была обнаружена уязвимость переполнения в Rust-библиотеке varinteger. Вместо того чтобы просто генерировать горы нового кода, инструмент Mistral выявляет логические провалы в уже существующих архитектурах. Код рассматривается как верифицируемый математический объект.
Стратегия Mistral очевидна: универсальные LLM упираются в потолок своей «галлюциногенности», и для серьезной инфраструктуры этого недостаточно. Будущее за гибридными системами, где нейросеть обучена на жестких правилах формальных языков вроде Lean 4.
Главное в архитектуре Leanstral 1.5
В мире, где один логический сбой в смарт-контракте или системе управления может стать катастрофой, способность модели доказать, что её код не упадет, становится важнее, чем скорость генерации текста. Мы наблюдаем рождение стандарта Hard Trust, где математическая строгость наконец-то заменяет слепой хайп вокруг генеративного ИИ.