CrowdStrike LBM: Анализ байтов без декомпиляторов

Исследователи CrowdStrike представили Large Byte Model (LBM) — первую модель, которая работает с «железом» напрямую. Вместо того чтобы по старинке скармливать нейросетям ассемблерный код через несовершенные инструменты преобразования, LBM анализирует сырое байтовое представление исполняемых файлов. Это не просто обновление ПО, а попытка исключить из цепочки анализа промежуточное звено в виде декомпиляторов, которые часто допускают ошибки интерпретации и теряют важный контекст.

Технический сдвиг обеспечен специализированным байтовым токенизатором. Он решает главную проблему классических больших языковых моделей — узкое контекстное окно, в которое бинарные файлы просто не помещаются без потери смысла. Согласно отчету CrowdStrike, модель демонстрирует точность 98% в классификации архитектур и 69% в определении семейств вредоносного ПО. Но важнее другое: LBM способна отвечать на сложные вопросы о поведении файла — например, о попытках инъекции процессов — на естественном языке, заменяя многочасовую работу эксперта.

Главное в технологии LBM:

Работа с сырыми данными: Модель анализирует бинарный код напрямую, минуя стадию декомпиляции. Высокая точность: 98% при определении архитектуры процессора и 69% при идентификации типа угрозы. Естественно-языковой интерфейс: Возможность «допроса» файла о его функциях и вредоносной активности. Масштабируемость: Автоматизация разбора тысяч образцов, что недоступно при ручном анализе.

«В условиях, когда атакующие используют автоматизированные фреймворки для создания зловредов, ручной разбор кода становится непозволительной роскошью. LBM убирает трудности перевода между бинарными данными и логикой ИИ».

На наш взгляд, здесь интересна именно вертикальная автономия системы. Исключение декомпилятора из цикла не просто экономит бюджет на найм дорогостоящих аналитиков, но и снижает риск пропустить атаку из-за дефектов трансляции кода. Это критически важно для защиты инфраструктуры, где цена ошибки слишком высока. Мы наблюдаем переход от ИИ-ассистентов, умеющих только подсвечивать синтаксис, к полноценным цифровым криминалистам, работающим «в нативе». Будущее кибербезопасности теперь выглядит не как чтение бесконечных листингов ассемблера, а как прямой диалог с сырыми данными.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

КибербезопасностьБольшие языковые моделиАвтоматизацияCrowdStrike

В обход декомпилятора: CrowdStrike научила ИИ понимать сырой бинарный код