Anthropic Claude Mythos: угрозы кибербезопасности и ИИ-взлом

Команда Frontier Red Team в Anthropic зафиксировала качественный скачок: Claude Mythos Preview перестал быть просто «умным советчиком» и превратился в полноценный инструмент для разработки функциональных эксплойтов. В отличие от моделей предыдущих поколений, Mythos самостоятельно находит сложные уязвимости, конвертирует их в примитивы и, что самое важное, связывает эти фрагменты в законченные цепочки атак. Именно этот переход от теории к боевой практике заставил компанию запустить Project Glasswing — стратегию максимально контролируемого доступа, фактически заменившую публичный релиз.

The Capability Ladder and ExploitBench

Чтобы измерить «ударную мощь» ИИ без лишних эпитетов, Anthropic вместе с исследователями из Университета Карнеги — Меллона и Bugcrowd задействовали бенчмарк ExploitBench. Его ключевое отличие от старых тестов в том, что он не принимает простые доказательства концепции (PoC). Если раньше модели было достаточно подтвердить достижимость бага, то ExploitBench требует создания полноценных примитивов для получения произвольного выполнения кода (ACE). Как показала практика, Mythos Preview успешно справляется с обоими этапами: от препарирования уязвимости до сборки финальной цепочки.

Mythos Preview способен как превращать уязвимости в примитивы эксплойтов, так и объединять их в полноценные цепочки атак.

В рамках ExploitBench модель должна была пройти через 16 программно верифицируемых уровней сложности. Результаты подтверждают: Mythos умеет выстраивать логику атаки так, чтобы шаг за шагом расширять свои возможности внутри системы, что раньше считалось исключительно человеческой прерогативой.

Quantitative Dominance in Cyber Operations

Доминирование Mythos не ограничивается специфическими задачами для движка V8. Модель протестировали в ExploitGym и обновленной версии SCONE-bench (совместный проект MATS и программы Anthropic Fellows по анализу смарт-контрактов). Во всех трех случаях Mythos Preview обошел конкурентов с серьезным отрывом. Мы наблюдаем системное снижение порога входа в кибервойны: автоматизация пути от поиска бага до полного контроля над процессом радикально сокращает время и уровень экспертизы, необходимые для атаки.

Уровень знаний, необходимых для разработки эксплойтов, неизбежно упадет, как только возможности уровня Mythos станут общедоступными.

Тем не менее, у модели остаются границы — она все еще склонна к галлюцинациям в коде при усложнении архитектуры. Однако Project Glasswing четко обозначает новую реальность: когда ИИ способен самостоятельно перебросить мост от ошибки к взлому, экономика защиты меняется не в пользу бизнеса. Защита инфраструктуры становится на порядок дороже, когда атакующий может штамповать структурированные атаки в промышленном масштабе. Перед техническими лидерами встает вопрос: успеют ли защитники внедрить автоматизацию такого же уровня, или нынешняя траектория окончательно отдаст преимущество автоматизированному нападению.

Источник: Anthropic Research →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИКибербезопасностьБольшие языковые моделиИИ-агентыAnthropic

Claude Mythos: как новая модель Anthropic автоматизирует кибератаки

The Capability Ladder and ExploitBench

Quantitative Dominance in Cyber Operations