Ваш оплаченный GPU-стек может прямо сейчас генерировать фишинг для хакеров или майнить крипту сторонним умельцам. Как следует из свежих отчетов по кибербезопасности, эндпоинты Ollama и llama.cpp, неосмотрительно оставленные на порту 11434 без авторизации, превратились в готовую инфраструктуру для «кражи инференса». Мониторинг сети ловушек-ханипотов показал: только за один майский месяц зафиксировано более 75 300 запросов к таким серверам. Атакующие используют стандартные ручки вроде /api/tags для инвентаризации моделей и /v1/chat/completions для бесплатной генерации контента, буквально выкачивая вычислительные ресурсы из бюджета компаний.
Однако убытки от лишних нулей в счетах за облака — это лишь фасад. Исследователи фиксируют качественный сдвиг в тактике: использование LLM-инференса как вектора для SSRF-атак. Через встроенные функции работы с URL хакеры обращаются к внутреннему метадата-сервису 169.254.169.254, что позволяет вытянуть временные IAM-ключи. В итоге «игрушка на сервере», которую разработчики бросили после тестов, становится прямым путем к компрометации всей облачной инфраструктуры организации в AWS, GCP или Azure.
Инструментарий злоумышленников уже поставлен на поток: более 50 тысяч запросов в логах пришлись на официальный Go-клиент Ollama, работающий в режиме массового зонда. Параллельно сканируются инструменты автоматизации вроде n8n, которые часто соседствуют с локальными нейросетями. Если раньше открытый порт означал лишь потерю GPU-часов, то теперь это риск полной утечки доступов к корпоративным данным.
Бизнесу обещали легкое внедрение AI за пару кликов, а получили дыру, через которую утекают и деньги на электричество, и ключи от «сейфа». Пора заканчивать с этапом безответственного прототипирования и переходить к аудиту AI-стека. Публикация эндпоинтов без жесткой авторизации в 2024 году — это не ошибка, а осознанное спонсирование киберпреступности за счет акционеров.