OpenAI: риски дообучения моделей с открытыми весами

OpenAI представила методику Malicious Fine-Tuning (MFT) для оценки катастрофических рисков ИИ. Исследователи проверили устойчивость моделей к созданию биоугроз и проведению кибератак. Тестирование показало, что дообучение может быстро превратить базовые алгоритмы в опасные инструменты. Результаты могут стать обоснованием для ограничения доступа к весам фронтирных моделей.

OpenAI переводит дискуссию об опенсорсе из области идеологических споров в плоскость измеримых катастрофических рисков. В своем последнем отчете команда Эрика Карпати и Оливии Уоткинс представила методику Malicious Fine-Tuning (MFT), призванную оценить сценарии «худшего случая» при публикации весов фронтирных моделей. Исследователи не просто теоретизируют, а целенаправленно пытаются извлечь из модели gpt-oss опасные компетенции в двух критических областях: биологии и кибербезопасности.

Для тестирования биоугроз OpenAI использовала среду обучения с подкреплением (RL), оснащенную доступом к вебу, где модель обучалась генерации планов по созданию биологических рисков. В киберсфере модель поместили в агентную среду кодинга, заставляя ее решать задачи захвата флага (CTF). Этот подход наглядно демонстрирует, насколько быстро базовые алгоритмы могут быть «перепрошиты» под вредоносные нужды при наличии целенаправленного дообучения.

«Если методология MFT станет отраслевым стандартом, разрыв между "безопасными" закрытыми моделями и доступными open-weight альтернативами превратится в непреодолую пропасть».

Результаты исследования выглядят как попытка подвести технический фундамент под сохранение закрытости проприетарных систем. Несмотря на то, что MFT-версия gpt-oss показала лишь незначительный рост навыков и не достигла критического уровня риска — даже уступая модели o3, которая все еще находится ниже порога «Preparedness High» — сам факт существования такого бенчмарка меняет правила игры. OpenAI фактически создает метрику-фильтр: если модель поддается вредоносному тюнингу слишком легко, ее веса не должны попасть в публичный доступ.

Для техлидов и бизнеса это четкий сигнал: регуляторная удавка на шее мощных бесплатных моделей затягивается. Исследование OpenAI служит удобным обоснованием для того, чтобы оставить передовые разработки за закрытыми дверями. Эпоха бесконтрольных релизов фронтирных моделей, похоже, заканчивается, уступая место режиму, где право на открытость нужно доказывать через неудачные попытки превратить код в оружие.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИДообучение моделейОпенсорс ИИРегулирование ИИOpenAI

Взломать за 60 секунд: OpenAI оценивает риски «злого» дообучения нейросетей