AI-модели: от «слишком опасных» к контролируемому выпуску

Спустя семь лет после того, как OpenAI устроила целый спектакль вокруг GPT-2, назвав её «слишком опасной для публикации», история повторяется. На этот раз в главной роли – Anthropic. Детище выходцев из той самой «ответственной» OpenAI представило Claude Mythos Preview, утверждая, что их ИИ обнаружил тысячи уязвимостей в операционных системах и браузерах. Звучит как знакомый PR, но с куда более весомыми (и пугающими) «доказательствами».

Напомним, в 2019-м OpenAI действительно придержала полную версию GPT-2, сославшись на риски генерации фейковых новостей. Тогда это вызвало бурные дебаты: мудрая предосторожность или тонкий расчётливый ход? В итоге модель появилась, но «поэтапно», когда индустрия уже была готова. Тогдашний глава по политике OpenAI Джек Кларк даже вещал в Конгрессе о «новом прототипе ответственных норм». Идея постепенного выпуска, однако, не прижилась. Отрасль быстро перешла к более прагматичному подходу: не удерживать, а обезопасить и выпустить. Red teaming, оценка безопасности, RLHF — всё это стало стандартом. GPT-3 уехал в API, ChatGPT стал публичным продуктом, а Meta и вовсе вывалила LLaMA в открытый доступ. Логика была проста: модель с встроенными мерами безопасности можно выпустить «ответственно».

Сам Кларк, покинув OpenAI, вместе с братьями Амодеи основал Anthropic. Там продолжили развивать практики безопасности, вроде Constitutional AI. И вот теперь мы видим явное возвращение к «ограниченному выпуску» моделей, которые ещё вчера считались слишком опасными для широкой публики. Если раньше вы могли спать спокойно, полагаясь на «уже проверенные» и «безопасные» модели, то теперь даже передовые решения от гигантов индустрии могут стать источником серьёзной головной боли.

Почему это важно для бизнеса: эпоха «безопасных» релизов AI, похоже, закончилась. Регуляторное давление наверняка усилится, а киберриски, особенно связанные с поиском и использованием новых уязвимостей, взлетят до небес. Ваша репутация и операционные риски только начинаются. Утечка данных, взлом систем, появление неочевидных уязвимостей, которые могут использовать конкуренты или злоумышленники — вот лишь некоторые из реальных последствий. Готовьтесь к постоянному мониторингу, стресс-тестированию и, возможно, к отказу от внедрения самых «передовых», но потенциально нестабильных решений. Потому что риски могут быстро затмить любую гипотетическую выгоду.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБезопасность ИИРегулирование ИИOpenAIAnthropic