Страх перед тем, что большая языковая модель станет пошаговой инструкцией для апокалипсиса, перекочевал из кабинетов политиков в научные лаборатории. Команда OpenAI провела стресс-тест GPT-4, пытаясь выяснить, насколько реально модель снижает порог входа для злоумышленников. Главный вопрос исследования: дает ли нейросеть информацию, которую невозможно получить обычным поиском в Google? Аналитики сфокусировались на «uplift» — приросте эффективности на пути от идеи до создания патогена.

Методология злоупотребления

Для проверки на прочность OpenAI привлекла две группы: опытных биологов со степенью PhD и студентов, прослушавших хотя бы один университетский курс. Участников разделили на контрольную группу с доступом только к сети и тестовую, усиленную связкой интернет + GPT-4. Задачей было спланировать атаку по пяти этапам: от поиска идеи и источников сырья до культивации и усиления свойств агента. Такая структура подчеркивает, что биологическая угроза — это не просто формула, а сложнейшая логистическая цепочка, требующая специфических протоколов и навыков решения технических проблем.

В ходе оценки с участием экспертов и студентов мы обнаружили, что GPT-4 обеспечивает лишь незначительное повышение точности при планировании биологических угроз.

OpenAI замеряла точность, полноту, инновационность, затраченное время и субъективную сложность. Да, группа с GPT-4 набрала больше баллов, но разрыв оказался маргинальным. Цифры показывают: пока модель работает скорее как продвинутый библиотекарь, а не как «безумный ученый». Она агрегирует известные данные и структурирует их в протоколы, но не изобретает новых способов обхода систем безопасности, которые эксперт не смог бы найти самостоятельно.

Ограничения цифровой песочницы

Статистика не всегда отражает реальный профиль риска. OpenAI признала, что прирост в точности и полноте ответов был незначительным и статистически недостоверным. Важнее другое: исследование было исключительно теоретическим. В нем отсутствовал этап работы в реальной лаборатории, где участники должны были бы физически синтезировать агент. Именно здесь — при переходе от цифрового протокола к практике — рушатся большинство проектов, как легальных, так и преступных. Модель может подсказать, как исправить ошибку в протоколе, но сработает ли этот совет на практике — остается вопросом веры.

Текущее состояние больших языковых моделей дает нам узкое окно безопасности, которое стремительно закрывается. В рамках своего регламента по обеспечению готовности (Preparedness Framework) OpenAI рассматривает эти результаты лишь как базовую линию. Тот факт, что GPT-4 не стала критическим множителем угроз сегодня, не означает, что модели следующего поколения не преодолеют этот барьер. Сейчас риск упирается в физическое исполнение, но как только ИИ научится управлять облачными лабораториями или автономно выполнять лабораторные циклы, «незначительный прирост» превратится в прямую угрозу безопасности. Внедрять протоколы контроля необходимо до того, как нейросети научатся перешагивать из чата в реальный мир.

Безопасность ИИБольшие языковые моделиРегулирование ИИOpenAI