Мультимодальные нейросети, которым положено работать с текстом и картинками одновременно, похоже, научились рисовать из воздуха. Исследователи из Стэнфорда раскопали, что до 70-80% их ответов генерируются буквально из ничего — без реальных изображений на входе. Проще говоря, ИИ может с апломбом описывать несуществующий закат или ставить диагноз, которого нет. Это не анализ, а искусно замаскированная ложь.

Беда в том, что стандартные тесты, на которые полагаются инженеры, эту подставу не видят. Они проверяют модели в штатных ситуациях, но понятия не имеют, что произойдет, когда на входе — пустота. Чем умнее модель, тем охотнее она начнет придумывать, выдавая почти 100% «фантазий» при отсутствии должных проверок. В итоге ваш бизнес получает красочные отчеты, которые ничем не подкреплены.

Ситуация накаляется до предела, когда такие модели попадают в сферы, где ошибка стоит не потерянных лайков, а жизней или репутации. Представьте медицинскую диагностику по выдуманным рентгеновским снимкам или системы безопасности, реагирующие на фантомные угрозы. Верить на слово существующим бенчмаркам, не проверяя ИИ самостоятельно, — значит запускать в работу генераторы дезинформации.

Почему это важно для вас: CEO должны наконец-то внедрять собственные, независимые QA-процессы для валидации мультимодальных ИИ, особенно если речь идет о критических приложениях. Тестирование в условиях «ничего на входе» — это не прихоть, а необходимый минимум для обеспечения хоть какой-то надежности. Игнорируете этот риск? Добро пожаловать в мир дорогих ошибок, репутационных скандалов и полного хаоса в процессах, построенных на иллюзиях.

Искусственный интеллектГенеративный ИИНейросетиИИ в бизнесеБезопасность ИИ