LLM галлюцинируют: 76% ИИ врут о дате

Представьте, что 76% ваших сотрудников регулярно выдают неверную информацию по самым простым вопросам, да ещё и с абсолютной уверенностью. Примерно такая картина вырисовывается, когда большие языковые модели (LLM) пытаются справиться с задачами, требующими актуальных данных, но не имеют под рукой внешних инструментов. Недавний эксперимент, на который ушло меньше доллара, показал: 22 из 29 протестированных моделей, работавших без дополнительных инструкций, уверенно выдумывали текущую дату. Эта, казалось бы, курьезная проверка вскрывает фундаментальную проблему: без «подсказок» LLM склонны к фантазиям, причем делают это с удивительной настойчивостью. Среди моделей, показавших 100% «галлюцинаций» в этом тесте, оказались и детища гигантов индустрии, вроде Gemini 3 Flash от Google и Claude Opus от Anthropic. Их веб-версии, разумеется, могут дать верный ответ, но это лишь подтверждает, что они получают нужную информацию извне, а не из собственных «глубин». Тест с чистым промптом безжалостно обнажает: когда модель остается наедине с фактами без дополнительных инструкций, она не стесняется сочинять.

Почему это должно волновать вас, как руководителя? Если даже самые передовые ИИ-системы не справляются с определением текущей даты без внешней помощи, представьте, что происходит, когда вы поручаете им более сложные задачи. Ответы в критически важных для бизнеса областях — будь то анализ рыночной ситуации, оценка рисков или финансовое планирование — могут оказаться просто выдумкой. Результат? Неверные управленческие решения, прямые финансовые потери и репутационный ущерб, который потом не отмоешь.

CEO, настало время перестать наивно верить AI на слово. Внедряйте строгие процедуры верификации данных, полученных от ИИ, особенно в процессах, где точность и актуальность информации имеют первостепенное значение. Слепое доверие к LLM там, где они могут «фантазировать», — это прямой путь к ошибкам, стоимость которых может быть весьма высока. Ваши ключевые управленческие решения, опирающиеся на данные от ИИ, могут быть основаны на вымысле. Вместо прямого доверия, внедряйте многоступенчатую проверку: используйте несколько независимых LLM для одного запроса, перекрестно сверяйте полученные факты с надежными внешними источниками или, в случае критических данных, привлекайте к проверке профильных специалистов. Помните: даже самые умные алгоритмы пока нуждаются в вашем присмотре.

Источник: Хабр: ИИ →

Оцените материал

★ ★ ★ ★ ★

ИИLLMгаллюцинации ИИбольшие языковые моделибизнес