Anthropic решила напомнить о себе, заявив, что их последняя модель Claude демонстрирует «определённую степень интроспективной осведомлённости». По-нашему, это значит, что модель, по утверждениям компании, способна анализировать и описывать свои внутренние мыслительные процессы. Исследователи из Anthropic настаивают: Claude использует свои внутренние нейронные состояния для формирования абстрактных понятий, а затем может корректно их идентифицировать. В их трактовке, это и есть проявление интроспекции. Любопытно, что сами же авторы работы тут же оговорились: эта способность «крайне ненадежна и ограничена». По сути, Claude научился более детально описывать, как он приходит к ответу, если его об этом напрямую спросить. Представьте, что вы просите студента сдать экзамен не только с ответом, но и с подробным описанием хода рассуждений. Он может написать красивый текст, но это не гарантия, что он действительно мыслил именно так, а не просто подгнал описание под известные ему шаблоны.
Мы уже видели подобное. Каждый новый релиз от OpenAI, Google или Meta сопровождается заявлениями о прорывах в понимании или моделировании сознания. Вспомните, как Google пытался продать «чувственность» своего Bard, используя для этого специально отобранные тесты, которые демонстрировали лишь небольшое улучшение по сравнению с предыдущими версиями. Или как Meta периодически публикует исследования о «понимании» мира моделями через триллионы параметров, не предоставляя при этом чётких метрик, как это влияет на реальные бизнес-KPI. Anthropic не исключение. Они не показали, как заявленная «интроспекция» влияет на снижение ошибок, ускорение разработки или повышение ROI для конечного пользователя. Модель стала лучше отвечать на вопросы о себе — это всё, что мы видим по факту, помимо красивых графиков из отчёта.
Почему это важно: заявления о «самосознании» ИИ, даже в зачаточном состоянии, могут вызвать как опасения перед непредсказуемостью, так и открыть новые горизонты применения. CEO, которым интересны подобные AI-достижения, должны ставить перед своими AI-командами задачу: выявлять, насколько реальные «интроспективные» возможности модели влияют на ключевые бизнес-показатели (ROI, время цикла, уровень ошибок), а не только на научные тесты. Поиск таких метрик — первоочередная задача. Если, например, эта способность позволит сократить время на тестирование промптов на 15% или повысить точность ответов в клиентской поддержке на 10%, тогда за этим последует реальный бизнес-интерес. Пока же это выглядит как очередной маркетинговый ход в гонке за вниманием инвесторов, а не как проверенный технологический скачок.