Современные LLM-агенты страдают «синдромом среднего покупателя»: они виртуозно жмут на кнопки, но совершенно не понимают хаотичного разнообразия реальных людей. Как отмечают исследователи Shopify — Захра Занджани Фумани, Альберто Кастело и Линюнь Ван — нынешняя персонализация держится на костылях из громоздких промптов. Эти текстовые описания «личности» не только неэффективны с точки зрения контекстного окна, но и попросту не способны отразить статистическое распределение типов покупателей, характерное для конкретного магазина. Попытка заставить модель «играть роль» через текст — это дорогой и ненадежный способ имитации реальности, который в Shopify справедливо сочли тупиковым.
На смену многословным инструкциям пришла технология SimPersona. Вместо того чтобы объяснять агенту, кто он такой, инженеры использовали векторно-квантованный вариационный автокодировщик (VQ-VAE). Система превращает сырой кликстрим — историю кликов и взаимодействий — в дискретные «токены личности». По сути, сложное человеческое поведение сжимается до компактных записей в словаре LLM. Это позволяет агенту перенимать поведенческие паттерны за один проход энкодера, избавляя разработчиков от необходимости вручную прописывать сценарии для каждой торговой площадки.
Масштабы эксперимента впечатляют: систему протестировали на данных 8,37 млн покупателей в 42 действующих онлайн-магазинах. По оценке авторов исследования, SimPersona достигла 78-процентного соответствия реальному уровню конверсии, значительно обойдя базовые модели, которые были в восемь раз больше по количеству параметров. Методология позволяет воссоздать уникальный микс типов клиентов для каждого мерчанта, что превращает симуляцию из абстрактного упражнения в точный инструмент анализа.
Конечно, опора на исторические данные Shopify оставляет вопросы: насколько эти паттерны сохранят живучесть при резких изменениях рынка? Тем не менее, прагматичный вывод очевиден. Мы наблюдаем закат эпохи фокус-групп и рождение армий автономных агентов, которые не просто «притворяются» клиентами, а статистически их зеркалят. Это переход от гаданий на кофейной гуще промптов к работе с доказанным поведением, где вместо мнения нейросети вы получаете экстракт из реальных данных.