Агенты данных OpenAI: создание институциональной памяти

Это отличный урок для тех, кто до сих пор пытается решить проблемы бизнеса простым промпт-инжинирингом. Система, развернутая внутри компании, оперирует массивом в 600 петабайт и 70 тысячами датасетов. Но фокус не в масштабе, а в том, как Бонни Сюй, Аравинд Суреш и Эмма Танг из OpenAI научили модель GPT-5 (или ее продвинутые итерации) не тонуть в этом море данных. Вместо того чтобы скармливать агенту всё подряд, инженеры внедрили шесть слоев контекста: от семантики кода через Codex до той самой «институциональной памяти», которая отличает опытного сотрудника от стажера.

Проблема 3,5 тысяч внутренних пользователей OpenAI была типичной: как понять, какая из десяти похожих таблиц «правильная»? Как поясняют в компании, агент больше не просто генерирует SQL-запросы, он понимает нюансы — например, учитываются ли в конкретной выгрузке неавторизованные пользователи. Раньше на выяснение таких деталей у аналитика уходили дни, теперь система извлекает эти знания из логов использования и человеческих аннотаций.

Это и есть переход от универсального чат-бота к автономному аналитику, который понимает логику бизнес-процессов на уровне ДНК организации.

Философия разработки: «Меньше — значит лучше»

Подход OpenAI идет вразрез с привычным принципом «дай модели больше данных». В компании придерживаются стратегии жесткой фильтрации качества и строгого контроля среды исполнения. По словам команды разработчиков, истинный смысл данных скрыт в коде.

Используя Codex для обогащения понимания связей между таблицами, агент избегает классических галлюцинаций. Система предотвращает некорректные объединения данных (many-to-many) и ошибки в фильтрации. Агент работает как самокритичный коллега: если запрос вернул ноль строк, он инициирует внутреннее расследование причин вместо того, чтобы просто констатировать отсутствие результата.

Экономический эффект такой архитектуры очевиден: барьер между сырыми базами и принятием инженерных или финансовых решений фактически исчез. Автоматизация извлечения контекста позволяет моделям учиться на данных быстрее, превращая инженерные и финансовые подразделения в сверхэффективные единицы.

Для рынка это четкий сигнал: ценность ИИ-агента в 2024 году определяется не мощностью базовой модели, а глубиной её интеграции в проприетарную память компании.

Без этого контекста любой аналитик на базе больших языковых моделей остается лишь дорогим инструментом с непредсказуемым результатом.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыИИ в бизнесеАвтоматизацияЦифровая трансформацияOpenAI

Институциональная память: как внутренние агенты OpenAI работают с данными