Как OpenAI масштабирует PostgreSQL для 800 млн юзеров ChatGPT

Пока остальная индустрия гонится за очередным «революционным» миражом в лице NoSQL, OpenAI делает ставку на классику. Компания успешно масштабировала PostgreSQL для поддержки 800 миллионов пользователей ChatGPT и миллионов запросов в секунду (QPS). По словам Бохана Чжана, инженера OpenAI, нагрузка на платформу за год выросла более чем в 10 раз. Однако вместо дорогостоящей миграции на новую парадигму, инженерная команда полагается на один основной экземпляр гибкого сервера Azure PostgreSQL, усиленный почти 50 глобальными репликами для чтения.

Инженерная реальность: оптимизация вместо миграции

Техническое несовершенство архитектуры PostgreSQL становится очевидным во время всплесков записи, которые, по словам Чжана, могут запустить «порочный круг» повторных попыток и перенасыщения ресурсами. Чтобы предотвратить полный коллапс, OpenAI внедрила жесткий режим пулинга соединений, изоляцию рабочих нагрузок и агрессивное ограничение частоты запросов. Изолируя критически важные процессы, они гарантируют, что скачок нагрузки в одной функции не обрушит весь основной узел. Это не просто вопрос выживания, а мастер-класс по извлечению максимальной производительности из монолитной структуры до того, как поддаться сложности шардирования.

«Настоящая история не в поиске базы данных как «серебряной пули», а в извлечении максимальной выгоды из существующего стека путем устранения единых точек отказа».

Для технических руководителей урок очевиден: совокупная стоимость владения (TCO) зачастую ниже, если вы исправляете то, что уже имеете, вместо того чтобы переходить на разрекламированные распределенные системы. Решение OpenAI отказаться от шардирования доказывает, что даже для самого известного в мире ИИ-продукта основным узким местом является не реляционная модель, а то, как вы управляете схемой и трафиком. Прежде чем давать зеленый свет миграции на новую базу данных, проведите аудит основного узла. Скорее всего, у вас гораздо больше запаса прочности, чем пытаются внушить маркетинговые отделы вендоров. Масштабируемость зарабатывается тщательной настройкой производительности, а не покупается вместе с новыми лицензиями.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

ПроизводительностьОблачные вычисленияСнижение затратOpenAI

Масштабирование PostgreSQL до 800 млн пользователей: инженерный кейс OpenAI