On-premise LLM: расчет GPU и риски планирования инфраструктуры

Попытка рассчитать бюджет на собственное железо для нейросетей по открытым калькуляторам — кратчайший путь к кассовому разрыву. Как показал опыт команды LLMStart.ru при развертывании модели GPT-OSS-120B архитектуры MoE, популярные сервисы вроде apxml.com обещают золотые горы, которые рассыпаются при первом же нагрузочном тесте. В теории система на двух RTX Pro 6000 Blackwell должна была выдавать 4696 токенов в секунду. Реальность оказалась жестче: замеры на «боевом» железе показали всего 880 токенов. Ошибка в пять раз — это не статистическая погрешность, а фатальный просчет в планировании ресурсов.

Анатомия просчета: когда математика бессильна перед архитектурой

Механика этого провала кроется в специфике MoE-моделей (Mixture of Experts) и логике reasoning-процессов. Хотя из 120 млрд параметров в моменте работают лишь около 5 млрд, нагрузка на видеопамять (VRAM) и задержки инференса не поддаются линейным формулам из учебника. При работе в закрытом контуре у бизнеса нет «подушки безопасности» в виде облачного автоскейлинга. Если закупленное железо не тянет поток пользователей, ваш проект превращается в дорогостоящий памятник неэффективным инвестициям, так как нарастить мощности «на лету» в серверной не получится.

«В теории — прорыв, на практике — пять крат недобора мощности. Маркетинговые калькуляторы игнорируют реальное поведение vLLM под нагрузкой».

Интересно, что при увеличении нагрузки до восьми параллельных диалогов время до первого токена (TTFT) в тестах сократилось на 17%. Это контринтуитивный эффект библиотек оптимизации, которые лучше утилизируют ядра GPU при плотном батчинге, чем при одиночном запросе. Однако этот же тест выявил скрытый налог на интеллект: reasoning-модели генерируют до трех «невидимых» токенов на один видимый. Видеокарта работает на износ, обсчитывая внутренние цепочки рассуждений, пока пользователь ждет лаконичный ответ.

Инфраструктурная ловушка: почему нельзя верить спецификациям

Публичные калькуляторы обещали поддержку восьми пользователей с производительностью почти в 5000 токенов в секунду. Технология prefix caching снизила задержки p95 на 67%, но даже это не спасло общую пропускную способность. Реальный результат: просадка в пять раз относительно маркетинговых ожиданий. Итог для CEO: закупка GPU на основе стандартных формул без нагрузочного тестирования прототипа — это прямой риск похоронить бюджет.

Руководителям пора признать: эпоха «закупки по спецификации» закончилась. Суверенная инфраструктура дает независимость, но она же лишает права на ошибку. Без глубокого аудита реальной производительности на конкретных задачах покупка серверов остается дорогостоящей лотереей, где банк всегда остается при своих, а вы — с неработающим сервисом и пустым счетом.

Источник: Хабр ML →

Оцените материал

★ ★ ★ ★ ★

Локальный ИИИИ в бизнесеИнвестиции в ИИПроизводительностьLLMStart.ru

Ловушка On-premise: как не слить бюджет при расчете железа для собственных LLM