Протокол MRC: Оптимизация GPU-кластеров для обучения LLM

Традиционный Ethernet на стройках современных LLM окончательно расписался в своем бессилии. Когда вы пытаетесь обучать модели следующего поколения на кластерах из сотен тысяч GPU, стандартные методы управления перегрузками превращаются в тыкву. По данным совместного отчета OpenAI, Microsoft, NVIDIA, AMD и Broadcom, процесс идет в режиме lock-step: общая скорость вычислений падает до уровня самого «медленного» звена. В итоге сетевая связность становится более дефицитным и дорогим ресурсом, чем сами ядра — малейший сбой в сети обходится в миллионы долларов, пока дорогостоящее железо простаивает в ожидании данных.

Решать проблему «хвоста задержек» (tail latency), который раньше парализовал тысячи чипов из-за одного перегруженного узла, гиганты индустрии решили через Multipath Reliable Connection (MRC). Это новый транспортный протокол на базе RDMA, внедряющий метод «распыления пакетов» (packet spraying). Как поясняют авторы архитектуры, в числе которых Жоао Араужо и Марк Хэндли из OpenAI, MRC агрессивно балансирует нагрузку по всем доступным путям. В связке с протоколом SRv6 это позволяет системе буквально «обтекать» проблемные участки. По оценке инженеров Microsoft и AMD, такая архитектура превращает разрозненное железо в монолитную среду, которая сохраняет устойчивость даже при обрывах соединений.

Экономика здесь простая: внедрение MRC напрямую влияет на совокупную стоимость владения (TCO). За счет перехода на двухъярусные топологии Multi-plane Clos, которые NVIDIA и OpenAI продвигают в своем документе, становится возможным эффективно использовать кластеры мощностью более 100 000 GPU. Это уже не теоретические выкладки — Microsoft и OpenAI подтвердили, что именно этот стек обеспечивает обучение их новейших моделей. Вместо того чтобы закупать еще больше чипов, компании инвестируют в умную сеть, повышая коэффициент полезного использования существующего оборудования.

Однако до полной автономии, при которой инфраструктура способна к «самолечению», пока далеко. Да, MRC и статическая маршрутизация SRv6 позволяют игнорировать сетевые сбои, но физический выход из строя вычислительного узла все еще требует ручного вмешательства и внешней координации. На наш взгляд, это создает опасную иллюзию надежности: пока сеть учится быть бессмертной, само железо остается ахиллесовой пятой, а разрыв между автоматическим обходом ошибок и реальной отказоустойчивостью все еще велик.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиAI-чипыПроизводительностьСнижение затратOpenAI

Сетевая революция: как протокол MRC спасает обучение LLM от многомиллионных потерь