Локальный ИИ на 200 Кбайт: кейс оптимизации нейросетей Яндекса

Перенос голосового ИИ из умных колонок в наушники наткнулся на жесткий физический лимит: вместо стабильной розетки — крошечный аккумулятор, вместо мощного процессора — чип с кэшем инструкций всего в 4 КБ. Как отмечает Григорий Афанасенко из команды голосовых технологий Яндекса, стандартные модели объемом 1,7 МБ, привычные для домашних систем, в такие рамки просто не лезут. Для запуска Яндекс Дропс инженерам пришлось пересобрать споттер с нуля, воюя за каждый килобайт памяти SRAM, которой в устройстве доступно лишь 208 КБ.

Механика оптимизации свелась к радикальной хирургии архитектуры без потери точности. Команда внедрила двухэтапный пайплайн: постоянно работает только легковесный детектор голоса (VAD), который снизил нагрузку на систему в 5 раз. Основную модель споттера «ужали» с помощью дистилляции знаний и 8-битного квантования, попутно заменив стандартные свертки на Depthwise-separable. Это сократило число параметров в 20 раз. В итоге нейросеть «похудела» до 200 КБ, умудряясь работать даже в «тисках» SDK производителя чипа, который не поддерживает элементарный padding и обрезает контекст до 11–15 фреймов.

Для бизнеса этот кейс задает новый стандарт эффективности: умные функции больше не требуют дорогого железа или костыля в виде постоянной связи с облаком. Локальный запуск на сверхмалых мощностях не только экономит трафик, но и кратно снижает задержки, превращая наушники из аксессуара в полноценный носимый терминал. Яндекс наглядно продемонстрировал, что автономный ИИ выживает в условиях жесточайшего дефицита ресурсов, если архитектуру модели диктует не теоретическая точность из учебника, а специфика конкретного кремния.

Теперь Алиса живет в пространстве, которое по объему меньше, чем одна качественная фотография на смартфоне. Реальный прогресс в индустрии, как выяснилось, требует не бесконечного расширения дата-центров, а умения вовремя остановиться и отсечь лишнее.

Источник: Хабр ML →

Оцените материал

★ ★ ★ ★ ★

НейросетиИИ в бизнесеСнижение затратЛокальный ИИЯндекс

Интеллект на диете: как Яндекс втиснул распознавание речи в 200 Кбайт