Google DeepMind решил напомнить о потенциале encoder-decoder архитектуры. В то время как большая часть внимания сосредоточена на decoder-only моделях, классическая encoder-decoder архитектура, такая как T5 (The Text-to-Text Transfer Transformer), остается востребованной для многих реальных приложений. Encoder-decoder модели часто демонстрируют высокую эффективность в задачах суммаризации, перевода, ответов на вопросы благодаря своей высокой эффективности при инференсе, гибкости дизайна и более богатому представлению энкодера для понимания входных данных. Тем не менее, эта мощная архитектура получала недостаточно внимания. Сегодня Google DeepMind представляет T5Gemma, новую коллекцию encoder-decoder LLM, созданных путем адаптации предварительно обученных decoder-only моделей. T5Gemma основана на фреймворке Gemma 2 и включает адаптированные модели Gemma 2 2B и 9B, а также новые модели размера T5 (Small, Base, Large и XL). Google выпускает предварительно обученные и дообученные instruction-tuned T5Gemma модели для сообщества, чтобы открыть новые возможности для исследований и разработок. В T5Gemma исследуется возможность создания высокоуровневых encoder-decoder моделей на основе предварительно обученных decoder-only моделей с помощью техники адаптации. Основная идея заключается в инициализации параметров новой модели весами предварительно обученной decoder-only модели с последующим дообучением.

Большие языковые моделиДообучение моделейГенеративный ИИGoogle DeepMindОпенсорс ИИ