Команда Алека Рэдфорда провела эксперимент, который должен охладить пыл адептов гигантских датасетов. Исследователи собрали «винтажную» LLM, обученную исключительно на корпусе текстов до 1930 года — эпохи, когда программирование существовало разве что в чертежах Ады Лавлейс. Немецкие студенты взяли эту модель и добавили всего 250 примеров кодинга для дообучения. Результат выглядит как пощечина современным ИИ-лабораториям: «старушка» из времен Великой депрессии с первой попытки решила задачу в бенчмарке SWE-bench.
После того как модели показали еще 75 тысяч примеров, она выдала 4,5% верных решений за один проход. Для понимания масштаба: Claude 3 Opus от Anthropic на момент своего громкого релиза показывала сопоставимые цифры. Иными словами, модель на 260 миллиардов токенов, которая в жизни не видела Python и JS, после косметического тюнинга встала в один ряд с топовыми SOTA-решениями начала 2024 года.
Самое ироничное в отчете исследователей — это попытка «накачать» модель современным вебом перед обучением кодингу. Прирост производительности составил жалкий 1%. Это наглядно доказывает, что мусорный контент из соцсетей и форумов почти не добавляет ценности алгоритмическому мышлению, а лишь создает когнитивный шум. По словам авторов эксперимента, единственное, что сдерживает модель 1930 года — это объем вычислительных ресурсов, а вовсе не отсутствие актуального контекста.
Качество структуры данных и чистота логики столетней давности оказались критичнее для решения инженерных задач, чем знание модных фреймворков. На наш взгляд, это ставит жирный крест на стратегии бесконечного раздувания выборок за счет сомнительного контента. Если база из книг столетней давности дает фундамент не хуже терабайтов цифрового мусора, бизнесу пора прекратить тратить бюджеты на фильтрацию шума, который изначально не должен был попадать в обучение. Пора признать: для создания «умных» систем нам нужно больше Платона и меньше Twitter.