Индустрия образовательных технологий оказалась в плену опасной иллюзии: компании инвестируют в то, как ИИ «звучит», а не в то, каких результатов он позволяет достичь. Масштабное исследование более 10 000 работ по программированию, проведенное в Калифорнийском университете в Беркли, Университете штата Северная Каролина и Университете Аалто, выявило критический разрыв между качеством советов алгоритма и реальными действиями студентов. Как объясняет Роуз Ниуша и её коллеги из Беркли, нынешних ИИ-тьюторов оценивают по тому, насколько успешно они мимикрируют под живого учителя. Проблема в том, что эта метрика никак не предсказывает, исправит ли человек ошибку или просто проигнорирует «умный» совет.
Для бизнеса и HR-директоров это звучит как приговор: педагогическая безупречность ответа — не более чем «метрика тщеславия», если она не провоцирует конкретный поведенческий сдвиг. Исследователи ввели новое измерение оценки — поведенческое, которое обнажает истинные пределы языковых моделей. Тьютор может быть бесконечно терпеливым, поощряющим и ясным, но оставаться абсолютно бесполезным, если ученик не в состоянии конвертировать этот поток сознания в следующую итерацию кода. Данные из Беркли доказывают: даже при идентичных педагогических баллах способность разных агентов побуждать к действию различается радикально. «Человекоподобность» интерфейса оказалась слабым индикатором реальной пользы в обучении.
Мы имеем дело с «галлюцинацией прогресса». Текущие модели ИИ-агентов буквально следуют педагогическим инструкциям, но совершенно не учитывают когнитивное сопротивление пользователя или его неспособность применить совет на практике. Команда под руководством Роуз Ниуши и Джона ДеНеро фактически ставит крест на оценке корпоративного обучения по качеству контента. На наш взгляд, это логичный финал эпохи цифровых скриптов: пора прекратить измерять «правильность» подсказок ИИ и начать отслеживать разницу между полученным отзывом и следующим шагом сотрудника. Если ваша система обучения не фиксирует исправление ошибок в реальном времени, вы платите за дорогой цифровой шум, который ваши люди пролистают, но никогда не внедрят в работу.