Microsoft MAI: риски обучения моделей и чистота данных

Microsoft вновь демонстрирует чудеса корпоративной эквилибристики. Когда компания анонсировала линейку MAI, рынок кормили обещаниями о «стерильной» среде: мол, модели обучаются исключительно на лицензированном контенте и данных корпоративного уровня. Однако свежий технический отчет корпорации де-факто признает: в фундаменте MAI лежит все тот же Common Crawl и другие сомнительные источники из открытого веба. Как метко подметил исследователь Саймон Уиллисон, реальность процесса обучения разошлась с маркетинговым нарративом в разные стороны.

Вместо обещанной чистоты мы видим стандартную смесь из публичных данных и человеческого контента разной степени легальности. Это ставит MAI в один ряд с конкурентами, от которых Microsoft так отчаянно пыталась дистанцироваться. Юридическая стратегия Редмонда теперь сводится к классической защите через принцип добросовестного использования (fair use) и соблюдение протокола robots.txt. В отчете прямо указано: компания считает, что если владелец сайта не заблокировал поискового робота через метатеги, значит, он якобы согласен на использование своих данных.

Для бизнеса это создает «токсичный» юридический шлейф. Microsoft фактически перекладывает бремя защиты авторских прав на самих создателей контента, продолжая при этом эксплуатировать образ премиального и безопасного ИИ. Когда Бигтех обещает коммерческую безопасность, а на деле скачивает весь доступный интернет, под удар попадает сама концепция защищенного корпоративного ИИ. Вместо того чтобы полностью исключить юридические риски, Microsoft просто спрятала их под глянцевой обложкой, заставляя технических директоров и юридические департаменты задаваться вопросом: а за что именно они платят наценку, если методы сбора данных не отличаются от подходов OpenAI или Anthropic.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеРегулирование ИИMicrosoft

Модели Microsoft MAI: иллюзия чистоты данных и скрытые юридические риски