Allen Institute for AI (AI2) выпустил MolmoWeb – полностью открытый веб‑агент, который работает только с изображениями экрана. Модель получает скриншот текущей вкладки, решает, какой клик или прокрутку выполнить, и повторяет цикл. При этом она игнорирует HTML и DOM, полагаясь исключительно на то, что видит человек. По словам разработчиков, такой подход делает агент менее подверженным «флеш‑мобам» вёрстки и упрощает отслеживание решений, потому что всё основано на визуальном контексте.

Технически MolmoWeb построен на базе Molmo2, сочетая языковую модель Qwen‑3 и зрительный энкодер SigLIP‑2. При «скромных» 4–8 млрд параметров агент обгоняет лучшие открытые модели по всем проверенным бенчмаркам и почти догоняет проприетарные решения OpenAI. Обучение проходило на 64 GPU H100 без reinforcement learning и без дистилляции от закрытых моделей. Ключевой ресурс – набор данных MolmoWebMix: более 36 000 полностью задокументированных человеческих сессий на свыше 1 100 сайтах, дополненных автоматически сгенерированными проходами, проверенными системой на базе GPT‑4o.

Открытость проекта проявляется в полном опубликовании обучающих данных, весов модели и инструментария оценки. Для стартапов и корпоративных ИТ‑команд это устраняет главный барьер – отсутствие качественного датасета и закрытых моделей. Теперь можно быстро прототипировать автоматизацию типовых задач: заполнение форм, поиск товаров, сбор структурированных данных. Однако внедрение визуального агента требует пересмотра инфраструктуры: нужно хранить огромные объёмы скриншотов, ускорять их обработку на GPU‑кластерах и решать вопросы кибербезопасности, поскольку агент работает с изображениями пользовательского интерфейса, а не чистыми API‑запросами.

Почему это важно? MolmoWeb доказывает, что визуальная автоматизация может конкурировать с закрытыми решениями, открывая путь к независимому построению веб‑агентов без доступа к DOM. Для компаний это шанс снизить зависимость от сторонних провайдеров, ускорить разработку кастомных сценариев и взять контроль над данными под свой замок. Но придётся вложиться в вычислительные ресурсы и новые меры безопасности.

MolmoWebвизуальная автоматизацияоткрытый AIвеб‑агентыискусственный интеллект