Google представила модель искусственного интеллекта Gemini 2.5 Computer Use, ориентированную на управление веб-интерфейсами в режиме, максимально приближенном к действиям человека. Решение доступно в ознакомительном режиме через API Gemini в Google AI Studio и Vertex AI, что открывает разработчикам и корпоративным ИТ-командам путь к построению полноценных «агентов-браузеров» для автоматизации рутинных операций в онлайне. Технологически продукт опирается на визуальное восприятие и рассуждение уровня Gemini 2.5 Pro и замыкает цикл «наблюдение — действие — обратная связь»: модель получает скриншот интерфейса, историю недавних шагов и постановку задачи, анализирует расположение элементов и генерирует конкретное действие — от нажатия кнопки до ввода данных в форму; затем новый скриншот возвращается в модель для следующего шага.
Модель уже поддерживает тринадцать базовых действий, среди которых нажатие клавиш, ввод текста, прокрутка, наведение курсора, работа с раскрывающимися списками и переходы по URL-адресам. Архитектура заточена под браузерные сценарии, где качество распознавания элементов и устойчивость к изменениям верстки критичны для автоматизации. Подход с анализом скриншотов снижает зависимость от нестабильных интеграций через сторонние API и позволяет адаптироваться к разнородным интерфейсам, включая корпоративные веб-системы.
Компания заявляет о превосходстве над альтернативными инструментами в профильных бенчмарках Online-Mind2Web, WebVoyager и AndroidWorld при меньшей задержке ответа. Практические демонстрации включают сортировку объектов на цифровой доске и перенос информации с публичного сайта в CRM — типовые кейсы для служб поддержки, электронной коммерции и внутренних бизнес-процессов. При этом производитель признаёт: оптимизация для задач уровня настольных операционных систем пока не приоритет, хотя мобильные тесты показывают потенциал расширения.
С точки зрения корпоративного применения ключевой интерес представляет построение защищённых агентных сценариев: автоматическое заполнение веб-форм, агрегация данных из разных личных кабинетов, подготовка отчётов в онлайн-панелях, навигация по многошаговым мастерам. Для ИТ-служб важны вопросы трассировки действий агента, контроля прав доступа и предотвращения нежелательных операций в продуктивных системах. Встраивание такого ИИ в бизнес-процессы требует регламентов наблюдаемости, песочниц для тестирования и процедуры «человек в контуре» на критических шагах.
Для цифровой экосистемы региона это означает ускорение роботизации фронт-офисных и бэк-офисных функций без дорогостоящей доработки легаси-систем. Агент, который «видит» интерфейс как оператор, снимает барьер несовместимости и даёт быстрый эффект в зонах, где API отсутствуют или ограничены. Следующий рубеж — расширение набора действий, устойчивость к динамическим интерфейсам и формирование практик безопасной эксплуатации в соответствии с внутренними политиками и отраслевыми требованиями.