OpenAI представляет Operator: новый ИИ-агент для выполнения задач в интернете
OpenAI презентовала своего первого полноценного ИИ-агента под названием Operator. Этот умный ассистент умеет взаимодействовать с веб-страницами, как будто это делает живой пользователь. Он решает задачи без использования API (интерфейсов программирования приложений), применяя визуальный анализ страниц и выполняя действия, имитирующие нажатия клавиш, щелчки мыши и перемещения курсора.
Интерфейс Operator схож с ChatGPT: пользователь вводит текстовый запрос, описывая задачу, которую нужно выполнить, а агент исполняет её в реальном времени. Работа происходит через облачную виртуальную машину с браузером, что позволяет отображать всё в привычном веб-интерфейсе.
Примеры запросов, которые может обработать Operator:
• Забронируй столик на двоих в ресторане Beretta сегодня в 19:00.
• Найди билеты на матч Warriors в Сан-Франциско в эти выходные. Лучшие места до $500, с несколькими вариантами.
• Закажи 10 пицц среднего размера в Goat Hill Pizza, включая одну с барбекю. Если ресторан закрыт, перенеси заказ на ближайшее возможное время.
• Проверь доступность теннисного корта St. Mary в Сан-Франциско завтра утром на час.
• Найди клининговую службу на следующую неделю.
• Особенности работы Operator
• Operator способен выполнять сложные многошаговые задачи, например, искать подходящие страницы в поисковых системах, если пользователь не указал конкретный ресурс.
Во время выполнения задач все действия агента записываются в лог, который отображается в чат-панели. Пользователь может в любой момент вмешаться в процесс: скорректировать бронирование, изменить выбор товаров или уточнить детали. Даже если задача завершена, можно вернуться к любому из этапов и внести изменения.
При перехвате управления Operator не отслеживает действия пользователя напрямую. Если ему нужно понять, какие изменения были сделаны, он просто запрашивает текстовое описание.
Скорость и удобство
Хотя Operator демонстрирует высокую скорость выполнения задач, работа не всегда происходит мгновенно из-за ограничений, связанных с отсутствием API и временем загрузки веб-страниц. Однако это позволяет агенту работать параллельно: пользователь может запустить несколько чатов и делегировать выполнение различных задач.
Для некоторых действий, таких как покупка, агент приостанавливает выполнение, чтобы получить подтверждение от пользователя. Если возникают сложности (например, требуется ввести код подтверждения или сайт временно недоступен), Operator автоматически запрашивает помощь.
Также доступны пресеты – заранее настроенные сценарии для часто выполняемых задач, например, покупок в популярных интернет-магазинах. Однако пользователь всегда может описать задачу текстом, минуя готовые шаблоны.
Технологии и перспективы
Operator построен на модели CUA (Compute-Using Agent), разработанной на основе ChatGPT-4o. Она обучена работать с графической информацией, как это делает человек, игнорируя анализ исходного кода страниц. Аналогичные способности демонстрирует ChatGPT-4o, который, например, может распознавать скриншоты программ и давать советы пользователям.
Модель использует подход human-in-the-loop, где человек может вмешиваться в работу нейросети, что особенно полезно для обучения и адаптации технологий.
На данный момент Operator доступен только в США. Пользователи подписки Pro уже могут опробовать нового агента, а в ближайшие месяцы доступ будет расширен для подписчиков Plus. OpenAI также планирует запустить API, чтобы разработчики могли внедрять возможности агента в свои проекты.
Будущее ИИ-агентов от OpenAI: чего ждать пользователям
В будущем OpenAI собирается представить и других ИИ-агентов. Пока остаётся вопрос, будут ли они работать исключительно в облаке или появятся версии для установки на локальные устройства.