"computer-use-2025-01-24"
(модели Claude 4 и Claude Sonnet 3.7)"computer-use-2024-10-22"
(Claude Sonnet 3.5 (устарел))
Обзор
Использование компьютера - это бета-функция, которая позволяет Claude взаимодействовать с средами рабочего стола. Этот инструмент предоставляет:- Захват скриншотов: Видеть, что в данный момент отображается на экране
- Управление мышью: Кликать, перетаскивать и перемещать курсор
- Ввод с клавиатуры: Печатать текст и использовать сочетания клавиш
- Автоматизация рабочего стола: Взаимодействовать с любым приложением или интерфейсом
Совместимость моделей
Использование компьютера доступно для следующих моделей Claude:Модель | Версия инструмента | Бета-флаг |
---|---|---|
Модели Claude 4 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 v2 (устарел) | computer_20241022 | computer-use-2024-10-22 |
Соображения безопасности
- Используйте выделенную виртуальную машину или контейнер с минимальными привилегиями для предотвращения прямых системных атак или несчастных случаев.
- Избегайте предоставления модели доступа к конфиденциальным данным, таким как информация для входа в аккаунты, для предотвращения кражи информации.
- Ограничьте доступ в интернет списком разрешенных доменов для снижения воздействия вредоносного контента.
- Попросите человека подтвердить решения, которые могут привести к значимым последствиям в реальном мире, а также любые задачи, требующие утвердительного согласия, такие как принятие файлов cookie, выполнение финансовых транзакций или согласие с условиями обслуживания.
Эталонная реализация использования компьютера
Быстрый старт
Вот как начать работу с использованием компьютера:- Модели Claude 4 и Claude Sonnet 3.7: Бета-заголовок требуется только для инструмента использования компьютера
- Claude Sonnet 3.5 (устарел): Бета-заголовок требуется для инструментов компьютера, bash и текстового редактора
Как работает использование компьютера
1. Предоставьте Claude инструмент использования компьютера и пользовательский промпт
- Добавьте инструмент использования компьютера (и опционально другие инструменты) в ваш API-запрос.
- Включите пользовательский промпт, который требует взаимодействия с рабочим столом, например, “Сохрани картинку кота на мой рабочий стол.”
2. Claude решает использовать инструмент использования компьютера
- Claude оценивает, может ли инструмент использования компьютера помочь с запросом пользователя.
- Если да, Claude создает правильно отформатированный запрос на использование инструмента.
- API-ответ имеет
stop_reason
равныйtool_use
, сигнализируя о намерении Claude.
3. Извлеките входные данные инструмента, оцените инструмент на компьютере и верните результаты
- С вашей стороны извлеките имя инструмента и входные данные из запроса Claude.
- Используйте инструмент на контейнере или виртуальной машине.
- Продолжите разговор с новым сообщением
user
, содержащим блок контентаtool_result
.
4. Claude продолжает вызывать инструменты использования компьютера, пока не завершит задачу
- Claude анализирует результаты инструмента, чтобы определить, нужно ли больше использования инструментов или задача была завершена.
- Если Claude решает, что ему нужен другой инструмент, он отвечает с другим
stop_reason
tool_use
, и вы должны вернуться к шагу 3. - В противном случае он создает текстовый ответ пользователю.
Вычислительная среда
Использование компьютера требует изолированной вычислительной среды, где Claude может безопасно взаимодействовать с приложениями и веб. Эта среда включает:- Виртуальный дисплей: Виртуальный X11-сервер дисплея (использующий Xvfb), который отображает интерфейс рабочего стола, который Claude будет видеть через скриншоты и управлять действиями мыши/клавиатуры.
- Среда рабочего стола: Легкий UI с менеджером окон (Mutter) и панелью (Tint2), работающий на Linux, который обеспечивает согласованный графический интерфейс для взаимодействия Claude.
- Приложения: Предустановленные Linux-приложения, такие как Firefox, LibreOffice, текстовые редакторы и файловые менеджеры, которые Claude может использовать для выполнения задач.
- Реализации инструментов: Интеграционный код, который переводит абстрактные запросы инструментов Claude (такие как “переместить мышь” или “сделать скриншот”) в фактические операции в виртуальной среде.
- Агентский цикл: Программа, которая обрабатывает связь между Claude и средой, отправляя действия Claude в среду и возвращая результаты (скриншоты, выводы команд) обратно Claude.
- Получает запросы на использование инструментов Claude
- Переводит их в действия в вашей вычислительной среде
- Захватывает результаты (скриншоты, выводы команд и т.д.)
- Возвращает эти результаты Claude
Как реализовать использование компьютера
Начните с нашей эталонной реализации
Мы создали эталонную реализацию, которая включает все необходимое для быстрого начала работы с использованием компьютера:- Контейнеризованная среда, подходящая для использования компьютера с Claude
- Реализации инструментов использования компьютера
- Агентский цикл, который взаимодействует с Anthropic API и выполняет инструменты использования компьютера
- Веб-интерфейс для взаимодействия с контейнером, агентским циклом и инструментами.
Понимание мульти-агентского цикла
Ядром использования компьютера является “агентский цикл” - цикл, где Claude запрашивает действия инструментов, ваше приложение выполняет их и возвращает результаты Claude. Вот упрощенный пример:Модели Claude 4
Модели Claude 4
computer_20250124
включите этот бета-флаг:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124
включите этот бета-флаг:Claude Sonnet 3.5 v2 (устарел)
Claude Sonnet 3.5 v2 (устарел)
computer_20241022
включите этот бета-флаг:Оптимизируйте производительность модели с помощью промптинга
Вот несколько советов о том, как получить лучшие качественные выходы:- Указывайте простые, четко определенные задачи и предоставляйте явные инструкции для каждого шага.
- Claude иногда предполагает результаты своих действий, не проверяя их результаты явно. Чтобы предотвратить это, вы можете подсказать Claude:
После каждого шага делай скриншот и тщательно оценивай, достиг ли ты правильного результата. Явно покажи свое мышление: "Я оценил шаг X..." Если не правильно, попробуй снова. Только когда ты подтвердишь, что шаг был выполнен правильно, следует переходить к следующему.
- Некоторые элементы UI (такие как выпадающие списки и полосы прокрутки) могут быть сложными для Claude для манипулирования с помощью движений мыши. Если вы испытываете это, попробуйте подсказать модели использовать сочетания клавиш.
- Для повторяемых задач или взаимодействий с UI включите примеры скриншотов и вызовов инструментов успешных результатов в ваш промпт.
- Если вам нужно, чтобы модель вошла в систему, предоставьте ей имя пользователя и пароль в вашем промпте внутри xml-тегов, таких как
<robot_credentials>
. Использование использования компьютера в приложениях, которые требуют входа в систему, увеличивает риск плохих результатов в результате инъекции промптов. Пожалуйста, ознакомьтесь с нашим руководством по смягчению инъекций промптов перед предоставлением модели учетных данных для входа.
Системные промпты
Когда один из определенных Anthropic инструментов запрашивается через Anthropic API, генерируется специфический для использования компьютера системный промпт. Он похож на системный промпт использования инструментов, но начинается с:У вас есть доступ к набору функций, которые вы можете использовать для ответа на вопрос пользователя. Это включает доступ к изолированной вычислительной среде. В настоящее время у вас НЕТ возможности проверять файлы или взаимодействовать с внешними ресурсами, кроме как путем вызова нижеприведенных функций.Как и при обычном использовании инструментов, предоставленное пользователем поле
system_prompt
все еще учитывается и используется при построении объединенного системного промпта.
Доступные действия
Инструмент использования компьютера поддерживает эти действия: Основные действия (все версии)- screenshot - Захватить текущий дисплей
- left_click - Кликнуть по координатам
[x, y]
- type - Напечатать текстовую строку
- key - Нажать клавишу или комбинацию клавиш (например, “ctrl+s”)
- mouse_move - Переместить курсор к координатам
computer_20250124
)
Доступно в моделях Claude 4 и Claude Sonnet 3.7:
- scroll - Прокручивать в любом направлении с контролем количества
- left_click_drag - Кликнуть и перетащить между координатами
- right_click, middle_click - Дополнительные кнопки мыши
- double_click, triple_click - Множественные клики
- left_mouse_down, left_mouse_up - Тонкий контроль кликов
- hold_key - Удерживать клавишу при выполнении других действий
- wait - Пауза между действиями
Примеры действий
Примеры действий
Параметры инструмента
Параметр | Обязательный | Описание |
---|---|---|
type | Да | Версия инструмента (computer_20250124 или computer_20241022 ) |
name | Да | Должно быть “computer” |
display_width_px | Да | Ширина дисплея в пикселях |
display_height_px | Да | Высота дисплея в пикселях |
display_number | Нет | Номер дисплея для X11-сред |
Включите возможность мышления в моделях Claude 4 и Claude Sonnet 3.7
Claude Sonnet 3.7 представил новую возможность “мышления”, которая позволяет вам видеть процесс рассуждения модели при работе над сложными задачами. Эта функция помогает вам понять, как Claude подходит к проблеме, и может быть особенно ценной для отладки или образовательных целей. Чтобы включить мышление, добавьте параметрthinking
в ваш API-запрос:
budget_tokens
указывает, сколько токенов Claude может использовать для мышления. Это вычитается из вашего общего бюджета max_tokens
.
Когда мышление включено, Claude вернет свой процесс рассуждения как часть ответа, что может помочь вам:
- Понять процесс принятия решений модели
- Выявить потенциальные проблемы или заблуждения
- Учиться на подходе Claude к решению проблем
- Получить больше видимости в сложные многошаговые операции
Дополнение использования компьютера другими инструментами
Инструмент использования компьютера может быть объединен с другими инструментами для создания более мощных рабочих процессов автоматизации. Это особенно полезно, когда вам нужно:- Выполнять системные команды (bash инструмент)
- Редактировать конфигурационные файлы или скрипты (инструмент текстового редактора)
- Интегрироваться с пользовательскими API или сервисами (пользовательские инструменты)
Создайте пользовательскую среду использования компьютера
Эталонная реализация предназначена для того, чтобы помочь вам начать работу с использованием компьютера. Она включает все компоненты, необходимые для того, чтобы Claude использовал компьютер. Однако вы можете создать свою собственную среду для использования компьютера в соответствии с вашими потребностями. Вам понадобится:- Виртуализированная или контейнеризованная среда, подходящая для использования компьютера с Claude
- Реализация по крайней мере одного из определенных Anthropic инструментов использования компьютера
- Агентский цикл, который взаимодействует с Anthropic API и выполняет результаты
tool_use
с использованием ваших реализаций инструментов - API или UI, который позволяет пользовательский ввод для запуска агентского цикла
Реализуйте инструмент использования компьютера
Инструмент использования компьютера реализован как инструмент без схемы. При использовании этого инструмента вам не нужно предоставлять входную схему, как с другими инструментами; схема встроена в модель Claude и не может быть изменена.Настройте вашу вычислительную среду
Реализуйте обработчики действий
Обработайте вызовы инструментов Claude
Реализуйте агентский цикл
Обработка ошибок
При реализации инструмента использования компьютера могут возникнуть различные ошибки. Вот как их обрабатывать:Сбой захвата скриншота
Сбой захвата скриншота
Неверные координаты
Неверные координаты
Сбой выполнения действия
Сбой выполнения действия
Следуйте лучшим практикам реализации
Используйте подходящее разрешение дисплея
Используйте подходящее разрешение дисплея
- Для общих задач рабочего стола: 1024x768 или 1280x720
- Для веб-приложений: 1280x800 или 1366x768
- Избегайте разрешений выше 1920x1080, чтобы предотвратить проблемы с производительностью
Реализуйте правильную обработку скриншотов
Реализуйте правильную обработку скриншотов
- Кодируйте скриншоты как base64 PNG или JPEG
- Рассмотрите сжатие больших скриншотов для улучшения производительности
- Включите соответствующие метаданные, такие как временная метка или состояние дисплея
Добавьте задержки действий
Добавьте задержки действий
Проверяйте действия перед выполнением
Проверяйте действия перед выполнением
Ведите журнал действий для отладки
Ведите журнал действий для отладки
Понимание ограничений использования компьютера
Функциональность использования компьютера находится в бета-версии. Хотя возможности Claude являются передовыми, разработчики должны знать о его ограничениях:- Задержка: текущая задержка использования компьютера для взаимодействий человек-ИИ может быть слишком медленной по сравнению с обычными действиями компьютера, направляемыми человеком. Мы рекомендуем сосредоточиться на случаях использования, где скорость не критична (например, фоновый сбор информации, автоматизированное тестирование программного обеспечения) в доверенных средах.
- Точность и надежность компьютерного зрения: Claude может совершать ошибки или галлюцинировать при выводе конкретных координат при генерации действий. Claude Sonnet 3.7 вводит возможность мышления, которая может помочь вам понять рассуждения модели и выявить потенциальные проблемы.
- Точность и надежность выбора инструментов: Claude может совершать ошибки или галлюцинировать при выборе инструментов при генерации действий или предпринимать неожиданные действия для решения проблем. Кроме того, надежность может быть ниже при взаимодействии с нишевыми приложениями или несколькими приложениями одновременно. Мы рекомендуем пользователям тщательно подсказывать модели при запросе сложных задач.
- Надежность прокрутки: Хотя Claude Sonnet 3.5 v2 (устарел) имел ограничения с прокруткой, Claude Sonnet 3.7 вводит выделенные действия прокрутки с контролем направления, что улучшает надежность. Модель теперь может явно прокручивать в любом направлении (вверх/вниз/влево/вправо) на указанное количество.
- Взаимодействие с электронными таблицами: Клики мыши для взаимодействия с электронными таблицами улучшились в Claude Sonnet 3.7 с добавлением более точных действий управления мышью, таких как
left_mouse_down
,left_mouse_up
и новой поддержки клавиш-модификаторов. Выбор ячеек может быть более надежным при использовании этих тонких элементов управления и комбинировании клавиш-модификаторов с кликами. - Создание аккаунтов и генерация контента на социальных и коммуникационных платформах: Хотя Claude будет посещать веб-сайты, мы ограничиваем его способность создавать аккаунты или генерировать и делиться контентом или иным образом заниматься имитацией человека на веб-сайтах и платформах социальных сетей. Мы можем обновить эту возможность в будущем.
- Уязвимости: Уязвимости, такие как джейлбрейкинг или инъекция промптов, могут сохраняться в передовых системах ИИ, включая бета-API использования компьютера. В некоторых обстоятельствах Claude будет следовать командам, найденным в контенте, иногда даже в конфликте с инструкциями пользователя. Например, инструкции Claude на веб-страницах или содержащиеся в изображениях могут переопределить инструкции или заставить Claude совершить ошибки. Мы рекомендуем: a. Ограничить использование компьютера доверенными средами, такими как виртуальные машины или контейнеры с минимальными привилегиями b. Избегать предоставления использованию компьютера доступа к конфиденциальным аккаунтам или данным без строгого надзора c. Информировать конечных пользователей о соответствующих рисках и получать их согласие перед включением или запросом разрешений, необходимых для функций использования компьютера в ваших приложениях
- Неподходящие или незаконные действия: Согласно условиям обслуживания Anthropic, вы не должны использовать использование компьютера для нарушения каких-либо законов или нашей Политики допустимого использования.
Ценообразование
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude