"computer-use-2025-01-24"
(modèles Claude 4 et Claude Sonnet 3.7)"computer-use-2024-10-22"
(Claude Sonnet 3.5 (déprécié))
Aperçu
L’utilisation d’ordinateur est une fonctionnalité bêta qui permet à Claude d’interagir avec les environnements de bureau. Cet outil fournit :- Capture d’écran : Voir ce qui est actuellement affiché à l’écran
- Contrôle de la souris : Cliquer, faire glisser et déplacer le curseur
- Saisie au clavier : Taper du texte et utiliser des raccourcis clavier
- Automatisation du bureau : Interagir avec n’importe quelle application ou interface
Compatibilité des modèles
L’utilisation d’ordinateur est disponible pour les modèles Claude suivants :Modèle | Version de l’outil | Drapeau bêta |
---|---|---|
Modèles Claude 4 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 v2 (déprécié) | computer_20241022 | computer-use-2024-10-22 |
Considérations de sécurité
- Utiliser une machine virtuelle dédiée ou un conteneur avec des privilèges minimaux pour prévenir les attaques directes du système ou les accidents.
- Éviter de donner au modèle l’accès à des données sensibles, telles que les informations de connexion de compte, pour prévenir le vol d’informations.
- Limiter l’accès internet à une liste d’autorisation de domaines pour réduire l’exposition au contenu malveillant.
- Demander à un humain de confirmer les décisions qui peuvent entraîner des conséquences significatives dans le monde réel ainsi que toute tâche nécessitant un consentement affirmatif, comme accepter des cookies, exécuter des transactions financières, ou accepter des conditions de service.
Implémentation de référence d'utilisation d'ordinateur
Démarrage rapide
Voici comment commencer avec l’utilisation d’ordinateur :- Modèles Claude 4 et Claude Sonnet 3.7 : En-tête bêta requis uniquement pour l’outil d’utilisation d’ordinateur
- Claude Sonnet 3.5 (déprécié) : En-tête bêta requis pour les outils ordinateur, bash et éditeur de texte
Comment fonctionne l’utilisation d’ordinateur
1. Fournir à Claude l'outil d'utilisation d'ordinateur et un prompt utilisateur
- Ajoutez l’outil d’utilisation d’ordinateur (et optionnellement d’autres outils) à votre requête API.
- Incluez un prompt utilisateur qui nécessite une interaction de bureau, par exemple, “Sauvegarde une image d’un chat sur mon bureau.”
2. Claude décide d'utiliser l'outil d'utilisation d'ordinateur
- Claude évalue si l’outil d’utilisation d’ordinateur peut aider avec la requête de l’utilisateur.
- Si oui, Claude construit une requête d’utilisation d’outil correctement formatée.
- La réponse API a un
stop_reason
detool_use
, signalant l’intention de Claude.
3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur, et retourner les résultats
- De votre côté, extrayez le nom de l’outil et l’entrée de la requête de Claude.
- Utilisez l’outil sur un conteneur ou une Machine Virtuelle.
- Continuez la conversation avec un nouveau message
user
contenant un bloc de contenutool_result
.
4. Claude continue d'appeler les outils d'utilisation d'ordinateur jusqu'à ce qu'il ait terminé la tâche
- Claude analyse les résultats de l’outil pour déterminer si plus d’utilisation d’outil est nécessaire ou si la tâche a été terminée.
- Si Claude décide qu’il a besoin d’un autre outil, il répond avec un autre
stop_reason
tool_use
et vous devriez retourner à l’étape 3. - Sinon, il élabore une réponse textuelle à l’utilisateur.
L’environnement informatique
L’utilisation d’ordinateur nécessite un environnement informatique en bac à sable où Claude peut interagir en toute sécurité avec les applications et le web. Cet environnement inclut :- Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra à travers les captures d’écran et contrôlera avec les actions souris/clavier.
- Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) fonctionnant sur Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.
- Applications : Applications Linux pré-installées comme Firefox, LibreOffice, éditeurs de texte, et gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
- Implémentations d’outils : Code d’intégration qui traduit les requêtes d’outils abstraites de Claude (comme “déplacer la souris” ou “prendre une capture d’écran”) en opérations réelles dans l’environnement virtuel.
- Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et retournant les résultats (captures d’écran, sorties de commandes) à Claude.
- Reçoit les requêtes d’utilisation d’outil de Claude
- Les traduit en actions dans votre environnement informatique
- Capture les résultats (captures d’écran, sorties de commandes, etc.)
- Retourne ces résultats à Claude
Comment implémenter l’utilisation d’ordinateur
Commencer avec notre implémentation de référence
Nous avons construit une implémentation de référence qui inclut tout ce dont vous avez besoin pour commencer rapidement avec l’utilisation d’ordinateur :- Un environnement conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Des implémentations des outils d’utilisation d’ordinateur
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les outils d’utilisation d’ordinateur
- Une interface web pour interagir avec le conteneur, la boucle d’agent, et les outils.
Comprendre la boucle multi-agent
Le cœur de l’utilisation d’ordinateur est la “boucle d’agent” - un cycle où Claude demande des actions d’outil, votre application les exécute, et retourne les résultats à Claude. Voici un exemple simplifié :Modèles Claude 4
Modèles Claude 4
computer_20250124
, incluez ce drapeau bêta :Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124
, incluez ce drapeau bêta :Claude Sonnet 3.5 v2 (déprécié)
Claude Sonnet 3.5 v2 (déprécié)
computer_20241022
, incluez ce drapeau bêta :Optimiser les performances du modèle avec le prompting
Voici quelques conseils sur comment obtenir les meilleures sorties de qualité :- Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
- Claude assume parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour prévenir cela, vous pouvez prompter Claude avec
Après chaque étape, prenez une capture d'écran et évaluez soigneusement si vous avez atteint le bon résultat. Montrez explicitement votre réflexion : "J'ai évalué l'étape X..." Si ce n'est pas correct, réessayez. Seulement quand vous confirmez qu'une étape a été exécutée correctement devriez-vous passer à la suivante.
- Certains éléments d’interface utilisateur (comme les menus déroulants et barres de défilement) peuvent être difficiles à manipuler pour Claude en utilisant les mouvements de souris. Si vous rencontrez cela, essayez de prompter le modèle pour utiliser des raccourcis clavier.
- Pour les tâches répétables ou interactions d’interface utilisateur, incluez des exemples de captures d’écran et d’appels d’outils de résultats réussis dans votre prompt.
- Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre prompt à l’intérieur de balises xml comme
<robot_credentials>
. Utiliser l’utilisation d’ordinateur dans des applications qui nécessitent une connexion augmente le risque de mauvais résultats à cause de l’injection de prompt. Veuillez consulter notre guide sur l’atténuation des injections de prompt avant de fournir au modèle des identifiants de connexion.
Prompts système
Quand un des outils définis par Anthropic est demandé via l’API Anthropic, un prompt système spécifique à l’utilisation d’ordinateur est généré. Il est similaire au prompt système d’utilisation d’outil mais commence par :Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique en bac à sable. Vous n’avez PAS actuellement la capacité d’inspecter des fichiers ou d’interagir avec des ressources externes, sauf en invoquant les fonctions ci-dessous.Comme avec l’utilisation d’outil régulière, le champ
system_prompt
fourni par l’utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.
Actions disponibles
L’outil d’utilisation d’ordinateur supporte ces actions : Actions de base (toutes versions)- screenshot - Capturer l’affichage actuel
- left_click - Cliquer aux coordonnées
[x, y]
- type - Taper une chaîne de texte
- key - Appuyer sur une touche ou combinaison de touches (par exemple, “ctrl+s”)
- mouse_move - Déplacer le curseur aux coordonnées
computer_20250124
)
Disponibles dans les modèles Claude 4 et Claude Sonnet 3.7 :
- scroll - Défiler dans n’importe quelle direction avec contrôle de quantité
- left_click_drag - Cliquer et faire glisser entre coordonnées
- right_click, middle_click - Boutons de souris supplémentaires
- double_click, triple_click - Clics multiples
- left_mouse_down, left_mouse_up - Contrôle de clic fin
- hold_key - Maintenir une touche tout en effectuant d’autres actions
- wait - Pause entre actions
Exemples d'actions
Exemples d'actions
Paramètres d’outil
Paramètre | Requis | Description |
---|---|---|
type | Oui | Version d’outil (computer_20250124 ou computer_20241022 ) |
name | Oui | Doit être “computer” |
display_width_px | Oui | Largeur d’affichage en pixels |
display_height_px | Oui | Hauteur d’affichage en pixels |
display_number | Non | Numéro d’affichage pour les environnements X11 |
Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7
Claude Sonnet 3.7 a introduit une nouvelle capacité de “réflexion” qui vous permet de voir le processus de raisonnement du modèle pendant qu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude approche un problème et peut être particulièrement précieuse pour le débogage ou à des fins éducatives. Pour activer la réflexion, ajoutez un paramètrethinking
à votre requête API :
budget_tokens
spécifie combien de tokens Claude peut utiliser pour la réflexion. Ceci est soustrait de votre budget max_tokens
global.
Quand la réflexion est activée, Claude retournera son processus de raisonnement comme partie de la réponse, ce qui peut vous aider à :
- Comprendre le processus de prise de décision du modèle
- Identifier les problèmes potentiels ou idées fausses
- Apprendre de l’approche de Claude à la résolution de problèmes
- Obtenir plus de visibilité sur les opérations complexes multi-étapes
Augmenter l’utilisation d’ordinateur avec d’autres outils
L’outil d’utilisation d’ordinateur peut être combiné avec d’autres outils pour créer des flux de travail d’automatisation plus puissants. Ceci est particulièrement utile quand vous devez :- Exécuter des commandes système (outil bash)
- Éditer des fichiers de configuration ou scripts (outil éditeur de texte)
- Intégrer avec des APIs ou services personnalisés (outils personnalisés)
Construire un environnement d’utilisation d’ordinateur personnalisé
L’implémentation de référence est destinée à vous aider à commencer avec l’utilisation d’ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation d’ordinateur pour répondre à vos besoins. Vous aurez besoin de :- Un environnement virtualisé ou conteneurisé adapté à l’utilisation d’ordinateur avec Claude
- Une implémentation d’au moins un des outils d’utilisation d’ordinateur définis par Anthropic
- Une boucle d’agent qui interagit avec l’API Anthropic et exécute les résultats
tool_use
en utilisant vos implémentations d’outils - Une API ou interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent
Implémenter l’outil d’utilisation d’ordinateur
L’outil d’utilisation d’ordinateur est implémenté comme un outil sans schéma. Lors de l’utilisation de cet outil, vous n’avez pas besoin de fournir un schéma d’entrée comme avec d’autres outils ; le schéma est intégré dans le modèle de Claude et ne peut pas être modifié.Configurer votre environnement informatique
Implémenter les gestionnaires d'action
Traiter les appels d'outil de Claude
Implémenter la boucle d'agent
Gérer les erreurs
Lors de l’implémentation de l’outil d’utilisation d’ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :Échec de capture d'écran
Échec de capture d'écran
Coordonnées invalides
Coordonnées invalides
Échec d'exécution d'action
Échec d'exécution d'action
Suivre les meilleures pratiques d’implémentation
Utiliser une résolution d'affichage appropriée
Utiliser une résolution d'affichage appropriée
- Pour les tâches de bureau générales : 1024x768 ou 1280x720
- Pour les applications web : 1280x800 ou 1366x768
- Évitez les résolutions au-dessus de 1920x1080 pour prévenir les problèmes de performance
Implémenter une gestion appropriée des captures d'écran
Implémenter une gestion appropriée des captures d'écran
- Encodez les captures d’écran en base64 PNG ou JPEG
- Considérez compresser les grandes captures d’écran pour améliorer les performances
- Incluez des métadonnées pertinentes comme horodatage ou état d’affichage
Ajouter des délais d'action
Ajouter des délais d'action
Valider les actions avant exécution
Valider les actions avant exécution
Enregistrer les actions pour le débogage
Enregistrer les actions pour le débogage
Comprendre les limitations de l’utilisation d’ordinateur
La fonctionnalité d’utilisation d’ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe, les développeurs devraient être conscients de ses limitations :- Latence : la latence actuelle d’utilisation d’ordinateur pour les interactions humain-IA peut être trop lente comparée aux actions d’ordinateur dirigées par l’humain régulières. Nous recommandons de se concentrer sur les cas d’usage où la vitesse n’est pas critique (par exemple, collecte d’informations en arrière-plan, tests de logiciels automatisés) dans des environnements de confiance.
- Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques tout en générant des actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et identifier les problèmes potentiels.
- Précision et fiabilité de sélection d’outil : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils tout en générant des actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être plus faible lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons que les utilisateurs promptent le modèle soigneusement lors de la demande de tâches complexes.
- Fiabilité du défilement : Alors que Claude Sonnet 3.5 v2 (déprécié) avait des limitations avec le défilement, Claude Sonnet 3.7 introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant défiler explicitement dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
- Interaction avec tableur : Les clics de souris pour l’interaction avec tableur se sont améliorés dans Claude Sonnet 3.7 avec l’ajout d’actions de contrôle de souris plus précises comme
left_mouse_down
,left_mouse_up
, et nouveau support de touches modificatrices. La sélection de cellule peut être plus fiable en utilisant ces contrôles fins et en combinant les touches modificatrices avec les clics. - Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera les sites web, nous limitons sa capacité à créer des comptes ou générer et partager du contenu ou autrement s’engager dans l’usurpation d’identité humaine à travers les sites web et plateformes de médias sociaux. Nous pouvons mettre à jour cette capacité dans le futur.
- Vulnérabilités : Les vulnérabilités comme le jailbreaking ou l’injection de prompt peuvent persister à travers les systèmes d’IA de frontière, incluant l’API d’utilisation d’ordinateur bêta. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, les instructions Claude sur les pages web ou contenues dans les images peuvent remplacer les instructions ou causer des erreurs à Claude. Nous recommandons : a. Limiter l’utilisation d’ordinateur aux environnements de confiance tels que machines virtuelles ou conteneurs avec privilèges minimaux b. Éviter de donner à l’utilisation d’ordinateur l’accès aux comptes ou données sensibles sans supervision stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou demander les permissions nécessaires pour les fonctionnalités d’utilisation d’ordinateur dans vos applications
- Actions inappropriées ou illégales : Selon les conditions de service d’Anthropic, vous ne devez pas employer l’utilisation d’ordinateur pour violer des lois ou notre Politique d’Usage Acceptable.
Tarification
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude