Outil d'utilisation d'ordinateur

Claude peut interagir avec les environnements informatiques grâce à l’outil d’utilisation d’ordinateur, qui fournit des capacités de capture d’écran et un contrôle souris/clavier pour l’interaction autonome du bureau.

L’utilisation d’ordinateur est actuellement en version bêta et nécessite un en-tête bêta :

"computer-use-2025-01-24" (modèles Claude 4 et Claude Sonnet 3.7)
"computer-use-2024-10-22" (Claude Sonnet 3.5 (déprécié))

Aperçu

L’utilisation d’ordinateur est une fonctionnalité bêta qui permet à Claude d’interagir avec les environnements de bureau. Cet outil fournit :

Capture d’écran : Voir ce qui est actuellement affiché à l’écran
Contrôle de la souris : Cliquer, faire glisser et déplacer le curseur
Saisie au clavier : Taper du texte et utiliser des raccourcis clavier
Automatisation du bureau : Interagir avec n’importe quelle application ou interface

Bien que l’utilisation d’ordinateur puisse être augmentée avec d’autres outils comme bash et l’éditeur de texte pour des flux de travail d’automatisation plus complets, l’utilisation d’ordinateur fait spécifiquement référence à la capacité de l’outil d’utilisation d’ordinateur à voir et contrôler les environnements de bureau.

Compatibilité des modèles

L’utilisation d’ordinateur est disponible pour les modèles Claude suivants :

Modèle	Version de l’outil	Drapeau bêta
Modèles Claude 4	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.7	`computer_20250124`	`computer-use-2025-01-24`
Claude Sonnet 3.5 v2 (déprécié)	`computer_20241022`	`computer-use-2024-10-22`

Les modèles Claude 4 utilisent des versions d’outils mises à jour optimisées pour la nouvelle architecture. Claude Sonnet 3.7 introduit des capacités supplémentaires incluant la fonctionnalité de réflexion pour plus d’aperçu du processus de raisonnement du modèle.

Considérations de sécurité

L’utilisation d’ordinateur est une fonctionnalité bêta avec des risques uniques distincts des fonctionnalités API standard. Ces risques sont accrus lors de l’interaction avec internet. Pour minimiser les risques, envisagez de prendre des précautions telles que :

Utiliser une machine virtuelle dédiée ou un conteneur avec des privilèges minimaux pour prévenir les attaques directes du système ou les accidents.
Éviter de donner au modèle l’accès à des données sensibles, telles que les informations de connexion de compte, pour prévenir le vol d’informations.
Limiter l’accès internet à une liste d’autorisation de domaines pour réduire l’exposition au contenu malveillant.
Demander à un humain de confirmer les décisions qui peuvent entraîner des conséquences significatives dans le monde réel ainsi que toute tâche nécessitant un consentement affirmatif, comme accepter des cookies, exécuter des transactions financières, ou accepter des conditions de service.

Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu même si cela entre en conflit avec les instructions de l’utilisateur. Par exemple, les instructions Claude sur les pages web ou contenues dans les images peuvent remplacer les instructions ou causer des erreurs à Claude. Nous suggérons de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompt.Nous avons entraîné le modèle à résister à ces injections de prompt et avons ajouté une couche de défense supplémentaire. Si vous utilisez nos outils d’utilisation d’ordinateur, nous exécuterons automatiquement des classificateurs sur vos prompts pour signaler les instances potentielles d’injections de prompt. Lorsque ces classificateurs identifient des injections de prompt potentielles dans les captures d’écran, ils dirigeront automatiquement le modèle pour demander la confirmation de l’utilisateur avant de procéder à l’action suivante. Nous reconnaissons que cette protection supplémentaire ne sera pas idéale pour tous les cas d’usage (par exemple, les cas d’usage sans humain dans la boucle), donc si vous souhaitez vous désinscrire et l’éteindre, veuillez nous contacter.Nous suggérons toujours de prendre des précautions pour isoler Claude des données et actions sensibles afin d’éviter les risques liés à l’injection de prompt.Enfin, veuillez informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer l’utilisation d’ordinateur dans vos propres produits.

Implémentation de référence d'utilisation d'ordinateur

Commencez rapidement avec notre implémentation de référence d’utilisation d’ordinateur qui inclut une interface web, un conteneur Docker, des exemples d’implémentations d’outils, et une boucle d’agent.Note : L’implémentation a été mise à jour pour inclure de nouveaux outils pour les modèles Claude 4 et Claude Sonnet 3.7. Assurez-vous de tirer la dernière version du dépôt pour accéder à ces nouvelles fonctionnalités.

Veuillez utiliser ce formulaire pour fournir des commentaires sur la qualité des réponses du modèle, l’API elle-même, ou la qualité de la documentation - nous avons hâte d’avoir de vos nouvelles !

Démarrage rapide

Voici comment commencer avec l’utilisation d’ordinateur :

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",  # ou un autre modèle compatible
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Sauvegarde une image d'un chat sur mon bureau."}],
    betas=["computer-use-2025-01-24"]
)
print(response)

Exigences d’en-tête bêta :

Modèles Claude 4 et Claude Sonnet 3.7 : En-tête bêta requis uniquement pour l’outil d’utilisation d’ordinateur
Claude Sonnet 3.5 (déprécié) : En-tête bêta requis pour les outils ordinateur, bash et éditeur de texte

L’exemple ci-dessus montre les trois outils utilisés ensemble, ce qui nécessite l’en-tête bêta pour tout modèle Claude puisqu’il inclut l’outil d’utilisation d’ordinateur.

Comment fonctionne l’utilisation d’ordinateur

1. Fournir à Claude l'outil d'utilisation d'ordinateur et un prompt utilisateur

Ajoutez l’outil d’utilisation d’ordinateur (et optionnellement d’autres outils) à votre requête API.
Incluez un prompt utilisateur qui nécessite une interaction de bureau, par exemple, “Sauvegarde une image d’un chat sur mon bureau.”

2. Claude décide d'utiliser l'outil d'utilisation d'ordinateur

Claude évalue si l’outil d’utilisation d’ordinateur peut aider avec la requête de l’utilisateur.
Si oui, Claude construit une requête d’utilisation d’outil correctement formatée.
La réponse API a un stop_reason de tool_use, signalant l’intention de Claude.

3. Extraire l'entrée de l'outil, évaluer l'outil sur un ordinateur, et retourner les résultats

De votre côté, extrayez le nom de l’outil et l’entrée de la requête de Claude.
Utilisez l’outil sur un conteneur ou une Machine Virtuelle.
Continuez la conversation avec un nouveau message user contenant un bloc de contenu tool_result.

4. Claude continue d'appeler les outils d'utilisation d'ordinateur jusqu'à ce qu'il ait terminé la tâche

Claude analyse les résultats de l’outil pour déterminer si plus d’utilisation d’outil est nécessaire ou si la tâche a été terminée.
Si Claude décide qu’il a besoin d’un autre outil, il répond avec un autre stop_reason tool_use et vous devriez retourner à l’étape 3.
Sinon, il élabore une réponse textuelle à l’utilisateur.

Nous faisons référence à la répétition des étapes 3 et 4 sans entrée utilisateur comme la “boucle d’agent” - c’est-à-dire, Claude répondant avec une requête d’utilisation d’outil et votre application répondant à Claude avec les résultats de l’évaluation de cette requête.

L’environnement informatique

L’utilisation d’ordinateur nécessite un environnement informatique en bac à sable où Claude peut interagir en toute sécurité avec les applications et le web. Cet environnement inclut :

Affichage virtuel : Un serveur d’affichage X11 virtuel (utilisant Xvfb) qui rend l’interface de bureau que Claude verra à travers les captures d’écran et contrôlera avec les actions souris/clavier.
Environnement de bureau : Une interface utilisateur légère avec gestionnaire de fenêtres (Mutter) et panneau (Tint2) fonctionnant sur Linux, qui fournit une interface graphique cohérente pour que Claude puisse interagir.
Applications : Applications Linux pré-installées comme Firefox, LibreOffice, éditeurs de texte, et gestionnaires de fichiers que Claude peut utiliser pour accomplir des tâches.
Implémentations d’outils : Code d’intégration qui traduit les requêtes d’outils abstraites de Claude (comme “déplacer la souris” ou “prendre une capture d’écran”) en opérations réelles dans l’environnement virtuel.
Boucle d’agent : Un programme qui gère la communication entre Claude et l’environnement, envoyant les actions de Claude à l’environnement et retournant les résultats (captures d’écran, sorties de commandes) à Claude.

Quand vous utilisez l’utilisation d’ordinateur, Claude ne se connecte pas directement à cet environnement. Au lieu de cela, votre application :

Reçoit les requêtes d’utilisation d’outil de Claude
Les traduit en actions dans votre environnement informatique
Capture les résultats (captures d’écran, sorties de commandes, etc.)
Retourne ces résultats à Claude

Pour la sécurité et l’isolation, l’implémentation de référence exécute tout cela à l’intérieur d’un conteneur Docker avec des mappages de ports appropriés pour visualiser et interagir avec l’environnement.

Comment implémenter l’utilisation d’ordinateur

Commencer avec notre implémentation de référence

Nous avons construit une implémentation de référence qui inclut tout ce dont vous avez besoin pour commencer rapidement avec l’utilisation d’ordinateur :

Un environnement conteneurisé adapté à l’utilisation d’ordinateur avec Claude
Des implémentations des outils d’utilisation d’ordinateur
Une boucle d’agent qui interagit avec l’API Anthropic et exécute les outils d’utilisation d’ordinateur
Une interface web pour interagir avec le conteneur, la boucle d’agent, et les outils.

Comprendre la boucle multi-agent

Le cœur de l’utilisation d’ordinateur est la “boucle d’agent” - un cycle où Claude demande des actions d’outil, votre application les exécute, et retourne les résultats à Claude. Voici un exemple simplifié :

async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # Ajouter une limite d'itération pour prévenir les boucles infinies
):
    """
    Une boucle d'agent simple pour les interactions d'utilisation d'ordinateur Claude.

    Cette fonction gère l'aller-retour entre :
    1. Envoyer des messages utilisateur à Claude
    2. Claude demandant d'utiliser des outils
    3. Votre app exécutant ces outils
    4. Envoyer les résultats d'outil à Claude
    """
    # Configurer les outils et paramètres API
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # Configurer les outils - vous devriez déjà les avoir initialisés ailleurs
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # Boucle d'agent principale (avec limite d'itération pour prévenir les coûts API incontrôlés)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # Configurer le paramètre de réflexion optionnel (pour Claude Sonnet 3.7)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Appeler l'API Claude
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # Ajouter la réponse de Claude à l'historique de conversation
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Vérifier si Claude a utilisé des outils
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # Dans une vraie app, vous exécuteriez l'outil ici
                # Par exemple : result = run_tool(block.name, block.input)
                result = {"result": "Outil exécuté avec succès"}

                # Formater le résultat pour Claude
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # Si aucun outil n'a été utilisé, Claude a terminé - retourner les messages finaux
        if not tool_results:
            return messages

        # Ajouter les résultats d'outil aux messages pour la prochaine itération avec Claude
        messages.append({"role": "user", "content": tool_results})

La boucle continue jusqu’à ce que Claude réponde sans demander d’outils (achèvement de tâche) ou que la limite d’itération maximale soit atteinte. Cette protection prévient les boucles infinies potentielles qui pourraient résulter en coûts API inattendus.

Lors de l’utilisation de l’outil d’utilisation d’ordinateur, vous devez inclure le drapeau bêta approprié pour votre version de modèle :

Modèles Claude 4

Claude Sonnet 3.7

Claude Sonnet 3.5 v2 (déprécié)

Note : Pour les modèles Claude 4 et Claude Sonnet 3.7, le drapeau bêta n’est requis que pour l’outil d’utilisation d’ordinateur. Pour Claude Sonnet 3.5 (déprécié), le drapeau bêta est requis pour les outils ordinateur, bash et éditeur de texte.

Nous recommandons d’essayer l’implémentation de référence avant de lire le reste de cette documentation.

Optimiser les performances du modèle avec le prompting

Voici quelques conseils sur comment obtenir les meilleures sorties de qualité :

Spécifiez des tâches simples et bien définies et fournissez des instructions explicites pour chaque étape.
Claude assume parfois les résultats de ses actions sans vérifier explicitement leurs résultats. Pour prévenir cela, vous pouvez prompter Claude avec Après chaque étape, prenez une capture d'écran et évaluez soigneusement si vous avez atteint le bon résultat. Montrez explicitement votre réflexion : "J'ai évalué l'étape X..." Si ce n'est pas correct, réessayez. Seulement quand vous confirmez qu'une étape a été exécutée correctement devriez-vous passer à la suivante.
Certains éléments d’interface utilisateur (comme les menus déroulants et barres de défilement) peuvent être difficiles à manipuler pour Claude en utilisant les mouvements de souris. Si vous rencontrez cela, essayez de prompter le modèle pour utiliser des raccourcis clavier.
Pour les tâches répétables ou interactions d’interface utilisateur, incluez des exemples de captures d’écran et d’appels d’outils de résultats réussis dans votre prompt.
Si vous avez besoin que le modèle se connecte, fournissez-lui le nom d’utilisateur et le mot de passe dans votre prompt à l’intérieur de balises xml comme <robot_credentials>. Utiliser l’utilisation d’ordinateur dans des applications qui nécessitent une connexion augmente le risque de mauvais résultats à cause de l’injection de prompt. Veuillez consulter notre guide sur l’atténuation des injections de prompt avant de fournir au modèle des identifiants de connexion.

Si vous rencontrez répétitivement un ensemble clair de problèmes ou connaissez à l’avance les tâches que Claude devra accomplir, utilisez le prompt système pour fournir à Claude des conseils ou instructions explicites sur comment faire les tâches avec succès.

Prompts système

Quand un des outils définis par Anthropic est demandé via l’API Anthropic, un prompt système spécifique à l’utilisation d’ordinateur est généré. Il est similaire au prompt système d’utilisation d’outil mais commence par :

Vous avez accès à un ensemble de fonctions que vous pouvez utiliser pour répondre à la question de l’utilisateur. Cela inclut l’accès à un environnement informatique en bac à sable. Vous n’avez PAS actuellement la capacité d’inspecter des fichiers ou d’interagir avec des ressources externes, sauf en invoquant les fonctions ci-dessous.

Comme avec l’utilisation d’outil régulière, le champ system_prompt fourni par l’utilisateur est toujours respecté et utilisé dans la construction du prompt système combiné.

Actions disponibles

L’outil d’utilisation d’ordinateur supporte ces actions : Actions de base (toutes versions)

screenshot - Capturer l’affichage actuel
left_click - Cliquer aux coordonnées [x, y]
type - Taper une chaîne de texte
key - Appuyer sur une touche ou combinaison de touches (par exemple, “ctrl+s”)
mouse_move - Déplacer le curseur aux coordonnées

Actions améliorées (computer_20250124) Disponibles dans les modèles Claude 4 et Claude Sonnet 3.7 :

scroll - Défiler dans n’importe quelle direction avec contrôle de quantité
left_click_drag - Cliquer et faire glisser entre coordonnées
right_click, middle_click - Boutons de souris supplémentaires
double_click, triple_click - Clics multiples
left_mouse_down, left_mouse_up - Contrôle de clic fin
hold_key - Maintenir une touche tout en effectuant d’autres actions
wait - Pause entre actions

Exemples d'actions

// Prendre une capture d'écran
{
  "action": "screenshot"
}

// Cliquer à une position
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// Taper du texte
{
  "action": "type",
  "text": "Bonjour, monde !"
}

// Défiler vers le bas (Claude 4/3.7)
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

Paramètres d’outil

Paramètre	Requis	Description
`type`	Oui	Version d’outil (`computer_20250124` ou `computer_20241022`)
`name`	Oui	Doit être “computer”
`display_width_px`	Oui	Largeur d’affichage en pixels
`display_height_px`	Oui	Hauteur d’affichage en pixels
`display_number`	Non	Numéro d’affichage pour les environnements X11

Gardez la résolution d’affichage à ou en dessous de 1280x800 (WXGA) pour de meilleures performances. Des résolutions plus élevées peuvent causer des problèmes de précision à cause du redimensionnement d’image.

Important : L’outil d’utilisation d’ordinateur doit être explicitement exécuté par votre application - Claude ne peut pas l’exécuter directement. Vous êtes responsable d’implémenter la capture de capture d’écran, les mouvements de souris, les entrées clavier, et autres actions basées sur les requêtes de Claude.

Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7

Claude Sonnet 3.7 a introduit une nouvelle capacité de “réflexion” qui vous permet de voir le processus de raisonnement du modèle pendant qu’il travaille sur des tâches complexes. Cette fonctionnalité vous aide à comprendre comment Claude approche un problème et peut être particulièrement précieuse pour le débogage ou à des fins éducatives. Pour activer la réflexion, ajoutez un paramètre thinking à votre requête API :

"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}

Le paramètre budget_tokens spécifie combien de tokens Claude peut utiliser pour la réflexion. Ceci est soustrait de votre budget max_tokens global. Quand la réflexion est activée, Claude retournera son processus de raisonnement comme partie de la réponse, ce qui peut vous aider à :

Comprendre le processus de prise de décision du modèle
Identifier les problèmes potentiels ou idées fausses
Apprendre de l’approche de Claude à la résolution de problèmes
Obtenir plus de visibilité sur les opérations complexes multi-étapes

Voici un exemple de ce à quoi la sortie de réflexion pourrait ressembler :

[Réflexion]
Je dois sauvegarder une image d'un chat sur le bureau. Laissez-moi décomposer cela en étapes :

1. D'abord, je vais prendre une capture d'écran pour voir ce qui est sur le bureau
2. Ensuite je vais chercher un navigateur web pour rechercher des images de chat
3. Après avoir trouvé une image appropriée, je devrai la sauvegarder sur le bureau

Laissez-moi commencer par prendre une capture d'écran pour voir ce qui est disponible...

Augmenter l’utilisation d’ordinateur avec d’autres outils

L’outil d’utilisation d’ordinateur peut être combiné avec d’autres outils pour créer des flux de travail d’automatisation plus puissants. Ceci est particulièrement utile quand vous devez :

Exécuter des commandes système (outil bash)
Éditer des fichiers de configuration ou scripts (outil éditeur de texte)
Intégrer avec des APIs ou services personnalisés (outils personnalisés)

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-opus-4-1-20250805",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Obtenir la météo actuelle dans un lieu donné",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "La ville et l'état, par exemple San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "L'unité de température, soit 'celsius' soit 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Trouve des vols de San Francisco vers un endroit avec un temps plus chaud."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

Construire un environnement d’utilisation d’ordinateur personnalisé

L’implémentation de référence est destinée à vous aider à commencer avec l’utilisation d’ordinateur. Elle inclut tous les composants nécessaires pour que Claude utilise un ordinateur. Cependant, vous pouvez construire votre propre environnement pour l’utilisation d’ordinateur pour répondre à vos besoins. Vous aurez besoin de :

Un environnement virtualisé ou conteneurisé adapté à l’utilisation d’ordinateur avec Claude
Une implémentation d’au moins un des outils d’utilisation d’ordinateur définis par Anthropic
Une boucle d’agent qui interagit avec l’API Anthropic et exécute les résultats tool_use en utilisant vos implémentations d’outils
Une API ou interface utilisateur qui permet l’entrée utilisateur pour démarrer la boucle d’agent

Implémenter l’outil d’utilisation d’ordinateur

L’outil d’utilisation d’ordinateur est implémenté comme un outil sans schéma. Lors de l’utilisation de cet outil, vous n’avez pas besoin de fournir un schéma d’entrée comme avec d’autres outils ; le schéma est intégré dans le modèle de Claude et ne peut pas être modifié.

Configurer votre environnement informatique

Créez un affichage virtuel ou connectez-vous à un affichage existant avec lequel Claude interagira. Cela implique typiquement de configurer Xvfb (X Virtual Framebuffer) ou une technologie similaire.

Implémenter les gestionnaires d'action

Créez des fonctions pour gérer chaque type d’action que Claude pourrait demander :

def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... gérer d'autres actions

Traiter les appels d'outil de Claude

Extraire et exécuter les appels d’outil des réponses de Claude :

for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Retourner le résultat à Claude
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }

Implémenter la boucle d'agent

Créer une boucle qui continue jusqu’à ce que Claude termine la tâche :

while True:
    response = client.beta.messages.create(...)
    
    # Vérifier si Claude a utilisé des outils
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # Plus d'utilisation d'outil, tâche terminée
        break
        
    # Continuer la conversation avec les résultats d'outil
    messages.append({"role": "user", "content": tool_results})

Gérer les erreurs

Lors de l’implémentation de l’outil d’utilisation d’ordinateur, diverses erreurs peuvent survenir. Voici comment les gérer :

Échec de capture d'écran

Si la capture d’écran échoue, retournez un message d’erreur approprié :

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erreur : Échec de capture d'écran. L'affichage peut être verrouillé ou indisponible.",
      "is_error": true
    }
  ]
}

Coordonnées invalides

Si Claude fournit des coordonnées en dehors des limites d’affichage :

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erreur : Les coordonnées (1200, 900) sont en dehors des limites d'affichage (1024x768).",
      "is_error": true
    }
  ]
}

Échec d'exécution d'action

Si une action échoue à s’exécuter :

{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Erreur : Échec d'exécution de l'action de clic. L'application peut ne pas répondre.",
      "is_error": true
    }
  ]
}

Suivre les meilleures pratiques d’implémentation

Utiliser une résolution d'affichage appropriée

Implémenter une gestion appropriée des captures d'écran

Ajouter des délais d'action

Certaines applications ont besoin de temps pour répondre aux actions :

def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # Permettre à l'interface utilisateur de se mettre à jour

Valider les actions avant exécution

Vérifiez que les actions demandées sont sû res et valides :

def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "Coordonnées hors limites"
    return True, None

Enregistrer les actions pour le débogage

Gardez un journal de toutes les actions pour le dépannage :

import logging

def log_action(action_type, params, result):
    logging.info(f"Action : {action_type}, Paramètres : {params}, Résultat : {result}")

Comprendre les limitations de l’utilisation d’ordinateur

La fonctionnalité d’utilisation d’ordinateur est en version bêta. Bien que les capacités de Claude soient à la pointe, les développeurs devraient être conscients de ses limitations :

Latence : la latence actuelle d’utilisation d’ordinateur pour les interactions humain-IA peut être trop lente comparée aux actions d’ordinateur dirigées par l’humain régulières. Nous recommandons de se concentrer sur les cas d’usage où la vitesse n’est pas critique (par exemple, collecte d’informations en arrière-plan, tests de logiciels automatisés) dans des environnements de confiance.
Précision et fiabilité de la vision par ordinateur : Claude peut faire des erreurs ou halluciner lors de la sortie de coordonnées spécifiques tout en générant des actions. Claude Sonnet 3.7 introduit la capacité de réflexion qui peut vous aider à comprendre le raisonnement du modèle et identifier les problèmes potentiels.
Précision et fiabilité de sélection d’outil : Claude peut faire des erreurs ou halluciner lors de la sélection d’outils tout en générant des actions ou prendre des actions inattendues pour résoudre des problèmes. De plus, la fiabilité peut être plus faible lors de l’interaction avec des applications de niche ou plusieurs applications à la fois. Nous recommandons que les utilisateurs promptent le modèle soigneusement lors de la demande de tâches complexes.
Fiabilité du défilement : Alors que Claude Sonnet 3.5 v2 (déprécié) avait des limitations avec le défilement, Claude Sonnet 3.7 introduit des actions de défilement dédiées avec contrôle de direction qui améliore la fiabilité. Le modèle peut maintenant défiler explicitement dans n’importe quelle direction (haut/bas/gauche/droite) d’une quantité spécifiée.
Interaction avec tableur : Les clics de souris pour l’interaction avec tableur se sont améliorés dans Claude Sonnet 3.7 avec l’ajout d’actions de contrôle de souris plus précises comme left_mouse_down, left_mouse_up, et nouveau support de touches modificatrices. La sélection de cellule peut être plus fiable en utilisant ces contrôles fins et en combinant les touches modificatrices avec les clics.
Création de compte et génération de contenu sur les plateformes sociales et de communication : Bien que Claude visitera les sites web, nous limitons sa capacité à créer des comptes ou générer et partager du contenu ou autrement s’engager dans l’usurpation d’identité humaine à travers les sites web et plateformes de médias sociaux. Nous pouvons mettre à jour cette capacité dans le futur.
Vulnérabilités : Les vulnérabilités comme le jailbreaking ou l’injection de prompt peuvent persister à travers les systèmes d’IA de frontière, incluant l’API d’utilisation d’ordinateur bêta. Dans certaines circonstances, Claude suivra les commandes trouvées dans le contenu, parfois même en conflit avec les instructions de l’utilisateur. Par exemple, les instructions Claude sur les pages web ou contenues dans les images peuvent remplacer les instructions ou causer des erreurs à Claude. Nous recommandons : a. Limiter l’utilisation d’ordinateur aux environnements de confiance tels que machines virtuelles ou conteneurs avec privilèges minimaux b. Éviter de donner à l’utilisation d’ordinateur l’accès aux comptes ou données sensibles sans supervision stricte c. Informer les utilisateurs finaux des risques pertinents et obtenir leur consentement avant d’activer ou demander les permissions nécessaires pour les fonctionnalités d’utilisation d’ordinateur dans vos applications
Actions inappropriées ou illégales : Selon les conditions de service d’Anthropic, vous ne devez pas employer l’utilisation d’ordinateur pour violer des lois ou notre Politique d’Usage Acceptable.

Toujours examiner et vérifier soigneusement les actions et journaux d’utilisation d’ordinateur de Claude. N’utilisez pas Claude pour des tâches nécessitant une précision parfaite ou des informations utilisateur sensibles sans supervision humaine.

Tarification

Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:

Model	Input tokens per tool definition
Claude 4 / Sonnet 3.7	735 tokens
Claude Sonnet 3.5 (deprecated)	683 tokens

Additional token consumption:

Screenshot images (see Vision pricing)
Tool execution results returned to Claude

If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

Prochaines étapes

Implémentation de référence

Commencez rapidement avec notre implémentation complète basée sur Docker

Documentation des outils

Apprenez-en plus sur l’utilisation d’outils et la création d’outils personnalisés

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

Outil d'utilisation d'ordinateur

Aperçu

Compatibilité des modèles

Considérations de sécurité

Implémentation de référence d'utilisation d'ordinateur

Démarrage rapide

Comment fonctionne l’utilisation d’ordinateur

L’environnement informatique

Comment implémenter l’utilisation d’ordinateur

Commencer avec notre implémentation de référence

Comprendre la boucle multi-agent

Optimiser les performances du modèle avec le prompting

Prompts système

Actions disponibles

Paramètres d’outil

Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7

Augmenter l’utilisation d’ordinateur avec d’autres outils

Construire un environnement d’utilisation d’ordinateur personnalisé

Implémenter l’outil d’utilisation d’ordinateur

Gérer les erreurs

Suivre les meilleures pratiques d’implémentation

Comprendre les limitations de l’utilisation d’ordinateur

Tarification

Prochaines étapes

Implémentation de référence

Documentation des outils

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

​Aperçu

​Compatibilité des modèles

​Considérations de sécurité

Implémentation de référence d'utilisation d'ordinateur

​Démarrage rapide

​Comment fonctionne l’utilisation d’ordinateur

​L’environnement informatique

​Comment implémenter l’utilisation d’ordinateur

​Commencer avec notre implémentation de référence

​Comprendre la boucle multi-agent

​Optimiser les performances du modèle avec le prompting

​Prompts système

​Actions disponibles

​Paramètres d’outil

​Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7

​Augmenter l’utilisation d’ordinateur avec d’autres outils

​Construire un environnement d’utilisation d’ordinateur personnalisé

​Implémenter l’outil d’utilisation d’ordinateur

​Gérer les erreurs

​Suivre les meilleures pratiques d’implémentation

​Comprendre les limitations de l’utilisation d’ordinateur

​Tarification

​Prochaines étapes

Implémentation de référence

Documentation des outils

Aperçu

Compatibilité des modèles

Considérations de sécurité

Démarrage rapide

Comment fonctionne l’utilisation d’ordinateur

L’environnement informatique

Comment implémenter l’utilisation d’ordinateur

Commencer avec notre implémentation de référence

Comprendre la boucle multi-agent

Optimiser les performances du modèle avec le prompting

Prompts système

Actions disponibles

Paramètres d’outil

Activer la capacité de réflexion dans les modèles Claude 4 et Claude Sonnet 3.7

Augmenter l’utilisation d’ordinateur avec d’autres outils

Construire un environnement d’utilisation d’ordinateur personnalisé

Implémenter l’outil d’utilisation d’ordinateur

Gérer les erreurs

Suivre les meilleures pratiques d’implémentation

Comprendre les limitations de l’utilisation d’ordinateur

Tarification

Prochaines étapes