"computer-use-2025-01-24"
(Claude 4 Modelle und Claude Sonnet 3.7)"computer-use-2024-10-22"
(Claude Sonnet 3.5 (veraltet))
Überblick
Computer use ist eine Beta-Funktion, die es Claude ermöglicht, mit Desktop-Umgebungen zu interagieren. Dieses Tool bietet:- Screenshot-Erfassung: Sehen, was aktuell auf dem Bildschirm angezeigt wird
- Maussteuerung: Klicken, Ziehen und Bewegen des Cursors
- Tastatureingabe: Text eingeben und Tastenkombinationen verwenden
- Desktop-Automatisierung: Mit jeder Anwendung oder Benutzeroberfläche interagieren
Modellkompatibilität
Computer use ist für die folgenden Claude-Modelle verfügbar:Modell | Tool-Version | Beta-Flag |
---|---|---|
Claude 4 Modelle | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.7 | computer_20250124 | computer-use-2025-01-24 |
Claude Sonnet 3.5 v2 (veraltet) | computer_20241022 | computer-use-2024-10-22 |
Sicherheitsüberlegungen
- Verwenden Sie eine dedizierte virtuelle Maschine oder einen Container mit minimalen Berechtigungen, um direkte Systemangriffe oder Unfälle zu verhindern.
- Vermeiden Sie es, dem Modell Zugang zu sensiblen Daten wie Konto-Anmeldeinformationen zu geben, um Informationsdiebstahl zu verhindern.
- Beschränken Sie den Internetzugang auf eine Whitelist von Domains, um die Exposition gegenüber schädlichen Inhalten zu reduzieren.
- Bitten Sie einen Menschen, Entscheidungen zu bestätigen, die zu bedeutsamen realen Konsequenzen führen können, sowie alle Aufgaben, die eine ausdrückliche Zustimmung erfordern, wie das Akzeptieren von Cookies, die Durchführung von Finanztransaktionen oder die Zustimmung zu Nutzungsbedingungen.
Computer use Referenzimplementierung
Schnellstart
So beginnen Sie mit Computer use:- Claude 4 Modelle und Claude Sonnet 3.7: Beta-Header nur für das Computer use tool erforderlich
- Claude Sonnet 3.5 (veraltet): Beta-Header für Computer-, bash- und Texteditor-Tools erforderlich
Wie Computer use funktioniert
1. Stellen Sie Claude das Computer use tool und einen Benutzer-Prompt zur Verfügung
- Fügen Sie das Computer use tool (und optional andere Tools) zu Ihrer API-Anfrage hinzu.
- Fügen Sie einen Benutzer-Prompt hinzu, der Desktop-Interaktion erfordert, z.B. “Speichere ein Bild einer Katze auf meinem Desktop.”
2. Claude entscheidet, das Computer use tool zu verwenden
- Claude bewertet, ob das Computer use tool bei der Anfrage des Benutzers helfen kann.
- Wenn ja, konstruiert Claude eine ordnungsgemäß formatierte Tool-Use-Anfrage.
- Die API-Antwort hat einen
stop_reason
vontool_use
, der Claudes Absicht signalisiert.
3. Tool-Input extrahieren, das Tool auf einem Computer auswerten und Ergebnisse zurückgeben
- Auf Ihrer Seite extrahieren Sie den Tool-Namen und Input aus Claudes Anfrage.
- Verwenden Sie das Tool auf einem Container oder einer virtuellen Maschine.
- Setzen Sie die Unterhaltung mit einer neuen
user
-Nachricht fort, die einentool_result
-Inhaltsblock enthält.
4. Claude ruft weiterhin Computer use tools auf, bis die Aufgabe abgeschlossen ist
- Claude analysiert die Tool-Ergebnisse, um zu bestimmen, ob mehr Tool-Use benötigt wird oder die Aufgabe abgeschlossen wurde.
- Wenn Claude entscheidet, dass es ein anderes Tool benötigt, antwortet es mit einem weiteren
tool_use
stop_reason
und Sie sollten zu Schritt 3 zurückkehren. - Andernfalls erstellt es eine Textantwort an den Benutzer.
Die Computing-Umgebung
Computer use erfordert eine sandboxed Computing-Umgebung, in der Claude sicher mit Anwendungen und dem Web interagieren kann. Diese Umgebung umfasst:- Virtuelles Display: Ein virtueller X11-Display-Server (mit Xvfb), der die Desktop-Benutzeroberfläche rendert, die Claude durch Screenshots sehen und mit Maus-/Tastaturaktionen steuern wird.
- Desktop-Umgebung: Eine leichtgewichtige Benutzeroberfläche mit Window Manager (Mutter) und Panel (Tint2) unter Linux, die eine konsistente grafische Benutzeroberfläche für Claude zur Interaktion bietet.
- Anwendungen: Vorinstallierte Linux-Anwendungen wie Firefox, LibreOffice, Texteditoren und Dateimanager, die Claude zur Erledigung von Aufgaben verwenden kann.
- Tool-Implementierungen: Integrationscode, der Claudes abstrakte Tool-Anfragen (wie “Maus bewegen” oder “Screenshot machen”) in tatsächliche Operationen in der virtuellen Umgebung übersetzt.
- Agent-Schleife: Ein Programm, das die Kommunikation zwischen Claude und der Umgebung handhabt, Claudes Aktionen an die Umgebung sendet und die Ergebnisse (Screenshots, Befehlsausgaben) zurück an Claude gibt.
- Empfängt Claudes Tool-Use-Anfragen
- Übersetzt sie in Aktionen in Ihrer Computing-Umgebung
- Erfasst die Ergebnisse (Screenshots, Befehlsausgaben, etc.)
- Gibt diese Ergebnisse an Claude zurück
Wie man Computer use implementiert
Beginnen Sie mit unserer Referenzimplementierung
Wir haben eine Referenzimplementierung erstellt, die alles enthält, was Sie benötigen, um schnell mit Computer use zu beginnen:- Eine containerisierte Umgebung, die für Computer use mit Claude geeignet ist
- Implementierungen der Computer use tools
- Eine Agent-Schleife, die mit der Anthropic API interagiert und die Computer use tools ausführt
- Eine Web-Benutzeroberfläche zur Interaktion mit dem Container, der Agent-Schleife und den Tools.
Die Multi-Agent-Schleife verstehen
Der Kern von Computer use ist die “Agent-Schleife” - ein Zyklus, in dem Claude Tool-Aktionen anfordert, Ihre Anwendung sie ausführt und Ergebnisse an Claude zurückgibt. Hier ist ein vereinfachtes Beispiel:Claude 4 Modelle
Claude 4 Modelle
computer_20250124
, schließen Sie diesen Beta-Flag ein:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124
, schließen Sie diesen Beta-Flag ein:Claude Sonnet 3.5 v2 (veraltet)
Claude Sonnet 3.5 v2 (veraltet)
computer_20241022
, schließen Sie diesen Beta-Flag ein:Modellleistung mit Prompting optimieren
Hier sind einige Tipps, wie Sie die besten Qualitätsausgaben erhalten:- Spezifizieren Sie einfache, gut definierte Aufgaben und geben Sie explizite Anweisungen für jeden Schritt.
- Claude nimmt manchmal Ergebnisse seiner Aktionen an, ohne ihre Resultate explizit zu überprüfen. Um dies zu verhindern, können Sie Claude mit folgendem Prompt versehen:
Nach jedem Schritt mache einen Screenshot und bewerte sorgfältig, ob du das richtige Ergebnis erreicht hast. Zeige explizit dein Denken: "Ich habe Schritt X bewertet..." Wenn nicht korrekt, versuche es erneut. Nur wenn du bestätigst, dass ein Schritt korrekt ausgeführt wurde, solltest du zum nächsten übergehen.
- Einige UI-Elemente (wie Dropdowns und Scrollbalken) könnten für Claude schwierig zu manipulieren sein mit Mausbewegungen. Wenn Sie dies erleben, versuchen Sie, das Modell zu veranlassen, Tastenkombinationen zu verwenden.
- Für wiederholbare Aufgaben oder UI-Interaktionen fügen Sie Beispiel-Screenshots und Tool-Aufrufe erfolgreicher Ergebnisse in Ihren Prompt ein.
- Wenn Sie möchten, dass sich das Modell anmeldet, geben Sie ihm den Benutzernamen und das Passwort in Ihrem Prompt in XML-Tags wie
<robot_credentials>
. Die Verwendung von Computer use in Anwendungen, die eine Anmeldung erfordern, erhöht das Risiko schlechter Ergebnisse als Folge von Prompt-Injection. Bitte lesen Sie unseren Leitfaden zur Minderung von Prompt-Injections, bevor Sie dem Modell Anmeldedaten zur Verfügung stellen.
System-Prompts
Wenn eines der von Anthropic definierten Tools über die Anthropic API angefordert wird, wird ein Computer use-spezifischer System-Prompt generiert. Er ähnelt dem Tool use System-Prompt, beginnt aber mit:Sie haben Zugang zu einer Reihe von Funktionen, die Sie verwenden können, um die Frage des Benutzers zu beantworten. Dies umfasst den Zugang zu einer sandboxed Computing-Umgebung. Sie haben derzeit NICHT die Fähigkeit, Dateien zu inspizieren oder mit externen Ressourcen zu interagieren, außer durch das Aufrufen der unten stehenden Funktionen.Wie bei der regulären Tool-Verwendung wird das vom Benutzer bereitgestellte
system_prompt
-Feld weiterhin respektiert und bei der Konstruktion des kombinierten System-Prompts verwendet.
Verfügbare Aktionen
Das Computer use tool unterstützt diese Aktionen: Grundaktionen (alle Versionen)- screenshot - Das aktuelle Display erfassen
- left_click - An Koordinaten
[x, y]
klicken - type - Textstring eingeben
- key - Taste oder Tastenkombination drücken (z.B. “ctrl+s”)
- mouse_move - Cursor zu Koordinaten bewegen
computer_20250124
)
Verfügbar in Claude 4 Modellen und Claude Sonnet 3.7:
- scroll - In jede Richtung mit Mengenkontrolle scrollen
- left_click_drag - Klicken und zwischen Koordinaten ziehen
- right_click, middle_click - Zusätzliche Maustasten
- double_click, triple_click - Mehrfachklicks
- left_mouse_down, left_mouse_up - Feinkörnige Klickkontrolle
- hold_key - Eine Taste halten, während andere Aktionen ausgeführt werden
- wait - Zwischen Aktionen pausieren
Beispielaktionen
Beispielaktionen
Tool-Parameter
Parameter | Erforderlich | Beschreibung |
---|---|---|
type | Ja | Tool-Version (computer_20250124 oder computer_20241022 ) |
name | Ja | Muss “computer” sein |
display_width_px | Ja | Display-Breite in Pixeln |
display_height_px | Ja | Display-Höhe in Pixeln |
display_number | Nein | Display-Nummer für X11-Umgebungen |
Thinking-Fähigkeit in Claude 4 Modellen und Claude Sonnet 3.7 aktivieren
Claude Sonnet 3.7 führte eine neue “Thinking”-Fähigkeit ein, die es Ihnen ermöglicht, den Denkprozess des Modells zu sehen, während es komplexe Aufgaben bearbeitet. Diese Funktion hilft Ihnen zu verstehen, wie Claude ein Problem angeht und kann besonders wertvoll für Debugging oder Bildungszwecke sein. Um Thinking zu aktivieren, fügen Sie einenthinking
-Parameter zu Ihrer API-Anfrage hinzu:
budget_tokens
-Parameter spezifiziert, wie viele Tokens Claude für das Denken verwenden kann. Dies wird von Ihrem gesamten max_tokens
-Budget abgezogen.
Wenn Thinking aktiviert ist, gibt Claude seinen Denkprozess als Teil der Antwort zurück, was Ihnen helfen kann:
- Den Entscheidungsprozess des Modells zu verstehen
- Potenzielle Probleme oder Missverständnisse zu identifizieren
- Von Claudes Problemlösungsansatz zu lernen
- Mehr Einblick in komplexe mehrstufige Operationen zu erhalten
Computer use mit anderen Tools erweitern
Das Computer use tool kann mit anderen Tools kombiniert werden, um mächtigere Automatisierungs-Workflows zu erstellen. Dies ist besonders nützlich, wenn Sie:- Systembefehle ausführen müssen (bash tool)
- Konfigurationsdateien oder Skripte bearbeiten müssen (text editor tool)
- Mit benutzerdefinierten APIs oder Services integrieren müssen (benutzerdefinierte Tools)
Eine benutzerdefinierte Computer use Umgebung erstellen
Die Referenzimplementierung soll Ihnen helfen, mit Computer use zu beginnen. Sie enthält alle Komponenten, die benötigt werden, damit Claude einen Computer verwenden kann. Sie können jedoch Ihre eigene Umgebung für Computer use erstellen, um Ihren Bedürfnissen zu entsprechen. Sie benötigen:- Eine virtualisierte oder containerisierte Umgebung, die für Computer use mit Claude geeignet ist
- Eine Implementierung von mindestens einem der von Anthropic definierten Computer use tools
- Eine Agent-Schleife, die mit der Anthropic API interagiert und die
tool_use
-Ergebnisse mit Ihren Tool-Implementierungen ausführt - Eine API oder Benutzeroberfläche, die Benutzereingaben ermöglicht, um die Agent-Schleife zu starten
Das Computer use tool implementieren
Das Computer use tool wird als schema-loses Tool implementiert. Bei der Verwendung dieses Tools müssen Sie kein Input-Schema bereitstellen wie bei anderen Tools; das Schema ist in Claudes Modell eingebaut und kann nicht modifiziert werden.Ihre Computing-Umgebung einrichten
Action-Handler implementieren
Claudes Tool-Aufrufe verarbeiten
Die Agent-Schleife implementieren
Fehler behandeln
Bei der Implementierung des Computer use tools können verschiedene Fehler auftreten. So behandeln Sie sie:Screenshot-Erfassung fehlgeschlagen
Screenshot-Erfassung fehlgeschlagen
Ungültige Koordinaten
Ungültige Koordinaten
Action-Ausführung fehlgeschlagen
Action-Ausführung fehlgeschlagen
Best Practices für die Implementierung befolgen
Angemessene Display-Auflösung verwenden
Angemessene Display-Auflösung verwenden
- Für allgemeine Desktop-Aufgaben: 1024x768 oder 1280x720
- Für Webanwendungen: 1280x800 oder 1366x768
- Vermeiden Sie Auflösungen über 1920x1080, um Leistungsprobleme zu verhindern
Ordnungsgemäße Screenshot-Behandlung implementieren
Ordnungsgemäße Screenshot-Behandlung implementieren
- Screenshots als base64 PNG oder JPEG kodieren
- Erwägen Sie, große Screenshots zu komprimieren, um die Leistung zu verbessern
- Relevante Metadaten wie Zeitstempel oder Display-Status einschließen
Action-Verzögerungen hinzufügen
Action-Verzögerungen hinzufügen
Aktionen vor der Ausführung validieren
Aktionen vor der Ausführung validieren
Aktionen für Debugging protokollieren
Aktionen für Debugging protokollieren
Computer use Einschränkungen verstehen
Die Computer use Funktionalität befindet sich in der Beta-Phase. Während Claudes Fähigkeiten hochmodern sind, sollten Entwickler sich ihrer Einschränkungen bewusst sein:- Latenz: Die aktuelle Computer use Latenz für Mensch-KI-Interaktionen könnte im Vergleich zu regulären menschlich gesteuerten Computeraktionen zu langsam sein. Wir empfehlen, sich auf Anwendungsfälle zu konzentrieren, bei denen Geschwindigkeit nicht kritisch ist (z.B. Hintergrundinformationssammlung, automatisierte Softwaretests) in vertrauenswürdigen Umgebungen.
- Computer Vision Genauigkeit und Zuverlässigkeit: Claude kann Fehler machen oder halluzinieren, wenn es spezifische Koordinaten ausgibt, während es Aktionen generiert. Claude Sonnet 3.7 führt die Thinking-Fähigkeit ein, die Ihnen helfen kann, das Denken des Modells zu verstehen und potenzielle Probleme zu identifizieren.
- Tool-Auswahl Genauigkeit und Zuverlässigkeit: Claude kann Fehler machen oder halluzinieren, wenn es Tools auswählt, während es Aktionen generiert, oder unerwartete Aktionen zur Problemlösung ergreifen. Zusätzlich kann die Zuverlässigkeit niedriger sein, wenn es mit Nischen-Anwendungen oder mehreren Anwendungen gleichzeitig interagiert. Wir empfehlen, dass Benutzer das Modell sorgfältig prompten, wenn sie komplexe Aufgaben anfordern.
- Scroll-Zuverlässigkeit: Während Claude Sonnet 3.5 v2 (veraltet) Einschränkungen beim Scrollen hatte, führt Claude Sonnet 3.7 dedizierte Scroll-Aktionen mit Richtungskontrolle ein, die die Zuverlässigkeit verbessern. Das Modell kann jetzt explizit in jede Richtung (oben/unten/links/rechts) um einen spezifizierten Betrag scrollen.
- Tabellenkalkulations-Interaktion: Mausklicks für Tabellenkalkulations-Interaktion haben sich in Claude Sonnet 3.7 mit der Hinzufügung präziserer Maussteuerungsaktionen wie
left_mouse_down
,left_mouse_up
und neuer Modifier-Tasten-Unterstützung verbessert. Zellenauswahl kann zuverlässiger sein, indem diese feinkörnigen Steuerungen verwendet und Modifier-Tasten mit Klicks kombiniert werden. - Kontoerstellung und Inhaltsgenerierung auf sozialen und Kommunikationsplattformen: Während Claude Websites besucht, begrenzen wir seine Fähigkeit, Konten zu erstellen oder Inhalte zu generieren und zu teilen oder anderweitig menschliche Nachahmung auf Social Media Websites und Plattformen zu betreiben. Wir können diese Fähigkeit in der Zukunft aktualisieren.
- Schwachstellen: Schwachstellen wie Jailbreaking oder Prompt-Injection können bei Frontier-KI-Systemen bestehen bleiben, einschließlich der Beta Computer use API. Unter bestimmten Umständen wird Claude Befehle befolgen, die in Inhalten gefunden werden, manchmal sogar im Konflikt mit den Anweisungen des Benutzers. Zum Beispiel können Claude-Anweisungen auf Webseiten oder in Bildern Anweisungen überschreiben oder Claude zu Fehlern veranlassen. Wir empfehlen: a. Computer use auf vertrauenswürdige Umgebungen wie virtuelle Maschinen oder Container mit minimalen Berechtigungen zu beschränken b. Computer use keinen Zugang zu sensiblen Konten oder Daten ohne strenge Aufsicht zu geben c. Endbenutzer über relevante Risiken zu informieren und deren Zustimmung einzuholen, bevor Computer use Funktionen in Ihren Anwendungen aktiviert oder Berechtigungen angefordert werden, die für Computer use Funktionen erforderlich sind
- Unangemessene oder illegale Aktionen: Gemäß Anthropics Nutzungsbedingungen dürfen Sie Computer use nicht verwenden, um Gesetze zu verletzen oder unsere Acceptable Use Policy zu verletzen.
Preise
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:Model | Input tokens per tool definition |
---|---|
Claude 4 / Sonnet 3.7 | 735 tokens |
Claude Sonnet 3.5 (deprecated) | 683 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude