概要
コンピュータ使用はベータ機能で、Claudeがデスクトップ環境と相互作用できるようにします。このツールは以下を提供します:- スクリーンショット取得: 現在画面に表示されているものを確認
- マウス制御: クリック、ドラッグ、カーソル移動
- キーボード入力: テキスト入力とキーボードショートカット
- デスクトップ自動化: あらゆるアプリケーションやインターフェースと相互作用
モデル互換性
コンピュータ使用は以下のClaudeモデルで利用可能です:| モデル | ツールバージョン | ベータフラグ |
|---|---|---|
| Claude 4モデル | computer_20250124 | computer-use-2025-01-24 |
| Claude Sonnet 3.7 (廃止予定) | computer_20250124 | computer-use-2025-01-24 |
Claude 4モデルは新しいアーキテクチャ用に最適化された更新されたツールバージョンを使用します。Claude Sonnet 3.7 (廃止予定)は、モデルの推論プロセスについてより詳しく知るためのシンキング機能を含む追加機能を導入します。
古いツールバージョンは新しいモデルとの後方互換性が保証されていません。常にモデルバージョンに対応するツールバージョンを使用してください。
セキュリティに関する考慮事項
コンピュータ使用はベータ機能で、標準的なAPI機能とは異なるユニークなリスクがあります。インターネットと相互作用する場合、これらのリスクはさらに高まります。リスクを最小化するために、以下のような予防措置を検討してください:
- 直接的なシステム攻撃や事故を防ぐため、最小限の権限を持つ専用の仮想マシンまたはコンテナを使用します。
- 情報盗難を防ぐため、アカウントログイン情報などの機密データへのアクセスをモデルに与えないようにします。
- 悪意のあるコンテンツへの露出を減らすため、インターネットアクセスを許可ドメインのホワイトリストに制限します。
- 実世界に意味のある結果をもたらす可能性のある決定、およびクッキーの受け入れ、金融取引の実行、サービス利用規約への同意など肯定的な同意が必要なタスクについて、人間に確認を求めます。
コンピュータ使用リファレンス実装
ウェブインターフェース、Dockerコンテナ、ツール実装例、エージェントループを含むコンピュータ使用リファレンス実装で素早く開始できます。注: 実装はClaude 4モデルとClaude Sonnet 3.7の両方の新しいツールを含むように更新されました。これらの新機能にアクセスするには、必ずリポジトリの最新バージョンをプルしてください。
このフォームを使用して、モデル応答の品質、API自体、またはドキュメントの品質についてフィードバックを提供してください。皆様からのご意見をお待ちしています!
クイックスタート
コンピュータ使用を開始する方法は以下の通りです:ベータヘッダーはコンピュータ使用ツールにのみ必要です。上記の例は3つのツールすべてが一緒に使用されている場合を示しており、コンピュータ使用ツールが含まれているため、ベータヘッダーが必要です。
コンピュータ使用の仕組み
1. Claudeにコンピュータ使用ツールとユーザープロンプトを提供する
- APIリクエストにコンピュータ使用ツール(およびオプションで他のツール)を追加します。
- デスクトップ操作が必要なユーザープロンプトを含めます。例: 「デスクトップに猫の写真を保存してください。」
2. Claudeがコンピュータ使用ツールを使用することを決定する
- Claudeはコンピュータ使用ツールがユーザーのクエリに役立つかどうかを評価します。
- はいの場合、Claudeは適切にフォーマットされたツール使用リクエストを構築します。
- APIレスポンスは
tool_useのstop_reasonを持ち、Claudeの意図を示します。
3. ツール入力を抽出し、コンピュータ上でツールを評価し、結果を返す
- Claudeのリクエストからツール名と入力を抽出します。
- コンテナまたは仮想マシン上でツールを使用します。
tool_resultコンテンツブロックを含む新しいuserメッセージで会話を続けます。
4. Claudeはタスクが完了するまでコンピュータ使用ツールを呼び出し続ける
- Claudeはツール結果を分析して、より多くのツール使用が必要か、タスクが完了したかを判断します。
- Claudeが別のツールが必要だと判断した場合、別の
tool_usestop_reasonで応答し、ステップ3に戻る必要があります。 - そうでない場合、ユーザーへのテキスト応答を作成します。
コンピューティング環境
コンピュータ使用には、Claudeがアプリケーションとウェブと安全に相互作用できるサンドボックス化されたコンピューティング環境が必要です。この環境には以下が含まれます:- 仮想ディスプレイ: 仮想X11ディスプレイサーバー(Xvfbを使用)で、Claudeがスクリーンショットを通じて見て、マウス/キーボードアクションで制御するデスクトップインターフェースをレンダリングします。
- デスクトップ環境: Linuxで実行されるウィンドウマネージャー(Mutter)とパネル(Tint2)を備えた軽量UI。Claudeが相互作用するための一貫したグラフィカルインターフェースを提供します。
- アプリケーション: Firefox、LibreOffice、テキストエディタ、ファイルマネージャーなど、Claudeがタスクを完了するために使用できる事前インストールされたLinuxアプリケーション。
- ツール実装: Claudeの抽象的なツールリクエスト(「マウスを移動」や「スクリーンショットを取得」など)を仮想環境での実際の操作に変換する統合コード。
- エージェントループ: Claudeと環境間の通信を処理し、Claudeのアクションを環境に送信し、結果(スクリーンショット、コマンド出力)をClaudeに返すプログラム。
- Claudeのツール使用リクエストを受け取ります
- それらをコンピューティング環境のアクションに変換します
- 結果(スクリーンショット、コマンド出力など)をキャプチャします
- これらの結果をClaudeに返します
コンピュータ使用の実装方法
リファレンス実装から始める
コンピュータ使用を素早く開始するために必要なすべてを含むリファレンス実装を構築しました:- Claudeでのコンピュータ使用に適したコンテナ化環境
- コンピュータ使用ツールの実装
- Claude APIと相互作用し、コンピュータ使用ツールを実行するエージェントループ
- コンテナ、エージェントループ、ツールと相互作用するウェブインターフェース。
マルチエージェントループを理解する
コンピュータ使用の中核は「エージェントループ」です。Claudeがツールアクションをリクエストし、アプリケーションがそれを実行し、結果をClaudeに返すサイクルです。簡略化された例は以下の通りです:コンピュータ使用ツールを使用する場合、モデルバージョンに対応する適切なベータフラグを含める必要があります:
Claude 4モデル
Claude 4モデル
computer_20250124を使用する場合、このベータフラグを含めます:Claude Sonnet 3.7
Claude Sonnet 3.7
computer_20250124を使用する場合、このベータフラグを含めます:プロンプティングでモデルパフォーマンスを最適化
最高品質の出力を得るためのヒントは以下の通りです:- シンプルで明確に定義されたタスクを指定し、各ステップの明示的な指示を提供します。
- Claudeは時々、その結果を明示的に確認せずにアクションの結果を想定します。これを防ぐために、Claudeに
各ステップの後、スクリーンショットを撮り、正しい結果を達成したかどうかを慎重に評価してください。明示的に思考を示してください: 「ステップXを評価しました...」。正しくない場合は、もう一度試してください。ステップが正しく実行されたことを確認した場合のみ、次のステップに進んでください。とプロンプトします。 - 一部のUI要素(ドロップダウンやスクロールバーなど)は、マウス移動を使用してClaudeが操作するのが難しい場合があります。これが発生した場合、キーボードショートカットを使用するようにモデルにプロンプトしてみてください。
- 繰り返し可能なタスクまたはUI相互作用の場合、成功した結果のスクリーンショットとツール呼び出しの例をプロンプトに含めます。
- モデルがログインする必要がある場合、ユーザー名とパスワードを
<robot_credentials>などのxmlタグ内のプロンプトで提供します。ログインが必要なアプリケーション内でコンピュータ使用を使用すると、プロンプトインジェクションの結果として悪い結果のリスクが増加します。ログイン認証情報をモデルに提供する前に、プロンプトインジェクション軽減ガイドを確認してください。
明確な問題のセットに繰り返し遭遇する場合、または事前にClaudeが完了する必要があるタスクを知っている場合は、システムプロンプトを使用してClaudeにタスクを正常に完了する方法に関する明示的なヒントまたは指示を提供します。
システムプロンプト
Anthropic定義のツールの1つがClaude APIを通じてリクエストされる場合、コンピュータ使用固有のシステムプロンプトが生成されます。これはツール使用システムプロンプトに似ていますが、以下で始まります:質問に答えるために使用できる関数のセットにアクセスできます。これには、サンドボックス化されたコンピューティング環境へのアクセスが含まれます。現在、以下の関数を呼び出す以外に、ファイルを検査したり、外部リソースと相互作用したりする能力はありません。通常のツール使用と同様に、ユーザー提供の
system_promptフィールドは依然として尊重され、結合されたシステムプロンプトの構築に使用されます。
利用可能なアクション
コンピュータ使用ツールは以下のアクションをサポートしています: 基本的なアクション(すべてのバージョン)- screenshot - 現在のディスプレイをキャプチャ
- left_click - 座標
[x, y]でクリック - type - テキスト文字列を入力
- key - キーまたはキーの組み合わせを押す(例: “ctrl+s”)
- mouse_move - カーソルを座標に移動
computer_20250124)
Claude 4モデルおよびClaude Sonnet 3.7で利用可能:
- scroll - 任意の方向にスクロール、量制御
- left_click_drag - 座標間でクリックしてドラッグ
- right_click, middle_click - 追加のマウスボタン
- double_click, triple_click - 複数クリック
- left_mouse_down, left_mouse_up - 細粒度のクリック制御
- hold_key - 他のアクションを実行しながらキーを保持
- wait - アクション間で一時停止
アクション例
アクション例
ツールパラメータ
| パラメータ | 必須 | 説明 |
|---|---|---|
type | はい | ツールバージョン(computer_20250124またはcomputer_20241022) |
name | はい | 「computer」である必要があります |
display_width_px | はい | ディスプレイ幅(ピクセル) |
display_height_px | はい | ディスプレイ高さ(ピクセル) |
display_number | いいえ | X11環境のディスプレイ番号 |
最高のパフォーマンスのため、ディスプレイ解像度を1280x800(WXGA)以下に保ちます。より高い解像度は画像リサイズにより精度の問題を引き起こす可能性があります。
重要: コンピュータ使用ツールはアプリケーションによって明示的に実行される必要があります。Claudeは直接実行できません。スクリーンショット取得、マウス移動、キーボード入力、およびClaudeのリクエストに基づく他のアクションを実装する責任があります。
Claude 4モデルおよびClaude Sonnet 3.7でシンキング機能を有効にする
Claude Sonnet 3.7は、複雑なタスクに取り組む際にモデルの推論プロセスを見ることができる新しい「シンキング」機能を導入しました。この機能は、Claudeが問題にどのようにアプローチしているかを理解するのに役立ち、デバッグや教育目的に特に価値があります。 シンキングを有効にするには、APIリクエストにthinkingパラメータを追加します:
budget_tokensパラメータは、Claudeがシンキングに使用できるトークン数を指定します。これは全体的なmax_tokens予算から差し引かれます。
シンキングが有効な場合、Claudeは応答の一部として推論プロセスを返します。これは以下に役立ちます:
- モデルの意思決定プロセスを理解
- 潜在的な問題または誤解を特定
- Claudeの問題解決へのアプローチから学習
- 複雑なマルチステップ操作についてより多くの可視性を取得
コンピュータ使用を他のツールで拡張
コンピュータ使用ツールは他のツールと組み合わせて、より強力な自動化ワークフローを作成できます。これは特に以下が必要な場合に役立ちます:- システムコマンドを実行(bashツール)
- 設定ファイルまたはスクリプトを編集(テキストエディタツール)
- カスタムAPIまたはサービスと統合(カスタムツール)
カスタムコンピュータ使用環境を構築
リファレンス実装はコンピュータ使用を開始するのに役立つことを目的としています。Claudeでコンピュータ使用を行うために必要なすべてのコンポーネントが含まれています。ただし、ニーズに合わせてコンピュータ使用用の独自の環境を構築できます。以下が必要です:- Claudeでのコンピュータ使用に適した仮想化またはコンテナ化環境
- Anthropic定義のコンピュータ使用ツールの少なくとも1つの実装
- Claude APIと相互作用し、ツール実装を使用して
tool_use結果を実行するエージェントループ - エージェントループを開始するためのユーザー入力を許可するAPIまたはUI
コンピュータ使用ツールを実装
コンピュータ使用ツールはスキーマレスツールとして実装されます。このツールを使用する場合、他のツールのような入力スキーマを提供する必要はありません。スキーマはClaudeのモデルに組み込まれており、変更できません。1
コンピューティング環境をセットアップ
Claudeが相互作用する仮想ディスプレイまたは既存のディスプレイに接続します。これは通常、Xvfb(X Virtual Framebuffer)または同様のテクノロジーのセットアップを含みます。
2
アクションハンドラを実装
Claudeがリクエストする可能性のある各アクションタイプを処理する関数を作成します:
3
Claudeのツール呼び出しを処理
Claudeの応答からツール呼び出しを抽出して実行します:
4
エージェントループを実装
Claudeがタスクを完了するまで続くループを作成します:
エラーを処理
コンピュータ使用ツールを実装する場合、さまざまなエラーが発生する可能性があります。以下がそれらを処理する方法です:スクリーンショット取得の失敗
スクリーンショット取得の失敗
スクリーンショット取得が失敗した場合、適切なエラーメッセージを返します:
無効な座標
無効な座標
Claudeがディスプレイ境界外の座標を提供する場合:
アクション実行の失敗
アクション実行の失敗
アクションの実行に失敗した場合:
実装のベストプラクティスに従う
適切なディスプレイ解像度を使用
適切なディスプレイ解像度を使用
ユースケースに合わせてディスプレイ寸法を設定し、推奨制限内に留まります:
- 一般的なデスクトップタスク: 1024x768または1280x720
- ウェブアプリケーション: 1280x800または1366x768
- パフォーマンスの問題を防ぐため、1920x1080を超える解像度は避けます
適切なスクリーンショット処理を実装
適切なスクリーンショット処理を実装
Claudeにスクリーンショットを返す場合:
- スクリーンショットをBase64 PNGまたはJPEGとしてエンコード
- パフォーマンスを向上させるため、大きなスクリーンショットの圧縮を検討
- タイムスタンプやディスプレイ状態などの関連メタデータを含める
アクション遅延を追加
アクション遅延を追加
一部のアプリケーションはアクションに応答するのに時間が必要です:
実行前にアクションを検証
実行前にアクションを検証
リクエストされたアクションが安全で有効であることを確認します:
トラブルシューティング用にアクションをログ
トラブルシューティング用にアクションをログ
トラブルシューティング用にすべてのアクションのログを保持します:
コンピュータ使用の制限を理解
コンピュータ使用機能はベータ版です。Claudeの機能は最先端ですが、開発者はその制限を認識する必要があります:- レイテンシ: 現在のコンピュータ使用レイテンシは、人間-AI相互作用の場合、通常の人間指向のコンピュータアクションと比較して遅すぎる可能性があります。信頼できる環境で速度が重要でないユースケース(例: 背景情報収集、自動ソフトウェアテスト)に焦点を当てることをお勧めします。
- コンピュータビジョンの精度と信頼性: Claudeはアクションを生成する際に特定の座標を出力する場合、間違いを犯したり、幻覚を見たりする可能性があります。Claude Sonnet 3.7はシンキング機能を導入し、モデルの推論を理解し、潜在的な問題を特定するのに役立ちます。
- ツール選択の精度と信頼性: Claudeはアクションを生成する際にツールを選択する場合、間違いを犯したり、幻覚を見たりする可能性があります。また、ニッチなアプリケーションまたは複数のアプリケーションと同時に相互作用する場合、信頼性が低い可能性があります。複雑なタスクをリクエストする場合、ユーザーはモデルを慎重にプロンプトすることをお勧めします。
- スクロール信頼性: Claude Sonnet 3.7は方向制御を備えた専用スクロールアクションを導入し、信頼性を向上させました。モデルは指定された量で任意の方向(上/下/左/右)に明示的にスクロールできるようになりました。
- スプレッドシート相互作用: Claude Sonnet 3.7では、
left_mouse_down、left_mouse_upなどのより正確なマウス制御アクションと新しい修飾キーサポートの追加により、スプレッドシート相互作用のマウスクリックが改善されました。これらの細粒度制御と修飾キーとクリックの組み合わせを使用することで、セル選択がより信頼性が高くなります。 - ソーシャルおよび通信プラットフォームでのアカウント作成とコンテンツ生成: Claudeはウェブサイトにアクセスしますが、ソーシャルメディアウェブサイトおよびプラットフォーム全体でアカウントを作成したり、コンテンツを生成および共有したり、人間になりすましたりする能力を制限しています。この機能は将来更新される可能性があります。
- 脆弱性: ジェイルブレイクやプロンプトインジェクションなどの脆弱性は、ベータコンピュータ使用APIを含むフロンティアAIシステム全体で持続する可能性があります。状況によっては、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つかったコマンドに従う場合があります。例えば、ウェブページ内または画像に含まれるClaude指示は、指示をオーバーライドしたり、Claudeにエラーを起こさせたりする可能性があります。以下をお勧めします: a. コンピュータ使用を最小限の権限を持つ仮想マシンまたはコンテナなどの信頼できる環境に制限 b. 厳密な監視なしにコンピュータ使用アクセスを機密アカウントまたはデータに与えないようにする c. エンドユーザーに関連するリスクを通知し、アプリケーションでコンピュータ使用機能を有効にするか、必要な権限を要求する前に同意を得る
- 不適切または違法なアクション: Anthropicの利用規約に従い、コンピュータ使用を使用して法律を違反したり、受け入れ可能な使用ポリシーに違反したりしてはいけません。
価格
Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:| Model | Input tokens per tool definition |
|---|---|
| Claude 4.x models | 735 tokens |
| Claude Sonnet 3.7 (deprecated) | 735 tokens |
- Screenshot images (see Vision pricing)
- Tool execution results returned to Claude
If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.