メインコンテンツへスキップ
Claudeはコンピュータ使用ツールを通じてコンピュータ環境と相互作用でき、スクリーンショット機能とマウス/キーボード制御を提供して自律的なデスクトップ操作を実現します。
コンピュータ使用は現在ベータ版であり、ベータヘッダーが必要です:
  • "computer-use-2025-01-24" (Claude 4モデルおよびClaude Sonnet 3.7 (廃止予定))

概要

コンピュータ使用はベータ機能で、Claudeがデスクトップ環境と相互作用できるようにします。このツールは以下を提供します:
  • スクリーンショット取得: 現在画面に表示されているものを確認
  • マウス制御: クリック、ドラッグ、カーソル移動
  • キーボード入力: テキスト入力とキーボードショートカット
  • デスクトップ自動化: あらゆるアプリケーションやインターフェースと相互作用
コンピュータ使用はbashやテキストエディタなどの他のツールで拡張でき、より包括的な自動化ワークフローを実現できますが、コンピュータ使用は特にコンピュータ使用ツールのデスクトップ環境を見て制御する機能を指します。

モデル互換性

コンピュータ使用は以下のClaudeモデルで利用可能です:
モデルツールバージョンベータフラグ
Claude 4モデルcomputer_20250124computer-use-2025-01-24
Claude Sonnet 3.7 (廃止予定)computer_20250124computer-use-2025-01-24
Claude 4モデルは新しいアーキテクチャ用に最適化された更新されたツールバージョンを使用します。Claude Sonnet 3.7 (廃止予定)は、モデルの推論プロセスについてより詳しく知るためのシンキング機能を含む追加機能を導入します。
古いツールバージョンは新しいモデルとの後方互換性が保証されていません。常にモデルバージョンに対応するツールバージョンを使用してください。

セキュリティに関する考慮事項

コンピュータ使用はベータ機能で、標準的なAPI機能とは異なるユニークなリスクがあります。インターネットと相互作用する場合、これらのリスクはさらに高まります。リスクを最小化するために、以下のような予防措置を検討してください:
  1. 直接的なシステム攻撃や事故を防ぐため、最小限の権限を持つ専用の仮想マシンまたはコンテナを使用します。
  2. 情報盗難を防ぐため、アカウントログイン情報などの機密データへのアクセスをモデルに与えないようにします。
  3. 悪意のあるコンテンツへの露出を減らすため、インターネットアクセスを許可ドメインのホワイトリストに制限します。
  4. 実世界に意味のある結果をもたらす可能性のある決定、およびクッキーの受け入れ、金融取引の実行、サービス利用規約への同意など肯定的な同意が必要なタスクについて、人間に確認を求めます。
状況によっては、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つかったコマンドに従う場合があります。例えば、ウェブページ内または画像に含まれるClaude指示は、指示をオーバーライドしたり、Claudeにエラーを起こさせたりする可能性があります。プロンプトインジェクションに関連するリスクを回避するため、Claudeを機密データとアクションから隔離する予防措置を取ることをお勧めします。私たちはこれらのプロンプトインジェクションに抵抗するようにモデルを訓練し、追加の防御層を追加しました。コンピュータ使用ツールを使用する場合、プロンプトに対して自動的に分類器を実行して、プロンプトインジェクションの潜在的なインスタンスにフラグを付けます。これらの分類器がスクリーンショット内の潜在的なプロンプトインジェクションを識別する場合、次のアクションに進む前にユーザー確認を求めるようにモデルを自動的に導きます。この追加の保護がすべてのユースケースに理想的ではないことを認識しています(例えば、人間がループに含まれていないユースケース)。オプトアウトしてオフにしたい場合は、お問い合わせくださいプロンプトインジェクションに関連するリスクを回避するため、Claudeを機密データとアクションから隔離する予防措置を取ることをお勧めします。最後に、エンドユーザーに関連するリスクを通知し、独自の製品でコンピュータ使用を有効にする前に同意を得てください。

コンピュータ使用リファレンス実装

ウェブインターフェース、Dockerコンテナ、ツール実装例、エージェントループを含むコンピュータ使用リファレンス実装で素早く開始できます。: 実装はClaude 4モデルとClaude Sonnet 3.7の両方の新しいツールを含むように更新されました。これらの新機能にアクセスするには、必ずリポジトリの最新バージョンをプルしてください。
このフォームを使用して、モデル応答の品質、API自体、またはドキュメントの品質についてフィードバックを提供してください。皆様からのご意見をお待ちしています!

クイックスタート

コンピュータ使用を開始する方法は以下の通りです:
import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-sonnet-4-5",  # または別の互換モデル
    max_tokens=1024,
    tools=[
        {
          "type": "computer_20250124",
          "name": "computer",
          "display_width_px": 1024,
          "display_height_px": 768,
          "display_number": 1,
        },
        {
          "type": "text_editor_20250124",
          "name": "str_replace_editor"
        },
        {
          "type": "bash_20250124",
          "name": "bash"
        }
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2025-01-24"]
)
print(response)
ベータヘッダーはコンピュータ使用ツールにのみ必要です。上記の例は3つのツールすべてが一緒に使用されている場合を示しており、コンピュータ使用ツールが含まれているため、ベータヘッダーが必要です。

コンピュータ使用の仕組み

1. Claudeにコンピュータ使用ツールとユーザープロンプトを提供する

  • APIリクエストにコンピュータ使用ツール(およびオプションで他のツール)を追加します。
  • デスクトップ操作が必要なユーザープロンプトを含めます。例: 「デスクトップに猫の写真を保存してください。」

2. Claudeがコンピュータ使用ツールを使用することを決定する

  • Claudeはコンピュータ使用ツールがユーザーのクエリに役立つかどうかを評価します。
  • はいの場合、Claudeは適切にフォーマットされたツール使用リクエストを構築します。
  • APIレスポンスはtool_usestop_reasonを持ち、Claudeの意図を示します。

3. ツール入力を抽出し、コンピュータ上でツールを評価し、結果を返す

  • Claudeのリクエストからツール名と入力を抽出します。
  • コンテナまたは仮想マシン上でツールを使用します。
  • tool_resultコンテンツブロックを含む新しいuserメッセージで会話を続けます。

4. Claudeはタスクが完了するまでコンピュータ使用ツールを呼び出し続ける

  • Claudeはツール結果を分析して、より多くのツール使用が必要か、タスクが完了したかを判断します。
  • Claudeが別のツールが必要だと判断した場合、別のtool_use stop_reasonで応答し、ステップ3に戻る必要があります。
  • そうでない場合、ユーザーへのテキスト応答を作成します。
ユーザー入力なしでステップ3と4の繰り返しを「エージェントループ」と呼びます。つまり、Claudeがツール使用リクエストで応答し、アプリケーションがそのリクエストを評価した結果でClaudeに応答します。

コンピューティング環境

コンピュータ使用には、Claudeがアプリケーションとウェブと安全に相互作用できるサンドボックス化されたコンピューティング環境が必要です。この環境には以下が含まれます:
  1. 仮想ディスプレイ: 仮想X11ディスプレイサーバー(Xvfbを使用)で、Claudeがスクリーンショットを通じて見て、マウス/キーボードアクションで制御するデスクトップインターフェースをレンダリングします。
  2. デスクトップ環境: Linuxで実行されるウィンドウマネージャー(Mutter)とパネル(Tint2)を備えた軽量UI。Claudeが相互作用するための一貫したグラフィカルインターフェースを提供します。
  3. アプリケーション: Firefox、LibreOffice、テキストエディタ、ファイルマネージャーなど、Claudeがタスクを完了するために使用できる事前インストールされたLinuxアプリケーション。
  4. ツール実装: Claudeの抽象的なツールリクエスト(「マウスを移動」や「スクリーンショットを取得」など)を仮想環境での実際の操作に変換する統合コード。
  5. エージェントループ: Claudeと環境間の通信を処理し、Claudeのアクションを環境に送信し、結果(スクリーンショット、コマンド出力)をClaudeに返すプログラム。
コンピュータ使用を使用する場合、Claudeはこの環境に直接接続しません。代わりに、アプリケーションは:
  1. Claudeのツール使用リクエストを受け取ります
  2. それらをコンピューティング環境のアクションに変換します
  3. 結果(スクリーンショット、コマンド出力など)をキャプチャします
  4. これらの結果をClaudeに返します
セキュリティと隔離のため、リファレンス実装はすべてをDockerコンテナ内で実行し、環境を表示および相互作用するための適切なポートマッピングを備えています。

コンピュータ使用の実装方法

リファレンス実装から始める

コンピュータ使用を素早く開始するために必要なすべてを含むリファレンス実装を構築しました:

マルチエージェントループを理解する

コンピュータ使用の中核は「エージェントループ」です。Claudeがツールアクションをリクエストし、アプリケーションがそれを実行し、結果をClaudeに返すサイクルです。簡略化された例は以下の通りです:
async def sampling_loop(
    *,
    model: str,
    messages: list[dict],
    api_key: str,
    max_tokens: int = 4096,
    tool_version: str,
    thinking_budget: int | None = None,
    max_iterations: int = 10,  # 無限ループを防ぐため反復制限を追加
):
    """
    Claudeコンピュータ使用相互作用のための簡単なエージェントループ。

    この関数は以下の間の往復を処理します:
    1. ユーザーメッセージをClaudeに送信
    2. Claudeがツール使用をリクエスト
    3. アプリケーションがそれらのツールを実行
    4. ツール結果をClaudeに送信
    """
    # ツールとAPIパラメータを設定
    client = Anthropic(api_key=api_key)
    beta_flag = "computer-use-2025-01-24" if "20250124" in tool_version else "computer-use-2024-10-22"

    # ツールを設定 - これらは既に他の場所で初期化されているはずです
    tools = [
        {"type": f"computer_{tool_version}", "name": "computer", "display_width_px": 1024, "display_height_px": 768},
        {"type": f"text_editor_{tool_version}", "name": "str_replace_editor"},
        {"type": f"bash_{tool_version}", "name": "bash"}
    ]

    # メインエージェントループ(実行不可能なAPIコストを防ぐため反復制限付き)
    iterations = 0
    while True and iterations < max_iterations:
        iterations += 1
        # オプションのシンキングパラメータを設定(Claude Sonnet 3.7用)
        thinking = None
        if thinking_budget:
            thinking = {"type": "enabled", "budget_tokens": thinking_budget}

        # Claude APIを呼び出し
        response = client.beta.messages.create(
            model=model,
            max_tokens=max_tokens,
            messages=messages,
            tools=tools,
            betas=[beta_flag],
            thinking=thinking
        )

        # 会話履歴にClaudeの応答を追加
        response_content = response.content
        messages.append({"role": "assistant", "content": response_content})

        # Claudeがツールを使用したかどうかを確認
        tool_results = []
        for block in response_content:
            if block.type == "tool_use":
                # 実際のアプリケーションでは、ここでツールを実行します
                # 例: result = run_tool(block.name, block.input)
                result = {"result": "Tool executed successfully"}

                # Claudeの結果をフォーマット
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        # ツールが使用されなかった場合、Claudeは完了 - 最終メッセージを返す
        if not tool_results:
            return messages

        # 次の反復でClaudeのためにメッセージにツール結果を追加
        messages.append({"role": "user", "content": tool_results})
ループはClaudeがツールをリクエストせずに応答するか、最大反復制限に達するまで続きます。このセーフガードは、予期しないAPIコストをもたらす可能性のある無限ループを防ぎます。
コンピュータ使用ツールを使用する場合、モデルバージョンに対応する適切なベータフラグを含める必要があります:
computer_20250124を使用する場合、このベータフラグを含めます:
"betas": ["computer-use-2025-01-24"]
computer_20250124を使用する場合、このベータフラグを含めます:
"betas": ["computer-use-2025-01-24"]
ドキュメントの残りを読む前に、リファレンス実装を試してみることをお勧めします。

プロンプティングでモデルパフォーマンスを最適化

最高品質の出力を得るためのヒントは以下の通りです:
  1. シンプルで明確に定義されたタスクを指定し、各ステップの明示的な指示を提供します。
  2. Claudeは時々、その結果を明示的に確認せずにアクションの結果を想定します。これを防ぐために、Claudeに各ステップの後、スクリーンショットを撮り、正しい結果を達成したかどうかを慎重に評価してください。明示的に思考を示してください: 「ステップXを評価しました...」。正しくない場合は、もう一度試してください。ステップが正しく実行されたことを確認した場合のみ、次のステップに進んでください。とプロンプトします。
  3. 一部のUI要素(ドロップダウンやスクロールバーなど)は、マウス移動を使用してClaudeが操作するのが難しい場合があります。これが発生した場合、キーボードショートカットを使用するようにモデルにプロンプトしてみてください。
  4. 繰り返し可能なタスクまたはUI相互作用の場合、成功した結果のスクリーンショットとツール呼び出しの例をプロンプトに含めます。
  5. モデルがログインする必要がある場合、ユーザー名とパスワードを<robot_credentials>などのxmlタグ内のプロンプトで提供します。ログインが必要なアプリケーション内でコンピュータ使用を使用すると、プロンプトインジェクションの結果として悪い結果のリスクが増加します。ログイン認証情報をモデルに提供する前に、プロンプトインジェクション軽減ガイドを確認してください。
明確な問題のセットに繰り返し遭遇する場合、または事前にClaudeが完了する必要があるタスクを知っている場合は、システムプロンプトを使用してClaudeにタスクを正常に完了する方法に関する明示的なヒントまたは指示を提供します。

システムプロンプト

Anthropic定義のツールの1つがClaude APIを通じてリクエストされる場合、コンピュータ使用固有のシステムプロンプトが生成されます。これはツール使用システムプロンプトに似ていますが、以下で始まります:
質問に答えるために使用できる関数のセットにアクセスできます。これには、サンドボックス化されたコンピューティング環境へのアクセスが含まれます。現在、以下の関数を呼び出す以外に、ファイルを検査したり、外部リソースと相互作用したりする能力はありません。
通常のツール使用と同様に、ユーザー提供のsystem_promptフィールドは依然として尊重され、結合されたシステムプロンプトの構築に使用されます。

利用可能なアクション

コンピュータ使用ツールは以下のアクションをサポートしています: 基本的なアクション(すべてのバージョン)
  • screenshot - 現在のディスプレイをキャプチャ
  • left_click - 座標[x, y]でクリック
  • type - テキスト文字列を入力
  • key - キーまたはキーの組み合わせを押す(例: “ctrl+s”)
  • mouse_move - カーソルを座標に移動
拡張アクション(computer_20250124) Claude 4モデルおよびClaude Sonnet 3.7で利用可能:
  • scroll - 任意の方向にスクロール、量制御
  • left_click_drag - 座標間でクリックしてドラッグ
  • right_click, middle_click - 追加のマウスボタン
  • double_click, triple_click - 複数クリック
  • left_mouse_down, left_mouse_up - 細粒度のクリック制御
  • hold_key - 他のアクションを実行しながらキーを保持
  • wait - アクション間で一時停止
// スクリーンショットを撮る
{
  "action": "screenshot"
}

// 位置でクリック
{
  "action": "left_click",
  "coordinate": [500, 300]
}

// テキストを入力
{
  "action": "type",
  "text": "Hello, world!"
}

// 下にスクロール(Claude 4/3.7)
{
  "action": "scroll",
  "coordinate": [500, 400],
  "scroll_direction": "down",
  "scroll_amount": 3
}

ツールパラメータ

パラメータ必須説明
typeはいツールバージョン(computer_20250124またはcomputer_20241022)
nameはい「computer」である必要があります
display_width_pxはいディスプレイ幅(ピクセル)
display_height_pxはいディスプレイ高さ(ピクセル)
display_numberいいえX11環境のディスプレイ番号
最高のパフォーマンスのため、ディスプレイ解像度を1280x800(WXGA)以下に保ちます。より高い解像度は画像リサイズにより精度の問題を引き起こす可能性があります。
重要: コンピュータ使用ツールはアプリケーションによって明示的に実行される必要があります。Claudeは直接実行できません。スクリーンショット取得、マウス移動、キーボード入力、およびClaudeのリクエストに基づく他のアクションを実装する責任があります。

Claude 4モデルおよびClaude Sonnet 3.7でシンキング機能を有効にする

Claude Sonnet 3.7は、複雑なタスクに取り組む際にモデルの推論プロセスを見ることができる新しい「シンキング」機能を導入しました。この機能は、Claudeが問題にどのようにアプローチしているかを理解するのに役立ち、デバッグや教育目的に特に価値があります。 シンキングを有効にするには、APIリクエストにthinkingパラメータを追加します:
"thinking": {
  "type": "enabled",
  "budget_tokens": 1024
}
budget_tokensパラメータは、Claudeがシンキングに使用できるトークン数を指定します。これは全体的なmax_tokens予算から差し引かれます。 シンキングが有効な場合、Claudeは応答の一部として推論プロセスを返します。これは以下に役立ちます:
  1. モデルの意思決定プロセスを理解
  2. 潜在的な問題または誤解を特定
  3. Claudeの問題解決へのアプローチから学習
  4. 複雑なマルチステップ操作についてより多くの可視性を取得
シンキング出力がどのように見えるかの例は以下の通りです:
[Thinking]
デスクトップに猫の写真を保存する必要があります。これをステップに分解しましょう:

1. まず、スクリーンショットを撮ってデスクトップに何があるかを確認します
2. 次に、猫の画像を検索するウェブブラウザを探します
3. 適切な画像を見つけた後、デスクトップに保存する必要があります

スクリーンショットを撮ることから始めましょう。利用可能なものを確認するために...

コンピュータ使用を他のツールで拡張

コンピュータ使用ツールは他のツールと組み合わせて、より強力な自動化ワークフローを作成できます。これは特に以下が必要な場合に役立ちます:
curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-01-24" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 2000,
    "tools": [
      {
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      },
      {
        "type": "text_editor_20250124",
        "name": "str_replace_editor"
      },
      {
        "type": "bash_20250124",
        "name": "bash"
      },
      {
        "name": "get_weather",
        "description": "Get the current weather in a given location",
        "input_schema": {
          "type": "object",
          "properties": {
            "location": {
              "type": "string",
              "description": "The city and state, e.g. San Francisco, CA"
            },
            "unit": {
              "type": "string",
              "enum": ["celsius", "fahrenheit"],
              "description": "The unit of temperature, either 'celsius' or 'fahrenheit'"
            }
          },
          "required": ["location"]
        }
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Find flights from San Francisco to a place with warmer weather."
      }
    ],
    "thinking": {
      "type": "enabled",
      "budget_tokens": 1024
    }
  }'

カスタムコンピュータ使用環境を構築

リファレンス実装はコンピュータ使用を開始するのに役立つことを目的としています。Claudeでコンピュータ使用を行うために必要なすべてのコンポーネントが含まれています。ただし、ニーズに合わせてコンピュータ使用用の独自の環境を構築できます。以下が必要です:
  • Claudeでのコンピュータ使用に適した仮想化またはコンテナ化環境
  • Anthropic定義のコンピュータ使用ツールの少なくとも1つの実装
  • Claude APIと相互作用し、ツール実装を使用してtool_use結果を実行するエージェントループ
  • エージェントループを開始するためのユーザー入力を許可するAPIまたはUI

コンピュータ使用ツールを実装

コンピュータ使用ツールはスキーマレスツールとして実装されます。このツールを使用する場合、他のツールのような入力スキーマを提供する必要はありません。スキーマはClaudeのモデルに組み込まれており、変更できません。
1

コンピューティング環境をセットアップ

Claudeが相互作用する仮想ディスプレイまたは既存のディスプレイに接続します。これは通常、Xvfb(X Virtual Framebuffer)または同様のテクノロジーのセットアップを含みます。
2

アクションハンドラを実装

Claudeがリクエストする可能性のある各アクションタイプを処理する関数を作成します:
def handle_computer_action(action_type, params):
    if action_type == "screenshot":
        return capture_screenshot()
    elif action_type == "left_click":
        x, y = params["coordinate"]
        return click_at(x, y)
    elif action_type == "type":
        return type_text(params["text"])
    # ... 他のアクションを処理
3

Claudeのツール呼び出しを処理

Claudeの応答からツール呼び出しを抽出して実行します:
for content in response.content:
    if content.type == "tool_use":
        action = content.input["action"]
        result = handle_computer_action(action, content.input)
        
        # Claudeに結果を返す
        tool_result = {
            "type": "tool_result",
            "tool_use_id": content.id,
            "content": result
        }
4

エージェントループを実装

Claudeがタスクを完了するまで続くループを作成します:
while True:
    response = client.beta.messages.create(...)
    
    # Claudeがツールを使用したかどうかを確認
    tool_results = process_tool_calls(response)
    
    if not tool_results:
        # ツール使用なし、タスク完了
        break
        
    # ツール結果で会話を続ける
    messages.append({"role": "user", "content": tool_results})

エラーを処理

コンピュータ使用ツールを実装する場合、さまざまなエラーが発生する可能性があります。以下がそれらを処理する方法です:
スクリーンショット取得が失敗した場合、適切なエラーメッセージを返します:
{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Failed to capture screenshot. Display may be locked or unavailable.",
      "is_error": true
    }
  ]
}
Claudeがディスプレイ境界外の座標を提供する場合:
{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Coordinates (1200, 900) are outside display bounds (1024x768).",
      "is_error": true
    }
  ]
}
アクションの実行に失敗した場合:
{
  "role": "user",
  "content": [
    {
      "type": "tool_result",
      "tool_use_id": "toolu_01A09q90qw90lq917835lq9",
      "content": "Error: Failed to perform click action. The application may be unresponsive.",
      "is_error": true
    }
  ]
}

実装のベストプラクティスに従う

ユースケースに合わせてディスプレイ寸法を設定し、推奨制限内に留まります:
  • 一般的なデスクトップタスク: 1024x768または1280x720
  • ウェブアプリケーション: 1280x800または1366x768
  • パフォーマンスの問題を防ぐため、1920x1080を超える解像度は避けます
Claudeにスクリーンショットを返す場合:
  • スクリーンショットをBase64 PNGまたはJPEGとしてエンコード
  • パフォーマンスを向上させるため、大きなスクリーンショットの圧縮を検討
  • タイムスタンプやディスプレイ状態などの関連メタデータを含める
一部のアプリケーションはアクションに応答するのに時間が必要です:
def click_and_wait(x, y, wait_time=0.5):
    click_at(x, y)
    time.sleep(wait_time)  # UIが更新されるのを許可
リクエストされたアクションが安全で有効であることを確認します:
def validate_action(action_type, params):
    if action_type == "left_click":
        x, y = params.get("coordinate", (0, 0))
        if not (0 <= x < display_width and 0 <= y < display_height):
            return False, "Coordinates out of bounds"
    return True, None
トラブルシューティング用にすべてのアクションのログを保持します:
import logging

def log_action(action_type, params, result):
    logging.info(f"Action: {action_type}, Params: {params}, Result: {result}")

コンピュータ使用の制限を理解

コンピュータ使用機能はベータ版です。Claudeの機能は最先端ですが、開発者はその制限を認識する必要があります:
  1. レイテンシ: 現在のコンピュータ使用レイテンシは、人間-AI相互作用の場合、通常の人間指向のコンピュータアクションと比較して遅すぎる可能性があります。信頼できる環境で速度が重要でないユースケース(例: 背景情報収集、自動ソフトウェアテスト)に焦点を当てることをお勧めします。
  2. コンピュータビジョンの精度と信頼性: Claudeはアクションを生成する際に特定の座標を出力する場合、間違いを犯したり、幻覚を見たりする可能性があります。Claude Sonnet 3.7はシンキング機能を導入し、モデルの推論を理解し、潜在的な問題を特定するのに役立ちます。
  3. ツール選択の精度と信頼性: Claudeはアクションを生成する際にツールを選択する場合、間違いを犯したり、幻覚を見たりする可能性があります。また、ニッチなアプリケーションまたは複数のアプリケーションと同時に相互作用する場合、信頼性が低い可能性があります。複雑なタスクをリクエストする場合、ユーザーはモデルを慎重にプロンプトすることをお勧めします。
  4. スクロール信頼性: Claude Sonnet 3.7は方向制御を備えた専用スクロールアクションを導入し、信頼性を向上させました。モデルは指定された量で任意の方向(上/下/左/右)に明示的にスクロールできるようになりました。
  5. スプレッドシート相互作用: Claude Sonnet 3.7では、left_mouse_downleft_mouse_upなどのより正確なマウス制御アクションと新しい修飾キーサポートの追加により、スプレッドシート相互作用のマウスクリックが改善されました。これらの細粒度制御と修飾キーとクリックの組み合わせを使用することで、セル選択がより信頼性が高くなります。
  6. ソーシャルおよび通信プラットフォームでのアカウント作成とコンテンツ生成: Claudeはウェブサイトにアクセスしますが、ソーシャルメディアウェブサイトおよびプラットフォーム全体でアカウントを作成したり、コンテンツを生成および共有したり、人間になりすましたりする能力を制限しています。この機能は将来更新される可能性があります。
  7. 脆弱性: ジェイルブレイクやプロンプトインジェクションなどの脆弱性は、ベータコンピュータ使用APIを含むフロンティアAIシステム全体で持続する可能性があります。状況によっては、Claudeはユーザーの指示と矛盾していても、コンテンツ内で見つかったコマンドに従う場合があります。例えば、ウェブページ内または画像に含まれるClaude指示は、指示をオーバーライドしたり、Claudeにエラーを起こさせたりする可能性があります。以下をお勧めします: a. コンピュータ使用を最小限の権限を持つ仮想マシンまたはコンテナなどの信頼できる環境に制限 b. 厳密な監視なしにコンピュータ使用アクセスを機密アカウントまたはデータに与えないようにする c. エンドユーザーに関連するリスクを通知し、アプリケーションでコンピュータ使用機能を有効にするか、必要な権限を要求する前に同意を得る
  8. 不適切または違法なアクション: Anthropicの利用規約に従い、コンピュータ使用を使用して法律を違反したり、受け入れ可能な使用ポリシーに違反したりしてはいけません。
常にClaudeのコンピュータ使用アクションとログを慎重に確認および検証してください。完全な精度が必要なタスクまたは人間の監視なしに機密ユーザー情報を必要とするタスクにClaudeを使用しないでください。

価格

Computer use follows the standard tool use pricing. When using the computer use tool: System prompt overhead: The computer use beta adds 466-499 tokens to the system prompt Computer use tool token usage:
ModelInput tokens per tool definition
Claude 4.x models735 tokens
Claude Sonnet 3.7 (deprecated)735 tokens
Additional token consumption:
  • Screenshot images (see Vision pricing)
  • Tool execution results returned to Claude
If you’re also using bash or text editor tools alongside computer use, those tools have their own token costs as documented in their respective pages.

次のステップ