評価ツールの使用方法

評価機能へのアクセス

評価ツールを使い始めるには：

Anthropic Consoleを開き、プロンプトエディタに移動します。
プロンプトを作成した後、画面上部にある「Evaluate」タブを探します。

プロンプトには、二重波括弧構文を使用した動的変数を少なくとも1〜2個含めてください：{{variable}}。これは評価テストセットを作成するために必要です。

プロンプトの生成

ConsoleにはClaude Opus 4を活用した組み込みのプロンプトジェネレーターが用意されています：

「Generate Prompt」をクリック

「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。

タスクを説明する

希望するタスク（例：「インバウンドのカスタマーサポートリクエストを振り分ける」）を、必要な詳細さで説明します。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されるプロンプトをカスタマイズできます。

プロンプトを生成する

下部にあるオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してこれらのプロンプトをさらに改善できます。

この機能により、評価に適した変数構文を持つプロンプトをより簡単に作成できます。

テストケースの作成

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります：

左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
「Generate Test Case」機能を使用して、Claudeに自動的にテストケースを生成させます。
CSVファイルからテストケースをインポートします。

「Generate Test Case」機能を使用するには：

「Generate Test Case」をクリック

ボタンをクリックするたびに、Claudeが1行ずつテストケースを生成します。

生成ロジックの編集（オプション）

「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、表示される変数ウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期の生成ロジックを表示するには、このウィンドウの右上にある「Generate」をクリックする必要があるかもしれません。

これを編集することで、Claudeが生成するテストケースをより精密かつ具体的にカスタマイズして微調整できます。

以下は、複数のテストケースが入力された評価画面の例です：

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースのパフォーマンスにどのように影響するかを確認できます。

効果的な評価のためのヒント

評価のためのプロンプト構造

評価ツールを最大限に活用するには、明確な入力と出力形式でプロンプトを構成してください。例えば：

このタスクでは、色と音の2つの要素を取り入れた、かわいい一文のストーリーを生成します。
ストーリーに含める色は：
<color>
{{COLOR}}
</color>
ストーリーに含める音は：
<sound>
{{SOUND}}
</sound>
ストーリーを生成するための手順は次のとおりです：
1. 提供された色に一般的に関連付けられているオブジェクト、動物、または風景を考えてください。例えば、色が「青」の場合、空、海、または青い鳥を思い浮かべるかもしれません。
2. 特定した色付きのオブジェクト/動物/風景と提供された音を含む、簡単なアクション、イベント、またはシーンを想像してください。例えば、色が「青」で音が「口笛」の場合、メロディーを口笛で吹く青い鳥を想像するかもしれません。
3. 想像したアクション、イベント、またはシーンを1つの簡潔な文で説明してください。文をかわいく、印象的で想像力豊かにすることに焦点を当ててください。例：「陽気な青い鳥は、青空を舞いながら楽しいメロディーを口笛で吹いていました。」
ストーリーは1文だけにしてください。与えられた色と音を自然に取り入れながら、その文をできるだけ魅力的で魅力的にすることを目指してください。
完成した一文のストーリーを<story>タグ内に書いてください。

この構造により、入力（{{COLOR}}と{{SOUND}}）を簡単に変更し、出力を一貫して評価できます。

Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトをすばやく作成できます。

結果の理解と比較

評価ツールは、プロンプトを改良するためのいくつかの機能を提供しています：

並列比較：2つ以上のプロンプトの出力を比較して、変更の影響をすばやく確認できます。
品質評価：5段階のスケールで応答品質を評価し、プロンプトごとの応答品質の向上を追跡します。
プロンプトのバージョン管理：プロンプトの新しいバージョンを作成し、テストスイートを再実行して、結果を迅速に反復し改善します。

テストケース全体の結果を確認し、異なるプロンプトバージョンを比較することで、パターンを特定し、プロンプトをより効率的に調整するための情報に基づいた判断ができます。

今日からプロンプトの評価を始めて、ClaudeでよりロバストなAIアプリケーションを構築しましょう！

はじめの一歩

モデルと料金

機能を探索

Claudeについて学ぶ

法務センター

テストと評価

エージェントコンポーネント

評価ツールの使用方法

評価機能へのアクセス

プロンプトの生成

テストケースの作成

効果的な評価のためのヒント

結果の理解と比較

はじめの一歩

モデルと料金

機能を探索

Claudeについて学ぶ

法務センター

テストと評価

エージェントコンポーネント

​評価機能へのアクセス

​プロンプトの生成

​テストケースの作成

​効果的な評価のためのヒント

​結果の理解と比較

評価機能へのアクセス

プロンプトの生成

テストケースの作成

効果的な評価のためのヒント

結果の理解と比較