評価機能へのアクセス
評価ツールを使い始めるには:- Anthropic Consoleを開き、プロンプトエディターに移動します。
- プロンプトを作成した後、画面上部の「Evaluate」タブを探します。

プロンプトには、二重波括弧構文を使用した少なくとも1〜2個の動的変数が含まれていることを確認してください:{{variable}}。これは評価テストセットの作成に必要です。
プロンプトの生成
ConsoleにはClaude Opus 4.1によって駆動される組み込みのプロンプトジェネレーターが提供されています:1
「Generate Prompt」をクリック
「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。
2
タスクを説明
希望するタスク(例:「受信カスタマーサポートリクエストのトリアージ」)を、詳細に、または簡潔に説明します。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されたプロンプトをより適切に調整できます。
3
プロンプトを生成
下部のオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してそれらのプロンプトをさらに改善できます。

テストケースの作成
評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:- 左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
- 「Generate Test Case」機能を使用して、Claudeに自動的にテストケースを生成させます。
- CSVファイルからテストケースをインポートします。
1
「Generate Test Case」をクリック
Claudeがテストケースを生成します。ボタンをクリックするたびに一行ずつ生成されます。
2
生成ロジックを編集(オプション)
「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、ポップアップするVariablesウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期生成ロジックを表示するために、このウィンドウの右上にある「Generate」をクリックする必要がある場合があります。これを編集することで、Claudeが生成するテストケースをより高い精度と特異性でカスタマイズし、微調整できます。

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースにわたってパフォーマンスにどのような影響を与えるかを確認できます。
効果的な評価のためのヒント
評価のためのプロンプト構造
評価のためのプロンプト構造
評価ツールを最大限に活用するには、明確な入力と出力形式でプロンプトを構造化します。例えば:この構造により、入力({{COLOR}}と{{SOUND}})を変更し、出力を一貫して評価することが容易になります。
Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトを素早く作成しましょう。
結果の理解と比較
評価ツールは、プロンプトを改良するのに役立つ複数の機能を提供します:- 並列比較:2つ以上のプロンプトの出力を比較して、変更の影響を素早く確認します。
- 品質評価:5段階スケールで応答品質を評価し、プロンプトごとの応答品質の改善を追跡します。
- プロンプトバージョニング:プロンプトの新しいバージョンを作成し、テストスイートを再実行して素早く反復し、結果を改善します。