評価機能へのアクセス

評価ツールを使い始めるには:

  1. Anthropic Consoleを開き、プロンプトエディタに移動します。
  2. プロンプトを作成した後、画面上部にある「Evaluate」タブを探します。

プロンプトには、二重波括弧構文を使用した動的変数を少なくとも1〜2個含めてください:{{variable}}。これは評価テストセットを作成するために必要です。

プロンプトの生成

ConsoleにはClaude Opus 4を活用した組み込みのプロンプトジェネレーターが用意されています:

1

「Generate Prompt」をクリック

「Generate Prompt」ヘルパーツールをクリックすると、タスク情報を入力できるモーダルが開きます。

2

タスクを説明する

希望するタスク(例:「インバウンドのカスタマーサポートリクエストを振り分ける」)を、必要な詳細さで説明します。より多くのコンテキストを含めるほど、Claudeはあなたの特定のニーズに合わせて生成されるプロンプトをカスタマイズできます。

3

プロンプトを生成する

下部にあるオレンジ色の「Generate Prompt」ボタンをクリックすると、Claudeが高品質なプロンプトを生成します。その後、Consoleの評価画面を使用してこれらのプロンプトをさらに改善できます。

この機能により、評価に適した変数構文を持つプロンプトをより簡単に作成できます。

テストケースの作成

評価画面にアクセスすると、テストケースを作成するためのいくつかのオプションがあります:

  1. 左下の「+ Add Row」ボタンをクリックして、手動でケースを追加します。
  2. 「Generate Test Case」機能を使用して、Claudeに自動的にテストケースを生成させます。
  3. CSVファイルからテストケースをインポートします。

「Generate Test Case」機能を使用するには:

1

「Generate Test Case」をクリック

ボタンをクリックするたびに、Claudeが1行ずつテストケースを生成します。

2

生成ロジックの編集(オプション)

「Generate Test Case」ボタンの右側にある矢印ドロップダウンをクリックし、表示される変数ウィンドウの上部にある「Show generation logic」をクリックすることで、テストケース生成ロジックを編集することもできます。初期の生成ロジックを表示するには、このウィンドウの右上にある「Generate」をクリックする必要があるかもしれません。

これを編集することで、Claudeが生成するテストケースをより精密かつ具体的にカスタマイズして微調整できます。

以下は、複数のテストケースが入力された評価画面の例です:

元のプロンプトテキストを更新した場合、新しいプロンプトに対して評価スイート全体を再実行し、変更がすべてのテストケースのパフォーマンスにどのように影響するかを確認できます。

効果的な評価のためのヒント

Consoleの「Generate a prompt」ヘルパーツールを使用して、評価に適した変数構文を持つプロンプトをすばやく作成できます。

結果の理解と比較

評価ツールは、プロンプトを改良するためのいくつかの機能を提供しています:

  1. 並列比較:2つ以上のプロンプトの出力を比較して、変更の影響をすばやく確認できます。
  2. 品質評価:5段階のスケールで応答品質を評価し、プロンプトごとの応答品質の向上を追跡します。
  3. プロンプトのバージョン管理:プロンプトの新しいバージョンを作成し、テストスイートを再実行して、結果を迅速に反復し改善します。

テストケース全体の結果を確認し、異なるプロンプトバージョンを比較することで、パターンを特定し、プロンプトをより効率的に調整するための情報に基づいた判断ができます。

今日からプロンプトの評価を始めて、ClaudeでよりロバストなAIアプリケーションを構築しましょう!