Skip to main content
3つのサービスティアを提供しています:
  • Priority Tier: 本番環境にデプロイされたワークフロー向けで、時間、可用性、および予測可能な価格設定が重要な場合に最適です
  • Standard: パイロットと日常的なユースケースのスケーリングの両方のデフォルトティアです
  • Batch: 非同期ワークフロー向けで、待機できるか、通常のキャパシティの外で実行されることから利益を得られる場合に最適です

Standard Tier

Standard TierはすべてのAPIリクエストのデフォルトサービスティアです。このティアのリクエストは、他のすべてのリクエストと一緒に優先順位付けされ、ベストエフォート型の可用性を観察します。

Priority Tier

このティアのリクエストは、Anthropicへの他のすべてのリクエストより優先されます。この優先順位付けにより、ピーク時でも”サーバーオーバーロード”エラーを最小化するのに役立ちます。 詳細については、Priority Tierの開始を参照してください

リクエストがティアに割り当てられる方法

リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します:
  • 組織が十分なPriority Tierキャパシティ入力トークン/分を持っている
  • 組織が十分なPriority Tierキャパシティ出力トークン/分を持っている
Anthropicは以下のようにPriority Tierキャパシティに対する使用量をカウントします: 入力トークン
  • キャッシュ読み取りはキャッシュから読み取られたトークンあたり0.1トークン
  • キャッシュ書き込みはTTL 5分でキャッシュに書き込まれたトークンあたり1.25トークン
  • キャッシュ書き込みはTTL 1時間でキャッシュに書き込まれたトークンあたり2.00トークン
  • ロングコンテキスト(>200k入力トークン)リクエストの場合、入力トークンはトークンあたり2トークン
  • その他すべての入力トークンはトークンあたり1トークン
出力トークン
  • ロングコンテキスト(>200k入力トークン)リクエストの場合、出力トークンはトークンあたり1.5トークン
  • その他すべての出力トークンはトークンあたり1トークン
それ以外の場合、リクエストはStandard Tierで進行します。
Priority Tierに割り当てられたリクエストは、Priority Tierキャパシティと通常のレート制限の両方から取得されます。 リクエストをサービスするとレート制限を超える場合、リクエストは拒否されます。

サービスティアの使用

service_tierパラメータを設定することで、リクエストに使用できるサービスティアを制御できます:
message = client.messages.create(
    model="claude-sonnet-4-5",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # 利用可能な場合は自動的にPriority Tierを使用し、そうでない場合はStandardにフォールバック
)
service_tierパラメータは以下の値を受け入れます:
  • "auto"(デフォルト)- Priority Tierキャパシティが利用可能な場合はそれを使用し、そうでない場合は他のキャパシティにフォールバック
  • "standard_only" - Standard Tierキャパシティのみを使用します。Priority Tierキャパシティを使用したくない場合に便利です
レスポンスのusageオブジェクトには、リクエストに割り当てられたサービスティアも含まれます:
{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}
これにより、リクエストに割り当てられたサービスティアを判断できます。 Priority Tierコミットメント付きモデルでservice_tier="auto"をリクエストする場合、これらのレスポンスヘッダーは洞察を提供します:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z
これらのヘッダーの存在を使用して、リクエストがPriority Tierの対象であったかどうかを検出できます。制限を超えていた場合でも同様です。

Priority Tierの開始

以下に関心がある場合は、Priority Tierキャパシティへのコミットメントを検討することができます:
  • より高い可用性: 優先的な計算リソースで99.5%のアップタイムを目指す
  • コスト管理: 予測可能な支出と長期コミットメントの割引
  • 柔軟なオーバーフロー: コミットされたキャパシティを超えた場合、自動的にStandard Tierにフォールバック
Priority Tierへのコミットメントには以下の決定が含まれます:
  • 1分あたりの入力トークン数
  • 1分あたりの出力トークン数
  • コミットメント期間(1、3、6、または12ヶ月)
  • 特定のモデルバージョン
購入する入力トークンと出力トークンの比率が重要です。Priority Tierキャパシティを実際のトラフィックパターンに合わせてサイズ設定することで、購入したトークンの利用率を最大化するのに役立ちます。

サポートされているモデル

Priority Tierは以下でサポートされています:
  • Claude Opus 4.1
  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Haiku 3.5
詳細については、モデル概要ページを確認してください。

Priority Tierへのアクセス方法

Priority Tierの使用を開始するには:
  1. 営業に連絡してプロビジョニングを完了する
  2. (オプション)APIリクエストを更新して、service_tierパラメータをautoに設定する
  3. レスポンスヘッダーとClaude Consoleを通じて使用状況を監視する