- Priority Tier: 時間、可用性、予測可能な価格設定が重要な本番環境にデプロイされたワークフローに最適
- Standard: 日常的な使用例のパイロットとスケーリングの両方のデフォルト階層
- Batch: 待機可能または通常の容量外で実行することで恩恵を受ける非同期ワークフローに最適
Standard Tier
standard tierは、すべてのAPIリクエストのデフォルトサービス階層です。この階層のリクエストは、他のすべてのリクエストと並行して優先順位が付けられ、ベストエフォート可用性を観察します。Priority Tier
この階層のリクエストは、Anthropicへの他のすべてのリクエストよりも優先されます。この優先順位付けは、ピーク時でも”server overloaded”エラーを最小限に抑えるのに役立ちます。 詳細については、Priority Tierを始めるを参照してくださいリクエストが階層に割り当てられる方法
リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します:- 組織が十分なpriority tier容量の入力トークン毎分を持っている
- 組織が十分なpriority tier容量の出力トークン毎分を持っている
- キャッシュ読み取りは、キャッシュから読み取られたトークンあたり0.1トークン
- キャッシュ書き込みは、5分TTLでキャッシュに書き込まれたトークンあたり1.25トークン
- キャッシュ書き込みは、1時間TTLでキャッシュに書き込まれたトークンあたり2.00トークン
- 長いコンテキスト(>200k入力トークン)リクエストの場合、入力トークンはトークンあたり2トークン
- その他すべての入力トークンは、トークンあたり1トークン
- 長いコンテキスト(>200k入力トークン)リクエストの場合、出力トークンはトークンあたり1.5トークン
- その他すべての出力トークンは、トークンあたり1トークン
Priority Tierに割り当てられたリクエストは、Priority Tier容量と通常のレート制限の両方から引き出されます。
リクエストの処理がレート制限を超える場合、リクエストは拒否されます。
サービス階層の使用
service_tier
パラメータを設定することで、リクエストに使用できるサービス階層を制御できます:
service_tier
パラメータは以下の値を受け入れます:
"auto"
(デフォルト) - 利用可能な場合はPriority Tier容量を使用し、利用できない場合は他の容量にフォールバック"standard_only"
- standard tier容量のみを使用、Priority Tier容量を使用したくない場合に便利
usage
オブジェクトには、リクエストに割り当てられたサービス階層も含まれます:
service_tier="auto"
をリクエストする場合、これらのレスポンスヘッダーが洞察を提供します:
Priority Tierを始める
以下に興味がある場合は、Priority Tier容量にコミットすることをお勧めします:- 高い可用性:優先的な計算リソースで99.5%のアップタイムを目標
- コスト管理:予測可能な支出と長期コミットメントの割引
- 柔軟なオーバーフロー:コミットした容量を超えた場合、自動的にstandard tierにフォールバック
- 分あたりの入力トークン数
- 分あたりの出力トークン数
- コミット期間(1、3、6、または12か月)
- 特定のモデルバージョン
購入する入力トークンと出力トークンの比率は重要です。実際のトラフィックパターンに合わせてPriority Tier容量をサイジングすることで、購入したトークンの利用率を最大化できます。
サポートされているモデル
Priority Tierは以下でサポートされています:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5(両バージョン)
- Claude Haiku 3.5
Priority Tierへのアクセス方法
Priority Tierの使用を開始するには:- 営業に連絡してプロビジョニングを完了する
- (オプション)APIリクエストを更新して、オプションで
service_tier
パラメータをauto
に設定する - レスポンスヘッダーとAnthropic Consoleを通じて使用量を監視する