- Priority Tier: 本番環境にデプロイされたワークフロー向けで、時間、可用性、および予測可能な価格設定が重要な場合に最適です
- Standard: パイロットと日常的なユースケースのスケーリングの両方のデフォルトティアです
- Batch: 非同期ワークフロー向けで、待機できるか、通常のキャパシティの外で実行されることから利益を得られる場合に最適です
Standard Tier
Standard TierはすべてのAPIリクエストのデフォルトサービスティアです。このティアのリクエストは、他のすべてのリクエストと一緒に優先順位付けされ、ベストエフォート型の可用性を観察します。Priority Tier
このティアのリクエストは、Anthropicへの他のすべてのリクエストより優先されます。この優先順位付けにより、ピーク時でも”サーバーオーバーロード”エラーを最小化するのに役立ちます。 詳細については、Priority Tierの開始を参照してくださいリクエストがティアに割り当てられる方法
リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します:- 組織が十分なPriority Tierキャパシティ入力トークン/分を持っている
- 組織が十分なPriority Tierキャパシティ出力トークン/分を持っている
- キャッシュ読み取りはキャッシュから読み取られたトークンあたり0.1トークン
- キャッシュ書き込みはTTL 5分でキャッシュに書き込まれたトークンあたり1.25トークン
- キャッシュ書き込みはTTL 1時間でキャッシュに書き込まれたトークンあたり2.00トークン
- ロングコンテキスト(>200k入力トークン)リクエストの場合、入力トークンはトークンあたり2トークン
- その他すべての入力トークンはトークンあたり1トークン
- ロングコンテキスト(>200k入力トークン)リクエストの場合、出力トークンはトークンあたり1.5トークン
- その他すべての出力トークンはトークンあたり1トークン
Priority Tierに割り当てられたリクエストは、Priority Tierキャパシティと通常のレート制限の両方から取得されます。
リクエストをサービスするとレート制限を超える場合、リクエストは拒否されます。
サービスティアの使用
service_tierパラメータを設定することで、リクエストに使用できるサービスティアを制御できます:
service_tierパラメータは以下の値を受け入れます:
"auto"(デフォルト)- Priority Tierキャパシティが利用可能な場合はそれを使用し、そうでない場合は他のキャパシティにフォールバック"standard_only"- Standard Tierキャパシティのみを使用します。Priority Tierキャパシティを使用したくない場合に便利です
usageオブジェクトには、リクエストに割り当てられたサービスティアも含まれます:
service_tier="auto"をリクエストする場合、これらのレスポンスヘッダーは洞察を提供します:
Priority Tierの開始
以下に関心がある場合は、Priority Tierキャパシティへのコミットメントを検討することができます:- より高い可用性: 優先的な計算リソースで99.5%のアップタイムを目指す
- コスト管理: 予測可能な支出と長期コミットメントの割引
- 柔軟なオーバーフロー: コミットされたキャパシティを超えた場合、自動的にStandard Tierにフォールバック
- 1分あたりの入力トークン数
- 1分あたりの出力トークン数
- コミットメント期間(1、3、6、または12ヶ月)
- 特定のモデルバージョン
購入する入力トークンと出力トークンの比率が重要です。Priority Tierキャパシティを実際のトラフィックパターンに合わせてサイズ設定することで、購入したトークンの利用率を最大化するのに役立ちます。
サポートされているモデル
Priority Tierは以下でサポートされています:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
Priority Tierへのアクセス方法
Priority Tierの使用を開始するには:- 営業に連絡してプロビジョニングを完了する
- (オプション)APIリクエストを更新して、
service_tierパラメータをautoに設定する - レスポンスヘッダーとClaude Consoleを通じて使用状況を監視する