サービスティア

3つのサービスティアを提供しています：

Priority Tier: 本番環境にデプロイされたワークフロー向けで、時間、可用性、および予測可能な価格設定が重要な場合に最適です
Standard: パイロットと日常的なユースケースのスケーリングの両方のデフォルトティアです
Batch: 非同期ワークフロー向けで、待機できるか、通常のキャパシティの外で実行されることから利益を得られる場合に最適です

Standard Tier

Standard TierはすべてのAPIリクエストのデフォルトサービスティアです。このティアのリクエストは、他のすべてのリクエストと一緒に優先順位付けされ、ベストエフォート型の可用性を観察します。

Priority Tier

このティアのリクエストは、Anthropicへの他のすべてのリクエストより優先されます。この優先順位付けにより、ピーク時でも”サーバーオーバーロード”エラーを最小化するのに役立ちます。詳細については、Priority Tierの開始を参照してください

リクエストがティアに割り当てられる方法

リクエストを処理する際、Anthropicは以下のシナリオでリクエストをPriority Tierに割り当てることを決定します：

組織が十分なPriority Tierキャパシティ入力トークン/分を持っている
組織が十分なPriority Tierキャパシティ出力トークン/分を持っている

Anthropicは以下のようにPriority Tierキャパシティに対する使用量をカウントします： 入力トークン

キャッシュ読み取りはキャッシュから読み取られたトークンあたり0.1トークン
キャッシュ書き込みはTTL 5分でキャッシュに書き込まれたトークンあたり1.25トークン
キャッシュ書き込みはTTL 1時間でキャッシュに書き込まれたトークンあたり2.00トークン
ロングコンテキスト（>200k入力トークン）リクエストの場合、入力トークンはトークンあたり2トークン
その他すべての入力トークンはトークンあたり1トークン

出力トークン

ロングコンテキスト（>200k入力トークン）リクエストの場合、出力トークンはトークンあたり1.5トークン
その他すべての出力トークンはトークンあたり1トークン

それ以外の場合、リクエストはStandard Tierで進行します。

Priority Tierに割り当てられたリクエストは、Priority Tierキャパシティと通常のレート制限の両方から取得されます。リクエストをサービスするとレート制限を超える場合、リクエストは拒否されます。