- 支出制限は、組織がAPI使用に対して発生させることができる最大月額コストを設定します。
- レート制限は、組織が定義された期間内に実行できるAPIリクエストの最大数を設定します。
制限について
- 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの悪用を防ぐように設計されています。
- 制限は使用階層によって定義され、各階層は異なる支出制限とレート制限のセットに関連付けられています。
- APIを使用して特定の閾値に達すると、組織は自動的に階層を上げます。 制限は組織レベルで設定されます。組織の制限はAnthropic Consoleの制限ページで確認できます。
- より短い時間間隔でレート制限に達する可能性があります。例えば、毎分60リクエスト(RPM)のレートは、毎秒1リクエストとして適用される場合があります。高ボリュームでの短時間のリクエストバーストは、レート制限を超えてレート制限エラーを引き起こす可能性があります。
- 以下に概説する制限は、私たちの標準階層制限です。より高い、カスタム制限や強化されたサービスレベルのためのPriority Tierをお求めの場合は、Anthropic Consoleを通じて営業にお問い合わせください。
- レート制限にはトークンバケットアルゴリズムを使用しています。これは、固定間隔でリセットされるのではなく、最大制限まで容量が継続的に補充されることを意味します。
- ここで説明されているすべての制限は、保証された最小値ではなく、許可される最大使用量を表しています。これらの制限は、意図しない過剰支出を減らし、ユーザー間でのリソースの公平な分配を確保することを目的としています。
支出制限
各使用階層には、各暦月にAPIに費やすことができる金額の制限があります。階層の支出制限に達すると、次の階層の資格を得るまで、次の月まで待ってAPIを再び使用できるようになります。 次の階層の資格を得るには、預金要件を満たす必要があります。アカウントの過剰資金調達のリスクを最小限に抑えるため、月間支出制限を超えて預金することはできません。階層昇格の要件
使用階層 | クレジット購入 | 月間最大使用量 |
---|---|---|
Tier 1 | $5 | $100 |
Tier 2 | $40 | $500 |
Tier 3 | $200 | $1,000 |
Tier 4 | $400 | $5,000 |
月次請求 | N/A | N/A |
レート制限
Messages APIのレート制限は、各モデルクラスに対して毎分リクエスト数(RPM)、毎分入力トークン数(ITPM)、毎分出力トークン数(OTPM)で測定されます。 レート制限のいずれかを超えると、どのレート制限が超えられたかを説明する429エラーと、待機時間を示すretry-after
ヘッダーが返されます。
組織の使用量が急激に増加した場合、APIの加速制限により429エラーが発生する可能性もあります。加速制限に達することを避けるため、トラフィックを徐々に増やし、一貫した使用パターンを維持してください。
input_tokens
とcache_creation_input_tokens
がITPMレート制限にカウントされます。
一部のモデルでは、
cache_read_input_tokens
もITPMレート制限にカウントされます。これらのモデルの最大ITPMは、以下のレート制限表で†でマークされています。他のすべてのモデルでは、cache_read_input_tokens
はITPMレート制限にカウントされません(ただし、課金は行われます)。max_tokens
に基づいて推定され、実際に使用された出力トークン数を反映するようにリクエストの終了時に推定値が調整されます。
予想より早くOTPM制限に達している場合は、max_tokens
を減らして完了のサイズをより適切に近似してみてください。
レート制限は各モデルに個別に適用されるため、異なるモデルをそれぞれの制限まで同時に使用できます。
現在のレート制限と動作はAnthropic Consoleで確認できます。
Claude Sonnet 4で
context-1m-2025-08-07
ベータヘッダーを使用する長いコンテキストリクエスト(>200Kトークン)には、別のレート制限が適用されます。以下の長いコンテキストレート制限をご覧ください。モデル | 毎分最大リクエスト数(RPM) | 毎分最大入力トークン数(ITPM) | 毎分最大出力トークン数(OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (非推奨) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (非推奨) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (非推奨) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
をITPM使用量にカウントします。
Message Batches API
Message Batches APIには、すべてのモデル間で共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントへの毎分リクエスト数(RPM)制限と、同時に処理キューに入れることができるバッチリクエスト数の制限が含まれます。ここでの「バッチリクエスト」は、Message Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成でき、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。毎分最大リクエスト数(RPM) | 処理キュー内の最大バッチリクエスト数 | バッチあたりの最大バッチリクエスト数 |
---|---|---|
50 | 100,000 | 100,000 |
長いコンテキストレート制限
1Mトークンコンテキストウィンドウが有効なClaude Sonnet 4を使用する場合、200Kトークンを超えるリクエストには以下の専用レート制限が適用されます。1Mトークンコンテキストウィンドウは現在、使用階層4の組織とカスタムレート制限を持つ組織向けのベータ版です。1MトークンコンテキストウィンドウはClaude Sonnet 4でのみ利用可能です。
毎分最大入力トークン数(ITPM) | 毎分最大出力トークン数(OTPM) |
---|---|
1,000,000 | 200,000 |
レート制限で1Mトークンコンテキストウィンドウを最大限に活用するには、プロンプトキャッシュを使用してください。
Consoleでのレート制限の監視
Anthropic Consoleの使用量ページでレート制限の使用量を監視できます。 トークンとリクエストのチャートの提供に加えて、使用量ページには2つの別々のレート制限チャートが提供されます。これらのチャートを使用して、成長の余地、ピーク使用時期、リクエストするレート制限の理解、キャッシュ率の改善方法を確認できます。チャートは、特定のレート制限(例:モデルごと)に対する多数のメトリクスを視覚化します:- レート制限 - 入力トークンチャートには以下が含まれます:
- 毎分の時間別最大非キャッシュ入力トークン数
- 現在の毎分入力トークン数レート制限
- 入力トークンのキャッシュ率(つまり、キャッシュから読み取られた入力トークンの割合)
- レート制限 - 出力トークンチャートには以下が含まれます:
- 毎分の時間別最大出力トークン数
- 現在の毎分出力トークン数レート制限
ワークスペースでのより低い制限の設定
組織内のワークスペースが潜在的な過剰使用から保護されるよう、ワークスペースごとにカスタム支出制限とレート制限を設定できます。 例:組織の制限が毎分40,000入力トークンと毎分8,000出力トークンの場合、1つのワークスペースを毎分30,000総トークンに制限する場合があります。これにより、他のワークスペースが潜在的な過剰使用から保護され、組織全体でのリソースのより公平な分配が確保されます。残りの未使用の毎分トークン(またはそのワークスペースが制限を使用しない場合はそれ以上)は、他のワークスペースが使用できるようになります。 注意:- デフォルトワークスペースに制限を設定することはできません。
- 設定されていない場合、ワークスペース制限は組織の制限と一致します。
- ワークスペース制限の合計が超えても、組織全体の制限は常に適用されます。
- 入力および出力トークン制限のワークスペースサポートは将来追加される予定です。
レスポンスヘッダー
APIレスポンスには、適用されるレート制限、現在の使用量、制限がリセットされる時期を示すヘッダーが含まれます。 以下のヘッダーが返されます:ヘッダー | 説明 |
---|---|
retry-after | リクエストを再試行できるまでの待機秒数。早期の再試行は失敗します。 |
anthropic-ratelimit-requests-limit | 任意のレート制限期間内で許可される最大リクエスト数。 |
anthropic-ratelimit-requests-remaining | レート制限される前の残りリクエスト数。 |
anthropic-ratelimit-requests-reset | リクエストレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-tokens-limit | 任意のレート制限期間内で許可される最大トークン数。 |
anthropic-ratelimit-tokens-remaining | レート制限される前の残りトークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-tokens-reset | トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-input-tokens-limit | 任意のレート制限期間内で許可される最大入力トークン数。 |
anthropic-ratelimit-input-tokens-remaining | レート制限される前の残り入力トークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-input-tokens-reset | 入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-ratelimit-output-tokens-limit | 任意のレート制限期間内で許可される最大出力トークン数。 |
anthropic-ratelimit-output-tokens-remaining | レート制限される前の残り出力トークン数(最も近い千の位に丸められる)。 |
anthropic-ratelimit-output-tokens-reset | 出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。 |
anthropic-priority-input-tokens-limit | 任意のレート制限期間内で許可される最大Priority Tier入力トークン数。(Priority Tierのみ) |
anthropic-priority-input-tokens-remaining | レート制限される前の残りPriority Tier入力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ) |
anthropic-priority-input-tokens-reset | Priority Tier入力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-priority-output-tokens-limit | 任意のレート制限期間内で許可される最大Priority Tier出力トークン数。(Priority Tierのみ) |
anthropic-priority-output-tokens-remaining | レート制限される前の残りPriority Tier出力トークン数(最も近い千の位に丸められる)。(Priority Tierのみ) |
anthropic-priority-output-tokens-reset | Priority Tier出力トークンレート制限が完全に補充される時刻(RFC 3339形式で提供)。(Priority Tierのみ) |
anthropic-ratelimit-tokens-*
ヘッダーは、現在有効な最も制限的な制限の値を表示します。例えば、ワークスペースの毎分トークン制限を超えた場合、ヘッダーにはワークスペースの毎分トークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは残り総トークン数を返し、総計は入力トークンと出力トークンの合計です。このアプローチにより、現在のAPI使用量に対する最も関連性の高い制約を可視化できます。