Skip to main content
2つのタイプの制限があります:
  1. 支出制限は、組織がAPI使用に対して月間に発生できる最大コストを設定します。
  2. レート制限は、組織が定義された期間内に行うことができるAPI要求の最大数を設定します。
サービス設定済みの制限は組織レベルで適用されますが、組織のワークスペースに対してユーザーが設定可能な制限を設定することもできます。 これらの制限は、Standard TierとPriority Tierの両方の使用に適用されます。コミットされた支出と引き換えに強化されたサービスレベルを提供するPriority Tierの詳細については、Service Tiersを参照してください。

制限について

  • 制限は、一般的な顧客の使用パターンへの影響を最小限に抑えながら、APIの悪用を防ぐために設計されています。
  • 制限は使用ティアによって定義され、各ティアは異なる支出制限とレート制限のセットに関連付けられています。
  • 組織は、APIを使用中に特定のしきい値に達すると、自動的にティアが上がります。 制限は組織レベルで設定されます。Claude ConsoleLimits pageで組織の制限を確認できます。
  • より短い時間間隔でレート制限に達する可能性があります。たとえば、1分あたり60リクエスト(RPM)のレートは1秒あたり1リクエストとして適用される場合があります。高い量でのリクエストの短いバースト(急増)はレート制限を超える可能性があり、レート制限エラーが発生します。
  • 以下に概説されている制限は、標準ティアの制限です。より高い、カスタム制限、またはサービスレベルの向上のためのPriority Tierを求めている場合は、Claude Consoleを通じて営業に連絡してください。
  • レート制限を行うためにトークンバケットアルゴリズムを使用しています。これは、固定間隔でリセットされるのではなく、容量が最大制限まで継続的に補充されることを意味します。
  • ここで説明されているすべての制限は、保証された最小値ではなく、許可される最大使用量を表します。これらの制限は、意図しない過度な支出を減らし、ユーザー間でリソースの公平な分配を確保することを目的としています。

支出制限

各使用ティアには、カレンダー月ごとにAPIに費やすことができる金額の制限があります。ティアの支出制限に達すると、次のティアの対象となるまで、次の月までAPI を再度使用できるようになるまで待つ必要があります。 次のティアの対象となるには、デポジット要件を満たす必要があります。アカウントへの過度な資金提供のリスクを最小限に抑えるために、月間支出制限を超える金額をデポジットすることはできません。

ティアを進める要件

使用ティアクレジット購入最大クレジット購入
ティア1$5$100
ティア2$40$500
ティア3$200$1,000
ティア4$400$5,000
月次請求N/AN/A
クレジット購入は、そのティアに進むために必要な累積クレジット購入(税金を除く)を示します。しきい値に達すると、すぐに進みます。最大クレジット購入は、アカウントの過度な資金提供を防ぐために、単一のトランザクションでアカウントに追加できる最大金額を制限します。

レート制限

Messages APIのレート制限は、1分あたりのリクエスト数(RPM)、1分あたりの入力トークン数(ITPM)、および各モデルクラスの1分あたりの出力トークン数(OTPM)で測定されます。 レート制限のいずれかを超えた場合、どのレート制限が超過したかを説明する429エラーと、待機時間を示すretry-afterヘッダーが表示されます。
APIの加速制限により429エラーが発生する可能性もあります。これは、組織の使用が急激に増加した場合に発生します。加速制限に達するのを避けるために、トラフィックを段階的に増やし、一貫した使用パターンを維持してください。

キャッシュ対応ITPM

多くのAPIプロバイダーは、キャッシュされたトークンとキャッシュされていないトークン、入力と出力の両方を含む可能性のある、結合された「1分あたりのトークン数」(TPM)制限を使用しています。ほとんどのClaudeモデルでは、キャッシュされていない入力トークンのみがITPMレート制限にカウントされます。 これは、レート制限が最初に見えるよりも実質的に高いという重要な利点です。 ITPM レート制限は各リクエストの開始時に推定され、実際に使用された入力トークン数を反映するようにリクエスト中に調整されます。 ITPMにカウントされるもの:
  • input_tokens(キャッシュされていない新しい入力トークン)✓ ITPMにカウント
  • cache_creation_input_tokens(キャッシュに書き込まれるトークン)✓ ITPMにカウント
  • cache_read_input_tokens(キャッシュから読み取られるトークン)✗ ほとんどのモデルではITPMにカウントされません
:2,000,000 ITPMの制限と80%のキャッシュヒット率では、キャッシュされたトークンはレート制限にカウントされないため、1分あたり10,000,000の合計入力トークン(2M キャッシュされていない + 8M キャッシュされた)を効果的に処理できます。
一部の古いモデル(以下のレート制限テーブルで†でマークされています)も、cache_read_input_tokensをITPMレート制限にカウントします。†マーカーのないすべてのモデルでは、キャッシュされた入力トークンはレート制限にカウントされず、基本入力トークン価格の10%で請求されます。これは、プロンプトキャッシングを使用することで、大幅に高い実効スループットを達成できることを意味します。
プロンプトキャッシングでレート制限を最大化するレート制限を最大限に活用するには、以下のような繰り返されるコンテンツに対してプロンプトキャッシングを使用してください:
  • システム指示とプロンプト
  • 大規模なコンテキストドキュメント
  • ツール定義
  • 会話履歴
効果的なキャッシングにより、レート制限を増やさずに実際のスループットを大幅に増やすことができます。Usage pageでキャッシュヒット率を監視して、キャッシング戦略を最適化してください。
OTPM レート制限は、各リクエストの開始時にmax_tokensに基づいて推定され、リクエストの終了時に実際に使用された出力トークン数を反映するように調整されます。 予想より早くOTPM制限に達している場合は、max_tokensを減らして、完了のサイズをより適切に近似してみてください。 レート制限はモデルごとに個別に適用されます。したがって、異なるモデルをそれぞれの制限まで同時に使用できます。 Claude Consoleで現在のレート制限と動作を確認できます。
context-1m-2025-08-07ベータヘッダーでClaude Sonnet 4.xを使用する場合の長いコンテキストリクエスト(>200Kトークン)では、個別のレート制限が適用されます。以下の長いコンテキストレート制限を参照してください。
  • ティア1
  • ティア2
  • ティア3
  • ティア4
  • カスタム
モデル1分あたりの最大リクエスト数(RPM)1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
Claude Sonnet 4.x**5030,0008,000
Claude Sonnet 3.7 (deprecated)5020,0008,000
Claude Haiku 4.55050,00010,000
Claude Haiku 3.55050,00010,000
Claude Haiku 35050,00010,000
Claude Opus 4.x*5030,0008,000
Claude Opus 3 (deprecated)5020,0004,000
* - Opus 4.xレート制限は、Opus 4とOpus 4.1の両方の結合トラフィックに適用される合計制限です。 ** - Sonnet 4.xレート制限は、Sonnet 4とSonnet 4.5の両方の結合トラフィックに適用される合計制限です。 † - 制限はcache_read_input_tokensをITPM使用量にカウントします。

Message Batches API

Message Batches APIには、すべてのモデル間で共有される独自のレート制限セットがあります。これには、すべてのAPIエンドポイントへの1分あたりのリクエスト数(RPM)制限と、同時に処理キューに入ることができるバッチリクエストの数の制限が含まれます。ここでの「バッチリクエスト」はMessage Batchの一部を指します。数千のバッチリクエストを含むMessage Batchを作成でき、それぞれがこの制限にカウントされます。バッチリクエストは、モデルによってまだ正常に処理されていない場合、処理キューの一部と見なされます。
  • ティア1
  • ティア2
  • ティア3
  • ティア4
  • カスタム
1分あたりの最大リクエスト数(RPM)処理キューの最大バッチリクエスト数バッチあたりの最大バッチリクエスト数
50100,000100,000

長いコンテキストレート制限

1Mトークンコンテキストウィンドウが有効になっているClaude Sonnet 4およびSonnet 4.5を使用する場合、200Kトークンを超えるリクエストに対して以下の専用レート制限が適用されます。
1Mトークンコンテキストウィンドウは現在、使用ティア4の組織とカスタムレート制限を持つ組織のベータ版です。1MトークンコンテキストウィンドウはClaude Sonnet 4およびSonnet 4.5でのみ利用可能です。
  • ティア4
  • カスタム
1分あたりの最大入力トークン数(ITPM)1分あたりの最大出力トークン数(OTPM)
1,000,000200,000
1Mトークンコンテキストウィンドウをレート制限で最大限に活用するには、プロンプトキャッシングを使用してください。

Consoleでレート制限を監視する

Claude ConsoleUsageページでレート制限の使用状況を監視できます。 トークンとリクエストのチャートを提供することに加えて、Usage ページは2つの個別のレート制限チャートを提供します。これらのチャートを使用して、成長の余地がどのくらいあるか、ピーク使用時にいつ達する可能性があるか、要求するレート制限をより理解するか、またはキャッシング率を改善する方法を確認してください。チャートは、特定のレート制限(例:モデルごと)の多くのメトリクスを視覚化します:
  • Rate Limit - Input Tokensチャートには以下が含まれます:
    • 1分あたりのキャッシュされていない入力トークンの時間ごとの最大値
    • 現在の1分あたりの入力トークンレート制限
    • 入力トークンのキャッシュレート(つまり、キャッシュから読み取られた入力トークンの割合)
  • Rate Limit - Output Tokensチャートには以下が含まれます:
    • 1分あたりの出力トークンの時間ごとの最大値
    • 現在の1分あたりの出力トークンレート制限

ワークスペースの下限を設定する

組織内のワークスペースが潜在的な過度な使用から保護されるようにするために、ワークスペースごとにカスタム支出制限とレート制限を設定できます。 例:組織の制限が1分あたり40,000の入力トークンと1分あたり8,000の出力トークンである場合、1つのワークスペースを1分あたり30,000の合計トークンに制限する可能性があります。これは他のワークスペースを潜在的な過度な使用から保護し、組織全体でのリソースのより公平な分配を確保します。残りの未使用の1分あたりのトークン(またはそれ以上、そのワークスペースが制限を使用しない場合)は、他のワークスペースが使用できるようになります。 注:
  • デフォルトワークスペースに制限を設定することはできません。
  • 設定されていない場合、ワークスペース制限は組織の制限と一致します。
  • 組織全体の制限は常に適用されます。ワークスペース制限が合計してそれ以上になったとしても。
  • 入力トークンと出力トークンの制限のサポートは、将来ワークスペースに追加されます。

レスポンスヘッダー

APIレスポンスには、適用されるレート制限、現在の使用状況、および制限がリセットされるタイミングを示すヘッダーが含まれます。 以下のヘッダーが返されます:
ヘッダー説明
retry-afterリクエストを再試行できるまで待機する秒数。早い再試行は失敗します。
anthropic-ratelimit-requests-limitレート制限期間内に許可される最大リクエスト数。
anthropic-ratelimit-requests-remainingレート制限される前に残っているリクエスト数。
anthropic-ratelimit-requests-resetリクエストレート制限が完全に補充されるときで、RFC 3339形式で提供されます。
anthropic-ratelimit-tokens-limitレート制限期間内に許可される最大トークン数。
anthropic-ratelimit-tokens-remainingレート制限される前に残っているトークン数(最も近い千に丸められます)。
anthropic-ratelimit-tokens-resetトークンレート制限が完全に補充されるときで、RFC 3339形式で提供されます。
anthropic-ratelimit-input-tokens-limitレート制限期間内に許可される最大入力トークン数。
anthropic-ratelimit-input-tokens-remainingレート制限される前に残っている入力トークン数(最も近い千に丸められます)。
anthropic-ratelimit-input-tokens-reset入力トークンレート制限が完全に補充されるときで、RFC 3339形式で提供されます。
anthropic-ratelimit-output-tokens-limitレート制限期間内に許可される最大出力トークン数。
anthropic-ratelimit-output-tokens-remainingレート制限される前に残っている出力トークン数(最も近い千に丸められます)。
anthropic-ratelimit-output-tokens-reset出力トークンレート制限が完全に補充されるときで、RFC 3339形式で提供されます。
anthropic-priority-input-tokens-limitレート制限期間内に許可されるPriority Tier入力トークンの最大数。(Priority Tierのみ)
anthropic-priority-input-tokens-remainingレート制限される前に残っているPriority Tier入力トークン数(最も近い千に丸められます)。(Priority Tierのみ)
anthropic-priority-input-tokens-resetPriority Tier入力トークンレート制限が完全に補充されるときで、RFC 3339形式で提供されます。(Priority Tierのみ)
anthropic-priority-output-tokens-limitレート制限期間内に許可されるPriority Tier出力トークンの最大数。(Priority Tierのみ)
anthropic-priority-output-tokens-remainingレート制限される前に残っているPriority Tier出力トークン数(最も近い千に丸められます)。(Priority Tierのみ)
anthropic-priority-output-tokens-resetPriority Tier出力トークンレート制限が完全に補充されるときで、RFC 3339形式で提供されます。(Priority Tierのみ)
anthropic-ratelimit-tokens-*ヘッダーは、現在有効な最も制限的な制限の値を表示します。たとえば、ワークスペース1分あたりのトークン制限を超えた場合、ヘッダーにはワークスペース1分あたりのトークンレート制限値が含まれます。ワークスペース制限が適用されない場合、ヘッダーは合計トークンの残り(合計は入力トークンと出力トークンの合計)を返します。このアプローチにより、現在のAPI使用に対する最も関連性のある制約を可視化できます。