- Ausgabengrenzen setzen maximale monatliche Kosten fest, die eine Organisation für die API-Nutzung verursachen kann.
- Ratenbegrenzungen setzen die maximale Anzahl von API-Anfragen fest, die eine Organisation über einen definierten Zeitraum stellen kann.
Über unsere Grenzen
- Grenzen sind darauf ausgelegt, API-Missbrauch zu verhindern und gleichzeitig die Auswirkungen auf gängige Kundennutzungsmuster zu minimieren.
- Grenzen werden durch Nutzungsstufen definiert, wobei jede Stufe mit einem anderen Satz von Ausgaben- und Ratenbegrenzungen verbunden ist.
- Ihre Organisation wird automatisch Stufen erhöhen, wenn Sie bestimmte Schwellenwerte bei der Nutzung der API erreichen. Grenzen werden auf Organisationsebene festgelegt. Sie können die Grenzen Ihrer Organisation auf der Grenzen-Seite in der Anthropic Console einsehen.
- Sie können Ratenbegrenzungen über kürzere Zeitintervalle erreichen. Zum Beispiel kann eine Rate von 60 Anfragen pro Minute (RPM) als 1 Anfrage pro Sekunde durchgesetzt werden. Kurze Anfragenstöße mit hohem Volumen können die Ratenbegrenzung überschreiten und zu Ratenbegrenzungsfehlern führen.
- Die unten aufgeführten Grenzen sind unsere Standard-Stufengrenzen. Wenn Sie höhere, benutzerdefinierte Grenzen oder Priority Tier für erweiterte Service-Level suchen, kontaktieren Sie den Vertrieb über die Anthropic Console.
- Wir verwenden den Token-Bucket-Algorithmus für die Ratenbegrenzung. Das bedeutet, dass Ihre Kapazität kontinuierlich bis zu Ihrer maximalen Grenze aufgefüllt wird, anstatt in festen Intervallen zurückgesetzt zu werden.
- Alle hier beschriebenen Grenzen stellen maximal erlaubte Nutzung dar, nicht garantierte Mindestwerte. Diese Grenzen sollen unbeabsichtigte Überausgaben reduzieren und eine faire Verteilung der Ressourcen unter den Benutzern gewährleisten.
Ausgabengrenzen
Jede Nutzungsstufe hat eine Grenze dafür, wie viel Sie für die API jeden Kalendermonat ausgeben können. Sobald Sie die Ausgabengrenze Ihrer Stufe erreichen, müssen Sie, bis Sie sich für die nächste Stufe qualifizieren, bis zum nächsten Monat warten, um die API wieder nutzen zu können. Um sich für die nächste Stufe zu qualifizieren, müssen Sie eine Einzahlungsanforderung erfüllen. Um das Risiko einer Überfinanzierung Ihres Kontos zu minimieren, können Sie nicht mehr als Ihre monatliche Ausgabengrenze einzahlen.Anforderungen zum Stufenaufstieg
Nutzungsstufe | Guthaben-Kauf | Max. Nutzung pro Monat |
---|---|---|
Stufe 1 | $5 | $100 |
Stufe 2 | $40 | $500 |
Stufe 3 | $200 | $1.000 |
Stufe 4 | $400 | $5.000 |
Monatliche Rechnungsstellung | N/A | N/A |
Ratenbegrenzungen
Unsere Ratenbegrenzungen für die Messages API werden in Anfragen pro Minute (RPM), Eingabe-Token pro Minute (ITPM) und Ausgabe-Token pro Minute (OTPM) für jede Modellklasse gemessen. Wenn Sie eine der Ratenbegrenzungen überschreiten, erhalten Sie einen 429-Fehler, der beschreibt, welche Ratenbegrenzung überschritten wurde, zusammen mit einemretry-after
-Header, der angibt, wie lange Sie warten müssen.
Sie könnten auch 429-Fehler aufgrund von Beschleunigungsgrenzen der API erleben, wenn Ihre Organisation einen starken Anstieg der Nutzung hat. Um das Erreichen von Beschleunigungsgrenzen zu vermeiden, steigern Sie Ihren Traffic schrittweise und halten Sie konsistente Nutzungsmuster aufrecht.
input_tokens
und cache_creation_input_tokens
zu den ITPM-Ratenbegrenzungen.
Für einige Modelle zählen
cache_read_input_tokens
auch zu den ITPM-Ratenbegrenzungen. Die maximale ITPM für diese Modelle ist in den Ratenbegrenzungstabellen unten mit † markiert.Für alle anderen Modelle zählen cache_read_input_tokens
nicht zu den ITPM-Ratenbegrenzungen (obwohl sie trotzdem berechnet werden).max_tokens
zu Beginn jeder Anfrage geschätzt, und die Schätzung wird am Ende der Anfrage angepasst, um die tatsächliche Anzahl der verwendeten Ausgabe-Token widerzuspiegeln.
Wenn Sie OTPM-Grenzen früher als erwartet erreichen, versuchen Sie, max_tokens
zu reduzieren, um die Größe Ihrer Vervollständigungen besser zu approximieren.
Ratenbegrenzungen werden separat für jedes Modell angewendet; daher können Sie verschiedene Modelle bis zu ihren jeweiligen Grenzen gleichzeitig verwenden.
Sie können Ihre aktuellen Ratenbegrenzungen und Ihr Verhalten in der Anthropic Console überprüfen.
Für lange Kontextanfragen (>200K Token) bei Verwendung des
context-1m-2025-08-07
Beta-Headers mit Claude Sonnet 4 gelten separate Ratenbegrenzungen. Siehe Lange Kontext-Ratenbegrenzungen unten.Modell | Maximale Anfragen pro Minute (RPM) | Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30.000 | 8.000 |
Claude Sonnet 4 | 50 | 30.000 | 8.000 |
Claude Sonnet 3.7 | 50 | 20.000 | 8.000 |
Claude Sonnet 3.5 2024-10-22 (veraltet) | 50 | 40.000† | 8.000 |
Claude Sonnet 3.5 2024-06-20 (veraltet) | 50 | 40.000† | 8.000 |
Claude Haiku 3.5 | 50 | 50.000† | 10.000 |
Claude Opus 3 (veraltet) | 50 | 20.000† | 4.000 |
Claude Haiku 3 | 50 | 50.000† | 10.000 |
cache_read_input_tokens
zur ITPM-Nutzung.
Message Batches API
Die Message Batches API hat ihre eigenen Ratenbegrenzungen, die über alle Modelle hinweg geteilt werden. Diese umfassen eine Anfragen-pro-Minute (RPM) Grenze für alle API-Endpunkte und eine Grenze für die Anzahl der Batch-Anfragen, die gleichzeitig in der Verarbeitungsqueue sein können. Eine “Batch-Anfrage” bezieht sich hier auf einen Teil einer Message Batch. Sie können eine Message Batch mit Tausenden von Batch-Anfragen erstellen, von denen jede zu dieser Grenze zählt. Eine Batch-Anfrage wird als Teil der Verarbeitungsqueue betrachtet, wenn sie noch nicht erfolgreich vom Modell verarbeitet wurde.Maximale Anfragen pro Minute (RPM) | Maximale Batch-Anfragen in Verarbeitungsqueue | Maximale Batch-Anfragen pro Batch |
---|---|---|
50 | 100.000 | 100.000 |
Lange Kontext-Ratenbegrenzungen
Bei Verwendung von Claude Sonnet 4 mit dem aktivierten 1M Token-Kontextfenster gelten die folgenden dedizierten Ratenbegrenzungen für Anfragen, die 200K Token überschreiten.Das 1M Token-Kontextfenster befindet sich derzeit in der Beta für Organisationen in Nutzungsstufe 4 und Organisationen mit benutzerdefinierten Ratenbegrenzungen. Das 1M Token-Kontextfenster ist nur für Claude Sonnet 4 verfügbar.
Maximale Eingabe-Token pro Minute (ITPM) | Maximale Ausgabe-Token pro Minute (OTPM) |
---|---|
1.000.000 | 200.000 |
Um das Beste aus dem 1M Token-Kontextfenster mit Ratenbegrenzungen herauszuholen, verwenden Sie Prompt Caching.
Überwachung Ihrer Ratenbegrenzungen in der Console
Sie können Ihre Ratenbegrenzungsnutzung auf der Nutzung-Seite der Anthropic Console überwachen. Zusätzlich zur Bereitstellung von Token- und Anfragediagrammen bietet die Nutzungsseite zwei separate Ratenbegrenzungsdiagramme. Verwenden Sie diese Diagramme, um zu sehen, welchen Spielraum Sie zum Wachsen haben, wann Sie möglicherweise Spitzennutzung erreichen, besser zu verstehen, welche Ratenbegrenzungen Sie anfordern sollten, oder wie Sie Ihre Caching-Raten verbessern können. Die Diagramme visualisieren eine Reihe von Metriken für eine gegebene Ratenbegrenzung (z.B. pro Modell):- Das Ratenbegrenzung - Eingabe-Token Diagramm umfasst:
- Stündliche maximale nicht-gecachte Eingabe-Token pro Minute
- Ihre aktuelle Eingabe-Token pro Minute Ratenbegrenzung
- Die Cache-Rate für Ihre Eingabe-Token (d.h. der Prozentsatz der Eingabe-Token, die aus dem Cache gelesen werden)
- Das Ratenbegrenzung - Ausgabe-Token Diagramm umfasst:
- Stündliche maximale Ausgabe-Token pro Minute
- Ihre aktuelle Ausgabe-Token pro Minute Ratenbegrenzung
Niedrigere Grenzen für Arbeitsbereiche setzen
Um Arbeitsbereiche in Ihrer Organisation vor potentieller Übernutzung zu schützen, können Sie benutzerdefinierte Ausgaben- und Ratenbegrenzungen pro Arbeitsbereich festlegen. Beispiel: Wenn die Grenze Ihrer Organisation 40.000 Eingabe-Token pro Minute und 8.000 Ausgabe-Token pro Minute beträgt, könnten Sie einen Arbeitsbereich auf 30.000 Gesamt-Token pro Minute begrenzen. Dies schützt andere Arbeitsbereiche vor potentieller Übernutzung und gewährleistet eine gerechtere Verteilung der Ressourcen in Ihrer Organisation. Die verbleibenden ungenutzten Token pro Minute (oder mehr, wenn dieser Arbeitsbereich die Grenze nicht nutzt) stehen dann anderen Arbeitsbereichen zur Verfügung. Hinweis:- Sie können keine Grenzen für den Standard-Arbeitsbereich festlegen.
- Wenn nicht festgelegt, entsprechen Arbeitsbereichsgrenzen der Grenze der Organisation.
- Organisationsweite Grenzen gelten immer, auch wenn Arbeitsbereichsgrenzen zusammen mehr ergeben.
- Unterstützung für Eingabe- und Ausgabe-Token-Grenzen wird in Zukunft zu Arbeitsbereichen hinzugefügt.
Response-Header
Die API-Antwort enthält Header, die Ihnen die durchgesetzte Ratenbegrenzung, aktuelle Nutzung und wann die Grenze zurückgesetzt wird zeigen. Die folgenden Header werden zurückgegeben:Header | Beschreibung |
---|---|
retry-after | Die Anzahl der Sekunden zu warten, bis Sie die Anfrage wiederholen können. Frühere Wiederholungen werden fehlsch lagen. |
anthropic-ratelimit-requests-limit | Die maximale Anzahl von Anfragen, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. |
anthropic-ratelimit-requests-remaining | Die Anzahl der verbleibenden Anfragen, bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-requests-reset | Die Zeit, wann die Anfrage-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-tokens-limit | Die maximale Anzahl von Token, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. |
anthropic-ratelimit-tokens-remaining | Die Anzahl der verbleibenden Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-tokens-reset | Die Zeit, wann die Token-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-input-tokens-limit | Die maximale Anzahl von Eingabe-Token, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. |
anthropic-ratelimit-input-tokens-remaining | Die Anzahl der verbleibenden Eingabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-input-tokens-reset | Die Zeit, wann die Eingabe-Token-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-ratelimit-output-tokens-limit | Die maximale Anzahl von Ausgabe-Token, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. |
anthropic-ratelimit-output-tokens-remaining | Die Anzahl der verbleibenden Ausgabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. |
anthropic-ratelimit-output-tokens-reset | Die Zeit, wann die Ausgabe-Token-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. |
anthropic-priority-input-tokens-limit | Die maximale Anzahl von Priority Tier Eingabe-Token, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. (Nur Priority Tier) |
anthropic-priority-input-tokens-remaining | Die Anzahl der verbleibenden Priority Tier Eingabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. (Nur Priority Tier) |
anthropic-priority-input-tokens-reset | Die Zeit, wann die Priority Tier Eingabe-Token-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. (Nur Priority Tier) |
anthropic-priority-output-tokens-limit | Die maximale Anzahl von Priority Tier Ausgabe-Token, die innerhalb einer Ratenbegrenzungsperiode erlaubt sind. (Nur Priority Tier) |
anthropic-priority-output-tokens-remaining | Die Anzahl der verbleibenden Priority Tier Ausgabe-Token (auf das nächste Tausend gerundet), bevor eine Ratenbegrenzung eintritt. (Nur Priority Tier) |
anthropic-priority-output-tokens-reset | Die Zeit, wann die Priority Tier Ausgabe-Token-Ratenbegrenzung vollständig aufgefüllt wird, bereitgestellt im RFC 3339 Format. (Nur Priority Tier) |
anthropic-ratelimit-tokens-*
Header zeigen die Werte für die restriktivste Grenze an, die derzeit in Kraft ist. Zum Beispiel, wenn Sie die Arbeitsbereich-pro-Minute-Token-Grenze überschritten haben, enthalten die Header die Arbeitsbereich-pro-Minute-Token-Ratenbegrenzungswerte. Wenn Arbeitsbereichsgrenzen nicht gelten, geben die Header die verbleibenden Gesamt-Token zurück, wobei Gesamt die Summe von Eingabe- und Ausgabe-Token ist. Dieser Ansatz stellt sicher, dass Sie Sichtbarkeit in die relevanteste Einschränkung Ihrer aktuellen API-Nutzung haben.