Para mitigar o uso indevido e gerenciar a capacidade em nossa API, implementamos limites sobre quanto uma organização pode usar a API Claude.
Nível de Uso | Compra de Crédito | Uso Máximo por Mês |
---|---|---|
Nível 1 | $5 | $100 |
Nível 2 | $40 | $500 |
Nível 3 | $200 | $1,000 |
Nível 4 | $400 | $5,000 |
Faturamento Mensal | N/A | N/A |
retry-after
indicando quanto tempo esperar.
Os limites de taxa ITPM são estimados no início de cada solicitação, e a estimativa é ajustada durante a solicitação para refletir o número real de tokens de entrada usados.
O ajuste final conta input_tokens
e cache_creation_input_tokens
para os limites de taxa ITPM.
cache_read_input_tokens
também contam para os limites de taxa ITPM. O ITPM máximo para esses modelos é marcado com † nas tabelas de limite de taxa abaixo.Para todos os outros modelos, cache_read_input_tokens
não contam para os limites de taxa ITPM (embora ainda sejam cobrados).max_tokens
no início de cada solicitação, e a estimativa é ajustada no final da solicitação para refletir o número real de tokens de saída usados.
Se você está atingindo limites OTPM mais cedo do que esperado, tente reduzir max_tokens
para aproximar melhor o tamanho de suas conclusões.
Os limites de taxa são aplicados separadamente para cada modelo; portanto, você pode usar diferentes modelos até seus respectivos limites simultaneamente.
Você pode verificar seus limites de taxa atuais e comportamento no Console Anthropic.
context-1m-2025-08-07
com Claude Sonnet 4, limites de taxa separados se aplicam. Veja Limites de taxa de contexto longo abaixo.Modelo | Máximo de solicitações por minuto (RPM) | Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de saída por minuto (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (descontinuado) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (descontinuado) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (descontinuado) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
para o uso de ITPM.
Máximo de solicitações por minuto (RPM) | Máximo de solicitações de lote na fila de processamento | Máximo de solicitações de lote por lote |
---|---|---|
50 | 100,000 | 100,000 |
Máximo de tokens de entrada por minuto (ITPM) | Máximo de tokens de saída por minuto (OTPM) |
---|---|
1,000,000 | 200,000 |
Cabeçalho | Descrição |
---|---|
retry-after | O número de segundos para esperar até que você possa tentar novamente a solicitação. Tentativas anteriores falharão. |
anthropic-ratelimit-requests-limit | O número máximo de solicitações permitidas dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-requests-remaining | O número de solicitações restantes antes de ser limitado por taxa. |
anthropic-ratelimit-requests-reset | O momento em que o limite de taxa de solicitação será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-tokens-limit | O número máximo de tokens permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-tokens-remaining | O número de tokens restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-tokens-reset | O momento em que o limite de taxa de token será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-input-tokens-limit | O número máximo de tokens de entrada permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-input-tokens-remaining | O número de tokens de entrada restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-input-tokens-reset | O momento em que o limite de taxa de token de entrada será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-ratelimit-output-tokens-limit | O número máximo de tokens de saída permitidos dentro de qualquer período de limite de taxa. |
anthropic-ratelimit-output-tokens-remaining | O número de tokens de saída restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. |
anthropic-ratelimit-output-tokens-reset | O momento em que o limite de taxa de token de saída será totalmente reabastecido, fornecido no formato RFC 3339. |
anthropic-priority-input-tokens-limit | O número máximo de tokens de entrada do Nível Prioritário permitidos dentro de qualquer período de limite de taxa. (Apenas Nível Prioritário) |
anthropic-priority-input-tokens-remaining | O número de tokens de entrada do N��vel Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Nível Prioritário) |
anthropic-priority-input-tokens-reset | O momento em que o limite de taxa de token de entrada do Nível Prioritário será totalmente reabastecido, fornecido no formato RFC 3339. (Apenas Nível Prioritário) |
anthropic-priority-output-tokens-limit | O número máximo de tokens de saída do Nível Prioritário permitidos dentro de qualquer período de limite de taxa. (Apenas Nível Prioritário) |
anthropic-priority-output-tokens-remaining | O número de tokens de saída do Nível Prioritário restantes (arredondado para o milhar mais próximo) antes de ser limitado por taxa. (Apenas Nível Prioritário) |
anthropic-priority-output-tokens-reset | O momento em que o limite de taxa de token de saída do Nível Prioritário será totalmente reabastecido, fornecido no formato RFC 3339. (Apenas Nível Prioritário) |
anthropic-ratelimit-tokens-*
exibem os valores para o limite mais restritivo atualmente em vigor. Por exemplo, se você excedeu o limite de token por minuto do Espaço de Trabalho, os cabeçalhos conterão os valores do limite de taxa de token por minuto do Espaço de Trabalho. Se os limites do Espaço de Trabalho não se aplicam, os cabeçalhos retornarão os tokens totais restantes, onde total é a soma dos tokens de entrada e saída. Esta abordagem garante que você tenha visibilidade da restrição mais relevante no seu uso atual da API.