Oferecemos três níveis de serviço:
  • Nível Prioritário: Melhor para fluxos de trabalho implantados em produção onde tempo, disponibilidade e preços previsíveis são importantes
  • Padrão: Nível padrão para pilotar e escalar casos de uso cotidianos
  • Lote: Melhor para fluxos de trabalho assíncronos que podem aguardar ou se beneficiar de estar fora da sua capacidade normal

Nível Padrão

O nível padrão é o nível de serviço padrão para todas as solicitações de API. As solicitações neste nível são priorizadas junto com todas as outras solicitações e observam disponibilidade de melhor esforço.

Nível Prioritário

As solicitações neste nível são priorizadas sobre todas as outras solicitações para a Anthropic. Esta priorização ajuda a minimizar erros de “servidor sobrecarregado”, mesmo durante horários de pico. Para mais informações, consulte Começar com o Nível Prioritário

Como as solicitações recebem níveis atribuídos

Ao lidar com uma solicitação, a Anthropic decide atribuir uma solicitação ao Nível Prioritário nos seguintes cenários:
  • Sua organização tem capacidade suficiente de tokens de entrada por minuto no nível prioritário
  • Sua organização tem capacidade suficiente de tokens de saída por minuto no nível prioritário
A Anthropic conta o uso contra a capacidade do Nível Prioritário da seguinte forma: Tokens de Entrada
  • Leituras de cache como 0,1 tokens por token lido do cache
  • Escritas de cache como 1,25 tokens por token escrito no cache com TTL de 5 minutos
  • Escritas de cache como 2,00 tokens por token escrito no cache com TTL de 1 hora
  • Para solicitações de contexto longo (>200k tokens de entrada), tokens de entrada são 2 tokens por token
  • Todos os outros tokens de entrada são 1 token por token
Tokens de Saída
  • Para solicitações de contexto longo (>200k tokens de entrada), tokens de saída são 1,5 tokens por token
  • Todos os outros tokens de saída são 1 token por token
Caso contrário, as solicitações prosseguem no nível padrão.
Solicitações atribuídas ao Nível Prioritário utilizam tanto a capacidade do Nível Prioritário quanto os limites de taxa regulares. Se atender à solicitação excederia os limites de taxa, a solicitação é recusada.

Usando níveis de serviço

Você pode controlar quais níveis de serviço podem ser usados para uma solicitação definindo o parâmetro service_tier:
message = client.messages.create(
    model="claude-opus-4-1-20250805",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Hello, Claude!"}],
    service_tier="auto"  # Automatically use Priority Tier when available, fallback to standard
)
O parâmetro service_tier aceita os seguintes valores:
  • "auto" (padrão) - Usa a capacidade do Nível Prioritário se disponível, voltando para sua outra capacidade se não estiver
  • "standard_only" - Usa apenas capacidade do nível padrão, útil se você não quiser usar sua capacidade do Nível Prioritário
O objeto usage da resposta também inclui o nível de serviço atribuído à solicitação:
{
  "usage": {
    "input_tokens": 410,
    "cache_creation_input_tokens": 0,
    "cache_read_input_tokens": 0,
    "output_tokens": 585,
    "service_tier": "priority"
  }
}
Isso permite determinar qual nível de serviço foi atribuído à solicitação. Ao solicitar service_tier="auto" com um modelo com compromisso de Nível Prioritário, estes cabeçalhos de resposta fornecem insights:
anthropic-priority-input-tokens-limit: 10000
anthropic-priority-input-tokens-remaining: 9618
anthropic-priority-input-tokens-reset: 2025-01-12T23:11:59Z
anthropic-priority-output-tokens-limit: 10000
anthropic-priority-output-tokens-remaining: 6000
anthropic-priority-output-tokens-reset: 2025-01-12T23:12:21Z
Você pode usar a presença destes cabeçalhos para detectar se sua solicitação era elegível para o Nível Prioritário, mesmo se estava acima do limite.

Começar com o Nível Prioritário

Você pode querer se comprometer com a capacidade do Nível Prioritário se estiver interessado em:
  • Maior disponibilidade: Meta de 99,5% de tempo de atividade com recursos computacionais priorizados
  • Controle de Custos: Gastos previsíveis e descontos para compromissos mais longos
  • Transbordamento flexível: Volta automaticamente para o nível padrão quando você excede sua capacidade comprometida
Comprometer-se com o Nível Prioritário envolverá decidir:
  • Um número de tokens de entrada por minuto
  • Um número de tokens de saída por minuto
  • Uma duração de compromisso (1, 3, 6 ou 12 meses)
  • Uma versão específica do modelo
A proporção de tokens de entrada para saída que você compra importa. Dimensionar sua capacidade do Nível Prioritário para alinhar com seus padrões de tráfego reais ajuda você a maximizar a utilização dos seus tokens comprados.

Modelos suportados

O Nível Prioritário é suportado por:
  • Claude Opus 4.1
  • Claude Opus 4
  • Claude Sonnet 4
  • Claude Sonnet 3.7
  • Claude Sonnet 3.5 (ambas as versões)
  • Claude Haiku 3.5
Consulte a página de visão geral dos modelos para mais detalhes sobre nossos modelos.

Como acessar o Nível Prioritário

Para começar a usar o Nível Prioritário:
  1. Entre em contato com vendas para completar o provisionamento
  2. (Opcional) Atualize suas solicitações de API para opcionalmente definir o parâmetro service_tier como auto
  3. Monitore seu uso através de cabeçalhos de resposta e do Console Anthropic