claude-opus-4-1-20250805
)claude-opus-4-20250514
)claude-sonnet-4-20250514
)claude-3-7-sonnet-20250219
)thinking
onde produz seu raciocínio interno. Claude incorpora insights deste raciocínio antes de elaborar uma resposta final.
A resposta da API incluirá blocos de conteúdo thinking
, seguidos por blocos de conteúdo text
.
Aqui está um exemplo do formato de resposta padrão:
thinking
, com o parâmetro type
definido como enabled
e o budget_tokens
para um orçamento de tokens especificado para o pensamento estendido.
O parâmetro budget_tokens
determina o número máximo de tokens que Claude pode usar para seu processo de raciocínio interno. Nos modelos Claude 4, este limite se aplica aos tokens de pensamento completos, e não à saída resumida. Orçamentos maiores podem melhorar a qualidade da resposta permitindo análises mais minuciosas para problemas complexos, embora Claude possa não usar todo o orçamento alocado, especialmente em faixas acima de 32k.
budget_tokens
deve ser definido com um valor menor que max_tokens
. No entanto, ao usar pensamento intercalado com ferramentas, você pode exceder este limite, pois o limite de tokens se torna toda a sua janela de contexto (200k tokens).
thinking_delta
.
Para mais documentação sobre transmissão via API Messages, consulte Transmissão de Mensagens.
Aqui está como lidar com transmissão com pensamento:
tool_choice: {"type": "auto"}
(o padrão) ou tool_choice: {"type": "none"}
. Usar tool_choice: {"type": "any"}
ou tool_choice: {"type": "tool", "name": "..."}
resultará em erro porque essas opções forçam o uso de ferramentas, o que é incompatível com o pensamento estendido.
thinking
de volta para a API para a última mensagem do assistente. Inclua o bloco completo não modificado de volta para a API para manter a continuidade do raciocínio.
Exemplo: Passando blocos de pensamento com resultados de ferramentas
thinking
de volta para a API, e deve incluir o bloco completo não modificado de volta para a API. Isso é crítico para manter o fluxo de raciocínio do modelo e a integridade da conversa.
thinking
de turnos assistant
anteriores, sugerimos sempre passar de volta todos os blocos de pensamento para a API para qualquer conversa multi-turno. A API irá:thinking
, toda a sequência de blocos thinking
consecutivos deve corresponder às saídas geradas pelo modelo durante a solicitação original; você não pode reorganizar ou modificar a sequência desses blocos.
interleaved-thinking-2025-05-14
à sua solicitação de API.
Aqui estão algumas considerações importantes para o pensamento intercalado:
budget_tokens
pode exceder o parâmetro max_tokens
, pois representa o orçamento total através de todos os blocos de pensamento dentro de um turno do assistente.interleaved-thinking-2025-05-14
.interleaved-thinking-2025-05-14
em solicitações para qualquer modelo, sem efeito.interleaved-thinking-2025-05-14
para qualquer modelo além do Claude Opus 4.1, Opus 4, ou Sonnet 4, sua solicitação falhará.Uso de ferramentas sem pensamento intercalado
Uso de ferramentas com pensamento intercalado
cache_control
Cache de prompt de sistema (preservado quando o pensamento muda)
Cache de mensagens (invalidado quando o pensamento muda)
cache_creation_input_tokens=1370
e cache_read_input_tokens=0
, provando que o cache baseado em mensagens é invalidado quando os parâmetros de pensamento mudam.max_tokens
excedesse a janela de contexto do modelo, o sistema ajustaria automaticamente max_tokens
para caber dentro do limite de contexto. Isso significava que você poderia definir um valor grande de max_tokens
e o sistema o reduziria silenciosamente conforme necessário.
Com os modelos Claude 3.7 e 4, max_tokens
(que inclui seu orçamento de pensamento quando o pensamento está habilitado) é aplicado como um limite estrito. O sistema agora retornará um erro de validação se tokens de prompt + max_tokens
exceder o tamanho da janela de contexto.
max_tokens
para esse turnomax_tokens
com os modelos Claude 3.7 e 4 de pensamento estendido, você pode precisar:
max_tokens
conforme o comprimento do seu prompt mudasignature
. Este campo é usado para verificar que blocos de pensamento foram gerados pelo Claude quando passados de volta para a API.
signature_delta
dentro de um evento content_block_delta
logo antes do evento content_block_stop
.signature
são significativamente mais longos nos modelos Claude 4 do que em modelos anteriores.signature
é um campo opaco e não deve ser interpretado ou analisado - existe apenas para fins de verificação.signature
são compatíveis entre plataformas (APIs Anthropic, Amazon Bedrock, e Vertex AI). Valores gerados em uma plataforma serão compatíveis com outra.thinking
e o retornamos para você como um bloco redacted_thinking
. Blocos redacted_thinking
são descriptografados quando passados de volta para a API, permitindo que Claude continue sua resposta sem perder contexto.
Ao construir aplicações voltadas para o cliente que usam pensamento estendido:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
e redacted_thinking
de volta para a API em uma conversa multi-turno, você deve incluir o bloco completo não modificado de volta para a API para o último turno do assistente. Isso é crítico para manter o fluxo de raciocínio do modelo. Sugerimos sempre passar de volta todos os blocos de pensamento para a API. Para mais detalhes, consulte a seção Preservando blocos de pensamento acima.
Exemplo: Trabalhando com blocos de pensamento redigidos
redacted_thinking
que podem aparecer em respostas quando o raciocínio interno do Claude contém conteúdo sinalizado por sistemas de segurança:Recurso | Claude Sonnet 3.7 | Modelos Claude 4 |
---|---|---|
Saída de Pensamento | Retorna saída de pensamento completa | Retorna pensamento resumido |
Pensamento Intercalado | Não suportado | Suportado com cabeçalho beta interleaved-thinking-2025-05-14 |
Modelo | Tokens de Entrada Base | Escritas de Cache | Acertos de Cache | Tokens de Saída |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18,75 / MTok | $1,50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18,75 / MTok | $1,50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3,75 / MTok | $0,30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3,75 / MTok | $0,30 / MTok | $15 / MTok |
max_tokens
é maior que 21.333. Ao transmitir, esteja preparado para lidar com blocos de conteúdo de pensamento e texto conforme chegam.temperature
ou top_k
, bem como uso forçado de ferramentas.top_p
para valores entre 1 e 0,95.