max_tokens
, são cobrados como tokens de saída e contam para os limites de taxa.
No entanto, blocos de pensamento anteriores são automaticamente removidos do cálculo da janela de contexto pela API Anthropic e não fazem parte do histórico de conversa que o modelo “vê” para turnos subsequentes, preservando capacidade de token para conteúdo de conversa real.
O diagrama abaixo demonstra o gerenciamento especializado de tokens quando o pensamento estendido está habilitado:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens
.thinking
quanto blocos redacted_thinking
.Arquitetura do primeiro turno
Manipulação de resultado de ferramenta (turno 2)
tool_result
. O bloco de pensamento estendido deve ser retornado com os resultados de ferramenta correspondentes. Este é o único caso em que você tem que retornar blocos de pensamento.user
).Terceiro Passo
User
.User
fora do ciclo de uso de ferramenta, Claude gerará um novo bloco de pensamento estendido e continuará a partir daí.Assistant
atual conta como parte da janela de contexto.context_window = input_tokens + current_turn_tokens
.tool_result
entre eles.Para mais informações sobre usar ferramentas com pensamento estendido, veja nosso guia de pensamento estendido.context-1m-2025-08-07
em suas solicitações de API: