max_tokens
매개변수의 하위 집합이며, 출력 토큰으로 청구되고 속도 제한에 포함됩니다.
그러나 이전 사고 블록은 Anthropic API에 의해 컨텍스트 윈도우 계산에서 자동으로 제거되며, 모델이 후속 턴에서 “보는” 대화 기록의 일부가 아니므로 실제 대화 내용을 위한 토큰 용량을 보존합니다.
아래 다이어그램은 확장된 사고가 활성화되었을 때의 특수한 토큰 관리를 보여줍니다:
context_window = (input_tokens - previous_thinking_tokens) + current_turn_tokens
.thinking
블록과 redacted_thinking
블록이 모두 포함됩니다.첫 번째 턴 아키텍처
도구 결과 처리 (턴 2)
tool_result
. 확장된 사고 블록은 해당 도구 결과와 함께 반드시 반환되어야 합니다. 이는 사고 블록을 반드시 반환해야 하는 유일한 경우입니다.user
메시지까지 추가 확장된 사고 없음).세 번째 단계
User
턴을 추가하게 됩니다.User
턴이 있으므로, Claude는 새로운 확장된 사고 블록을 생성하고 거기서부터 계속합니다.Assistant
턴의 사고 블록은 컨텍스트 윈도우의 일부로 계산됩니다.context_window = input_tokens + current_turn_tokens
.tool_result
가 아닌 사용자 턴 없이는 확장된 사고와 도구 호출의 인터리빙이 없습니다.확장된 사고와 함께 도구를 사용하는 방법에 대한 자세한 정보는 확장된 사고 가이드를 참조하세요.context-1m-2025-08-07
베타 헤더를 포함하세요: