API의 오남용을 방지하고 용량을 관리하기 위해 조직이 Claude API를 사용할 수 있는 양에 제한을 구현했습니다.
사용 티어 | 크레딧 구매 | 월간 최대 사용량 |
---|---|---|
Tier 1 | $5 | $100 |
Tier 2 | $40 | $500 |
Tier 3 | $200 | $1,000 |
Tier 4 | $400 | $5,000 |
월간 인보이싱 | N/A | N/A |
retry-after
헤더를 받게 됩니다.
ITPM 속도 제한은 각 요청 시작 시 추정되며, 실제 사용된 입력 토큰 수를 반영하기 위해 요청 중에 추정치가 조정됩니다.
최종 조정은 input_tokens
와 cache_creation_input_tokens
를 ITPM 속도 제한에 포함시킵니다.
cache_read_input_tokens
도 ITPM 속도 제한에 포함됩니다. 이러한 모델의 최대 ITPM은 아래 속도 제한 표에서 †로 표시됩니다.다른 모든 모델의 경우 cache_read_input_tokens
는 ITPM 속도 제한에 포함되지 않습니다(여전히 청구되지만).max_tokens
를 기반으로 추정되며, 실제 사용된 출력 토큰 수를 반영하기 위해 요청 끝에서 추정치가 조정됩니다.
예상보다 일찍 OTPM 제한에 도달하는 경우 완료의 크기를 더 잘 근사하기 위해 max_tokens
를 줄여보세요.
속도 제한은 각 모델에 대해 별도로 적용됩니다. 따라서 서로 다른 모델을 각각의 제한까지 동시에 사용할 수 있습니다.
Anthropic Console에서 현재 속도 제한과 동작을 확인할 수 있습니다.
context-1m-2025-08-07
베타 헤더를 사용하는 긴 컨텍스트 요청(>200K 토큰)의 경우 별도의 속도 제한이 적용됩니다. 아래 긴 컨텍스트 속도 제한을 참조하세요.모델 | 분당 최대 요청 수(RPM) | 분당 최대 입력 토큰 수(ITPM) | 분당 최대 출력 토큰 수(OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (deprecated) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (deprecated) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (deprecated) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
를 ITPM 사용량에 포함합니다.
분당 최대 요청 수(RPM) | 처리 대기열의 최대 배치 요청 수 | 배치당 최대 배치 요청 수 |
---|---|---|
50 | 100,000 | 100,000 |
분당 최대 입력 토큰 수(ITPM) | 분당 최대 출력 토큰 수(OTPM) |
---|---|
1,000,000 | 200,000 |
헤더 | 설명 |
---|---|
retry-after | 요청을 재시도할 수 있을 때까지 기다려야 하는 초 수입니다. 더 일찍 재시도하면 실패합니다. |
anthropic-ratelimit-requests-limit | 모든 속도 제한 기간 내에서 허용되는 최대 요청 수입니다. |
anthropic-ratelimit-requests-remaining | 속도 제한되기 전까지 남은 요청 수입니다. |
anthropic-ratelimit-requests-reset | 요청 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-tokens-limit | 모든 속도 제한 기간 내에서 허용되는 최대 토큰 수입니다. |
anthropic-ratelimit-tokens-remaining | 속도 제한되기 전까지 남은 토큰 수(가장 가까운 천 단위로 반올림)입니다. |
anthropic-ratelimit-tokens-reset | 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-input-tokens-limit | 모든 속도 제한 기간 내에서 허용되는 최대 입력 토큰 수입니다. |
anthropic-ratelimit-input-tokens-remaining | 속도 제한되기 전까지 남은 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다. |
anthropic-ratelimit-input-tokens-reset | 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-ratelimit-output-tokens-limit | 모든 속도 제한 기간 내에서 허용되는 최대 출력 토큰 수입니다. |
anthropic-ratelimit-output-tokens-remaining | 속도 제한되기 전까지 남은 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다. |
anthropic-ratelimit-output-tokens-reset | 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. |
anthropic-priority-input-tokens-limit | 모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier 전용) |
anthropic-priority-input-tokens-remaining | 속도 제한되기 전까지 남은 Priority Tier 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier 전용) |
anthropic-priority-input-tokens-reset | Priority Tier 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-limit | 모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-remaining | 속도 제한되기 전까지 남은 Priority Tier 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier 전용) |
anthropic-priority-output-tokens-reset | Priority Tier 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용) |
anthropic-ratelimit-tokens-*
헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 속도 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우 헤더는 남은 총 토큰을 반환하며, 여기서 총합은 입력 및 출력 토큰의 합입니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 높은 제약 조건에 대한 가시성을 보장합니다.