두 가지 유형의 제한이 있습니다:
  1. 지출 제한은 조직이 API 사용에 대해 발생할 수 있는 최대 월간 비용을 설정합니다.
  2. 속도 제한은 조직이 정의된 기간 동안 만들 수 있는 최대 API 요청 수를 설정합니다.
조직 수준에서 서비스 구성 제한을 적용하지만, 조직의 워크스페이스에 대해 사용자 구성 가능한 제한을 설정할 수도 있습니다. 이러한 제한은 Standard 및 Priority Tier 사용 모두에 적용됩니다. 약정 지출에 대한 대가로 향상된 서비스 수준을 제공하는 Priority Tier에 대한 자세한 정보는 서비스 티어를 참조하세요.

제한에 대하여

  • 제한은 일반적인 고객 사용 패턴에 미치는 영향을 최소화하면서 API 남용을 방지하도록 설계되었습니다.
  • 제한은 사용 티어로 정의되며, 각 티어는 서로 다른 지출 및 속도 제한 세트와 연결됩니다.
  • 조직은 API를 사용하면서 특정 임계값에 도달하면 자동으로 티어가 증가합니다. 제한은 조직 수준에서 설정됩니다. Anthropic Console제한 페이지에서 조직의 제한을 확인할 수 있습니다.
  • 더 짧은 시간 간격에서 속도 제한에 도달할 수 있습니다. 예를 들어, 분당 60개 요청(RPM)의 속도는 초당 1개 요청으로 적용될 수 있습니다. 높은 볼륨의 짧은 요청 버스트는 속도 제한을 초과하여 속도 제한 오류를 발생시킬 수 있습니다.
  • 아래에 설명된 제한은 표준 티어 제한입니다. 더 높은 사용자 정의 제한이나 향상된 서비스 수준을 위한 Priority Tier를 원하는 경우 Anthropic Console을 통해 영업팀에 문의하세요.
  • 속도 제한을 위해 토큰 버킷 알고리즘을 사용합니다. 이는 고정된 간격으로 재설정되는 것이 아니라 최대 제한까지 용량이 지속적으로 보충됨을 의미합니다.
  • 여기에 설명된 모든 제한은 보장된 최소값이 아닌 허용되는 최대 사용량을 나타냅니다. 이러한 제한은 의도하지 않은 과지출을 줄이고 사용자 간의 공정한 리소스 분배를 보장하기 위한 것입니다.

지출 제한

각 사용 티어는 매 달력 월에 API에 지출할 수 있는 금액에 제한이 있습니다. 티어의 지출 제한에 도달하면, 다음 티어 자격을 얻을 때까지 다음 달까지 기다려야 API를 다시 사용할 수 있습니다. 다음 티어 자격을 얻으려면 보증금 요구 사항을 충족해야 합니다. 계정에 과도한 자금을 입금할 위험을 최소화하기 위해 월간 지출 제한보다 많이 입금할 수 없습니다.

티어 승급 요구 사항

사용 티어크레딧 구매월간 최대 사용량
Tier 1$5$100
Tier 2$40$500
Tier 3$200$1,000
Tier 4$400$5,000
월간 인보이싱N/AN/A

속도 제한

Messages API의 속도 제한은 각 모델 클래스에 대해 분당 요청 수(RPM), 분당 입력 토큰 수(ITPM), 분당 출력 토큰 수(OTPM)로 측정됩니다. 속도 제한 중 하나라도 초과하면 어떤 속도 제한이 초과되었는지 설명하는 429 오류와 함께 대기 시간을 나타내는 retry-after 헤더를 받게 됩니다. ITPM 속도 제한은 각 요청 시작 시 추정되며, 실제 사용된 입력 토큰 수를 반영하기 위해 요청 중에 추정치가 조정됩니다. 최종 조정은 input_tokenscache_creation_input_tokens를 ITPM 속도 제한에 포함시킵니다.
일부 모델의 경우 cache_read_input_tokens도 ITPM 속도 제한에 포함됩니다. 이러한 모델의 최대 ITPM은 아래 속도 제한 표에서 †로 표시됩니다.다른 모든 모델의 경우 cache_read_input_tokens는 ITPM 속도 제한에 포함되지 않습니다(여전히 청구되지만).
OTPM 속도 제한은 각 요청 시작 시 max_tokens를 기반으로 추정되며, 실제 사용된 출력 토큰 수를 반영하기 위해 요청 끝에서 추정치가 조정됩니다. 예상보다 일찍 OTPM 제한에 도달하는 경우 완료의 크기를 더 잘 근사하기 위해 max_tokens를 줄여보세요. 속도 제한은 각 모델에 대해 별도로 적용됩니다. 따라서 서로 다른 모델을 각각의 제한까지 동시에 사용할 수 있습니다. Anthropic Console에서 현재 속도 제한과 동작을 확인할 수 있습니다.
Claude Sonnet 4와 함께 context-1m-2025-08-07 베타 헤더를 사용하는 긴 컨텍스트 요청(>200K 토큰)의 경우 별도의 속도 제한이 적용됩니다. 아래 긴 컨텍스트 속도 제한을 참조하세요.
모델분당 최대 요청 수(RPM)분당 최대 입력 토큰 수(ITPM)분당 최대 출력 토큰 수(OTPM)
Claude Opus 4.x*5030,0008,000
Claude Sonnet 45030,0008,000
Claude Sonnet 3.75020,0008,000
Claude Sonnet 3.5
2024-10-22 (deprecated)
5040,0008,000
Claude Sonnet 3.5
2024-06-20 (deprecated)
5040,0008,000
Claude Haiku 3.55050,00010,000
Claude Opus 3 (deprecated)5020,0004,000
Claude Haiku 35050,00010,000
* - Opus 4.x 속도 제한은 Opus 4.0과 Opus 4.1 모두의 결합된 트래픽에 적용되는 총 제한입니다. † - 제한은 cache_read_input_tokens를 ITPM 사용량에 포함합니다.

Message Batches API

Message Batches API는 모든 모델에서 공유되는 자체 속도 제한 세트를 가지고 있습니다. 여기에는 모든 API 엔드포인트에 대한 분당 요청 수(RPM) 제한과 동시에 처리 대기열에 있을 수 있는 배치 요청 수에 대한 제한이 포함됩니다. 여기서 “배치 요청”은 Message Batch의 일부를 의미합니다. 수천 개의 배치 요청을 포함하는 Message Batch를 생성할 수 있으며, 각각이 이 제한에 포함됩니다. 배치 요청은 모델에 의해 성공적으로 처리되지 않은 경우 처리 대기열의 일부로 간주됩니다.
분당 최대 요청 수(RPM)처리 대기열의 최대 배치 요청 수배치당 최대 배치 요청 수
50100,000100,000

긴 컨텍스트 속도 제한

1M 토큰 컨텍스트 윈도우가 활성화된 Claude Sonnet 4를 사용할 때, 200K 토큰을 초과하는 요청에 다음과 같은 전용 속도 제한이 적용됩니다.
1M 토큰 컨텍스트 윈도우는 현재 사용 티어 4의 조직과 사용자 정의 속도 제한이 있는 조직에 대해 베타 버전입니다. 1M 토큰 컨텍스트 윈도우는 Claude Sonnet 4에서만 사용할 수 있습니다.
분당 최대 입력 토큰 수(ITPM)분당 최대 출력 토큰 수(OTPM)
1,000,000200,000
속도 제한이 있는 1M 토큰 컨텍스트 윈도우를 최대한 활용하려면 프롬프트 캐싱을 사용하세요.

Console에서 속도 제한 모니터링

Anthropic Console사용량 페이지에서 속도 제한 사용량을 모니터링할 수 있습니다. 토큰 및 요청 차트 제공 외에도 사용량 페이지는 두 개의 별도 속도 제한 차트를 제공합니다. 이 차트를 사용하여 성장할 여유 공간이 얼마나 있는지, 언제 최대 사용량에 도달할 수 있는지 확인하고, 요청할 속도 제한을 더 잘 이해하거나 캐싱 비율을 개선하는 방법을 파악할 수 있습니다. 차트는 주어진 속도 제한(예: 모델별)에 대한 여러 메트릭을 시각화합니다:
  • 속도 제한 - 입력 토큰 차트에는 다음이 포함됩니다:
    • 시간당 최대 캐시되지 않은 입력 토큰 수/분
    • 현재 입력 토큰 수/분 속도 제한
    • 입력 토큰의 캐시 비율(즉, 캐시에서 읽은 입력 토큰의 백분율)
  • 속도 제한 - 출력 토큰 차트에는 다음이 포함됩니다:
    • 시간당 최대 출력 토큰 수/분
    • 현재 출력 토큰 수/분 속도 제한

워크스페이스에 대한 낮은 제한 설정

조직 내 워크스페이스의 잠재적 과사용으로부터 보호하기 위해 워크스페이스당 사용자 정의 지출 및 속도 제한을 설정할 수 있습니다. 예시: 조직의 제한이 분당 40,000개 입력 토큰과 분당 8,000개 출력 토큰인 경우, 한 워크스페이스를 분당 총 30,000개 토큰으로 제한할 수 있습니다. 이는 다른 워크스페이스를 잠재적 과사용으로부터 보호하고 조직 전체에서 리소스의 더 공평한 분배를 보장합니다. 남은 사용되지 않은 토큰/분(또는 해당 워크스페이스가 제한을 사용하지 않는 경우 더 많이)은 다른 워크스페이스가 사용할 수 있습니다. 참고:
  • 기본 워크스페이스에는 제한을 설정할 수 없습니다.
  • 설정하지 않으면 워크스페이스 제한은 조직의 제한과 일치합니다.
  • 워크스페이스 제한의 합이 더 많더라도 조직 전체 제한이 항상 적용됩니다.
  • 입력 및 출력 토큰 제한에 대한 지원은 향후 워크스페이스에 추가될 예정입니다.

응답 헤더

API 응답에는 적용된 속도 제한, 현재 사용량, 제한이 재설정되는 시점을 보여주는 헤더가 포함됩니다. 다음 헤더가 반환됩니다:
헤더설명
retry-after요청을 재시도할 수 있을 때까지 기다려야 하는 초 수입니다. 더 일찍 재시도하면 실패합니다.
anthropic-ratelimit-requests-limit모든 속도 제한 기간 내에서 허용되는 최대 요청 수입니다.
anthropic-ratelimit-requests-remaining속도 제한되기 전까지 남은 요청 수입니다.
anthropic-ratelimit-requests-reset요청 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-tokens-limit모든 속도 제한 기간 내에서 허용되는 최대 토큰 수입니다.
anthropic-ratelimit-tokens-remaining속도 제한되기 전까지 남은 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-tokens-reset토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-input-tokens-limit모든 속도 제한 기간 내에서 허용되는 최대 입력 토큰 수입니다.
anthropic-ratelimit-input-tokens-remaining속도 제한되기 전까지 남은 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-input-tokens-reset입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-ratelimit-output-tokens-limit모든 속도 제한 기간 내에서 허용되는 최대 출력 토큰 수입니다.
anthropic-ratelimit-output-tokens-remaining속도 제한되기 전까지 남은 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다.
anthropic-ratelimit-output-tokens-reset출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다.
anthropic-priority-input-tokens-limit모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 입력 토큰 수입니다. (Priority Tier 전용)
anthropic-priority-input-tokens-remaining속도 제한되기 전까지 남은 Priority Tier 입력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier 전용)
anthropic-priority-input-tokens-resetPriority Tier 입력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)
anthropic-priority-output-tokens-limit모든 속도 제한 기간 내에서 허용되는 최대 Priority Tier 출력 토큰 수입니다. (Priority Tier 전용)
anthropic-priority-output-tokens-remaining속도 제한되기 전까지 남은 Priority Tier 출력 토큰 수(가장 가까운 천 단위로 반올림)입니다. (Priority Tier 전용)
anthropic-priority-output-tokens-resetPriority Tier 출력 토큰 속도 제한이 완전히 보충되는 시간으로, RFC 3339 형식으로 제공됩니다. (Priority Tier 전용)
anthropic-ratelimit-tokens-* 헤더는 현재 적용 중인 가장 제한적인 제한의 값을 표시합니다. 예를 들어, 워크스페이스 분당 토큰 제한을 초과한 경우 헤더에는 워크스페이스 분당 토큰 속도 제한 값이 포함됩니다. 워크스페이스 제한이 적용되지 않는 경우 헤더는 남은 총 토큰을 반환하며, 여기서 총합은 입력 및 출력 토큰의 합입니다. 이 접근 방식은 현재 API 사용에 대한 가장 관련성 높은 제약 조건에 대한 가시성을 보장합니다.