Skip to main content
我们有两种类型的限制:
  1. 支出限制设置组织在API使用中每月可能产生的最大成本。
  2. 速率限制设置组织在定义的时间段内可以进行的最大API请求数。
我们在组织级别强制执行服务配置的限制,但您也可以为组织的工作区设置用户可配置的限制。 这些限制适用于标准层和优先层使用。有关优先层的更多信息(优先层提供增强的服务级别以换取承诺支出),请参阅服务层级

关于我们的限制

  • 限制旨在防止API滥用,同时最小化对常见客户使用模式的影响。
  • 限制由使用层级定义,其中每个层级与不同的支出和速率限制集相关联。
  • 随着您在使用API时达到某些阈值,您的组织将自动提升层级。 限制在组织级别设置。您可以在Claude Console限制页面中查看您的组织限制。
  • 您可能在较短的时间间隔内达到速率限制。例如,每分钟60个请求(RPM)的速率可能被强制为每秒1个请求。短时间内大量请求的突发可能会超过速率限制并导致速率限制错误。
  • 下面列出的限制是我们的标准层限制。如果您寻求更高的自定义限制或优先层以获得增强的服务级别,请通过Claude Console联系销售。
  • 我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到您的最大限制,而不是在固定间隔重置。
  • 此处描述的所有限制代表最大允许使用量,而不是保证的最小值。这些限制旨在减少无意中的超支并确保用户之间资源的公平分配。

支出限制

每个使用层级都有一个限制,说明您每个日历月在API上的支出。一旦您达到您所在层级的支出限制,在您符合下一个层级的条件之前,您必须等到下个月才能再次使用API。 要符合下一个层级的条件,您必须满足存款要求。为了最小化账户过度充值的风险,您不能存入超过您的月度支出限制的金额。

提升层级的要求

使用层级信用购买最大信用购买
第1层$5$100
第2层$40$500
第3层$200$1,000
第4层$400$5,000
月度发票不适用不适用
信用购买显示提升到该层级所需的累积信用购买(不含税)。您在达到阈值时立即提升。最大信用购买限制您在单笔交易中可以添加到账户的最大金额,以防止账户过度充值。

速率限制

我们的Messages API速率限制以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)为单位,针对每个模型类别。 如果您超过任何速率限制,您将收到一个429错误,描述超过了哪个速率限制,以及一个retry-after标头,指示需要等待多长时间。
如果您的组织使用量急剧增加,您可能还会因为API上的加速限制而遇到429错误。为了避免触发加速限制,请逐步增加您的流量并保持一致的使用模式。

缓存感知ITPM

许多API提供商使用组合的”每分钟令牌数”(TPM)限制,可能包括所有令牌,包括缓存和未缓存的、输入和输出的。**对于大多数Claude模型,只有未缓存的输入令牌计入您的ITPM速率限制。**这是一个关键优势,使我们的速率限制实际上比初看起来要高。 ITPM速率限制在每个请求开始时估计,并在请求期间调整以反映实际使用的输入令牌数。 以下内容计入ITPM:
  • input_tokens(未缓存的新输入令牌)✓ 计入ITPM
  • cache_creation_input_tokens(写入缓存的令牌)✓ 计入ITPM
  • cache_read_input_tokens(从缓存读取的令牌)✗ 对于大多数模型不计入ITPM
示例:使用2,000,000 ITPM限制和80%缓存命中率,您每分钟可以有效处理10,000,000个总输入令牌(2M未缓存 + 8M缓存),因为缓存令牌不计入您的速率限制。
一些较旧的模型(在下面的速率限制表中用†标记)也将cache_read_input_tokens计入ITPM速率限制。对于所有没有†标记的模型,缓存的输入令牌不计入速率限制,并以降低的速率计费(基础输入令牌价格的10%)。这意味着通过使用提示缓存,您可以实现显著更高的有效吞吐量。
使用提示缓存最大化您的速率限制要充分利用您的速率限制,请对重复内容使用提示缓存,例如:
  • 系统指令和提示
  • 大型上下文文档
  • 工具定义
  • 对话历史
通过有效的缓存,您可以显著增加实际吞吐量,而无需增加速率限制。在使用页面上监控您的缓存命中率以优化您的缓存策略。
OTPM速率限制基于请求开始时的max_tokens进行估计,并在请求结束时调整以反映实际使用的输出令牌数。 如果您比预期更早达到OTPM限制,请尝试减少max_tokens以更好地近似您的完成大小。 速率限制分别应用于每个模型;因此您可以同时使用不同的模型直到各自的限制。 您可以在Claude Console中检查您的当前速率限制和行为。
对于长上下文请求(>200K令牌),当使用Claude Sonnet 4.x的context-1m-2025-08-07测试版标头时,适用单独的速率限制。请参阅下面的长上下文速率限制
  • 第1层
  • 第2层
  • 第3层
  • 第4层
  • 自定义
模型最大每分钟请求数(RPM)最大每分钟输入令牌数(ITPM)最大每分钟输出令牌数(OTPM)
Claude Sonnet 4.x**5030,0008,000
Claude Sonnet 3.7 (已弃用)5020,0008,000
Claude Haiku 4.55050,00010,000
Claude Haiku 3.55050,00010,000
Claude Haiku 35050,00010,000
Claude Opus 4.x*5030,0008,000
Claude Opus 3 (已弃用)5020,0004,000
* - Opus 4.x速率限制是适用于Opus 4和Opus 4.1组合流量的总限制。 ** - Sonnet 4.x速率限制是适用于Sonnet 4和Sonnet 4.5组合流量的总限制。 † - 限制将cache_read_input_tokens计入ITPM使用。

Message Batches API

Message Batches API有自己的一组速率限制,在所有模型中共享。这些包括对所有API端点的每分钟请求数(RPM)限制和对可以同时处于处理队列中的批处理请求数的限制。这里的”批处理请求”指的是Message Batch的一部分。您可以创建包含数千个批处理请求的Message Batch,每个都计入此限制。当批处理请求尚未被模型成功处理时,它被视为处理队列的一部分。
  • 第1层
  • 第2层
  • 第3层
  • 第4层
  • 自定义
最大每分钟请求数(RPM)处理队列中的最大批处理请求数每个批次的最大批处理请求数
50100,000100,000

长上下文速率限制

当使用Claude Sonnet 4和Sonnet 4.5并启用1M令牌上下文窗口时,以下专用速率限制适用于超过200K令牌的请求。
1M令牌上下文窗口目前处于测试阶段,适用于使用层级4的组织和具有自定义速率限制的组织。1M令牌上下文窗口仅适用于Claude Sonnet 4和Sonnet 4.5。
  • 第4层
  • 自定义
最大每分钟输入令牌数(ITPM)最大每分钟输出令牌数(OTPM)
1,000,000200,000
要充分利用1M令牌上下文窗口和速率限制,请使用提示缓存

在Console中监控您的速率限制

您可以在Claude Console使用页面上监控您的速率限制使用情况。 除了提供令牌和请求图表外,使用页面还提供两个单独的速率限制图表。使用这些图表可以查看您有多少增长空间、何时可能达到峰值使用、更好地理解要请求的速率限制,或者如何改进您的缓存速率。这些图表为给定的速率限制(例如按模型)可视化多个指标:
  • 速率限制 - 输入令牌图表包括:
    • 每小时最大未缓存每分钟输入令牌数
    • 您当前的每分钟输入令牌速率限制
    • 您的输入令牌缓存速率(即从缓存读取的输入令牌的百分比)
  • 速率限制 - 输出令牌图表包括:
    • 每小时最大每分钟输出令牌数
    • 您当前的每分钟输出令牌速率限制

为工作区设置较低的限制

为了保护您的组织中的工作区免受潜在过度使用,您可以为每个工作区设置自定义支出和速率限制。 示例:如果您的组织限制是每分钟40,000个输入令牌和每分钟8,000个输出令牌,您可能会将一个工作区限制为每分钟30,000个总令牌。这保护其他工作区免受潜在过度使用,并确保在您的组织中更公平地分配资源。剩余的未使用每分钟令牌数(或更多,如果该工作区不使用限制)随后可供其他工作区使用。 注意:
  • 您不能对默认工作区设置限制。
  • 如果未设置,工作区限制与组织的限制相匹配。
  • 组织范围的限制始终适用,即使工作区限制加起来更多。
  • 对工作区的输入和输出令牌限制的支持将在未来添加。

响应标头

API响应包括显示强制执行的速率限制、当前使用情况以及何时将重置限制的标头。 返回以下标头:
标头描述
retry-after在您可以重试请求之前需要等待的秒数。更早的重试将失败。
anthropic-ratelimit-requests-limit任何速率限制期间允许的最大请求数。
anthropic-ratelimit-requests-remaining在被速率限制之前剩余的请求数。
anthropic-ratelimit-requests-reset请求速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-tokens-limit任何速率限制期间允许的最大令牌数。
anthropic-ratelimit-tokens-remaining在被速率限制之前剩余的令牌数(四舍五入到最近的千位)。
anthropic-ratelimit-tokens-reset令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-input-tokens-limit任何速率限制期间允许的最大输入令牌数。
anthropic-ratelimit-input-tokens-remaining在被速率限制之前剩余的输入令牌数(四舍五入到最近的千位)。
anthropic-ratelimit-input-tokens-reset输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-output-tokens-limit任何速率限制期间允许的最大输出令牌数。
anthropic-ratelimit-output-tokens-remaining在被速率限制之前剩余的输出令牌数(四舍五入到最近的千位)。
anthropic-ratelimit-output-tokens-reset输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-priority-input-tokens-limit任何速率限制期间允许的最大优先层输入令牌数。(仅限优先层)
anthropic-priority-input-tokens-remaining在被速率限制之前剩余的优先层输入令牌数(四舍五入到最近的千位)。(仅限优先层)
anthropic-priority-input-tokens-reset优先层输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层)
anthropic-priority-output-tokens-limit任何速率限制期间允许的最大优先层输出令牌数。(仅限优先层)
anthropic-priority-output-tokens-remaining在被速率限制之前剩余的优先层输出令牌数(四舍五入到最近的千位)。(仅限优先层)
anthropic-priority-output-tokens-reset优先层输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。(仅限优先层)
anthropic-ratelimit-tokens-*标头显示当前生效的最严格限制的值。例如,如果您超过了工作区每分钟令牌限制,标头将包含工作区每分钟令牌速率限制值。如果工作区限制不适用,标头将返回总令牌剩余数,其中总数是输入和输出令牌的总和。这种方法确保您可以看到对当前API使用最相关的约束。