- 优先级层级: 最适合在生产环境中部署的工作流,其中时间、可用性和可预测的定价很重要
- 标准层级: 用于试点和扩展日常用例的默认层级
- 批处理层级: 最适合可以等待或受益于在正常容量之外运行的异步工作流
标准层级
标准层级是所有 API 请求的默认服务层级。此层级中的请求与所有其他请求一起被优先处理,并遵循尽力而为的可用性。优先级层级
此层级中的请求优先于对 Anthropic 的所有其他请求。此优先级有助于最小化 “服务器过载” 错误,即使在高峰时段也是如此。 有关更多信息,请参阅 优先级层级入门请求如何被分配层级
在处理请求时,Anthropic 在以下场景中决定将请求分配给优先级层级:- 您的组织具有足够的优先级层级容量 input 令牌每分钟
- 您的组织具有足够的优先级层级容量 output 令牌每分钟
- 缓存读取为从缓存读取的每个令牌 0.1 个令牌
- 缓存写入为写入到具有 5 分钟 TTL 的缓存的每个令牌 1.25 个令牌
- 缓存写入为写入到具有 1 小时 TTL 的缓存的每个令牌 2.00 个令牌
- 对于 长上下文(>200k 输入令牌)请求,输入令牌为每个令牌 2 个令牌
- 所有其他输入令牌为每个令牌 1 个令牌
- 对于 长上下文(>200k 输入令牌)请求,输出令牌为每个令牌 1.5 个令牌
- 所有其他输出令牌为每个令牌 1 个令牌
分配给优先级层级的请求从优先级层级容量和常规速率限制中提取。
如果处理请求会超过速率限制,则请求被拒绝。
使用服务层级
您可以通过设置service_tier 参数来控制哪些服务层级可用于请求:
service_tier 参数接受以下值:
"auto"(默认)- 如果可用,使用优先级层级容量,如果不可用,则回退到您的其他容量"standard_only"- 仅使用标准层级容量,如果您不想使用优先级层级容量,这很有用
usage 对象还包括分配给请求的服务层级:
service_tier="auto" 时,这些响应标头提供了见解:
优先级层级入门
如果您对以下内容感兴趣,您可能想要承诺优先级层级容量:- 更高的可用性:目标 99.5% 的正常运行时间,具有优先级计算资源
- 成本控制:可预测的支出和更长承诺的折扣
- 灵活溢出:当您超过承诺的容量时自动回退到标准层级
- 每分钟的输入令牌数
- 每分钟的输出令牌数
- 承诺期限(1、3、6 或 12 个月)
- 特定的模型版本
您购买的输入令牌与输出令牌的比率很重要。调整您的优先级层级容量以与您的实际流量模式相一致有助于您最大化购买令牌的利用率。
支持的模型
优先级层级支持:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Haiku 3.5
如何访问优先级层级
要开始使用优先级层级:- 联系销售 完成配置
- (可选)更新您的 API 请求以可选地将
service_tier参数设置为auto - 通过响应标头和 Claude 控制台监控您的使用情况