- Ограничения расходов устанавливают максимальную месячную стоимость, которую организация может понести за использование API.
- Ограничения скорости устанавливают максимальное количество запросов к API, которые организация может сделать за определенный период времени.
О наших ограничениях
- Ограничения предназначены для предотвращения злоупотребления API, минимизируя при этом влияние на обычные модели использования клиентов.
- Ограничения определяются уровнем использования, где каждый уровень связан с различным набором ограничений расходов и скорости.
- Ваша организация будет автоматически повышать уровни по мере достижения определенных порогов при использовании API. Ограничения устанавливаются на уровне организации. Вы можете увидеть ограничения вашей организации на странице Ограничений в Anthropic Console.
- Вы можете достичь ограничений скорости за более короткие интервалы времени. Например, скорость 60 запросов в минуту (RPM) может быть применена как 1 запрос в секунду. Короткие всплески запросов с высоким объемом могут превысить ограничение скорости и привести к ошибкам ограничения скорости.
- Ограничения, изложенные ниже, являются нашими стандартными ограничениями уровня. Если вы ищете более высокие, пользовательские ограничения или Priority Tier для улучшенных уровней обслуживания, обратитесь к отделу продаж через Anthropic Console.
- Мы используем алгоритм корзины токенов для ограничения скорости. Это означает, что ваша пропускная способность непрерывно пополняется до вашего максимального ограничения, а не сбрасывается через фиксированные интервалы.
- Все ограничения, описанные здесь, представляют максимально допустимое использование, а не гарантированные минимумы. Эти ограничения предназначены для уменьшения непреднамеренных перерасходов и обеспечения справедливого распределения ресурсов среди пользователей.
Ограничения расходов
Каждый уровень использования имеет ограничение на то, сколько вы можете потратить на API каждый календарный месяц. Как только вы достигнете ограничения расходов вашего уровня, пока вы не квалифицируетесь для следующего уровня, вам придется ждать до следующего месяца, чтобы снова использовать API. Чтобы квалифицироваться для следующего уровня, вы должны выполнить требование по депозиту. Чтобы минимизировать риск избыточного финансирования вашего аккаунта, вы не можете внести депозит больше вашего месячного ограничения расходов.Требования для повышения уровня
Уровень использования | Покупка кредитов | Максимальное использование в месяц |
---|---|---|
Уровень 1 | $5 | $100 |
Уровень 2 | $40 | $500 |
Уровень 3 | $200 | $1,000 |
Уровень 4 | $400 | $5,000 |
Месячное выставление счетов | Н/Д | Н/Д |
Ограничения скорости
Наши ограничения скорости для Messages API измеряются в запросах в минуту (RPM), входных токенах в минуту (ITPM) и выходных токенах в минуту (OTPM) для каждого класса модели. Если вы превысите любое из ограничений скорости, вы получите ошибку 429, описывающую, какое ограничение скорости было превышено, вместе с заголовкомretry-after
, указывающим, сколько ждать.
Вы также можете столкнуться с ошибками 429 из-за ограничений ускорения на API, если ваша организация имеет резкое увеличение использования. Чтобы избежать достижения ограничений ускорения, постепенно увеличивайте трафик и поддерживайте последовательные модели использования.
input_tokens
и cache_creation_input_tokens
в ограничения скорости ITPM.
Для некоторых моделей
cache_read_input_tokens
также засчитываются в ограничения скорости ITPM. Максимальный ITPM для этих моделей отмечен † в таблицах ограничений скорости ниже.Для всех других моделей cache_read_input_tokens
не засчитываются в ограничения скорости ITPM (хотя они все еще тарифицируются).max_tokens
в начале каждого запроса, и оценка корректируется в конце запроса, чтобы отразить фактическое количество использованных выходных токенов.
Если вы достигаете ограничений OTPM раньше, чем ожидалось, попробуйте уменьшить max_tokens
, чтобы лучше приблизить размер ваших завершений.
Ограничения скорости применяются отдельно для каждой модели; поэтому вы можете использовать разные модели до их соответствующих ограничений одновременно.
Вы можете проверить свои текущие ограничения скорости и поведение в Anthropic Console.
Для запросов с длинным контекстом (>200K токенов) при использовании бета-заголовка
context-1m-2025-08-07
с Claude Sonnet 4 применяются отдельные ограничения скорости. См. Ограничения скорости длинного контекста ниже.Модель | Максимальные запросы в минуту (RPM) | Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|---|---|
Claude Opus 4.x* | 50 | 30,000 | 8,000 |
Claude Sonnet 4 | 50 | 30,000 | 8,000 |
Claude Sonnet 3.7 | 50 | 20,000 | 8,000 |
Claude Sonnet 3.5 2024-10-22 (устарел) | 50 | 40,000† | 8,000 |
Claude Sonnet 3.5 2024-06-20 (устарел) | 50 | 40,000† | 8,000 |
Claude Haiku 3.5 | 50 | 50,000† | 10,000 |
Claude Opus 3 (устарел) | 50 | 20,000† | 4,000 |
Claude Haiku 3 | 50 | 50,000† | 10,000 |
cache_read_input_tokens
в использование ITPM.
Message Batches API
Message Batches API имеет свой собственный набор ограничений скорости, которые разделяются между всеми моделями. Они включают ограничение запросов в минуту (RPM) для всех конечных точек API и ограничение на количество пакетных запросов, которые могут находиться в очереди обработки одновременно. “Пакетный запрос” здесь относится к части Message Batch. Вы можете создать Message Batch, содержащий тысячи пакетных запросов, каждый из которых засчитывается в это ограничение. Пакетный запрос считается частью очереди обработки, когда он еще не был успешно обработан моделью.Максимальные запросы в минуту (RPM) | Максимальные пакетные запросы в очереди обработки | Максимальные пакетные запросы на пакет |
---|---|---|
50 | 100,000 | 100,000 |
Ограничения скорости длинного контекста
При использовании Claude Sonnet 4 с включенным окном контекста 1M токенов, следующие выделенные ограничения скорости применяются к запросам, превышающим 200K токенов.Окно контекста 1M токенов в настоящее время находится в бета-версии для организаций на уровне использования 4 и организаций с пользовательскими ограничениями скорости. Окно контекста 1M токенов доступно только для Claude Sonnet 4.
Максимальные входные токены в минуту (ITPM) | Максимальные выходные токены в минуту (OTPM) |
---|---|
1,000,000 | 200,000 |
Чтобы получить максимальную отдачу от окна контекста 1M токенов с ограничениями скорости, используйте кэширование промптов.
Мониторинг ваших ограничений скорости в Console
Вы можете отслеживать использование ваших ограничений скорости на странице Использование в Anthropic Console. В дополнение к предоставлению диаграмм токенов и запросов, страница Использование предоставляет две отдельные диаграммы ограничений скорости. Используйте эти диаграммы, чтобы увидеть, какой запас у вас есть для роста, когда вы можете достигать пикового использования, лучше понять, какие ограничения скорости запрашивать, или как вы можете улучшить свои показатели кэширования. Диаграммы визуализируют ряд метрик для данного ограничения скорости (например, для каждой модели):- Диаграмма Ограничение скорости - Входные токены включает:
- Почасовые максимальные некэшированные входные токены в минуту
- Ваше текущее ограничение скорости входных токенов в минуту
- Коэффициент кэширования для ваших входных токенов (т.е. процент входных токенов, прочитанных из кэша)
- Диаграмма Ограничение скорости - Выходные токены включает:
- Почасовые максимальные выходные токены в минуту
- Ваше текущее ограничение скорости выходных токенов в минуту
Установка более низких ограничений для рабочих пространств
Чтобы защитить рабочие пространства в вашей организации от потенциального чрезмерного использования, вы можете установить пользовательские ограничения расходов и скорости для каждого рабочего пространства. Пример: Если ограничение вашей организации составляет 40,000 входных токен в минуту и 8,000 выходных токен в минуту, вы можете ограничить одно рабочее пространство до 30,000 общих токен в минуту. Это защищает другие рабочие пространства от потенциального чрезмерного использования и обеспечивает более справедливое распределение ресурсов по вашей организации. Оставшиеся неиспользованные токены в минуту (или больше, если это рабочее пространство не использует ограничение) затем доступны для использования другими рабочими пространствами. Примечание:- Вы не можете устанавливать ограничения на рабочее пространство по умолчанию.
- Если не установлено, ограничения рабочего пространства соответствуют ограничению организации.
- Ограничения на уровне организации всегда применяются, даже если ограничения рабочих пространств в сумме превышают их.
- Поддержка ограничений входных и выходных токенов будет добавлена в рабочие пространства в будущем.
Заголовки ответа
Ответ API включает заголовки, которые показывают вам применяемое ограничение скорости, текущее использование и когда ограничение будет сброшено. Возвращаются следующие заголовки:Заголовок | Описание |
---|---|
retry-after | Количество секунд ожидания, прежде чем вы сможете повторить запрос. Более ранние повторы не удадутся. |
anthropic-ratelimit-requests-limit | Максимальное количество запросов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-requests-remaining | Количество запросов, оставшихся до ограничения скорости. |
anthropic-ratelimit-requests-reset | Время, когда ограничение скорости запросов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-tokens-limit | Максимальное количество токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-tokens-remaining | Количество токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-tokens-reset | Время, когда ограничение скорости токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-input-tokens-limit | Максимальное количество входных токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-input-tokens-remaining | Количество входных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-input-tokens-reset | Время, когда ограничение скорости входных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-ratelimit-output-tokens-limit | Максимальное количество выходных токенов, разрешенных в любом периоде ограничения скорости. |
anthropic-ratelimit-output-tokens-remaining | Количество выходных токенов, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. |
anthropic-ratelimit-output-tokens-reset | Время, когда ограничение скорости выходных токенов будет полностью восстановлено, предоставленное в формате RFC 3339. |
anthropic-priority-input-tokens-limit | Максимальное количество входных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-remaining | Количество входных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-input-tokens-reset | Время, когда ограничение скорости входных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
anthropic-priority-output-tokens-limit | Максимальное количество выходных токенов Priority Tier, разрешенных в любом периоде ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-remaining | Количество выходных токенов Priority Tier, оставшихся (округленное до ближайшей тысячи) до ограничения скорости. (только Priority Tier) |
anthropic-priority-output-tokens-reset | Время, когда ограничение скорости выходных токенов Priority Tier будет полностью восстановлено, предоставленное в формате RFC 3339. (только Priority Tier) |
anthropic-ratelimit-tokens-*
отображают значения для наиболее ограничительного лимита, действующего в настоящее время. Например, если вы превысили ограничение токенов рабочего пространства в минуту, заголовки будут содержать значения ограничения скорости токенов рабочего пространства в минуту. Если ограничения рабочего пространства не применяются, заголовки вернут общие оставшиеся токены, где общее количество является суммой входных и выходных токенов. Этот подход гарантирует, что у вас есть видимость наиболее релевантного ограничения для вашего текущего использования API.