- Приоритетный уровень: Лучший для рабочих процессов, развернутых в продакшене, где важны время, доступность и предсказуемое ценообразование
- Стандартный: Уровень по умолчанию как для пилотирования, так и для масштабирования повседневных случаев использования
- Пакетный: Лучший для асинхронных рабочих процессов, которые могут ждать или получить выгоду от работы вне вашей обычной мощности
Стандартный уровень
Стандартный уровень является уровнем обслуживания по умолчанию для всех API-запросов. Запросы на этом уровне приоритизируются наряду со всеми другими запросами и соблюдают доступность по принципу “лучших усилий”.Приоритетный уровень
Запросы на этом уровне приоритизируются над всеми другими запросами к Anthropic. Эта приоритизация помогает минимизировать ошибки “сервер перегружен”, даже в часы пик. Для получения дополнительной информации см. Начало работы с приоритетным уровнемКак запросы получают назначение уровней
При обработке запроса Anthropic принимает решение назначить запрос приоритетному уровню в следующих сценариях:- Ваша организация имеет достаточную мощность приоритетного уровня входных токенов в минуту
- Ваша организация имеет достаточную мощность приоритетного уровня выходных токенов в минуту
- Чтения кэша как 0.1 токена за токен, прочитанный из кэша
- Записи кэша как 1.25 токена за токен, записанный в кэш с TTL 5 минут
- Записи кэша как 2.00 токена за токен, записанный в кэш с TTL 1 час
- Для запросов длинного контекста (>200k входных токенов), входные токены считаются как 2 токена за токен
- Все остальные входные токены считаются как 1 токен за токен
- Для запросов длинного контекста (>200k входных токенов), выходные токены считаются как 1.5 токена за токен
- Все остальные выходные токены считаются как 1 токен за токен
Запросы, назначенные приоритетному уровню, используют как мощность приоритетного уровня, так и обычные ограничения скорости.
Если обслуживание запроса превысит ограничения скорости, запрос отклоняется.
Использование уровней обслуживания
Вы можете контролировать, какие уровни обслуживания могут использоваться для запроса, установив параметрservice_tier
:
service_tier
принимает следующие значения:
"auto"
(по умолчанию) - Использует мощность приоритетного уровня, если доступна, с возвратом к другой вашей мощности, если нет"standard_only"
- Использовать только мощность стандартного уровня, полезно, если вы не хотите использовать мощность приоритетного уровня
usage
ответа также включает уровень обслуживания, назначенный запросу:
service_tier="auto"
с моделью с обязательством приоритетного уровня, эти заголовки ответа предоставляют информацию:
Начало работы с приоритетным уровнем
Вы можете захотеть взять обязательство по мощности приоритетного уровня, если вас интересует:- Более высокая доступность: Целевое время работы 99.5% с приоритетными вычислительными ресурсами
- Контроль затрат: Предсказуемые расходы и скидки за более длительные обязательства
- Гибкое переполнение: Автоматически возвращается к стандартному уровню, когда вы превышаете вашу зафиксированную мощность
- Количеству входных токенов в минуту
- Количеству выходных токенов в минуту
- Продолжительности обязательства (1, 3, 6 или 12 месяцев)
- Конкретной версии модели
Соотношение входных и выходных токенов, которые вы покупаете, имеет значение. Размер вашей мощности приоритетного уровня в соответствии с вашими фактическими паттернами трафика помогает вам максимизировать использование ваших купленных токенов.
Поддерживаемые модели
Приоритетный уровень поддерживается:- Claude Opus 4.1
- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5 (обе версии)
- Claude Haiku 3.5
Как получить доступ к приоритетному уровню
Чтобы начать использовать приоритетный уровень:- Свяжитесь с отделом продаж для завершения предоставления
- (Опционально) Обновите ваши API-запросы, чтобы опционально установить параметр
service_tier
вauto
- Отслеживайте ваше использование через заголовки ответов и консоль Anthropic