Поддерживаемые модели
Расширенное мышление поддерживается в следующих моделях:- Claude Opus 4.1 (
claude-opus-4-1-20250805
) - Claude Opus 4 (
claude-opus-4-20250514
) - Claude Sonnet 4 (
claude-sonnet-4-20250514
) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219
)
Поведение API различается между моделями Claude Sonnet 3.7 и Claude 4, но формы API остаются точно такими же.Для получения дополнительной информации см. Различия в мышлении между версиями моделей.
Как работает расширенное мышление
Когда расширенное мышление включено, Claude создает блоки содержимогоthinking
, где он выводит свои внутренние рассуждения. Claude включает идеи из этих рассуждений перед созданием окончательного ответа.
Ответ API будет включать блоки содержимого thinking
, за которыми следуют блоки содержимого text
.
Вот пример формата ответа по умолчанию:
Как использовать расширенное мышление
Вот пример использования расширенного мышления в Messages API:thinking
с параметром type
, установленным в enabled
, и budget_tokens
в указанный бюджет токенов для расширенного мышления.
Параметр budget_tokens
определяет максимальное количество токенов, которое Claude разрешено использовать для своего внутреннего процесса рассуждения. В моделях Claude 4 этот лимит применяется к полным токенам мышления, а не к суммированному выводу. Большие бюджеты могут улучшить качество ответов, обеспечивая более тщательный анализ сложных проблем, хотя Claude может не использовать весь выделенный бюджет, особенно в диапазонах выше 32k.
budget_tokens
должен быть установлен в значение меньше max_tokens
. Однако при использовании чередующегося мышления с инструментами вы можете превысить этот лимит, поскольку лимит токенов становится всем вашим контекстным окном (200k токенов).
Суммированное мышление
При включенном расширенном мышлении Messages API для моделей Claude 4 возвращает краткое изложение полного мыслительного процесса Claude. Суммированное мышление обеспечивает все преимущества интеллекта расширенного мышления, предотвращая при этом неправильное использование. Вот некоторые важные соображения для суммированного мышления:- Вам выставляется счет за полные токены мышления, сгенерированные исходным запросом, а не за токены краткого изложения.
- Количество выходных токенов в счете не будет соответствовать количеству токенов, которые вы видите в ответе.
- Первые несколько строк вывода мышления более подробны, предоставляя детальные рассуждения, которые особенно полезны для целей инженерии промптов.
- Поскольку Anthropic стремится улучшить функцию расширенного мышления, поведение суммирования может изменяться.
- Суммирование сохраняет ключевые идеи мыслительного процесса Claude с минимальной дополнительной задержкой, обеспечивая потоковый пользовательский опыт и легкую миграцию с моделей Claude Sonnet 3.7 на модели Claude 4.
- Суммирование обрабатывается другой моделью, чем та, на которую вы нацеливаетесь в своих запросах. Модель мышления не видит суммированный вывод.
Claude Sonnet 3.7 продолжает возвращать полный вывод мышления.В редких случаях, когда вам нужен доступ к полному выводу мышления для моделей Claude 4, свяжитесь с нашей командой продаж.
Потоковое мышление
Вы можете передавать ответы расширенного мышления в потоковом режиме, используя события, отправляемые сервером (SSE). Когда потоковая передача включена для расширенного мышления, вы получаете содержимое мышления через событияthinking_delta
.
Для получения дополнительной документации по потоковой передаче через Messages API см. Потоковые сообщения.
Вот как обрабатывать потоковую передачу с мышлением:
При использовании потоковой передачи с включенным мышлением вы можете заметить, что текст иногда приходит большими блоками, чередующимися с меньшей доставкой токен за токеном. Это ожидаемое поведение, особенно для содержимого мышления.Системе потоковой передачи необходимо обрабатывать содержимое пакетами для оптимальной производительности, что может привести к такому “блочному” паттерну доставки с возможными задержками между потоковыми событиями. Мы постоянно работаем над улучшением этого опыта, с будущими обновлениями, сосредоточенными на том, чтобы содержимое мышления передавалось более плавно.
Расширенное мышление с использованием инструментов
Расширенное мышление может использоваться вместе с использованием инструментов, позволяя Claude рассуждать о выборе инструментов и обработке результатов. При использовании расширенного мышления с использованием инструментов учитывайте следующие ограничения:-
Ограничение выбора инструмента: Использование инструментов с мышлением поддерживает только
tool_choice: {"type": "auto"}
(по умолчанию) илиtool_choice: {"type": "none"}
. Использованиеtool_choice: {"type": "any"}
илиtool_choice: {"type": "tool", "name": "..."}
приведет к ошибке, поскольку эти опции принуждают к использованию инструментов, что несовместимо с расширенным мышлением. -
Сохранение блоков мышления: Во время использования инструментов вы должны передавать блоки
thinking
обратно в API для последнего сообщения ассистента. Включите полный неизмененный блок обратно в API для поддержания непрерывности рассуждений.
Пример: Передача блоков мышления с результатами инструментов
Пример: Передача блоков мышления с результатами инструментов
Вот практический пример, показывающий, как сохранить блоки мышления при предоставлении результатов инструментов:Ответ API будет включать блоки мышления, текста и использования инструментов:Теперь давайте продолжим разговор и используем инструментОтвет API теперь будет включать только текст
Сохранение блоков мышления
Во время использования инструментов вы должны передавать блокиthinking
обратно в API, и вы должны включить полный неизмененный блок обратно в API. Это критически важно для поддержания потока рассуждений модели и целостности разговора.
Хотя вы можете опустить блоки
thinking
из предыдущих ходов assistant
, мы предлагаем всегда передавать обратно все блоки мышления в API для любого многоходового разговора. API будет:- Автоматически фильтровать предоставленные блоки мышления
- Использовать соответствующие блоки мышления, необходимые для сохранения рассуждений модели
- Выставлять счет только за входные токены для блоков, показанных Claude
- Непрерывность рассуждений: Блоки мышления захватывают пошаговые рассуждения Claude, которые привели к запросам инструментов. Когда вы публикуете результаты инструментов, включение исходного мышления гарантирует, что Claude может продолжить свои рассуждения с того места, где он остановился.
- Поддержание контекста: Хотя результаты инструментов появляются как пользовательские сообщения в структуре API, они являются частью непрерывного потока рассуждений. Сохранение блоков мышления поддерживает этот концептуальный поток через несколько вызовов API. Для получения дополнительной информации об управлении контекстом см. наше руководство по контекстным окнам.
thinking
вся последовательность последовательных блоков thinking
должна соответствовать выводам, сгенерированным моделью во время исходного запроса; вы не можете переставлять или изменять последовательность этих блоков.
Чередующееся мышление
Расширенное мышление с использованием инструментов в моделях Claude 4 поддерживает чередующееся мышление, которое позволяет Claude думать между вызовами инструментов и делать более сложные рассуждения после получения результатов инструментов. С чередующимся мышлением Claude может:- Рассуждать о результатах вызова инструмента перед принятием решения о том, что делать дальше
- Связывать несколько вызовов инструментов с шагами рассуждения между ними
- Принимать более тонкие решения на основе промежуточных результатов
interleaved-thinking-2025-05-14
к вашему API-запросу.
Вот некоторые важные соображения для чередующегося мышления:
- С чередующимся мышлением
budget_tokens
может превышать параметрmax_tokens
, поскольку он представляет общий бюджет для всех блоков мышления в рамках одного хода ассистента. - Чередующееся мышление поддерживается только для инструментов, используемых через Messages API.
- Чередующееся мышление поддерживается только для моделей Claude 4 с бета-заголовком
interleaved-thinking-2025-05-14
. - Прямые вызовы к API Anthropic позволяют передавать
interleaved-thinking-2025-05-14
в запросах к любой модели без эффекта. - На сторонних платформах (например, Amazon Bedrock и Vertex AI), если вы передаете
interleaved-thinking-2025-05-14
любой модели, кроме Claude Opus 4.1, Opus 4 или Sonnet 4, ваш запрос завершится неудачей.
Использование инструментов без чередующегося мышления
Использование инструментов без чередующегося мышления
- Claude думает один раз в начале, чтобы понять задачу
- Принимает все решения об использовании инструментов заранее
- Когда возвращаются результаты инструментов, Claude немедленно предоставляет ответ без дополнительного мышления
Использование инструментов с чередующимся мышлением
Использование инструментов с чередующимся мышлением
- Claude думает о задаче изначально
- После получения результата калькулятора Claude может снова думать о том, что означает этот результат
- Claude затем решает, как запросить базу данных на основе первого результата
- После получения результата базы данных Claude думает еще раз об обоих результатах перед формулированием окончательного ответа
- Бюджет мышления распределяется по всем блокам мышления в рамках хода
Расширенное мышление с кэшированием промптов
Кэширование промптов с мышлением имеет несколько важных соображений:Задачи расширенного мышления часто занимают больше 5 минут для завершения. Рассмотрите использование 1-часовой продолжительности кэша для поддержания попаданий в кэш через более длительные сессии мышления и многошаговые рабочие процессы.
- Блоки мышления из предыдущих ходов удаляются из контекста, что может повлиять на точки останова кэша
- При продолжении разговоров с использованием инструментов блоки мышления кэшируются и считаются как входные токены при чтении из кэша
- Это создает компромисс: хотя блоки мышления не потребляют пространство контекстного окна визуально, они все еще считаются в вашем использовании входных токенов при кэшировании
- Если мышление становится отключенным, запросы завершатся неудачей, если вы передаете содержимое мышления в текущем ходе использования инструмента. В других контекстах содержимое мышления, переданное в API, просто игнорируется
- Изменения параметров мышления (включено/отключено или распределение бюджета) инвалидируют точки останова кэша сообщений
- Чередующееся мышление усиливает инвалидацию кэша, поскольку блоки мышления могут происходить между несколькими вызовами инструментов
- Системные промпты и инструменты остаются кэшированными несмотря на изменения параметров мышления или удаление блоков
Хотя блоки мышления удаляются для кэширования и вычислений контекста, они должны быть сохранены при продолжении разговоров с использованием инструментов, особенно с чередующимся мышлением.
Понимание поведения кэширования блоков мышления
При использовании расширенного мышления с использованием инструментов блоки мышления демонстрируют специфическое поведение кэширования, которое влияет на подсчет токенов: Как это работает:- Кэширование происходит только когда вы делаете последующий запрос, который включает результаты инструментов
- Когда делается последующий запрос, предыдущая история разговора (включая блоки мышления) может быть кэширована
- Эти кэшированные блоки мышления считаются как входные токены в ваших метриках использования при чтении из кэша
- Когда включается блок пользователя, не являющийся результатом инструмента, все предыдущие блоки мышления игнорируются и удаляются из контекста
- Это поведение кэширования происходит автоматически, даже без явных маркеров
cache_control
- Это поведение согласовано независимо от того, используете ли вы обычное мышление или чередующееся мышление
Кэширование системного промпта (сохраняется при изменениях мышления)
Кэширование системного промпта (сохраняется при изменениях мышления)
Кэширование сообщений (инвалидируется при изменениях мышления)
Кэширование сообщений (инвалидируется при изменениях мышления)
cache_creation_input_tokens=1370
и cache_read_input_tokens=0
, доказывая, что кэширование на основе сообщений инвалидируется при изменении параметров мышления.Максимальные токены и размер контекстного окна с расширенным мышлением
В старых моделях Claude (до Claude Sonnet 3.7), если сумма токенов промпта иmax_tokens
превышала контекстное окно модели, система автоматически корректировала max_tokens
для соответствия лимиту контекста. Это означало, что вы могли установить большое значение max_tokens
, и система молча уменьшала его по мере необходимости.
С моделями Claude 3.7 и 4 max_tokens
(который включает ваш бюджет мышления при включенном мышлении) применяется как строгий лимит. Система теперь вернет ошибку валидации, если токены промпта + max_tokens
превышают размер контекстного окна.
Вы можете прочитать наше руководство по контекстным окнам для более тщательного глубокого погружения.
Контекстное окно с расширенным мышлением
При вычислении использования контекстного окна с включенным мышлением есть некоторые соображения, которые следует учитывать:- Блоки мышления из предыдущих ходов удаляются и не засчитываются в ваше контекстное окно
- Мышление текущего хода засчитывается в ваш лимит
max_tokens
для этого хода
Контекстное окно с расширенным мышлением и использованием инструментов
При использовании расширенного мышления с использованием инструментов блоки мышления должны быть явно сохранены и возвращены с результатами инструментов. Вычисление эффективного контекстного окна для расширенного мышления с использованием инструментов становится:Управление токенами с расширенным мышлением
Учитывая поведение контекстного окна иmax_tokens
с расширенным мышлением в моделях Claude 3.7 и 4, вам может потребоваться:
- Более активно отслеживать и управлять использованием токенов
- Корректировать значения
max_tokens
по мере изменения длины промпта - Потенциально использовать конечные точки подсчета токенов чаще
- Помнить, что предыдущие блоки мышления не накапливаются в вашем контекстном окне
Шифрование мышления
Полное содержимое мышления шифруется и возвращается в полеsignature
. Это поле используется для проверки того, что блоки мышления были сгенерированы Claude при передаче обратно в API.
Строго необходимо отправлять обратно блоки мышления только при использовании инструментов с расширенным мышлением. В противном случае вы можете опустить блоки мышления из предыдущих ходов или позволить API удалить их для вас, если вы передаете их обратно.Если отправляете обратно блоки мышления, мы рекомендуем передавать все обратно, как вы получили, для согласованности и во избежание потенциальных проблем.
- При потоковых ответах подпись добавляется через
signature_delta
внутри событияcontent_block_delta
непосредственно перед событиемcontent_block_stop
. - Значения
signature
значительно длиннее в моделях Claude 4, чем в предыдущих моделях. - Поле
signature
является непрозрачным полем и не должно интерпретироваться или анализироваться - оно существует исключительно для целей проверки. - Значения
signature
совместимы между платформами (API Anthropic, Amazon Bedrock и Vertex AI). Значения, сгенерированные на одной платформе, будут совместимы с другой.
Редактирование мышления
Иногда внутренние рассуждения Claude будут отмечены нашими системами безопасности. Когда это происходит, мы шифруем некоторые или все блокиthinking
и возвращаем их вам как блок redacted_thinking
. Блоки redacted_thinking
расшифровываются при передаче обратно в API, позволяя Claude продолжить свой ответ без потери контекста.
При создании клиентских приложений, использующих расширенное мышление:
- Помните, что редактированные блоки мышления содержат зашифрованное содержимое, которое не читается человеком
- Рассмотрите предоставление простого объяснения, такого как: “Некоторые внутренние рассуждения Claude были автоматически зашифрованы по соображениям безопасности. Это не влияет на качество ответов.”
- Если показываете блоки мышления пользователям, вы можете отфильтровать редактированные блоки, сохраняя обычные блоки мышления
- Будьте прозрачны в том, что использование функций расширенного мышления может иногда приводить к шифрованию некоторых рассуждений
- Реализуйте соответствующую обработку ошибок для изящного управления редактированным мышлением без нарушения вашего UI
Видеть редактированные блоки мышления в вашем выводе - это ожидаемое поведение. Модель все еще может использовать эти редактированные рассуждения для информирования своих ответов, поддерживая при этом защитные ограждения безопасности.Если вам нужно протестировать обработку редактированного мышления в вашем приложении, вы можете использовать эту специальную тестовую строку в качестве промпта:
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
и redacted_thinking
обратно в API в многоходовом разговоре вы должны включить полный неизмененный блок обратно в API для последнего хода ассистента. Это критически важно для поддержания потока рассуждений модели. Мы предлагаем всегда передавать обратно все блоки мышления в API. Для получения дополнительных деталей см. раздел Сохранение блоков мышления выше.
Пример: Работа с редактированными блоками мышления
Пример: Работа с редактированными блоками мышления
Этот пример демонстрирует, как обрабатывать блоки
redacted_thinking
, которые могут появляться в ответах, когда внутренние рассуждения Claude содержат содержимое, отмеченное системами безопасности:Различия в мышлении между версиями моделей
Messages API обрабатывает мышление по-разному в моделях Claude Sonnet 3.7 и Claude 4, в основном в поведении редактирования и суммирования. См. таблицу ниже для сжатого сравнения:Функция | Claude Sonnet 3.7 | Модели Claude 4 |
---|---|---|
Вывод мышления | Возвращает полный вывод мышления | Возвращает суммированное мышление |
Чередующееся мышление | Не поддерживается | Поддерживается с бета-заголовком interleaved-thinking-2025-05-14 |
Ценообразование
Расширенное мышление использует стандартную схему ценообразования токенов:Модель | Базовые входные токены | Записи кэша | Попадания в кэш | Выходные токены |
---|---|---|---|---|
Claude Opus 4.1 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Opus 4 | $15 / MTok | $18.75 / MTok | $1.50 / MTok | $75 / MTok |
Claude Sonnet 4 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
Claude Sonnet 3.7 | $3 / MTok | $3.75 / MTok | $0.30 / MTok | $15 / MTok |
- Токены, используемые во время мышления (выходные токены)
- Блоки мышления из последнего хода ассистента, включенные в последующие запросы (входные токены)
- Стандартные токены текстового вывода
Когда расширенное мышление включено, специализированный системный промпт автоматически включается для поддержки этой функции.
- Входные токены: Токены в вашем исходном запросе (исключает токены мышления из предыдущих ходов)
- Выходные токены (оплачиваемые): Исходные токены мышления, которые Claude сгенерировал внутренне
- Выходные токены (видимые): Суммированные токены мышления, которые вы видите в ответе
- Без платы: Токены, используемые для генерации краткого изложения
Количество оплачиваемых выходных токенов не будет соответствовать видимому количеству токенов в ответе. Вам выставляется счет за полный процесс мышления, а не за краткое изложение, которое вы видите.
Лучшие практики и соображения для расширенного мышления
Работа с бюджетами мышления
- Оптимизация бюджета: Минимальный бюджет составляет 1,024 токена. Мы предлагаем начинать с минимума и увеличивать бюджет мышления постепенно, чтобы найти оптимальный диапазон для вашего случая использования. Более высокие количества токенов обеспечивают более всестороннее рассуждение, но с убывающей отдачей в зависимости от задачи. Увеличение бюджета может улучшить качество ответов за счет увеличения задержки. Для критических задач тестируйте разные настройки, чтобы найти оптимальный баланс. Обратите внимание, что бюджет мышления является целью, а не строгим лимитом — фактическое использование токенов может варьироваться в зависимости от задачи.
- Отправные точки: Начинайте с больших бюджетов мышления (16k+ токенов) для сложных задач и корректируйте в зависимости от ваших потребностей.
- Большие бюджеты: Для бюджетов мышления выше 32k мы рекомендуем использовать пакетную обработку, чтобы избежать проблем с сетью. Запросы, заставляющие модель думать выше 32k токенов, вызывают долго выполняющиеся запросы, которые могут столкнуться с системными таймаутами и лимитами открытых соединений.
- Отслеживание использования токенов: Отслеживайте использование токенов мышления для оптимизации затрат и производительности.
Соображения производительности
- Время ответа: Будьте готовы к потенциально более длительному времени ответа из-за дополнительной обработки, необходимой для процесса рассуждения. Учитывайте, что генерация блоков мышления может увеличить общее время ответа.
- Требования к потоковой передаче: Потоковая передача требуется, когда
max_tokens
больше 21,333. При потоковой передаче будьте готовы обрабатывать как блоки содержимого мышления, так и текстовые блоки по мере их поступления.
Совместимость функций
- Мышление несовместимо с модификациями
temperature
илиtop_k
, а также с принудительным использованием инструментов. - Когда мышление включено, вы можете установить
top_p
в значения между 1 и 0.95. - Вы не можете предварительно заполнять ответы при включенном мышлении.
- Изменения бюджета мышления инвалидируют кэшированные префиксы промптов, которые включают сообщения. Однако кэшированные системные промпты и определения инструментов будут продолжать работать при изменении параметров мышления.
Руководящие принципы использования
- Выбор задач: Используйте расширенное мышление для особенно сложных задач, которые выигрывают от пошагового рассуждения, таких как математика, кодирование и анализ.
- Обработка контекста: Вам не нужно удалять предыдущие блоки мышления самостоятельно. API Anthropic автоматически игнорирует блоки мышления из предыдущих ходов, и они не включаются при вычислении использования контекста.
- Инженерия промптов: Просмотрите наши советы по промптингу расширенного мышления, если вы хотите максимизировать возможности мышления Claude.