Modèles pris en charge
La pensée étendue est prise en charge dans les modèles suivants :- Claude Opus 4.1 (
claude-opus-4-1-20250805
) - Claude Opus 4 (
claude-opus-4-20250514
) - Claude Sonnet 4 (
claude-sonnet-4-20250514
) - Claude Sonnet 3.7 (
claude-3-7-sonnet-20250219
)
Le comportement de l’API diffère entre les modèles Claude Sonnet 3.7 et Claude 4, mais les formes de l’API restent exactement les mêmes.Pour plus d’informations, voir Différences dans la pensée entre les versions de modèles.
Comment fonctionne la pensée étendue
Lorsque la pensée étendue est activée, Claude crée des blocs de contenuthinking
où il produit son raisonnement interne. Claude intègre les insights de ce raisonnement avant de créer une réponse finale.
La réponse de l’API inclura des blocs de contenu thinking
, suivis de blocs de contenu text
.
Voici un exemple du format de réponse par défaut :
Comment utiliser la pensée étendue
Voici un exemple d’utilisation de la pensée étendue dans l’API Messages :thinking
, avec le paramètre type
défini sur enabled
et le budget_tokens
sur un budget de tokens spécifié pour la pensée étendue.
Le paramètre budget_tokens
détermine le nombre maximum de tokens que Claude est autorisé à utiliser pour son processus de raisonnement interne. Dans les modèles Claude 4, cette limite s’applique aux tokens de pensée complets, et non à la sortie résumée. Des budgets plus importants peuvent améliorer la qualité de la réponse en permettant une analyse plus approfondie pour les problèmes complexes, bien que Claude puisse ne pas utiliser tout le budget alloué, surtout dans les plages supérieures à 32k.
budget_tokens
doit être défini sur une valeur inférieure à max_tokens
. Cependant, lors de l’utilisation de la pensée entrelacée avec les outils, vous pouvez dépasser cette limite car la limite de tokens devient votre fenêtre de contexte entière (200k tokens).
Pensée résumée
Avec la pensée étendue activée, l’API Messages pour les modèles Claude 4 retourne un résumé du processus de pensée complet de Claude. La pensée résumée fournit tous les avantages d’intelligence de la pensée étendue, tout en prévenant les abus. Voici quelques considérations importantes pour la pensée résumée :- Vous êtes facturé pour les tokens de pensée complets générés par la demande originale, pas les tokens de résumé.
- Le nombre de tokens de sortie facturés ne correspondra pas au nombre de tokens que vous voyez dans la réponse.
- Les premières lignes de sortie de pensée sont plus verbeuses, fournissant un raisonnement détaillé qui est particulièrement utile à des fins d’ingénierie de prompt.
- Alors qu’Anthropic cherche à améliorer la fonctionnalité de pensée étendue, le comportement de résumé est sujet à changement.
- Le résumé préserve les idées clés du processus de pensée de Claude avec une latence ajoutée minimale, permettant une expérience utilisateur diffusable et une migration facile des modèles Claude Sonnet 3.7 vers Claude 4.
- Le résumé est traité par un modèle différent de celui que vous ciblez dans vos demandes. Le modèle de pensée ne voit pas la sortie résumée.
Claude Sonnet 3.7 continue de retourner la sortie de pensée complète.Dans les rares cas où vous avez besoin d’accès à la sortie de pensée complète pour les modèles Claude 4, contactez notre équipe de vente.
Diffusion de la pensée
Vous pouvez diffuser les réponses de pensée étendue en utilisant les événements envoyés par le serveur (SSE). Lorsque la diffusion est activée pour la pensée étendue, vous recevez le contenu de pensée via les événementsthinking_delta
.
Pour plus de documentation sur la diffusion via l’API Messages, voir Diffusion de Messages.
Voici comment gérer la diffusion avec la pensée :
Lors de l’utilisation de la diffusion avec la pensée activée, vous pourriez remarquer que le texte arrive parfois en gros blocs alternant avec une livraison plus petite, token par token. C’est un comportement attendu, surtout pour le contenu de pensée.Le système de diffusion doit traiter le contenu par lots pour des performances optimales, ce qui peut résulter en ce modèle de livraison “par blocs”, avec des délais possibles entre les événements de diffusion. Nous travaillons continuellement à améliorer cette expérience, avec des mises à jour futures axées sur rendre le contenu de pensée plus fluide à diffuser.
Pensée étendue avec l’utilisation d’outils
La pensée étendue peut être utilisée aux côtés de l’utilisation d’outils, permettant à Claude de raisonner à travers la sélection d’outils et le traitement des résultats. Lors de l’utilisation de la pensée étendue avec l’utilisation d’outils, soyez conscient des limitations suivantes :-
Limitation du choix d’outil : L’utilisation d’outils avec la pensée ne prend en charge que
tool_choice: {"type": "auto"}
(par défaut) outool_choice: {"type": "none"}
. L’utilisation detool_choice: {"type": "any"}
outool_choice: {"type": "tool", "name": "..."}
résultera en une erreur car ces options forcent l’utilisation d’outils, ce qui est incompatible avec la pensée étendue. -
Préservation des blocs de pensée : Pendant l’utilisation d’outils, vous devez passer les blocs
thinking
de retour à l’API pour le dernier message assistant. Incluez le bloc complet non modifié de retour à l’API pour maintenir la continuité du raisonnement.
Exemple : Passer des blocs de pensée avec des résultats d'outils
Exemple : Passer des blocs de pensée avec des résultats d'outils
Voici un exemple pratique montrant comment préserver les blocs de pensée lors de la fourniture de résultats d’outils :La réponse de l’API inclura des blocs de pensée, de texte et d’utilisation d’outils :Maintenant continuons la conversation et utilisons l’outilLa réponse de l’API n’inclura maintenant que du texte
Préservation des blocs de pensée
Pendant l’utilisation d’outils, vous devez passer les blocsthinking
de retour à l’API, et vous devez inclure le bloc complet non modifié de retour à l’API. Ceci est critique pour maintenir le flux de raisonnement du modèle et l’intégrité de la conversation.
Bien que vous puissiez omettre les blocs
thinking
des tours assistant
précédents, nous suggérons de toujours passer tous les blocs de pensée de retour à l’API pour toute conversation multi-tours. L’API va :- Filtrer automatiquement les blocs de pensée fournis
- Utiliser les blocs de pensée pertinents nécessaires pour préserver le raisonnement du modèle
- Facturer seulement les tokens d’entrée pour les blocs montrés à Claude
- Continuité du raisonnement : Les blocs de pensée capturent le raisonnement étape par étape de Claude qui a mené aux demandes d’outils. Quand vous postez des résultats d’outils, inclure la pensée originale assure que Claude peut continuer son raisonnement d’où il s’est arrêté.
- Maintenance du contexte : Bien que les résultats d’outils apparaissent comme des messages utilisateur dans la structure de l’API, ils font partie d’un flux de raisonnement continu. Préserver les blocs de pensée maintient ce flux conceptuel à travers plusieurs appels API. Pour plus d’informations sur la gestion du contexte, voir notre guide sur les fenêtres de contexte.
thinking
, toute la séquence de blocs thinking
consécutifs doit correspondre aux sorties générées par le modèle pendant la demande originale ; vous ne pouvez pas réarranger ou modifier la séquence de ces blocs.
Pensée entrelacée
La pensée étendue avec l’utilisation d’outils dans les modèles Claude 4 prend en charge la pensée entrelacée, qui permet à Claude de penser entre les appels d’outils et de faire un raisonnement plus sophistiqué après avoir reçu les résultats d’outils. Avec la pensée entrelacée, Claude peut :- Raisonner sur les résultats d’un appel d’outil avant de décider quoi faire ensuite
- Enchaîner plusieurs appels d’outils avec des étapes de raisonnement entre eux
- Prendre des décisions plus nuancées basées sur des résultats intermédiaires
interleaved-thinking-2025-05-14
à votre demande API.
Voici quelques considérations importantes pour la pensée entrelacée :
- Avec la pensée entrelacée, le
budget_tokens
peut dépasser le paramètremax_tokens
, car il représente le budget total à travers tous les blocs de pensée dans un tour assistant. - La pensée entrelacée n’est prise en charge que pour les outils utilisés via l’API Messages.
- La pensée entrelacée est prise en charge pour les modèles Claude 4 seulement, avec l’en-tête beta
interleaved-thinking-2025-05-14
. - Les appels directs à l’API d’Anthropic vous permettent de passer
interleaved-thinking-2025-05-14
dans les demandes à n’importe quel modèle, sans effet. - Sur les plateformes tierces (par exemple, Amazon Bedrock et Vertex AI), si vous passez
interleaved-thinking-2025-05-14
à n’importe quel modèle autre que Claude Opus 4.1, Opus 4, ou Sonnet 4, votre demande échouera.
Utilisation d'outils sans pensée entrelacée
Utilisation d'outils sans pensée entrelacée
- Claude pense une fois au début pour comprendre la tâche
- Prend toutes les décisions d’utilisation d’outils à l’avance
- Quand les résultats d’outils sont retournés, Claude fournit immédiatement une réponse sans pensée supplémentaire
Utilisation d'outils avec pensée entrelacée
Utilisation d'outils avec pensée entrelacée
- Claude pense à la tâche initialement
- Après avoir reçu le résultat de la calculatrice, Claude peut penser à nouveau à ce que ce résultat signifie
- Claude décide ensuite comment interroger la base de données basé sur le premier résultat
- Après avoir reçu le résultat de la base de données, Claude pense une fois de plus aux deux résultats avant de formuler une réponse finale
- Le budget de pensée est distribué à travers tous les blocs de pensée dans le tour
Pensée étendue avec mise en cache de prompt
La mise en cache de prompt avec la pensée a plusieurs considérations importantes :Les tâches de pensée étendue prennent souvent plus de 5 minutes à compléter. Considérez utiliser la durée de cache de 1 heure pour maintenir les hits de cache à travers des sessions de pensée plus longues et des flux de travail multi-étapes.
- Les blocs de pensée des tours précédents sont supprimés du contexte, ce qui peut affecter les points de rupture du cache
- Lors de la continuation de conversations avec l’utilisation d’outils, les blocs de pensée sont mis en cache et comptent comme tokens d’entrée quand lus depuis le cache
- Ceci crée un compromis : bien que les blocs de pensée ne consomment pas d’espace de fenêtre de contexte visuellement, ils comptent toujours vers votre utilisation de tokens d’entrée quand mis en cache
- Si la pensée devient désactivée, les demandes échoueront si vous passez du contenu de pensée dans le tour d’utilisation d’outil actuel. Dans d’autres contextes, le contenu de pensée passé à l’API est simplement ignoré
- Les changements aux paramètres de pensée (activé/désactivé ou allocation de budget) invalident les points de rupture de cache de message
- La pensée entrelacée amplifie l’invalidation de cache, car les blocs de pensée peuvent survenir entre plusieurs appels d’outils
- Les prompts système et les outils restent mis en cache malgré les changements de paramètres de pensée ou la suppression de blocs
Bien que les blocs de pensée soient supprimés pour la mise en cache et les calculs de contexte, ils doivent être préservés lors de la continuation de conversations avec l’utilisation d’outils, surtout avec la pensée entrelacée.
Comprendre le comportement de mise en cache des blocs de pensée
Lors de l’utilisation de la pensée étendue avec l’utilisation d’outils, les blocs de pensée exhibent un comportement de mise en cache spécifique qui affecte le comptage de tokens : Comment ça fonctionne :- La mise en cache ne survient que quand vous faites une demande subséquente qui inclut des résultats d’outils
- Quand la demande subséquente est faite, l’historique de conversation précédent (incluant les blocs de pensée) peut être mis en cache
- Ces blocs de pensée mis en cache comptent comme tokens d’entrée dans vos métriques d’utilisation quand lus depuis le cache
- Quand un bloc utilisateur non-résultat-d’outil est inclus, tous les blocs de pensée précédents sont ignorés et supprimés du contexte
- Ce comportement de mise en cache arrive automatiquement, même sans marqueurs
cache_control
explicites - Ce comportement est cohérent que vous utilisiez la pensée régulière ou la pensée entrelacée
Mise en cache de prompt système (préservée quand la pensée change)
Mise en cache de prompt système (préservée quand la pensée change)
Mise en cache de messages (invalidée quand la pensée change)
Mise en cache de messages (invalidée quand la pensée change)
cache_creation_input_tokens=1370
et cache_read_input_tokens=0
, prouvant que la mise en cache basée sur les messages est invalidée quand les paramètres de pensée changent.Tokens max et taille de fenêtre de contexte avec la pensée étendue
Dans les anciens modèles Claude (antérieurs à Claude Sonnet 3.7), si la somme des tokens de prompt etmax_tokens
dépassait la fenêtre de contexte du modèle, le système ajustait automatiquement max_tokens
pour s’adapter dans la limite de contexte. Cela signifiait que vous pouviez définir une grande valeur max_tokens
et le système la réduirait silencieusement selon les besoins.
Avec les modèles Claude 3.7 et 4, max_tokens
(qui inclut votre budget de pensée quand la pensée est activée) est appliqué comme une limite stricte. Le système retournera maintenant une erreur de validation si tokens de prompt + max_tokens
dépasse la taille de la fenêtre de contexte.
Vous pouvez lire notre guide sur les fenêtres de contexte pour une plongée plus approfondie.
La fenêtre de contexte avec la pensée étendue
Lors du calcul de l’utilisation de la fenêtre de contexte avec la pensée activée, il y a quelques considérations à connaître :- Les blocs de pensée des tours précédents sont supprimés et ne comptent pas vers votre fenêtre de contexte
- La pensée du tour actuel compte vers votre limite
max_tokens
pour ce tour
La fenêtre de contexte avec la pensée étendue et l’utilisation d’outils
Lors de l’utilisation de la pensée étendue avec l’utilisation d’outils, les blocs de pensée doivent être explicitement préservés et retournés avec les résultats d’outils. Le calcul de fenêtre de contexte effective pour la pensée étendue avec l’utilisation d’outils devient :Gestion des tokens avec la pensée étendue
Étant donné le comportement de la fenêtre de contexte etmax_tokens
avec les modèles de pensée étendue Claude 3.7 et 4, vous pourriez avoir besoin de :
- Surveiller et gérer plus activement votre utilisation de tokens
- Ajuster les valeurs
max_tokens
à mesure que votre longueur de prompt change - Potentiellement utiliser les endpoints de comptage de tokens plus fréquemment
- Être conscient que les blocs de pensée précédents ne s’accumulent pas dans votre fenêtre de contexte
Chiffrement de la pensée
Le contenu de pensée complet est chiffré et retourné dans le champsignature
. Ce champ est utilisé pour vérifier que les blocs de pensée ont été générés par Claude quand passés de retour à l’API.
Il n’est strictement nécessaire de renvoyer les blocs de pensée que lors de l’utilisation d’outils avec la pensée étendue. Sinon vous pouvez omettre les blocs de pensée des tours précédents, ou laisser l’API les supprimer pour vous si vous les passez de retour.Si vous renvoyez des blocs de pensée, nous recommandons de tout passer de retour comme vous l’avez reçu pour la cohérence et pour éviter des problèmes potentiels.
- Lors de la diffusion de réponses, la signature est ajoutée via un
signature_delta
à l’intérieur d’un événementcontent_block_delta
juste avant l’événementcontent_block_stop
. - Les valeurs
signature
sont significativement plus longues dans les modèles Claude 4 que dans les modèles précédents. - Le champ
signature
est un champ opaque et ne devrait pas être interprété ou analysé - il existe uniquement à des fins de vérification. - Les valeurs
signature
sont compatibles à travers les plateformes (APIs Anthropic, Amazon Bedrock, et Vertex AI). Les valeurs générées sur une plateforme seront compatibles avec une autre.
Rédaction de la pensée
Occasionnellement, le raisonnement interne de Claude sera signalé par nos systèmes de sécurité. Quand cela survient, nous chiffrons une partie ou la totalité du blocthinking
et vous le retournons comme un bloc redacted_thinking
. Les blocs redacted_thinking
sont déchiffrés quand passés de retour à l’API, permettant à Claude de continuer sa réponse sans perdre le contexte.
Lors de la construction d’applications orientées client qui utilisent la pensée étendue :
- Soyez conscient que les blocs de pensée rédactés contiennent du contenu chiffré qui n’est pas lisible par l’humain
- Considérez fournir une explication simple comme : “Une partie du raisonnement interne de Claude a été automatiquement chiffrée pour des raisons de sécurité. Cela n’affecte pas la qualité des réponses.”
- Si vous montrez des blocs de pensée aux utilisateurs, vous pouvez filtrer les blocs rédactés tout en préservant les blocs de pensée normaux
- Soyez transparent que l’utilisation des fonctionnalités de pensée étendue peut occasionnellement résulter en un raisonnement chiffré
- Implémentez une gestion d’erreur appropriée pour gérer gracieusement la pensée rédactée sans casser votre UI
Voir des blocs de pensée rédactés dans votre sortie est un comportement attendu. Le modèle peut toujours utiliser ce raisonnement rédacté pour informer ses réponses tout en maintenant les garde-fous de sécurité.Si vous avez besoin de tester la gestion de pensée rédactée dans votre application, vous pouvez utiliser cette chaîne de test spéciale comme votre prompt :
ANTHROPIC_MAGIC_STRING_TRIGGER_REDACTED_THINKING_46C9A13E193C177646C7398A98432ECCCE4C1253D5E2D82641AC0E52CC2876CB
thinking
et redacted_thinking
de retour à l’API dans une conversation multi-tours, vous devez inclure le bloc complet non modifié de retour à l’API pour le dernier tour assistant. Ceci est critique pour maintenir le flux de raisonnement du modèle. Nous suggérons de toujours passer tous les blocs de pensée de retour à l’API. Pour plus de détails, voir la section Préservation des blocs de pensée ci-dessus.
Exemple : Travailler avec des blocs de pensée rédactés
Exemple : Travailler avec des blocs de pensée rédactés
Cet exemple démontre comment gérer les blocs
redacted_thinking
qui peuvent apparaître dans les réponses quand le raisonnement interne de Claude contient du contenu signalé par les systèmes de sécurité :Différences dans la pensée entre les versions de modèles
L’API Messages gère la pensée différemment entre les modèles Claude Sonnet 3.7 et Claude 4, principalement dans le comportement de rédaction et de résumé. Voir le tableau ci-dessous pour une comparaison condensée :Fonctionnalité | Claude Sonnet 3.7 | Modèles Claude 4 |
---|---|---|
Sortie de Pensée | Retourne la sortie de pensée complète | Retourne la pensée résumée |
Pensée Entrelacée | Non prise en charge | Prise en charge avec l’en-tête beta interleaved-thinking-2025-05-14 |
Tarification
La pensée étendue utilise le schéma de tarification de tokens standard :Modèle | Tokens d’Entrée de Base | Écritures de Cache | Hits de Cache | Tokens de Sortie |
---|---|---|---|---|
Claude Opus 4.1 | 15$ / MTok | 18,75$ / MTok | 1,50$ / MTok | 75$ / MTok |
Claude Opus 4 | 15$ / MTok | 18,75$ / MTok | 1,50$ / MTok | 75$ / MTok |
Claude Sonnet 4 | 3$ / MTok | 3,75$ / MTok | 0,30$ / MTok | 15$ / MTok |
Claude Sonnet 3.7 | 3$ / MTok | 3,75$ / MTok | 0,30$ / MTok | 15$ / MTok |
- Les tokens utilisés pendant la pensée (tokens de sortie)
- Les blocs de pensée du dernier tour assistant inclus dans les demandes subséquentes (tokens d’entrée)
- Les tokens de sortie de texte standard
Quand la pensée étendue est activée, un prompt système spécialisé est automatiquement inclus pour prendre en charge cette fonctionnalité.
- Tokens d’entrée : Tokens dans votre demande originale (exclut les tokens de pensée des tours précédents)
- Tokens de sortie (facturés) : Les tokens de pensée originaux que Claude a générés en interne
- Tokens de sortie (visibles) : Les tokens de pensée résumés que vous voyez dans la réponse
- Aucun frais : Tokens utilisés pour générer le résumé
Le nombre de tokens de sortie facturés ne correspondra pas au nombre de tokens visibles dans la réponse. Vous êtes facturé pour le processus de pensée complet, pas le résumé que vous voyez.
Meilleures pratiques et considérations pour la pensée étendue
Travailler avec les budgets de pensée
- Optimisation du budget : Le budget minimum est de 1 024 tokens. Nous suggérons de commencer au minimum et d’augmenter le budget de pensée de manière incrémentale pour trouver la plage optimale pour votre cas d’usage. Des comptes de tokens plus élevés permettent un raisonnement plus complet mais avec des rendements décroissants selon la tâche. Augmenter le budget peut améliorer la qualité de la réponse au compromis d’une latence accrue. Pour les tâches critiques, testez différents paramètres pour trouver l’équilibre optimal. Notez que le budget de pensée est un objectif plutôt qu’une limite stricte—l’utilisation réelle de tokens peut varier selon la tâche.
- Points de départ : Commencez avec des budgets de pensée plus importants (16k+ tokens) pour les tâches complexes et ajustez selon vos besoins.
- Gros budgets : Pour les budgets de pensée au-dessus de 32k, nous recommandons d’utiliser le traitement par lots pour éviter les problèmes de réseau. Les demandes poussant le modèle à penser au-dessus de 32k tokens causent des demandes de longue durée qui pourraient se heurter aux timeouts système et aux limites de connexion ouverte.
- Suivi de l’utilisation de tokens : Surveillez l’utilisation de tokens de pensée pour optimiser les coûts et les performances.
Considérations de performance
- Temps de réponse : Préparez-vous à des temps de réponse potentiellement plus longs dus au traitement supplémentaire requis pour le processus de raisonnement. Tenez compte que générer des blocs de pensée peut augmenter le temps de réponse global.
- Exigences de diffusion : La diffusion est requise quand
max_tokens
est supérieur à 21 333. Lors de la diffusion, préparez-vous à gérer à la fois les blocs de contenu de pensée et de texte à mesure qu’ils arrivent.
Compatibilité des fonctionnalités
- La pensée n’est pas compatible avec les modifications de
temperature
outop_k
ainsi qu’avec l’utilisation forcée d’outils. - Quand la pensée est activée, vous pouvez définir
top_p
à des valeurs entre 1 et 0,95. - Vous ne pouvez pas pré-remplir les réponses quand la pensée est activée.
- Les changements au budget de pensée invalident les préfixes de prompt mis en cache qui incluent des messages. Cependant, les prompts système mis en cache et les définitions d’outils continueront de fonctionner quand les paramètres de pensée changent.
Directives d’utilisation
- Sélection de tâche : Utilisez la pensée étendue pour des tâches particulièrement complexes qui bénéficient d’un raisonnement étape par étape comme les mathématiques, le codage, et l’analyse.
- Gestion du contexte : Vous n’avez pas besoin de supprimer les blocs de pensée précédents vous-même. L’API Anthropic ignore automatiquement les blocs de pensée des tours précédents et ils ne sont pas inclus lors du calcul de l’utilisation du contexte.
- Ingénierie de prompt : Consultez nos conseils de prompting pour la pensée étendue si vous voulez maximiser les capacités de pensée de Claude.