- Gérer de manière proactive les limites de taux et les coûts
- Prendre des décisions intelligentes sur le routage des modèles
- Optimiser les prompts pour une longueur spécifique
Comment compter les tokens des messages
Le point de terminaison comptage de tokens accepte la même liste structurée d’entrées que pour la création d’un message, y compris la prise en charge des prompts système, des outils, des images et des PDF. La réponse contient le nombre total de tokens d’entrée.Le nombre de tokens doit être considéré comme une estimation. Dans certains cas, le nombre réel de tokens d’entrée utilisés lors de la création d’un message peut différer légèrement.
Modèles pris en charge
Le point de terminaison de comptage de tokens prend en charge les modèles suivants :- Claude Opus 4
- Claude Sonnet 4
- Claude Sonnet 3.7
- Claude Sonnet 3.5
- Claude Haiku 3.5
- Claude Haiku 3
- Claude Opus 3
Compter les tokens dans les messages de base
JSON
Compter les tokens dans les messages avec des outils
Les comptages de tokens pour les outils serveur ne s’appliquent qu’au premier appel d’échantillonnage.
JSON
Compter les tokens dans les messages avec des images
JSON
Compter les tokens dans les messages avec réflexion étendue
Voir ici pour plus de détails sur la façon dont la fenêtre de contexte est calculée avec la réflexion étendue
- Les blocs de réflexion des tours d’assistant précédents sont ignorés et ne comptent pas dans vos tokens d’entrée
- La réflexion du tour d’assistant actuel compte dans vos tokens d’entrée
JSON
Compter les tokens dans les messages avec des PDF
Le comptage de tokens prend en charge les PDF avec les mêmes limitations que l’API Messages.
JSON
Tarification et limites de taux
Le comptage de tokens est gratuit à utiliser mais soumis à des limites de requêtes par minute basées sur votre niveau d’utilisation. Si vous avez besoin de limites plus élevées, contactez le service commercial via la Console Anthropic.Niveau d’utilisation | Requêtes par minute (RPM) |
---|---|
1 | 100 |
2 | 2 000 |
3 | 4 000 |
4 | 8 000 |
Le comptage de tokens et la création de messages ont des limites de taux séparées et indépendantes — l’utilisation de l’un ne compte pas dans les limites de l’autre.
FAQ
Le comptage de tokens utilise-t-il la mise en cache des prompts ?
Le comptage de tokens utilise-t-il la mise en cache des prompts ?
Non, le comptage de tokens fournit une estimation sans utiliser la logique de mise en cache. Bien que vous puissiez fournir des blocs
cache_control
dans votre demande de comptage de tokens, la mise en cache des prompts ne se produit que lors de la création réelle du message.