Atténuer les jailbreaks et les injections de prompt

Les jailbreaks et les injections de prompt se produisent lorsque les utilisateurs élaborent des prompts pour exploiter les vulnérabilités du modèle, dans le but de générer du contenu inapproprié. Bien que Claude soit intrinsèquement résistant à de telles attaques, voici des étapes supplémentaires pour renforcer vos garde-fous, particulièrement contre les utilisations qui violent nos Conditions d’utilisation ou notre Politique d’utilisation.

Claude est beaucoup plus résistant aux jailbreaks que les autres grands LLM, grâce à des méthodes d’entraînement avancées comme l’IA Constitutionnelle.

Filtres d’innocuité : Utilisez un modèle léger comme Claude Haiku 3 pour pré-filtrer les entrées des utilisateurs.

Exemple : Filtre d'innocuité pour la modération de contenu

Rôle	Contenu
User	Un utilisateur a soumis ce contenu : <content> {{CONTENT}} </content> Répondez par (Y) s’il fait référence à des activités nuisibles, illégales ou explicites. Répondez par (N) s’il est sûr.
Assistant (prefill)	(
Assistant	N)

Validation des entrées : Filtrez les prompts pour détecter les modèles de jailbreaking. Vous pouvez même utiliser un LLM pour créer un filtre de validation généralisé en fournissant des exemples connus de langage de jailbreaking.

Ingénierie de prompt : Élaborez des prompts qui mettent l’accent sur les limites éthiques et légales.

Exemple : Prompt système éthique pour un chatbot d'entreprise

Rôle	Contenu
System	Vous êtes l’assistant IA éthique d’AcmeCorp. Vos réponses doivent s’aligner sur nos valeurs : <values> - Intégrité : Ne jamais tromper ou aider à la tromperie. - Conformité : Refuser toute demande qui viole les lois ou nos politiques. - Confidentialité : Protéger toutes les données personnelles et d’entreprise. Respect de la propriété intellectuelle : Vos productions ne doivent pas enfreindre les droits de propriété intellectuelle d’autrui. </values> Si une demande entre en conflit avec ces valeurs, répondez : “Je ne peux pas effectuer cette action car elle va à l’encontre des valeurs d’AcmeCorp.”

Rôle

Contenu

System

Vous êtes l’assistant IA éthique d’AcmeCorp. Vos réponses doivent s’aligner sur nos valeurs :
<values>
- Intégrité : Ne jamais tromper ou aider à la tromperie.
- Conformité : Refuser toute demande qui viole les lois ou nos politiques.
- Confidentialité : Protéger toutes les données personnelles et d’entreprise.
Respect de la propriété intellectuelle : Vos productions ne doivent pas enfreindre les droits de propriété intellectuelle d’autrui.
</values>

Si une demande entre en conflit avec ces valeurs, répondez : “Je ne peux pas effectuer cette action car elle va à l’encontre des valeurs d’AcmeCorp.”

Ajustez les réponses et envisagez de limiter ou de bannir les utilisateurs qui s’engagent de façon répétée dans un comportement abusif tentant de contourner les garde-fous de Claude. Par exemple, si un utilisateur particulier déclenche le même type de refus plusieurs fois (par exemple, “sortie bloquée par la politique de filtrage de contenu”), informez l’utilisateur que ses actions violent les politiques d’utilisation pertinentes et prenez des mesures en conséquence.

Surveillance continue : Analysez régulièrement les sorties pour détecter les signes de jailbreaking. Utilisez cette surveillance pour affiner itérativement vos prompts et stratégies de validation.

Avancé : Protections en chaîne

Combinez les stratégies pour une protection robuste. Voici un exemple de niveau entreprise avec utilisation d’outils :

Exemple : Protection multicouche pour un chatbot de conseiller financier

Prompt système du bot

Rôle	Contenu
System	Vous êtes AcmeFinBot, un conseiller financier pour AcmeTrade Inc. Votre directive principale est de protéger les intérêts des clients et de maintenir la conformité réglementaire. <directives> 1. Validez toutes les demandes par rapport aux directives de la SEC et de la FINRA. 2. Refusez toute action qui pourrait être interprétée comme du délit d’initié ou de la manipulation de marché. 3. Protégez la vie privée des clients ; ne divulguez jamais de données personnelles ou financières. </directives> Instructions étape par étape : <instructions> 1. Filtrez la requête de l’utilisateur pour la conformité (utilisez l’outil ‘harmlessness_screen’). 2. Si conforme, traitez la requête. 3. Si non conforme, répondez : “Je ne peux pas traiter cette demande car elle viole les réglementations financières ou la confidentialité du client.” </instructions>

Rôle

Contenu

System

Vous êtes AcmeFinBot, un conseiller financier pour AcmeTrade Inc. Votre directive principale est de protéger les intérêts des clients et de maintenir la conformité réglementaire.

<directives>
1. Validez toutes les demandes par rapport aux directives de la SEC et de la FINRA.
2. Refusez toute action qui pourrait être interprétée comme du délit d’initié ou de la manipulation de marché.
3. Protégez la vie privée des clients ; ne divulguez jamais de données personnelles ou financières.
</directives>

Instructions étape par étape :
<instructions>
1. Filtrez la requête de l’utilisateur pour la conformité (utilisez l’outil ‘harmlessness_screen’).
2. Si conforme, traitez la requête.
3. Si non conforme, répondez : “Je ne peux pas traiter cette demande car elle viole les réglementations financières ou la confidentialité du client.”
</instructions>

Prompt dans l’outil `harmlessness_screen`

Rôle	Contenu
User	<user_query> {{USER_QUERY}} </user_query> Évaluez si cette requête viole les règles de la SEC, les directives de la FINRA ou la confidentialité du client. Répondez (Y) si c’est le cas, (N) si ce n’est pas le cas.
Assistant (prefill)	(

En superposant ces stratégies, vous créez une défense robuste contre les jailbreaks et les injections de prompt, garantissant que vos applications alimentées par Claude maintiennent les plus hauts standards de sécurité et de conformité.

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

Atténuer les jailbreaks et les injections de prompt

Avancé : Protections en chaîne

Prompt système du bot

Prompt dans l’outil `harmlessness_screen`

Premiers pas

Modèles et tarification

Découvrir Claude

Capacités

Outils

Protocole de Contexte de Modèle (MCP)

Cas d'usage

Ingénierie de prompts

Tester et évaluer

Renforcer les garde-fous

Centre juridique

​Avancé : Protections en chaîne

Avancé : Protections en chaîne