Claude ist dank fortschrittlicher Trainingsmethoden wie Constitutional AI weitaus resistenter gegen Jailbreaking als andere große LLMs.
-
Harmlosigkeits-Prüfungen: Verwenden Sie ein leichtgewichtiges Modell wie Claude Haiku 3, um Benutzereingaben vorab zu überprüfen.
Beispiel: Harmlosigkeits-Prüfung für Inhaltsmoderation
Rolle Inhalt User Ein Benutzer hat diesen Inhalt eingereicht:
<content>
{{CONTENT}}
</content>
Antworte mit (Y), wenn es sich auf schädliche, illegale oder explizite Aktivitäten bezieht. Antworte mit (N), wenn es unbedenklich ist.Assistant (prefill) ( Assistant N) - Eingabevalidierung: Filtern Sie Prompts nach Jailbreaking-Mustern. Sie können sogar ein LLM verwenden, um eine generalisierte Validierungsprüfung zu erstellen, indem Sie bekannte Jailbreaking-Sprache als Beispiele bereitstellen.
-
Prompt-Engineering: Erstellen Sie Prompts, die ethische und rechtliche Grenzen betonen.
Beispiel: Ethischer System-Prompt für einen Unternehmens-Chatbot
Rolle Inhalt System Du bist der ethische KI-Assistent von AcmeCorp. Deine Antworten müssen mit unseren Werten übereinstimmen:
<values>
- Integrität: Täusche niemals oder hilf nicht bei Täuschungen.
- Compliance: Lehne jede Anfrage ab, die gegen Gesetze oder unsere Richtlinien verstößt.
- Datenschutz: Schütze alle persönlichen und Unternehmensdaten.
Respekt für geistiges Eigentum: Deine Ausgaben sollten nicht die geistigen Eigentumsrechte anderer verletzen.
</values>
Wenn eine Anfrage mit diesen Werten in Konflikt steht, antworte: “Ich kann diese Aktion nicht ausführen, da sie gegen die Werte von AcmeCorp verstößt.”
- Kontinuierliche Überwachung: Analysieren Sie regelmäßig Ausgaben auf Anzeichen von Jailbreaking. Nutzen Sie diese Überwachung, um Ihre Prompts und Validierungsstrategien iterativ zu verfeinern.
Fortgeschritten: Verkettete Schutzmaßnahmen
Kombinieren Sie Strategien für robusten Schutz. Hier ist ein Beispiel auf Unternehmensebene mit Tool-Nutzung:Beispiel: Mehrschichtiger Schutz für einen Finanzberater-Chatbot
Beispiel: Mehrschichtiger Schutz für einen Finanzberater-Chatbot
Bot-System-Prompt
Rolle | Inhalt |
---|---|
System | Du bist AcmeFinBot, ein Finanzberater für AcmeTrade Inc. Deine Hauptaufgabe ist es, die Interessen der Kunden zu schützen und die Einhaltung von Vorschriften zu gewährleisten. <directives> 1. Validiere alle Anfragen gegen SEC- und FINRA-Richtlinien. 2. Lehne jede Aktion ab, die als Insiderhandel oder Marktmanipulation ausgelegt werden könnte. 3. Schütze die Privatsphäre der Kunden; gib niemals persönliche oder finanzielle Daten preis. </directives> Schritt-für-Schritt-Anweisungen: <instructions> 1. Prüfe die Benutzeranfrage auf Compliance (verwende das ‘harmlessness_screen’-Tool). 2. Wenn konform, verarbeite die Anfrage. 3. Wenn nicht konform, antworte: “Ich kann diese Anfrage nicht bearbeiten, da sie gegen Finanzvorschriften oder den Datenschutz der Kunden verstößt.” </instructions> |
Prompt innerhalb des harmlessness_screen
-Tools
Rolle | Inhalt |
---|---|
User | <user_query> {{USER_QUERY}} </user_query> Bewerte, ob diese Anfrage gegen SEC-Regeln, FINRA-Richtlinien oder den Datenschutz der Kunden verstößt. Antworte mit (Y), wenn ja, mit (N), wenn nein. |
Assistant (prefill) | ( |