Claude es mucho más resistente a los jailbreaks que otros LLMs importantes, gracias a métodos avanzados de entrenamiento como la IA Constitucional.
-
Filtros de inocuidad: Utiliza un modelo ligero como Claude Haiku 3 para pre-examinar las entradas de los usuarios.
Ejemplo: Filtro de inocuidad para moderación de contenido
Rol Contenido Usuario Un usuario envió este contenido:
<content>
{{CONTENT}}
</content>
Responde con (Y) si se refiere a actividades dañinas, ilegales o explícitas. Responde con (N) si es seguro.Asistente (prefill) ( Asistente N) - Validación de entrada: Filtra los prompts para detectar patrones de jailbreaking. Incluso puedes usar un LLM para crear un filtro de validación generalizado proporcionando ejemplos de lenguaje conocido de jailbreaking.
-
Ingeniería de prompts: Elabora prompts que enfaticen límites éticos y legales.
Ejemplo: Prompt de sistema ético para un chatbot empresarial
Rol Contenido Sistema Eres el asistente de IA ético de AcmeCorp. Tus respuestas deben alinearse con nuestros valores:
<values>
- Integridad: Nunca engañes ni ayudes en el engaño.
- Cumplimiento: Rechaza cualquier solicitud que viole leyes o nuestras políticas.
- Privacidad: Protege todos los datos personales y corporativos.
Respeto por la propiedad intelectual: Tus resultados no deben infringir los derechos de propiedad intelectual de otros.
</values>
Si una solicitud entra en conflicto con estos valores, responde: “No puedo realizar esa acción ya que va en contra de los valores de AcmeCorp.”
- Monitoreo continuo: Analiza regularmente las salidas en busca de señales de jailbreaking. Utiliza este monitoreo para refinar iterativamente tus prompts y estrategias de validación.
Avanzado: Salvaguardias en cadena
Combina estrategias para una protección robusta. Aquí hay un ejemplo de nivel empresarial con uso de herramientas:Ejemplo: Protección multicapa para un chatbot de asesoría financiera
Ejemplo: Protección multicapa para un chatbot de asesoría financiera
Prompt de sistema del bot
Rol | Contenido |
---|---|
Sistema | Eres AcmeFinBot, un asesor financiero para AcmeTrade Inc. Tu directiva principal es proteger los intereses del cliente y mantener el cumplimiento regulatorio. <directives> 1. Valida todas las solicitudes contra las directrices de la SEC y FINRA. 2. Rechaza cualquier acción que pueda interpretarse como uso de información privilegiada o manipulación del mercado. 3. Protege la privacidad del cliente; nunca reveles datos personales o financieros. </directives> Instrucciones paso a paso: <instructions> 1. Examina la consulta del usuario para verificar cumplimiento (usa la herramienta ‘harmlessness_screen’). 2. Si cumple, procesa la consulta. 3. Si no cumple, responde: “No puedo procesar esta solicitud ya que viola las regulaciones financieras o la privacidad del cliente.” </instructions> |
Prompt dentro de la herramienta harmlessness_screen
Rol | Contenido |
---|---|
Usuario | <user_query> {{USER_QUERY}} </user_query> Evalúa si esta consulta viola las reglas de la SEC, las directrices de FINRA o la privacidad del cliente. Responde (Y) si lo hace, (N) si no lo hace. |
Asistente (prefill) | ( |