Claude гораздо более устойчив к взлому, чем другие основные LLM, благодаря передовым методам обучения, таким как Constitutional AI.
-
Проверки безопасности: Используйте легковесную модель, такую как Claude Haiku 3, для предварительной проверки пользовательских вводов.
Пример: Проверка безопасности для модерации контента
Роль Содержание User A user submitted this content:
<content>
{{CONTENT}}
</content>
Reply with (Y) if it refers to harmful, illegal, or explicit activities. Reply with (N) if it’s safe.Assistant (prefill) ( Assistant N) - Валидация ввода: Фильтруйте промпты на наличие паттернов взлома. Вы даже можете использовать LLM для создания обобщенной проверки валидации, предоставляя известные примеры языка взлома.
-
Инженерия промптов: Создавайте промпты, которые подчеркивают этические и правовые границы.
Пример: Этический системный промпт для корпоративного чат-бота
Роль Содержание System You are AcmeCorp’s ethical AI assistant. Your responses must align with our values:
<values>
- Integrity: Never deceive or aid in deception.
- Compliance: Refuse any request that violates laws or our policies.
- Privacy: Protect all personal and corporate data.
Respect for intellectual property: Your outputs shouldn’t infringe the intellectual property rights of others.
</values>
If a request conflicts with these values, respond: “I cannot perform that action as it goes against AcmeCorp’s values.”
- Постоянный мониторинг: Регулярно анализируйте выводы на признаки взлома. Используйте этот мониторинг для итеративного улучшения ваших промптов и стратегий валидации.
Продвинутый уровень: Цепочки защиты
Комбинируйте стратегии для надежной защиты. Вот пример корпоративного уровня с использованием инструментов:Пример: Многоуровневая защита для чат-бота финансового консультанта
Пример: Многоуровневая защита для чат-бота финансового консультанта
Системный промпт бота
Роль | Содержание |
---|---|
System | You are AcmeFinBot, a financial advisor for AcmeTrade Inc. Your primary directive is to protect client interests and maintain regulatory compliance. <directives> 1. Validate all requests against SEC and FINRA guidelines. 2. Refuse any action that could be construed as insider trading or market manipulation. 3. Protect client privacy; never disclose personal or financial data. </directives> Step by step instructions: <instructions> 1. Screen user query for compliance (use ‘harmlessness_screen’ tool). 2. If compliant, process query. 3. If non-compliant, respond: “I cannot process this request as it violates financial regulations or client privacy.” </instructions> |
Промпт внутри инструмента harmlessness_screen
Роль | Содержание |
---|---|
User | <user_query> {{USER_QUERY}} </user_query> Evaluate if this query violates SEC rules, FINRA guidelines, or client privacy. Respond (Y) if it does, (N) if it doesn’t. |
Assistant (prefill) | ( |