Visita nuestro libro de recetas de moderación de contenido para ver un ejemplo de implementación de moderación de contenido usando Claude.
Esta guía está enfocada en moderar contenido generado por usuarios dentro de tu aplicación. Si buscas orientación sobre cómo moderar interacciones con Claude, consulta nuestra guía de barreras de protección.
Antes de construir con Claude
Decide si usar Claude para la moderación de contenido
Aquí hay algunos indicadores clave de que deberías usar un LLM como Claude en lugar de un enfoque tradicional basado en ML o reglas para la moderación de contenido:Quieres una implementación rentable y rápida
Quieres una implementación rentable y rápida
Los métodos tradicionales de ML requieren recursos de ingeniería significativos, experiencia en ML y costos de infraestructura. Los sistemas de moderación humana incurren en costos aún más altos. Con Claude, puedes tener un sistema de moderación sofisticado funcionando en una fracción del tiempo y por una fracción del precio.
Deseas tanto comprensión semántica como decisiones rápidas
Deseas tanto comprensión semántica como decisiones rápidas
Los enfoques tradicionales de ML, como los modelos de bolsa de palabras o la simple coincidencia de patrones, a menudo luchan por entender el tono, la intención y el contexto del contenido. Si bien los sistemas de moderación humana sobresalen en la comprensión del significado semántico, requieren tiempo para que el contenido sea revisado. Claude cierra esta brecha combinando la comprensión semántica con la capacidad de entregar decisiones de moderación rápidamente.
Necesitas decisiones de política consistentes
Necesitas decisiones de política consistentes
Al aprovechar sus capacidades avanzadas de razonamiento, Claude puede interpretar y aplicar pautas de moderación complejas de manera uniforme. Esta consistencia ayuda a garantizar un trato justo de todo el contenido, reduciendo el riesgo de decisiones de moderación inconsistentes o sesgadas que pueden socavar la confianza del usuario.
Es probable que tus políticas de moderación cambien o evolucionen con el tiempo
Es probable que tus políticas de moderación cambien o evolucionen con el tiempo
Una vez que se ha establecido un enfoque tradicional de ML, cambiarlo es una tarea laboriosa e intensiva en datos. Por otro lado, a medida que evolucionan tus necesidades de producto o cliente, Claude puede adaptarse fácilmente a cambios o adiciones en las políticas de moderación sin un extenso reetiquetado de datos de entrenamiento.
Requieres un razonamiento interpretable para tus decisiones de moderación
Requieres un razonamiento interpretable para tus decisiones de moderación
Si deseas proporcionar a los usuarios o reguladores explicaciones claras detrás de las decisiones de moderación, Claude puede generar justificaciones detalladas y coherentes. Esta transparencia es importante para generar confianza y garantizar la responsabilidad en las prácticas de moderación de contenido.
Necesitas soporte multilingüe sin mantener modelos separados
Necesitas soporte multilingüe sin mantener modelos separados
Los enfoques tradicionales de ML generalmente requieren modelos separados o procesos de traducción extensos para cada idioma compatible. La moderación humana requiere contratar una fuerza laboral que domine cada idioma compatible. Las capacidades multilingües de Claude le permiten clasificar tickets en varios idiomas sin necesidad de modelos separados o procesos de traducción extensos, simplificando la moderación para bases de clientes globales.
Requieres soporte multimodal
Requieres soporte multimodal
Las capacidades multimodales de Claude le permiten analizar e interpretar contenido tanto en texto como en imágenes. Esto lo convierte en una herramienta versátil para una moderación de contenido integral en entornos donde diferentes tipos de medios necesitan ser evaluados juntos.
Anthropic ha entrenado todos los modelos de Claude para ser honestos, útiles e inofensivos. Esto puede resultar en que Claude modere contenido considerado particularmente peligroso (en línea con nuestra Política de Uso Aceptable), independientemente del prompt utilizado. Por ejemplo, un sitio web para adultos que quiere permitir a los usuarios publicar contenido sexual explícito puede encontrar que Claude aún marca el contenido explícito como que requiere moderación, incluso si especifican en su prompt que no modere contenido sexual explícito. Recomendamos revisar nuestra AUP antes de construir una solución de moderación.
Genera ejemplos de contenido para moderar
Antes de desarrollar una solución de moderación de contenido, primero crea ejemplos de contenido que debería ser marcado y contenido que no debería ser marcado. Asegúrate de incluir casos límite y escenarios desafiantes que puedan ser difíciles de manejar efectivamente para un sistema de moderación de contenido. Después, revisa tus ejemplos para crear una lista bien definida de categorías de moderación. Por ejemplo, los ejemplos generados por una plataforma de redes sociales podrían incluir lo siguiente:Esta película fue genial, realmente la disfruté. ¡El actor principal realmente la mató!
, el sistema de moderación de contenido necesita reconocer que “la mató” es una metáfora, no una indicación de violencia real. Por el contrario, a pesar de la falta de menciones explícitas de violencia, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
debería ser marcado por el sistema de moderación de contenido.
La lista unsafe_categories
puede ser personalizada para adaptarse a tus necesidades específicas. Por ejemplo, si deseas evitar que menores creen contenido en tu sitio web, podrías añadir “Publicación de Menores de Edad” a la lista.
Cómo moderar contenido usando Claude
Selecciona el modelo Claude adecuado
Al seleccionar un modelo, es importante considerar el tamaño de tus datos. Si los costos son una preocupación, un modelo más pequeño como Claude Haiku 3 es una excelente opción debido a su rentabilidad. A continuación se muestra una estimación del costo para moderar texto para una plataforma de redes sociales que recibe mil millones de publicaciones por mes:-
Tamaño del contenido
- Publicaciones por mes: 1bn
- Caracteres por publicación: 100
- Total de caracteres: 100bn
-
Tokens estimados
- Tokens de entrada: 28.6bn (asumiendo 1 token por cada 3.5 caracteres)
- Porcentaje de mensajes marcados: 3%
- Tokens de salida por mensaje marcado: 50
- Total de tokens de salida: 1.5bn
-
Costo estimado de Claude Haiku 3
- Costo de tokens de entrada: 2,860 MTok * $0.25/MTok = $715
- Costo de tokens de salida: 1,500 MTok * $1.25/MTok = $1,875
- Costo mensual: $715 + $1,875 = $2,590
-
Costo estimado de Claude Sonnet 4
- Costo de tokens de entrada: 2,860 MTok * $3.00/MTok = $8,580
- Costo de tokens de salida: 1,500 MTok * $15.00/MTok = $22,500
- Costo mensual: $8,580 + $22,500 = $31,080
Los costos reales pueden diferir de estas estimaciones. Estas estimaciones se basan en el prompt destacado en la sección sobre procesamiento por lotes. Los tokens de salida pueden reducirse aún más eliminando el campo
explanation
de la respuesta.Construye un prompt sólido
Para usar Claude para la moderación de contenido, Claude debe entender los requisitos de moderación de tu aplicación. Comencemos escribiendo un prompt que te permita definir tus necesidades de moderación:moderate_message
contiene un prompt de evaluación que incluye las categorías de contenido inseguro y el mensaje que deseamos evaluar. El prompt le pide a Claude que evalúe si el mensaje debe ser moderado, basado en las categorías inseguras que definimos.
La evaluación del modelo se analiza luego para determinar si hay una violación. Si hay una violación, Claude también devuelve una lista de categorías violadas, así como una explicación de por qué el mensaje es inseguro.
Evalúa tu prompt
La moderación de contenido es un problema de clasificación. Por lo tanto, puedes usar las mismas técnicas descritas en nuestro libro de recetas de clasificación para determinar la precisión de tu sistema de moderación de contenido. Una consideración adicional es que en lugar de tratar la moderación de contenido como un problema de clasificación binaria, puedes crear múltiples categorías para representar varios niveles de riesgo. Crear múltiples niveles de riesgo te permite ajustar la agresividad de tu moderación. Por ejemplo, es posible que desees bloquear automáticamente las consultas de usuarios que se consideren de alto riesgo, mientras que los usuarios con muchas consultas de riesgo medio son marcados para revisión humana.assess_risk_level
que utiliza Claude para evaluar el nivel de riesgo de un mensaje. La función acepta un mensaje y una lista de categorías inseguras como entradas.
Dentro de la función, se genera un prompt para Claude, que incluye el mensaje a evaluar, las categorías inseguras e instrucciones específicas para evaluar el nivel de riesgo. El prompt instruye a Claude a responder con un objeto JSON que incluye el nivel de riesgo, las categorías violadas y una explicación opcional.
Este enfoque permite una moderación de contenido flexible mediante la asignación de niveles de riesgo. Se puede integrar perfectamente en un sistema más grande para automatizar el filtrado de contenido o marcar comentarios para revisión humana según su nivel de riesgo evaluado. Por ejemplo, al ejecutar este código, el comentario Borra esta publicación ahora o mejor escóndete. Voy por ti y tu familia.
se identifica como de alto riesgo debido a su peligrosa amenaza. Por el contrario, el comentario ¡Mantente alejado de los teléfonos celulares 5G! Están usando el 5G para controlarte.
se categoriza como de riesgo medio.
Implementa tu prompt
Una vez que estés seguro de la calidad de tu solución, es hora de implementarla en producción. Aquí hay algunas mejores prácticas a seguir cuando se usa la moderación de contenido en producción:-
Proporciona retroalimentación clara a los usuarios: Cuando la entrada del usuario es bloqueada o una respuesta es marcada debido a la moderación de contenido, proporciona retroalimentación informativa y constructiva para ayudar a los usuarios a entender por qué su mensaje fue marcado y cómo pueden reformularlo adecuadamente. En los ejemplos de código anteriores, esto se hace a través de la etiqueta
explanation
en la respuesta de Claude. - Analiza el contenido moderado: Mantén un registro de los tipos de contenido que está marcando tu sistema de moderación para identificar tendencias y áreas potenciales de mejora.
- Evalúa y mejora continuamente: Evalúa regularmente el rendimiento de tu sistema de moderación de contenido utilizando métricas como el seguimiento de precisión y exhaustividad. Utiliza estos datos para refinar iterativamente tus prompts de moderación, palabras clave y criterios de evaluación.
Mejora el rendimiento
En escenarios complejos, puede ser útil considerar estrategias adicionales para mejorar el rendimiento más allá de las técnicas estándar de ingeniería de prompts. Aquí hay algunas estrategias avanzadas:Define temas y proporciona ejemplos
Además de enumerar las categorías inseguras en el prompt, se pueden realizar mejoras adicionales proporcionando definiciones y frases relacionadas con cada categoría.moderate_message_with_definitions
amplía la función anterior moderate_message
al permitir que cada categoría insegura se empareje con una definición detallada. Esto ocurre en el código al reemplazar la lista unsafe_categories
de la función original con un diccionario unsafe_category_definitions
. Este diccionario mapea cada categoría insegura a su definición correspondiente. Tanto los nombres de las categorías como sus definiciones se incluyen en el prompt.
Notablemente, la definición para la categoría Asesoramiento Especializado
ahora especifica los tipos de asesoramiento financiero que deberían estar prohibidos. Como resultado, el comentario ¡Es un buen momento para invertir en oro!
, que anteriormente pasó la evaluación de moderate_message
, ahora desencadena una violación.
Considera el procesamiento por lotes
Para reducir costos en situaciones donde la moderación en tiempo real no es necesaria, considera moderar mensajes en lotes. Incluye múltiples mensajes dentro del contexto del prompt y pide a Claude que evalúe qué mensajes deben ser moderados.batch_moderate_messages
maneja la moderación de un lote completo de mensajes con una sola llamada a la API de Claude.
Dentro de la función, se crea un prompt que incluye la lista de mensajes a evaluar, las categorías de contenido inseguro definidas y sus descripciones. El prompt dirige a Claude a devolver un objeto JSON que enumera todos los mensajes que contienen violaciones. Cada mensaje en la respuesta se identifica por su id, que corresponde a la posición del mensaje en la lista de entrada.
Ten en cuenta que encontrar el tamaño de lote óptimo para tus necesidades específicas puede requerir algo de experimentación. Si bien los tamaños de lote más grandes pueden reducir los costos, también podrían conducir a una ligera disminución en la calidad. Además, es posible que debas aumentar el parámetro max_tokens
en la llamada a la API de Claude para acomodar respuestas más largas. Para obtener detalles sobre el número máximo de tokens que tu modelo elegido puede generar, consulta la página de comparación de modelos.