A moderação de conteúdo é um aspecto crítico para manter um ambiente seguro, respeitoso e produtivo em aplicações digitais. Neste guia, discutiremos como o Claude pode ser usado para moderar conteúdo dentro da sua aplicação digital.
Visite nosso cookbook de moderação de conteúdo para ver um exemplo de implementação de moderação de conteúdo usando o Claude.
Você quer uma implementação rápida e econômica
Você deseja tanto compreensão semântica quanto decisões rápidas
Você precisa de decisões consistentes de política
Suas políticas de moderação provavelmente mudarão ou evoluirão ao longo do tempo
Você requer raciocínio interpretável para suas decisões de moderação
Você precisa de suporte multilíngue sem manter modelos separados
Você requer suporte multimodal
Este filme foi ótimo, eu realmente gostei. O ator principal arrasou!
, o sistema de moderação de conteúdo precisa reconhecer que “arrasou” é uma metáfora, não uma indicação de violência real. Por outro lado, apesar da falta de menções explícitas à violência, o comentário Delete este post agora ou é melhor você se esconder. Estou indo atrás de você e sua família.
deve ser sinalizado pelo sistema de moderação de conteúdo.
A lista unsafe_categories
pode ser personalizada para atender às suas necessidades específicas. Por exemplo, se você deseja impedir que menores criem conteúdo em seu site, você poderia adicionar “Postagem de Menor” à lista.
explanation
da resposta.moderate_message
contém um prompt de avaliação que inclui as categorias de conteúdo inseguro e a mensagem que desejamos avaliar. O prompt pede ao Claude para avaliar se a mensagem deve ser moderada, com base nas categorias inseguras que definimos.
A avaliação do modelo é então analisada para determinar se há uma violação. Se houver uma violação, o Claude também retorna uma lista de categorias violadas, bem como uma explicação sobre por que a mensagem é insegura.
assess_risk_level
que usa o Claude para avaliar o nível de risco de uma mensagem. A função aceita uma mensagem e uma lista de categorias inseguras como entradas.
Dentro da função, um prompt é gerado para o Claude, incluindo a mensagem a ser avaliada, as categorias inseguras e instruções específicas para avaliar o nível de risco. O prompt instrui o Claude a responder com um objeto JSON que inclui o nível de risco, as categorias violadas e uma explicação opcional.
Esta abordagem permite moderação de conteúdo flexível atribuindo níveis de risco. Ela pode ser perfeitamente integrada a um sistema maior para automatizar a filtragem de conteúdo ou sinalizar comentários para revisão humana com base em seu nível de risco avaliado. Por exemplo, ao executar este código, o comentário Delete este post agora ou é melhor você se esconder. Estou indo atrás de você e sua família.
é identificado como alto risco devido à sua ameaça perigosa. Por outro lado, o comentário Fique longe dos celulares 5G!! Eles estão usando 5G para controlar você.
é categorizado como risco médio.
explanation
na resposta do Claude.
moderate_message_with_definitions
expande a função anterior moderate_message
permitindo que cada categoria insegura seja pareada com uma definição detalhada. Isso ocorre no código substituindo a lista unsafe_categories
da função original por um dicionário unsafe_category_definitions
. Este dicionário mapeia cada categoria insegura para sua definição correspondente. Tanto os nomes das categorias quanto suas definições são incluídos no prompt.
Notavelmente, a definição para a categoria Conselhos Especializados
agora especifica os tipos de conselhos financeiros que devem ser proibidos. Como resultado, o comentário É um ótimo momento para investir em ouro!
, que anteriormente passou pela avaliação moderate_message
, agora aciona uma violação.
batch_moderate_messages
lida com a moderação de um lote inteiro de mensagens com uma única chamada à API do Claude.
Dentro da função, um prompt é criado que inclui a lista de mensagens para avaliar, as categorias de conteúdo inseguro definidas e suas descrições. O prompt direciona o Claude a retornar um objeto JSON listando todas as mensagens que contêm violações. Cada mensagem na resposta é identificada por seu id, que corresponde à posição da mensagem na lista de entrada.
Tenha em mente que encontrar o tamanho ideal de lote para suas necessidades específicas pode requerer alguma experimentação. Embora tamanhos de lote maiores possam reduzir custos, eles também podem levar a uma ligeira diminuição na qualidade. Além disso, você pode precisar aumentar o parâmetro max_tokens
na chamada da API do Claude para acomodar respostas mais longas. Para detalhes sobre o número máximo de tokens que seu modelo escolhido pode gerar, consulte a página de comparação de modelos.