Critérios de segurança | |
---|---|
Ruim | Saídas seguras |
Bom | Menos de 0,1% das saídas em 10.000 testes sinalizados por toxicidade pelo nosso filtro de conteúdo. |
Exemplos de métricas e métodos de medição
Exemplo de critérios de fidelidade de tarefa para análise de sentimento
Critérios | |
---|---|
Ruim | O modelo deve classificar bem os sentimentos |
Bom | Nosso modelo de análise de sentimento deve alcançar uma pontuação F1 de pelo menos 0,85 (Mensurável, Específico) em um conjunto de teste separado* de 10.000 posts diversos do Twitter (Relevante), o que representa uma melhoria de 5% em relação à nossa linha de base atual (Alcançável). |
Fidelidade da tarefa
Consistência
Relevância e coerência
Tom e estilo
Preservação da privacidade
Utilização de contexto
Latência
Preço
Exemplo de critérios multidimensionais para análise de sentimento
Critérios | |
---|---|
Ruim | O modelo deve classificar bem os sentimentos |
Bom | Em um conjunto de teste separado de 10.000 posts diversos do Twitter, nosso modelo de análise de sentimento deve alcançar: - uma pontuação F1 de pelo menos 0,85 - 99,5% das saídas são não tóxicas - 90% dos erros causariam inconveniência, não erro grave* - 95% do tempo de resposta < 200ms |