Desenvolver casos de teste
Exemplos de casos extremos
Fidelidade da tarefa (análise de sentimento) - avaliação de correspondência exata
Consistência (bot de FAQ) - avaliação de similaridade de cosseno
Relevância e coerência (sumarização) - avaliação ROUGE-L
Tom e estilo (atendimento ao cliente) - escala Likert baseada em LLM
Preservação de privacidade (chatbot médico) - classificação binária baseada em LLM
Utilização de contexto (assistente de conversa) - escala ordinal baseada em LLM
output == golden_answer
key_phrase in output
Exemplo: Classificação baseada em LLM