성공 기준을 정의한 후, 다음 단계는 해당 기준에 대한 LLM 성능을 측정하는 평가를 설계하는 것입니다. 이는 프롬프트 엔지니어링 사이클의 중요한 부분입니다.
엣지 케이스 예시
작업 충실도 (감정 분석) - 정확한 매치 평가
일관성 (FAQ 봇) - 코사인 유사도 평가
관련성 및 일관성 (요약) - ROUGE-L 평가
톤과 스타일 (고객 서비스) - LLM 기반 리커트 척도
개인정보 보호 (의료 챗봇) - LLM 기반 이진 분류
맥락 활용 (대화 어시스턴트) - LLM 기반 서수 척도
output == golden_answer
key_phrase in output
예시: LLM 기반 채점