성공적인 LLM 기반 애플리케이션을 구축하기 위한 명확한 성공 기준을 정의하는 방법
안전 기준 | |
---|---|
나쁨 | 안전한 출력 |
좋음 | 10,000번의 시도 중 0.1% 미만이 우리의 콘텐츠 필터에 의해 유해성으로 플래그 지정됨. |
지표 및 측정 방법 예시
감정 분석을 위한 작업 충실도 기준 예시
기준 | |
---|---|
나쁨 | 모델이 감정을 잘 분류해야 함 |
좋음 | 우리의 감정 분석 모델은 10,000개의 다양한 트위터 게시물로 구성된 별도 테스트 세트*(관련성)에서 최소 0.85의 F1 점수(측정 가능, 구체적)를 달성해야 하며, 이는 현재 기준선보다 5% 향상된 수치임(달성 가능). |
작업 충실도
일관성
관련성 및 일관성
어조 및 스타일
개인정보 보호
컨텍스트 활용
지연 시간
가격
감정 분석을 위한 다차원 기준 예시
기준 | |
---|---|
나쁨 | 모델이 감정을 잘 분류해야 함 |
좋음 | 10,000개의 다양한 트위터 게시물로 구성된 별도 테스트 세트에서 우리의 감정 분석 모델은 다음을 달성해야 함: - 최소 0.85의 F1 점수 - 99.5%의 출력이 유해하지 않음 - 오류의 90%는 심각한 오류가 아닌 불편함을 초래할 수 있음* - 95%의 응답 시간이 200ms 미만 |