콘텐츠 조절

Claude를 사용한 콘텐츠 조절 구현 예시를 보려면 콘텐츠 조절 쿡북을 방문하세요.

이 가이드는 애플리케이션 내에서 사용자가 생성한 콘텐츠를 조절하는 데 중점을 둡니다. Claude와의 상호작용을 조절하는 방법에 대한 지침을 찾고 계시다면, 가드레일 가이드를 참조하세요.

Claude로 구축하기 전에

Claude를 콘텐츠 조절에 사용할지 결정하기

다음은 전통적인 ML 또는 규칙 기반 접근 방식 대신 Claude와 같은 LLM을 콘텐츠 조절에 사용해야 하는 주요 지표입니다:

비용 효율적이고 빠른 구현을 원하는 경우

의미론적 이해와 빠른 결정을 모두 원하는 경우

일관된 정책 결정이 필요한 경우

조절 정책이 시간이 지남에 따라 변경되거나 발전할 가능성이 있는 경우

조절 결정에 대한 해석 가능한 추론이 필요한 경우

별도의 모델을 유지하지 않고 다국어 지원이 필요한 경우

멀티모달 지원이 필요한 경우

Anthropic은 모든 Claude 모델이 정직하고, 도움이 되며, 해롭지 않도록 훈련시켰습니다. 이로 인해 Claude는 사용된 프롬프트에 관계없이 특히 위험하다고 간주되는 콘텐츠(당사의 허용 가능한 사용 정책에 따라)를 조절할 수 있습니다. 예를 들어, 사용자가 명시적인 성적 콘텐츠를 게시할 수 있도록 하려는 성인 웹사이트는 프롬프트에서 명시적인 성적 콘텐츠를 조절하지 말라고 지정하더라도 Claude가 여전히 명시적인 콘텐츠에 조절이 필요하다고 표시할 수 있습니다. 조절 솔루션을 구축하기 전에 AUP를 검토하는 것이 좋습니다.

조절할 콘텐츠 예시 생성하기

콘텐츠 조절 솔루션을 개발하기 전에, 먼저 플래그를 지정해야 할 콘텐츠와 플래그를 지정하지 않아야 할 콘텐츠의 예시를 만드세요. 콘텐츠 조절 시스템이 효과적으로 처리하기 어려울 수 있는 경계 사례와 도전적인 시나리오를 포함해야 합니다. 그 후, 예시를 검토하여 잘 정의된 조절 카테고리 목록을 만드세요. 예를 들어, 소셜 미디어 플랫폼에서 생성된 예시에는 다음이 포함될 수 있습니다:

allowed_user_comments = [
    '이 영화는 정말 좋았어요, 정말 즐겼습니다. 주연 배우가 정말 대단했어요!',
    '월요일이 싫어요.',
    '지금은 금에 투자하기 좋은 시기입니다!'
]

disallowed_user_comments = [
    '지금 이 게시물을 삭제하지 않으면 숨어야 할 거야. 너와 너의 가족을 찾아갈 거야.',
    '5G 휴대폰을 멀리하세요!! 그들은 5G를 사용하여 당신을 통제하고 있습니다.',
    '축하합니다! 1,000달러 상당의 기프트 카드에 당첨되셨습니다. 여기를 클릭하여 상품을 받으세요!'
]

# 콘텐츠 조절을 테스트하기 위한 샘플 사용자 댓글
user_comments = allowed_user_comments + disallowed_user_comments

# 콘텐츠 조절에서 안전하지 않은 것으로 간주되는 카테고리 목록
unsafe_categories = [
    '아동 착취',
    '음모론',
    '혐오',
    '무차별 무기', 
    '지적 재산권',
    '비폭력 범죄', 
    '개인정보',
    '자해',
    '성범죄',
    '성적 콘텐츠',
    '전문적 조언',
    '폭력 범죄'
]

이러한 예시를 효과적으로 조절하려면 언어에 대한 미묘한 이해가 필요합니다. 댓글 이 영화는 정말 좋았어요, 정말 즐겼습니다. 주연 배우가 정말 대단했어요!에서 콘텐츠 조절 시스템은 “대단했어요”가 실제 폭력의 표시가 아닌 은유임을 인식해야 합니다. 반대로, 명시적인 폭력 언급이 없음에도 불구하고 지금 이 게시물을 삭제하지 않으면 숨어야 할 거야. 너와 너의 가족을 찾아갈 거야.라는 댓글은 콘텐츠 조절 시스템에 의해 플래그가 지정되어야 합니다. unsafe_categories 목록은 특정 요구 사항에 맞게 사용자 정의할 수 있습니다. 예를 들어, 미성년자가 웹사이트에서 콘텐츠를 생성하지 못하도록 하려면 목록에 “미성년자 게시”를 추가할 수 있습니다.

Claude를 사용하여 콘텐츠를 조절하는 방법

적절한 Claude 모델 선택하기

모델을 선택할 때 데이터 크기를 고려하는 것이 중요합니다. 비용이 문제라면, Claude Haiku 3와 같은 작은 모델은 비용 효율성 때문에 탁월한 선택입니다. 다음은 매월 10억 개의 게시물을 받는 소셜 미디어 플랫폼에서 텍스트를 조절하는 비용 추정치입니다:

콘텐츠 크기
- 월별 게시물: 10억
- 게시물당 문자: 100
- 총 문자: 1,000억
예상 토큰
- 입력 토큰: 286억 (문자당 3.5개 토큰 가정)
- 플래그가 지정된 메시지 비율: 3%
- 플래그가 지정된 메시지당 출력 토큰: 50
- 총 출력 토큰: 15억
Claude Haiku 3 예상 비용
- 입력 토큰 비용: 2,860 MTok * $0.25/MTok = $715
- 출력 토큰 비용: 1,500 MTok * $1.25/MTok = $1,875
- 월별 비용: $715 + $1,875 = $2,590
Claude Sonnet 4 예상 비용
- 입력 토큰 비용: 2,860 MTok * $3.00/MTok = $8,580
- 출력 토큰 비용: 1,500 MTok * $15.00/MTok = $22,500
- 월별 비용: $8,580 + $22,500 = $31,080

실제 비용은 이러한 추정치와 다를 수 있습니다. 이러한 추정치는 배치 처리 섹션에서 강조된 프롬프트를 기반으로 합니다. 응답에서 explanation 필드를 제거하면 출력 토큰을 더욱 줄일 수 있습니다.

강력한 프롬프트 구축하기

Claude를 콘텐츠 조절에 사용하려면 Claude가 애플리케이션의 조절 요구 사항을 이해해야 합니다. 조절 요구 사항을 정의할 수 있는 프롬프트를 작성하는 것부터 시작해 보겠습니다:

import anthropic
import json

# Anthropic 클라이언트 초기화
client = anthropic.Anthropic()

def moderate_message(message, unsafe_categories):
    # 안전하지 않은 카테고리 목록을 각 카테고리가 새 줄에 있는 문자열로 변환
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # Claude를 위한 프롬프트 구성, 메시지와 안전하지 않은 카테고리 포함
    assessment_prompt = f"""
    아래 나열된 안전하지 않은 카테고리를 기반으로 다음 메시지가 조절이 필요한지 판단하세요.
    
    Message:
    <message>{message}</message>

    Unsafe Categories:
    <categories>
    {unsafe_category_str}
    </categories>

    아래 형식을 사용하여 JSON 객체만으로 응답하세요:
    {{
    "violation": <메시지가 조절되어야 하는지 여부를 나타내는 부울 필드>,
    "categories": [위반된 카테고리의 쉼표로 구분된 목록],
    "explanation": [선택 사항. 위반이 있는 경우에만 포함.]
    }}"""

    # 콘텐츠 조절을 위해 Claude에 요청 보내기
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 낮은 비용을 위해 Haiku 모델 사용
        max_tokens=200,
        temperature=0,   # 일관성 향상을 위해 0 온도 사용
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # Claude의 JSON 응답 파싱
    assessment = json.loads(response.content[0].text)
    
    # 평가에서 위반 상태 추출
    contains_violation = assessment['violation']
    
    # 위반이 있으면 카테고리와 설명을 가져오고, 그렇지 않으면 빈 기본값 사용
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation

# 각 댓글을 처리하고 결과 출력
for comment in user_comments:
    print(f"\nComment: {comment}")
    violation, violated_categories, explanation = moderate_message(comment, unsafe_categories)
    
    if violation:
        print(f"Violated Categories: {', '.join(violated_categories)}")
        print(f"Explanation: {explanation}")
    else:
        print("No issues detected.")

이 예시에서 moderate_message 함수는 안전하지 않은 콘텐츠 카테고리와 평가하려는 메시지를 포함하는 평가 프롬프트를 포함합니다. 프롬프트는 Claude에게 우리가 정의한 안전하지 않은 카테고리를 기반으로 메시지가 조절되어야 하는지 평가하도록 요청합니다. 그런 다음 모델의 평가를 파싱하여 위반이 있는지 확인합니다. 위반이 있는 경우, Claude는 위반된 카테고리 목록과 메시지가 안전하지 않은 이유에 대한 설명도 반환합니다.

프롬프트 평가하기

콘텐츠 조절은 분류 문제입니다. 따라서 분류 쿡북에 설명된 것과 동일한 기술을 사용하여 콘텐츠 조절 시스템의 정확도를 결정할 수 있습니다. 추가적인 고려 사항은 콘텐츠 조절을 이진 분류 문제로 처리하는 대신 다양한 위험 수준을 나타내는 여러 카테고리를 만들 수 있다는 것입니다. 여러 위험 수준을 만들면 조절의 적극성을 조정할 수 있습니다. 예를 들어, 고위험으로 간주되는 사용자 쿼리를 자동으로 차단하고, 중간 위험 쿼리가 많은 사용자는 인간 검토를 위해 플래그를 지정할 수 있습니다.

import anthropic
import json

# Anthropic 클라이언트 초기화
client = anthropic.Anthropic()

def assess_risk_level(message, unsafe_categories):
    # 안전하지 않은 카테고리 목록을 각 카테고리가 새 줄에 있는 문자열로 변환
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # Claude를 위한 프롬프트 구성, 메시지, 안전하지 않은 카테고리 및 위험 수준 정의 포함
    assessment_prompt = f"""
    아래 나열된 안전하지 않은 카테고리를 기반으로 다음 메시지의 위험 수준을 평가하세요.
    
Message:
<message>{message}</message>

Unsafe Categories:
<categories>
{unsafe_category_str}
</categories>

정의된 안전하지 않은 카테고리를 기반으로 사용자의 메시지가 조절되어야 한다는 확신에 따라 위험 수준을 할당하세요:

0 - 위험 없음
1 - 낮은 위험
2 - 중간 위험
3 - 높은 위험

아래 형식을 사용하여 JSON 객체만으로 응답하세요:
{{
  "risk_level": <위험 수준을 나타내는 숫자 필드>,
  "categories": [위반된 카테고리의 쉼표로 구분된 목록],
  "explanation": <선택 사항. 위험 수준이 0보다 큰 경우에만 포함>
}}"""

    # 위험 평가를 위해 Claude에 요청 보내기
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 낮은 비용을 위해 Haiku 모델 사용
        max_tokens=200,
        temperature=0,   # 일관성 향상을 위해 0 온도 사용
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # Claude의 JSON 응답 파싱
    assessment = json.loads(response.content[0].text)
    
    # 평가에서 위험 수준, 위반된 카테고리 및 설명 추출
    risk_level = assessment["risk_level"]
    violated_categories = assessment["categories"]
    explanation = assessment.get("explanation")
    
    return risk_level, violated_categories, explanation

# 각 댓글을 처리하고 결과 출력
for comment in user_comments:
    print(f"\nComment: {comment}")
    risk_level, violated_categories, explanation = assess_risk_level(comment, unsafe_categories)
    
    print(f"Risk Level: {risk_level}")
    if violated_categories:
        print(f"Violated Categories: {', '.join(violated_categories)}")
    if explanation:
        print(f"Explanation: {explanation}")

이 코드는 Claude를 사용하여 메시지의 위험 수준을 평가하는 assess_risk_level 함수를 구현합니다. 이 함수는 메시지와 안전하지 않은 카테고리 목록을 입력으로 받습니다. 함수 내에서 평가할 메시지, 안전하지 않은 카테고리 및 위험 수준 평가를 위한 특정 지침을 포함하는 Claude용 프롬프트가 생성됩니다. 프롬프트는 Claude에게 위험 수준, 위반된 카테고리 및 선택적 설명을 포함하는 JSON 객체로 응답하도록 지시합니다. 이 접근 방식은 위험 수준을 할당하여 유연한 콘텐츠 조절을 가능하게 합니다. 평가된 위험 수준에 따라 콘텐츠 필터링을 자동화하거나 인간 검토를 위해 댓글에 플래그를 지정하는 더 큰 시스템에 원활하게 통합될 수 있습니다. 예를 들어, 이 코드를 실행할 때 지금 이 게시물을 삭제하지 않으면 숨어야 할 거야. 너와 너의 가족을 찾아갈 거야. 댓글은 위험한 위협 때문에 고위험으로 식별됩니다. 반면에 5G 휴대폰을 멀리하세요!! 그들은 5G를 사용하여 당신을 통제하고 있습니다. 댓글은 중간 위험으로 분류됩니다.

프롬프트 배포하기

솔루션의 품질에 자신이 생겼다면 프로덕션에 배포할 시간입니다. 프로덕션에서 콘텐츠 조절을 사용할 때 따라야 할 몇 가지 모범 사례는 다음과 같습니다:

사용자에게 명확한 피드백 제공: 콘텐츠 조절로 인해 사용자 입력이 차단되거나 응답에 플래그가 지정된 경우, 사용자가 메시지가 플래그된 이유와 적절하게 다시 표현하는 방법을 이해하는 데 도움이 되는 유익하고 건설적인 피드백을 제공하세요. 위의 코딩 예시에서는 Claude 응답의 explanation 태그를 통해 이를 수행합니다.
조절된 콘텐츠 분석: 조절 시스템에 의해 플래그가 지정된 콘텐츠 유형을 추적하여 트렌드와 개선 가능한 잠재적 영역을 식별하세요.
지속적인 평가 및 개선: 정밀도 및 리콜 추적과 같은 메트릭을 사용하여 콘텐츠 조절 시스템의 성능을 정기적으로 평가하세요. 이 데이터를 사용하여 조절 프롬프트, 키워드 및 평가 기준을 반복적으로 개선하세요.

성능 향상하기

복잡한 시나리오에서는 표준 프롬프트 엔지니어링 기술 외에도 성능을 향상시키기 위한 추가 전략을 고려하는 것이 도움이 될 수 있습니다. 다음은 몇 가지 고급 전략입니다:

주제 정의 및 예시 제공하기

프롬프트에 안전하지 않은 카테고리를 나열하는 것 외에도, 각 카테고리에 대한 정의와 관련 문구를 제공하여 추가 개선을 할 수 있습니다.

import anthropic
import json

# Anthropic 클라이언트 초기화
client = anthropic.Anthropic()

# 콘텐츠 조절을 위해 안전하지 않은 것으로 간주되는 카테고리 사전, 정의 포함
unsafe_category_definitions = {
    '아동 착취': '아동 누드를 묘사하거나 아동의 성적 학대를 가능하게 하거나, 장려하거나, 변명하거나, 묘사하는 콘텐츠.',
    '음모론': """사건, 상황 또는 개인에 대한 근거 없는, 거짓 또는 오해의 소지가 있는 이론을 홍보하거나 지지하는 콘텐츠로, 
        해를 끼치거나 기관이나 사실에 대한 대중의 신뢰를 훼손할 수 있습니다.""",
    '혐오': """보호되는 특성(인종, 피부색, 민족, 국적, 장애, 종교적 소속, 카스트, 성적 지향, 성별, 성 정체성 및 심각한 질병)을 
        기반으로 사람들에게 혐오적인 콘텐츠, 또는 부정적인 고정관념을 영속시키는 콘텐츠.""",
    '무차별 무기': '대량 살상 무기의 제작을 가능하게 하는 콘텐츠.', 
    '지적 재산권': '제3자의 지적 재산권을 침해하는 콘텐츠.',
    '비폭력 범죄': '비폭력 범죄의 실행을 가능하게 하거나, 장려하거나, 변명하는 콘텐츠.', 
    '개인정보': '개인에 대한 민감한 개인 정보를 포함하는 콘텐츠.',
    '자해': '의도적인 자해 행위를 가능하게 하거나, 장려하거나, 변명하는 콘텐츠.',
    '성범죄': '성범죄의 실행을 가능하게 하거나, 장려하거나, 변명하는 콘텐츠.',
    '성적 콘텐츠': '성행위에 대한 에로틱한 설명이나 명시적인 묘사를 포함하는 콘텐츠.',
    '전문적 조언': """재정, 의료 또는 법률 조언을 포함하는 콘텐츠. 
        재정 조언에는 투자, 주식, 채권 또는 기타 재정 계획에 대한 지침이 포함됩니다.""",
    '폭력 범죄': '폭력 범죄의 실행을 가능하게 하거나, 장려하거나, 변명하는 콘텐츠.', 
}


def moderate_message_with_definitions(message, unsafe_category_definitions):
    # 각 카테고리와 그 정의가 새 줄에 있는 안전하지 않은 카테고리 문자열 형식 지정
    unsafe_category_str = '\n'.join(f'{category}: {definition}' 
        for category, definition in unsafe_category_definitions.items()
    )
    
    # Claude를 위한 프롬프트 구성, 메시지와 안전하지 않은 카테고리 포함
    assessment_prompt = f"""아래 나열된 안전하지 않은 카테고리를 기반으로 다음 메시지가 조절이 필요한지 판단하세요.

Message:
<message>{message}</message>

Unsafe Categories and Their Definitions:
<categories>
{unsafe_category_str}
</categories>

모든 안전하지 않은 카테고리와 그 정의를 기억하는 것이 중요합니다.

아래 형식을 사용하여 JSON 객체만으로 응답하세요:
{{
  "violation": <메시지가 조절되어야 하는지 여부를 나타내는 부울 필드>,
  "categories": [위반된 카테고리의 쉼표로 구분된 목록],
  "explanation": [선택 사항. 위반이 있는 경우에만 포함.]
}}"""

    # 콘텐츠 조절을 위해 Claude에 요청 보내기
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 낮은 비용을 위해 Haiku 모델 사용
        max_tokens=200,
        temperature=0,   # 일관성 향상을 위해 0 온도 사용
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # Claude의 JSON 응답 파싱
    assessment = json.loads(response.content[0].text)
    
    # 평가에서 위반 상태 추출
    contains_violation = assessment['violation']
    
    # 위반이 있으면 카테고리와 설명을 가져오고, 그렇지 않으면 빈 기본값 사용
    violated_categories = assessment.get('categories', []) if contains_violation else []
    explanation = assessment.get('explanation') if contains_violation else None
    
    return contains_violation, violated_categories, explanation


# 각 댓글을 처리하고 결과 출력
for comment in user_comments:
    print(f"\nComment: {comment}")
    violation, violated_categories, explanation = moderate_message_with_definitions(comment, unsafe_category_definitions)
    
    if violation:
        print(f"Violated Categories: {', '.join(violated_categories)}")
        print(f"Explanation: {explanation}")
    else:
        print("No issues detected.")

moderate_message_with_definitions 함수는 각 안전하지 않은 카테고리를 자세한 정의와 쌍으로 만들 수 있도록 하여 이전의 moderate_message 함수를 확장합니다. 이는 원래 함수의 unsafe_categories 목록을 unsafe_category_definitions 사전으로 대체하여 코드에서 발생합니다. 이 사전은 각 안전하지 않은 카테고리를 해당 정의에 매핑합니다. 카테고리 이름과 정의 모두 프롬프트에 포함됩니다. 주목할 만한 점은 전문적 조언 카테고리에 대한 정의가 이제 금지되어야 하는 재정 조언의 유형을 지정한다는 것입니다. 그 결과, 이전에 moderate_message 평가를 통과한 지금은 금에 투자하기 좋은 시기입니다!라는 댓글이 이제 위반을 트리거합니다.

배치 처리 고려하기

실시간 조절이 필요하지 않은 상황에서 비용을 줄이려면 메시지를 배치로 조절하는 것을 고려하세요. 프롬프트의 컨텍스트 내에 여러 메시지를 포함하고, Claude에게 어떤 메시지가 조절되어야 하는지 평가하도록 요청하세요.

import anthropic
import json

# Anthropic 클라이언트 초기화
client = anthropic.Anthropic()

def batch_moderate_messages(messages, unsafe_categories):
    # 안전하지 않은 카테고리 목록을 각 카테고리가 새 줄에 있는 문자열로 변환
    unsafe_category_str = '\n'.join(unsafe_categories)
    
    # 각 메시지가 XML과 유사한 태그로 래핑되고 ID가 부여된 메시지 문자열 형식 지정
    messages_str = '\n'.join([f'<message id={idx}>{msg}</message>' for idx, msg in enumerate(messages)])
    
    # Claude를 위한 프롬프트 구성, 메시지와 안전하지 않은 카테고리 포함
    assessment_prompt = f"""아래 나열된 안전하지 않은 카테고리를 기반으로 조절할 메시지를 결정하세요.

Messages:
<messages>
{messages_str}
</messages>

Unsafe categories and their definitions:
<categories>
{unsafe_category_str}
</categories>

아래 형식을 사용하여 JSON 객체만으로 응답하세요:
{{
  "violations": [
    {{
      "id": <메시지 id>,
      "categories": [위반된 카테고리 목록],
      "explanation": <위반이 있는 이유에 대한 설명>
    }},
    ...
  ]
}}

중요 참고 사항:
- 모든 메시지를 위반 여부에 대해 분석하는 것을 잊지 마세요.
- 합리적으로 적용되는 위반 사항을 원하는 수만큼 선택하세요."""

    # 콘텐츠 조절을 위해 Claude에 요청 보내기
    response = client.messages.create(
        model="claude-3-haiku-20240307",  # 낮은 비용을 위해 Haiku 모델 사용
        max_tokens=2048,  # 배치를 처리하기 위해 최대 토큰 수 증가
        temperature=0,    # 일관성 향상을 위해 0 온도 사용
        messages=[
            {"role": "user", "content": assessment_prompt}
        ]
    )
    
    # Claude의 JSON 응답 파싱
    assessment = json.loads(response.content[0].text)
    return assessment


# 댓글 배치를 처리하고 응답 받기
response_obj = batch_moderate_messages(user_comments, unsafe_categories)

# 감지된 각 위반에 대한 결과 출력
for violation in response_obj['violations']:
    print(f"""Comment: {user_comments[violation['id']]}
Violated Categories: {', '.join(violation['categories'])}
Explanation: {violation['explanation']}
""")

이 예시에서 batch_moderate_messages 함수는 단일 Claude API 호출로 전체 메시지 배치의 조절을 처리합니다. 함수 내에서 평가할 메시지 목록, 정의된 안전하지 않은 콘텐츠 카테고리 및 해당 설명을 포함하는 프롬프트가 생성됩니다. 프롬프트는 Claude에게 위반이 포함된 모든 메시지를 나열하는 JSON 객체를 반환하도록 지시합니다. 응답의 각 메시지는 입력 목록에서 메시지의 위치에 해당하는 id로 식별됩니다. 특정 요구 사항에 맞는 최적의 배치 크기를 찾으려면 약간의 실험이 필요할 수 있습니다. 배치 크기가 클수록 비용을 낮출 수 있지만 품질이 약간 저하될 수도 있습니다. 또한 더 긴 응답을 수용하기 위해 Claude API 호출에서 max_tokens 매개변수를 늘려야 할 수도 있습니다. 선택한 모델이 출력할 수 있는 최대 토큰 수에 대한 자세한 내용은 모델 비교 페이지를 참조하세요.