Посетите наш сборник рецептов по модерации контента, чтобы увидеть пример реализации модерации контента с использованием Claude.
Это руководство сосредоточено на модерации пользовательского контента в вашем приложении. Если вы ищете рекомендации по модерации взаимодействий с Claude, обратитесь к нашему руководству по защитным ограничениям.
Перед началом работы с Claude
Решите, стоит ли использовать Claude для модерации контента
Вот несколько ключевых индикаторов того, что вам следует использовать LLM, такой как Claude, вместо традиционного подхода на основе ML или правил для модерации контента:Вы хотите экономичную и быструю реализацию
Вы хотите экономичную и быструю реализацию
Традиционные методы ML требуют значительных инженерных ресурсов, опыта в ML и инфраструктурных затрат. Системы модерации с участием людей влекут за собой еще более высокие затраты. С Claude вы можете запустить сложную систему модерации в кратчайшие сроки и за небольшую часть стоимости.
Вы желаете как семантического понимания, так и быстрых решений
Вы желаете как семантического понимания, так и быстрых решений
Традиционные подходы ML, такие как модели “мешка слов” или простое сопоставление шаблонов, часто не могут понять тон, намерение и контекст содержания. В то время как системы модерации с участием людей отлично справляются с пониманием семантического значения, они требуют времени для проверки контента. Claude преодолевает этот разрыв, сочетая семантическое понимание со способностью быстро принимать решения по модерации.
Вам нужны последовательные решения по политике
Вам нужны последовательные решения по политике
Используя свои продвинутые возможности рассуждения, Claude может интерпретировать и применять сложные руководства по модерации единообразно. Эта последовательность помогает обеспечить справедливое отношение ко всему контенту, снижая риск непоследовательных или предвзятых решений по модерации, которые могут подорвать доверие пользователей.
Ваши политики модерации, вероятно, будут меняться или развиваться со временем
Ваши политики модерации, вероятно, будут меняться или развиваться со временем
После того как традиционный подход ML был установлен, его изменение является трудоемким и требует интенсивной работы с данными. С другой стороны, по мере развития вашего продукта или потребностей клиентов, Claude может легко адаптироваться к изменениям или дополнениям в политиках модерации без обширной перемаркировки обучающих данных.
Вам требуются интерпретируемые обоснования для ваших решений по модерации
Вам требуются интерпретируемые обоснования для ваших решений по модерации
Если вы хотите предоставить пользователям или регуляторам четкие объяснения решений по модерации, Claude может генерировать подробные и связные обоснования. Эта прозрачность важна для построения доверия и обеспечения подотчетности в практиках модерации контента.
Вам нужна многоязычная поддержка без поддержания отдельных моделей
Вам нужна многоязычная поддержка без поддержания отдельных моделей
Традиционные подходы ML обычно требуют отдельных моделей или обширных процессов перевода для каждого поддерживаемого языка. Модерация с участием людей требует найма персонала, владеющего каждым поддерживаемым языком. Многоязычные возможности Claude позволяют ему классифицировать запросы на различных языках без необходимости в отдельных моделях или обширных процессах перевода, упрощая модерацию для глобальной клиентской базы.
Вам требуется мультимодальная поддержка
Вам требуется мультимодальная поддержка
Мультимодальные возможности Claude позволяют ему анализировать и интерпретировать контент как в тексте, так и в изображениях. Это делает его универсальным инструментом для комплексной модерации контента в средах, где необходимо оценивать различные типы медиа вместе.
Anthropic обучил все модели Claude быть честными, полезными и безвредными. Это может привести к тому, что Claude будет модерировать контент, считающийся особенно опасным (в соответствии с нашей Политикой приемлемого использования), независимо от используемого запроса. Например, сайт для взрослых, который хочет разрешить пользователям публиковать откровенный сексуальный контент, может обнаружить, что Claude все равно помечает откровенный контент как требующий модерации, даже если они указывают в своем запросе не модерировать откровенный сексуальный контент. Мы рекомендуем ознакомиться с нашей Политикой приемлемого использования перед созданием решения для модерации.
Создайте примеры контента для модерации
Перед разработкой решения для модерации контента сначала создайте примеры контента, который должен быть помечен, и контента, который не должен быть помечен. Убедитесь, что вы включили пограничные случаи и сложные сценарии, которые могут быть трудными для эффективной обработки системой модерации контента. После этого просмотрите свои примеры, чтобы создать четко определенный список категорий модерации. Например, примеры, созданные платформой социальных сетей, могут включать следующее:This movie was great, I really enjoyed it. The main actor really killed it!
система модерации контента должна распознать, что “killed it” — это метафора, а не указание на реальное насилие. И наоборот, несмотря на отсутствие явных упоминаний о насилии, комментарий Delete this post now or you better hide. I am coming after you and your family.
должен быть помечен системой модерации контента.
Список unsafe_categories
может быть настроен в соответствии с вашими конкретными потребностями. Например, если вы хотите предотвратить создание контента несовершеннолетними на вашем сайте, вы можете добавить “Underage Posting” в список.
Как модерировать контент с помощью Claude
Выберите подходящую модель Claude
При выборе модели важно учитывать размер ваших данных. Если затраты вызывают беспокойство, меньшая модель, такая как Claude Haiku 3, является отличным выбором из-за ее экономической эффективности. Ниже приведена оценка стоимости модерации текста для платформы социальных сетей, которая получает один миллиард постов в месяц:-
Размер контента
- Постов в месяц: 1 млрд
- Символов на пост: 100
- Всего символов: 100 млрд
-
Оценка токенов
- Входные токены: 28,6 млрд (предполагая 1 токен на 3,5 символа)
- Процент помеченных сообщений: 3%
- Выходные токены на помеченное сообщение: 50
- Всего выходных токенов: 1,5 млрд
-
Оценка стоимости Claude Haiku 3
- Стоимость входных токенов: 2 860 MTok * $0,25/MTok = $715
- Стоимость выходных токенов: 1 500 MTok * $1,25/MTok = $1 875
- Ежемесячная стоимость: $715 + $1 875 = $2 590
-
Оценка стоимости Claude Sonnet 4
- Стоимость входных токенов: 2 860 MTok * $3,00/MTok = $8 580
- Стоимость выходных токенов: 1 500 MTok * $15,00/MTok = $22 500
- Ежемесячная стоимость: $8 580 + $22 500 = $31 080
Фактические затраты могут отличаться от этих оценок. Эти оценки основаны на запросе, выделенном в разделе о пакетной обработке. Выходные токены могут быть еще больше сокращены путем удаления поля
explanation
из ответа.Создайте сильный запрос
Чтобы использовать Claude для модерации контента, Claude должен понимать требования к модерации вашего приложения. Давайте начнем с написания запроса, который позволит вам определить ваши потребности в модерации:moderate_message
содержит запрос оценки, который включает категории небезопасного контента и сообщение, которое мы хотим оценить. Запрос просит Claude оценить, должно ли сообщение быть модерировано, на основе определенных нами небезопасных категорий.
Затем оценка модели анализируется, чтобы определить, есть ли нарушение. Если есть нарушение, Claude также возвращает список нарушенных категорий, а также объяснение, почему сообщение небезопасно.
Оцените ваш запрос
Модерация контента — это проблема классификации. Таким образом, вы можете использовать те же методы, описанные в нашем сборнике рецептов по классификации, чтобы определить точность вашей системы модерации контента. Еще одно соображение заключается в том, что вместо того, чтобы рассматривать модерацию контента как проблему бинарной классификации, вы можете создать несколько категорий для представления различных уровней риска. Создание нескольких уровней риска позволяет вам регулировать агрессивность вашей модерации. Например, вы можете автоматически блокировать запросы пользователей, которые считаются высокорисковыми, в то время как пользователи с множеством запросов среднего риска помечаются для проверки человеком.assess_risk_level
, которая использует Claude для оценки уровня риска сообщения. Функция принимает сообщение и список небезопасных категорий в качестве входных данных.
Внутри функции для Claude генерируется запрос, включающий сообщение для оценки, небезопасные категории и конкретные инструкции для оценки уровня риска. Запрос инструктирует Claude отвечать JSON-объектом, который включает уровень риска, нарушенные категории и необязательное объяснение.
Этот подход обеспечивает гибкую модерацию контента путем присвоения уровней риска. Он может быть легко интегрирован в более крупную систему для автоматизации фильтрации контента или пометки комментариев для проверки человеком на основе их оцененного уровня риска. Например, при выполнении этого кода комментарий Delete this post now or you better hide. I am coming after you and your family.
идентифицируется как высокорисковый из-за его опасной угрозы. И наоборот, комментарий Stay away from the 5G cellphones!! They are using 5G to control you.
классифицируется как среднерисковый.
Разверните ваш запрос
Когда вы уверены в качестве вашего решения, пора развернуть его в производство. Вот некоторые лучшие практики, которым следует следовать при использовании модерации контента в производстве:-
Предоставляйте четкую обратную связь пользователям: Когда ввод пользователя блокируется или ответ помечается из-за модерации контента, предоставляйте информативную и конструктивную обратную связь, чтобы помочь пользователям понять, почему их сообщение было помечено и как они могут перефразировать его соответствующим образом. В приведенных выше примерах кода это делается через тег
explanation
в ответе Claude. - Анализируйте модерируемый контент: Отслеживайте типы контента, помечаемого вашей системой модерации, чтобы выявлять тенденции и потенциальные области для улучшения.
- Непрерывно оценивайте и улучшайте: Регулярно оценивайте производительность вашей системы модерации контента, используя такие метрики, как точность и полнота. Используйте эти данные для итеративного улучшения ваших запросов модерации, ключевых слов и критериев оценки.
Улучшение производительности
В сложных сценариях может быть полезно рассмотреть дополнительные стратегии для улучшения производительности помимо стандартных методов инженерии запросов. Вот некоторые продвинутые стратегии:Определите темы и предоставьте примеры
В дополнение к перечислению небезопасных категорий в запросе, дальнейшие улучшения могут быть достигнуты путем предоставления определений и фраз, связанных с каждой категорией.moderate_message_with_definitions
расширяет предыдущую функцию moderate_message
, позволяя каждой небезопасной категории быть связанной с подробным определением. Это происходит в коде путем замены списка unsafe_categories
из исходной функции на словарь unsafe_category_definitions
. Этот словарь сопоставляет каждую небезопасную категорию с соответствующим определением. И названия категорий, и их определения включены в запрос.
Примечательно, что определение для категории Specialized Advice
теперь указывает типы финансовых советов, которые должны быть запрещены. В результате комментарий It's a great time to invest in gold!
, который ранее прошел оценку moderate_message
, теперь вызывает нарушение.
Рассмотрите пакетную обработку
Чтобы снизить затраты в ситуациях, когда модерация в реальном времени не является необходимой, рассмотрите возможность модерации сообщений пакетами. Включите несколько сообщений в контекст запроса и попросите Claude оценить, какие сообщения должны быть модерированы.batch_moderate_messages
обрабатывает модерацию целого пакета сообщений с помощью одного вызова API Claude.
Внутри функции создается запрос, который включает список сообщений для оценки, определенные небезопасные категории контента и их описания. Запрос направляет Claude вернуть JSON-объект, перечисляющий все сообщения, содержащие нарушения. Каждое сообщение в ответе идентифицируется по его id, который соответствует позиции сообщения во входном списке.
Имейте в виду, что поиск оптимального размера пакета для ваших конкретных потребностей может потребовать некоторого экспериментирования. В то время как большие размеры пакетов могут снизить затраты, они также могут привести к небольшому снижению качества. Кроме того, вам может потребоваться увеличить параметр max_tokens
в вызове API Claude, чтобы вместить более длинные ответы. Для получения подробной информации о максимальном количестве токенов, которые может вывести выбранная вами модель, обратитесь к странице сравнения моделей.