跳转到主要内容

概述

Claude 展示了强大的多语言能力,特别是在跨语言的零样本任务中表现出色。该模型在广泛使用的语言和低资源语言中都保持一致的相对性能,使其成为多语言应用的可靠选择。 请注意,Claude 能够处理许多超出下面基准测试范围的语言。我们鼓励您使用与您特定用例相关的任何语言进行测试。

性能数据

以下是 Claude 4、Claude 3.7 Sonnet 和 Claude 3.5 模型在不同语言中的零样本链式思维评估分数,显示为相对于英语性能的百分比(100%):
语言Claude Opus 41Claude Sonnet 41Claude Sonnet 3.7 (已弃用)1Claude Haiku 3.5
英语(基准,固定为 100%)100%100%100%100%
西班牙语98.0%97.5%97.6%94.6%
葡萄牙语(巴西)97.3%97.2%97.3%94.6%
意大利语97.5%97.3%97.2%95.0%
法语97.7%97.1%96.9%95.3%
印度尼西亚语97.2%96.2%96.3%91.2%
德语97.1%94.7%96.2%92.5%
阿拉伯语96.9%96.1%95.4%84.7%
中文(简体)96.7%95.9%95.3%90.9%
韩语96.4%95.9%95.2%89.1%
日语96.2%95.6%95.0%90.8%
印地语96.7%95.8%94.2%80.1%
孟加拉语95.2%94.4%92.4%72.9%
斯瓦希里语89.5%87.1%89.2%64.7%
约鲁巴语78.9%76.4%76.7%46.1%
1 使用扩展思维
这些指标基于 MMLU(大规模多任务语言理解)英语测试集,由专业人工翻译人员翻译成 14 种其他语言,如 OpenAI 的 simple-evals 存储库所记录。使用人工翻译人员进行此评估可确保高质量的翻译,这对于数字资源较少的语言尤其重要。

最佳实践

在处理多语言内容时:
  1. 提供清晰的语言上下文:虽然 Claude 可以自动检测目标语言,但明确说明所需的输入/输出语言可以提高可靠性。为了增强流畅性,您可以提示 Claude 使用”像母语使用者一样的习语表达”。
  2. 使用本地文字:以本地文字而非音译形式提交文本以获得最佳结果
  3. 考虑文化背景:有效的沟通通常需要超越纯粹翻译的文化和地区意识
我们还建议遵循我们的一般提示工程指南以更好地提高 Claude 的性能。

语言支持注意事项

  • Claude 可以处理使用标准 Unicode 字符的大多数世界语言的输入和生成输出
  • 性能因语言而异,在广泛使用的语言中具有特别强大的能力
  • 即使在数字资源较少的语言中,Claude 也能保持有意义的能力