概述
Claude 展示了强大的多语言能力,特别是在跨语言的零样本任务中表现出色。该模型在广泛使用的语言和低资源语言中都保持一致的相对性能,使其成为多语言应用的可靠选择。 请注意,Claude 能够处理许多超出下面基准测试范围的语言。我们鼓励您使用与您特定用例相关的任何语言进行测试。性能数据
以下是 Claude 4、Claude 3.7 Sonnet 和 Claude 3.5 模型在不同语言中的零样本链式思维评估分数,显示为相对于英语性能的百分比(100%):| 语言 | Claude Opus 41 | Claude Sonnet 41 | Claude Sonnet 3.7 (已弃用)1 | Claude Haiku 3.5 |
|---|---|---|---|---|
| 英语(基准,固定为 100%) | 100% | 100% | 100% | 100% |
| 西班牙语 | 98.0% | 97.5% | 97.6% | 94.6% |
| 葡萄牙语(巴西) | 97.3% | 97.2% | 97.3% | 94.6% |
| 意大利语 | 97.5% | 97.3% | 97.2% | 95.0% |
| 法语 | 97.7% | 97.1% | 96.9% | 95.3% |
| 印度尼西亚语 | 97.2% | 96.2% | 96.3% | 91.2% |
| 德语 | 97.1% | 94.7% | 96.2% | 92.5% |
| 阿拉伯语 | 96.9% | 96.1% | 95.4% | 84.7% |
| 中文(简体) | 96.7% | 95.9% | 95.3% | 90.9% |
| 韩语 | 96.4% | 95.9% | 95.2% | 89.1% |
| 日语 | 96.2% | 95.6% | 95.0% | 90.8% |
| 印地语 | 96.7% | 95.8% | 94.2% | 80.1% |
| 孟加拉语 | 95.2% | 94.4% | 92.4% | 72.9% |
| 斯瓦希里语 | 89.5% | 87.1% | 89.2% | 64.7% |
| 约鲁巴语 | 78.9% | 76.4% | 76.7% | 46.1% |
这些指标基于 MMLU(大规模多任务语言理解)英语测试集,由专业人工翻译人员翻译成 14 种其他语言,如 OpenAI 的 simple-evals 存储库所记录。使用人工翻译人员进行此评估可确保高质量的翻译,这对于数字资源较少的语言尤其重要。
最佳实践
在处理多语言内容时:- 提供清晰的语言上下文:虽然 Claude 可以自动检测目标语言,但明确说明所需的输入/输出语言可以提高可靠性。为了增强流畅性,您可以提示 Claude 使用”像母语使用者一样的习语表达”。
- 使用本地文字:以本地文字而非音译形式提交文本以获得最佳结果
- 考虑文化背景:有效的沟通通常需要超越纯粹翻译的文化和地区意识
语言支持注意事项
- Claude 可以处理使用标准 Unicode 字符的大多数世界语言的输入和生成输出
- 性能因语言而异,在广泛使用的语言中具有特别强大的能力
- 即使在数字资源较少的语言中,Claude 也能保持有意义的能力