1.摘要
本试点研究旨在探索最先进的多语言人工智能(AI模型在将习语、双关语等比喻性语言从英语翻译成全球多种语言时所具备的本地化能力。现有大语言模型(LLM)翻译研究及行业基准测试注重语法准确性和标记级正确性,而本研究在此基础上进一步拓展,聚焦文化适宜性和整体本地化质量,而后者是市场营销、电子商务等真实应用场景中的关键因素。
为探究此类挑战,本项目评估了20种语言的24种地区方言中,由LLM生成的87份电子商务营销邮件翻译样本。精通各目标语言的人类评审员从与原文语气、含义的忠实度以及对目标受众的适配度等方面,提供了定量评分和定性反馈。研究结果表明,尽管领先模型通常能生成语法正确的译文,但在翻译具有文化细微差别的语言时明显仍有待改进,需要大量的人工润色。值得注意的是,即使是行业基准测试排行榜上名列前茅、资源丰富的语言,也出现了许多比喻性表达和文字游戏的翻译错误。
本研究对“数据量是机器翻译质量最可靠的预测指标”这一假设提出了挑战,并将文化适宜性列为衡量多语言大模型性能的关键决定因素。现有学术和行业基准测试中尚未对文化适宜性领域进行充分探索。作为概念验证,本试点研究凸显了当前多语言AI系统在真实本地化应用场景中存在的局限性。本试点研究的结果表明,有必要开展更大规模的拓展研究,以提供具有普遍适用性的见解,并为在文化多样的环境中部署可靠的机器翻译工作流提供参考。
2.引言
随着多语言大模型日益融入全球内容工作流,了解其生成符合文化习惯的翻译的能力,对于有效的本地化至关重要。语言中的细微文化差别,尤其是文字游戏等比喻性语言,是有效沟通的核心要素。
本试点研究旨在探索最先进的多语言大模型在将英语翻译成全球多种语言时,处理这类比喻性语言的能力,重点解决三个核心研究问题:(1)在资源丰富程度和语言特征各不相同的语言之间,大模型对习语和比喻性语言的翻译可靠程度如何?(2)与英语的语言相近性或结构特征共性,能否用来预测翻译的效果?(3)在翻译具有文化细微差别的语言时,资源丰富、全球通用的语言是否比规模较小的地区性语言更准确?
通过对20种全球语言的24种方言中由大模型生成的翻译进行系统评估,本研究揭示了当前模型存在的局限性、跨语言模式,以及人类专业知识在本地化工作流程中持续发挥的作用。
3.相关研究
LLM领域的最新进展表明,生成式AI的多语言翻译能力已取得显著进步。Mujadia等人(2023年)开展的基础性研究对大模型在英语与22种印度语言之间的翻译能力进行了全面评估,揭示了模型在资源丰富的语言场景和资源不足的语言场景下的性能存在明显差异。他们的研究结果凸显了语境学习的重要性。语境学习能显著提升对代表性不足的地区方言的翻译质量。同样,Hu等人(2024年)提出了GenTranslate。这是一种生成式框架,通过利用LLM的语境感知能力和推理能力,在标准基准测试中改进了多语言语音和文本翻译效果,尤其是在资源不足的语言方面。这项研究印证了“语境学习能提升多语言LLM性能”这一观点。
除翻译准确性外,学者们也日益关注LLM生成内容所涉及的文化与伦理问题。AlKhamissi等人(2024年)探究了不同语言和地区间的文化适配性。其研究表明,当使用某一地区的主导语言对LLM进行提示时,模型能更准确地反映该地区的文化知识。然而,他们也发现,文化代表性的差异依然存在,尤其是在历史上被边缘化的文化群体中。基于这项研究,Li等人(2024年)提出了CultureLLM框架,通过多语言和多元文化数据来融合文化语境。其研究结果显示,该框架在提升文化适宜性方面取得了可衡量的成效,但在资源不足的语言场景中仍面临挑战。这些研究发现与一些更具普遍性的担忧不谋而合,如大模型语言公平性,以及训练数据能否准确体现多元的文化视角。
多语言LLM研究的另一个关键维度是公平性与偏见问题。Zhao等人(2024年)对性别偏见进行了多语言分析,发现LLM输出内容中刻板印象的呈现方式存在显著的跨语言差异。他们指出,在生成非英语语言的回答时,主要使用英语数据进行训练的模型往往会表现出更严重的偏见。为对这项研究进行补充,Sterlie等人(2024年)将传统的非歧视标准拓展至生成式模型。通过采用这些公平性指标来衡量性别化语言任务,他们发现了系统性的职业偏见和描述性偏见,并提出了能改善生成式输出公平性的调整方案。
最后,安全性与稳健性问题始终是推动LLM评估研究的动力。本文作者(Van Doren,2025年)此前的研究阐述了构建负责任且可靠的AI系统的原则,重点关注透明的评估框架,通过整合人类对齐与对抗性测试来降低潜在的个人、社会及法律风险。在此基础上,作者与Dix等人(2025年)通过合作研究进行了进一步拓展。该合作研究引入了一套对抗性提示基准,旨在对领先LLM的安全防护机制进行压力测试,并结合人类评估与AI评估,以精简模型评估流程。这些研究凸显出,在评估模型时不仅要考察其在理想条件下的表现,还需关注其在对抗性场景和文化敏感场景中的表现,这也直接为当前研究的方法论提供了参考。
综上,这些研究共同表明,尽管LLM具备卓越的生成能力,但在实际部署时,必须审慎考量公平性、文化敏感性、伦理风险及安全性等问题。本试点研究在现有研究的基础上,借助人类评估者,,评估最先进的多语言LLM在真实的商业场景中将习语、文化节日等具有细微差别的语言从英语准确地本地化为20种语言的24种方言的能力。
4.研究方法
4.1目标
本研究旨在探究当前公开可用的领先大模型在对具有文化细微差别的语言进行翻译和本地化时的表现。
研究聚焦于真实应用场景,具体场景包括缺乏LLM专业知识的营销人员可能依赖模型输出,将文案从英语本地化到其他语言。营销内容中常常包含幽默、文化指代和习语表达,因此是评估多语言LLM模型性能和跨文化泛化能力的理想测试案例。
材料
从真实商业营销活动收集三封匿名营销邮件[附录1],并进行了改编。这些邮件包含节庆和特定文化指代(如情人节、双十一),以及与食品和身材相关的产品信息。
研究特意融入了幽默、双关语等习语语言,以测试大模型在翻译具有文化细微差别的内容时,保留相应语气和意图的能力。
4.3模型选择
为模拟真实使用场景,研究选取了实验开始时公众可免费使用的三个著名大模型。尽管研究中对模型进行了匿名处理,但目的并非进行基准测试,而是呈现LLM在实际高风险任务中的“当前使用状态”概况。
44参与者
本项目通过便利抽样方式招募了22名参与者。所有参与者均具备大模型相关项目经验,且精通英语及至少一门其他语言。部分参与者为多语言使用者,以便进行跨多种目标语言的比较。每位参与者仅评估以其所精通语言作为目标语言的翻译内容。
本研究通过以下维度衡量语言资源的可获得性:全球使用人口(大型=2亿以上,中型=1亿-2亿,小型=1亿以下)和地理分布(全球性=多地区覆盖,地区性=有限地域覆盖)。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
