专栏名称: 阿里技术
阿里技术官方号,阿里的硬核技术、前沿创新、开源项目都在这里。
目录
相关文章推荐
阿里技术  ·  Cursor入门:MCP开发调用和项目实战 ·  昨天  
老刘说NLP  ·  48个流行开源ML数据集及KG三元组抽取工具 ... ·  3 天前  
稀土掘金技术社区  ·  协程中使用 ... ·  2 天前  
腾讯技术工程  ·  0day漏洞量产?AI Agent“生产线”曝光 ·  昨天  
51好读  ›  专栏  ›  阿里技术

首个AI翻译实战榜来了!阿里国际×司南OpenCompass×北语联合发布TransBench

阿里技术  · 公众号  · 程序员  · 2025-06-04 15:30

正文

请到「今天看啥」查看全文



02



多语言翻译评测的难题

从客观量化到生成式场景化评测的转变

早期的机器学习和深度学习任务通常依赖固定的、标准化的评测数据集,这些数据集为模型输出提供了明确的“正确答案”,通过对比预测结果与标准答案,可以利用数值指标完成精准评估。随着模型输出从固定结果到开放式图文生成输出的演进,叠加场景化上下文需求,现有技术指标和评测方法难以评测其模型效果,在多语言翻译技术中,场景化语义的合理性和用户体验的多样性是评测面临的一大难题。

评测数据的局限性

在当前许多评测体系中,人工标注数据往往是核心资源,但这类数据集的规模往往仅为数百或数千条,远远不足以覆盖需要处理的海量数据场景。 对于需要处理亿级别输入的任务 ,有限的样本数据难以捕捉全局特性和细微差异,导致评测结果的代表性和泛化性受到限制。依赖人工标注数据还存在另一个不容忽视的问题,当新的业务场景出现时,由于缺乏即时可用的标注数据,评测体系难以迅速进行冷启动并实现即时监控和反馈。

大模型时代评测需求

理想的评测方案需要在无需依赖庞大人工标注数据集的前提下,依然能够有效地量化主观指标的评测结果。这意味着我们需要设计一套能够智能捕捉用户体验以及情感和文化内涵等主观信息的方法,既能保证评测的及时性和高效性,又能覆盖广泛的业务场景。 当前和未来的大模型评测体系应当聚焦以下核心方向:

  • 建立复合式评测标准: 利用传统的客观指标作为基础,同时引入基于上下文、情感、文化等维度的主观评测手段,实现多角度、多层次的综合评价体系;
  • 开发自适应、无需人工标注的评测算法: 通过机器学习、无监督/半监督学习和迁移学习等先进技术,探索构建能够从少量数据中迁移与扩展的智能评测体系,以解决大规模任务中的样本数量有限问题和冷启动难题;
  • 实现动态在线监控与反馈: 构建实时监控系统,帮助快速捕捉用户反馈和评测变化,保证评测结果能够及时反映实际业务场景中的用户体验变化。


03



多语言翻译大模型评测实践







请到「今天看啥」查看全文