机器之心编辑部

字节大年夜模型同传智能体一出手就是媲丽人类的同声传译水平_模子_体系 智能问答

无论是语速超快、发音繁芜的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意谈天,模型都能流畅自然地给出准确而隧道的翻译结果。

近年来,人工智能(Aritificial Intelligence, AI),尤其因此大措辞模型(Large Language Models, LLMs)为代表的 AI 正以惊人的速率发展,这些模型在多种自然措辞处理任务中展现了卓越的能力。
然而,只管在许多领域取得了打破,代表着人类顶尖措辞水平的同声传译(Simultaneous Interpretation, SI)依然是一个未被完备占领的难题。

市情上传统的同声传译软件常日采取级联模型(cascaded model)的方法,即前辈行自动语音识别(Automatic Speech Recognition, ASR),然后再进行机器翻译(Machine Translation, MT)。
这种方法存在一个显著的问题 —— 缺点传播。
ASR 过程中的缺点会直接影响到后续的翻译质量,导致严重的偏差累积。
此外,传统的同声传译系统由于受限于低延时的哀求,常日只利用了性能较差的小模型,这在应对繁芜多变的实际运用处景时存在瓶颈。

来自字节跳动 ByteDance Research 团队的研究职员推出了端到端同声传译智能体:Cross Language Agent - Simultaneous Interpretation, CLASI,厥后果已靠近专业人工水平的同声传译,展示了巨大的潜力和前辈的技能能力。
CLASI 采取了端到真个架构,规避了级联模型中缺点传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,同时具备了从外部获取知识的能力,终极形成了足以媲美人类水平的同声传译系统。

论文地址:https://byteresearchcla.github.io/clasi/technical_report.pdf展示页面:https://byteresearchcla.github.io/clasi/

效果展示

*** Demo:首先用几则即兴***来感想熏染一下 CLASI 的效果,所有字幕均为实时录屏输出。
我们可以看到,无论是语速超快、发音繁芜的绕口令,还是精妙绝伦的文言文,又或是充满即兴和灵感的随意谈天,模型都能流畅自然地给出准确而隧道的翻译结果。
更不用说,CLASI 在其老本行 —— 会议场景翻译中表现得尤为出色。

即兴对话-星座

***加载中...

朗读-赤壁赋

***链接:https://mp.weixin.***.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

绕口令

***链接:https://mp.weixin.***.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650927463&idx=1&sn=21471a5d179c548c2d0ed17c03406c04&chksm=84e43519b393bc0f32a783c3d986dac34c4397b7b5b345910595c8a2026f9906a7aea0dd8db0&token=1183058139&lang=zh_CN#rd

更多***可点击文末链接进行查看

定量比拟:研究职员分别在中英、英中翻译语向上,针对 4 个不同领域约请专业的同传译员进行了人工评测,利用了与人工同传同等的评价指标:有效信息占比(百分制)。
图中可以看到,CLASI 系统大幅领先所有商业系统和开源 SOTA 系统,并且在某些测试集上乃至达到或超过了人类同传水平(一样平常认为人类同传均匀水平大概在 80%)。

系统架构

系统架构上,CLASI 采取了基于 LLM 智能体的架构(下图左),将同声传译定义为一系列大略且折衷的操作,包括读入音频流,检索(可选),读取影象体,更新影象体,输出等。
全体流程由大措辞模型自主掌握,从而在实时性和翻译质量之间达到了高效的平衡。
该系统能够根据实际需求灵巧调度各个环节的处理策略,确保在高效通报信息的同时,保持翻译内容的准确性和连贯性。
CLASI 底层模型是一个 Encoder-conditioned LLM,在海量的无监督和有监督数据上进行了预演习。
CLASI 模型的系统架构如下图所示。

图 1:图示展示了 CLASI 的整体操作流程。
在步骤 1 中,CLASI 处理当前输入的音频数据。
接下来检索器会被激活(可选),从用户自定义的知识库中获取干系信息。
在这个示例中,利用知识库中的翻译对 “伊辛模型: Ising model” 能够帮助模型输出精确的译文。
在步骤 3 中,CLASI 从上一轮的影象体中加载转写(可选)和翻译。
接下来(步骤 4 和步骤 5),CLASI 可能会启用思维链(CoT)来输出转写(可选)和翻译结果,然后更新其影象体。
末了,返回步骤 1 以处理下一轮的语音。

图 2:CLASI 的构造图。
在第 r 轮中,CLASI 将当前音频流、前序的影象体(r-1)和检索到的知识(如果有)作为输入。
CLASI 根据给定的指令输出相应,然后更新影象体。
同时,CLASI 还会输出截止当前,末了一个语义片段的截止韶光戳。
对付给定的示例,短语 “就在” 之前的内容被认为是完全的语义片段,以是截止韶光戳就在此短语之前。

实验结果

表 1:人工评测有效字段占比(Valid Information Proportion, VIP)中,CLASI 系统显著超过了其他所有竞品,并且在两个语向上均达到了 78% 以上的准确性。
一样平常而言,可以认为人类同传的准确性在 70% 以上,空想情形下可以达到 95%,研究职员以 80% 的准确性作为高水平人类译员的均匀标准。

示例剖析

中翻英:

英翻中:

可以看到在多个方面,CLASI 的翻译均显著优于商用系统。

总结

来自字节跳动 ByteDance Research 团队的研究职员提出了基于豆包大模型的同传智能体:CLASI。
得益于大规模预演习和模拟学习,在人工评估中,CLASI 的表现显著优于现有的自动同声传译系统的性能,险些达到人类同传水平。

1. 研究职员提出了一种通过模拟专业人类译员的、数据驱动的读写策略。
该策略无需繁芜的人类预设计,即可轻松平衡翻译质量和延迟。
与大多数商业系统在翻译过程中频繁重写输出以提高质量不同,该策略担保所有输出在保持高质量的同时是确定性的。

2. 人类译员一样平常须要预先准备同传内容,受此启示,研究职员引入了一种多模态检索增强天生(MM-RAG)过程,使 LLM 实时地具有领域特定的知识。
所提出的模块在推理过程中以最小的打算开销进一步提高了翻译质量。

3. 研究职员与专业人类同传译员密切互助,制订了新的人工评估策略 “有效信息占比”(VIP),并公开了详细的指南。
同时也发布了一个更靠近现实场景的长语音翻译的多领域人工标注测试集。

更多***不雅观看:https://byteresearchcla.github.io/clasi/