2G弱网也能开会、语音!腾讯用AI技能给实时音频传输“动刀”_腾讯_语音
新一代实时语音编码行业标准AVS3P10即将正式发布。6月26日,获悉,该标准由腾讯发起启动、推进和掩护,以腾讯首款神经网络语音编解码器Penguins为原型,经由AVS音频组多家成员单位共同贡献。
作为环球首个别系性引入人工智能并实现真正意义上的低码率下高质量语音编码标准,AVS3P10的表现达到国际一流水准。仅需现有主流标准1/3的编码码率,就能实现同等清晰的音质。
这意味着,今后在线上会议、语音通话等实时音频场景,带宽哀求大幅降落。纵然在电梯、地库、隧道等网络很差的环境,也能实现清晰流畅的语音通话。
在有限的带宽条件下,想要将声音高质量通报到吸收方,压缩原始数据、去除冗余信息的语音编码技能是个中关键。然而,基于EVS、OPUS等现有主流音频编解码标准,当码率降落到10kbps以下时,语音质量低落明显,影响用户体验。
为应对该寻衅,腾讯会议天籁实验室联合腾讯AI Lab自研了腾讯首款神经网络语音编解码器——Penguins。这次AVS音频组AVS3P10标准采纳的腾讯侧方案,便是以Penguins为原型。
详细来说,Penguins将AI与传统技能紧密领悟,从算法研究、工程化、产品化层面做了大量系统性创新,冲破传统喷鼻香农定律的性能极限,引入大数据并在可控算力增量下供应了新的性能上界,从而对下一代通信系统,尤其是信源编码器部分,供应了新的技能根本和方法论。通过AI语音旗子暗记建模,提取最核心的特色参数编码,再借助深度学习网络,预测并重修语音中的细微构造,最终生成逼真的音频波形。
多方测试表明,腾讯提交的AVS3P10标准,代表了目前AI Codec的行业最高水平。该标准实现了6kbps下的高质量语音通信,纵然在“2G”网络下也能实现清晰通话,且主不雅观质量非常靠近原始参考旗子暗记,媲美国际主流的OPUS标准在20kbps的质量。同时,主不雅观质量对标传统编码的中高码率情形下,编码效率提升200%-300%。
2021年起,Penguins音频编码器就在腾讯会议的驾驶模式、弱网模式及***语音通话等场景中投入规模运用,支持了亿级用户的流畅沟通。无论是在繁芜的网络环境中,还是在高速移动的交通工具上,都能供应清晰的音频通信体验。
2023年3月,腾讯团队在AVS音频组主动发起并参与标准制订,促进行业的技能进步,即AVS3P10实时语音编码标准。随后,腾讯提交基于Penguins的候选技能;经由AVS音频组交叉验证后采纳。2024年6月,AVS3P10实时语音编码标准正式完成标准化事情,进入公示阶段。
值得一提的是,腾讯主导该标准制订的过程,也被AVS事情组评价为制订速率最快,标准交付质量最高,测试得到充分好评。
“AVS3P10 实时语音编码,作为新一代的语音编解码技能标准,是对AVS系列标准的主要补充。该标准是当前业界的最高水平,表示了腾讯在语音处理、人工智能技能创新和用户体验方面的实力,将为用户带来更好的体验”,AVS事情组指出。
在编解码、音频降噪、语音增强等领域,腾讯会议天籁实验室正在探索实时音频通信前沿技能,打造环球领先的实时音频通信端到端办理方案。同时,通过将更多研究成果运用到腾讯会议等产品中,持续提升用户体验,打造“听得清、听得真”的极致体验。
本文系作者个人观点,不代表本站立场,转载请注明出处!