资讯首页 新闻资讯 云计算测评 云服务商动态 技术频道
上云无忧 > 云计算资讯  > 新闻资讯 > 腾讯云主导,新一代语音编码标准定了!

腾讯云主导,新一代语音编码标准定了!

发布时间: 2024-07-03 09:08:10 |浏览量:345| 评论: 0

语音通信行业的性能极限,再次被打破!

刚刚,由腾讯主导的新一代实时语音编码行业标准AVS3P10完成定稿,即将正式发布。

该标准以腾讯会议Penguins AI语音引擎为原型,历经四年打磨,过去一年内经过数轮交叉验证后被AVS音频组采纳。

这也是全球首个系统性引入AI的低码率、高质量语音编码标准。相对传统标准,相同语音质量要求下,码率仅需1/3。

10kbps(码率,单位时间传送的数据位数)曾是香农定律(经典信息传输理论)的性能极限,一旦低于这个数值,语音通话质量将大大降低。

但AVS3P10成功实现了在6kbps以下,依然可以高清通话。在2G网络下,达到5G网络的通话质量!

这也意味着,将来无论在高铁上语音开会,还是在野外语音通话……都能拥有清晰流畅的体验。

你能听出区别吗?

网络通话就像在高速开车,车道(网络)忽然变窄,堵塞一定会发生。

要想保证良好的通话质量,除了把路修的更宽,还有一种办法,就是把车做得更小。

语音编码技术应运而生:

通过语音编码,可以对音频进行“压缩”,用较少的带宽资源尽可能多的传递信息。

在实际应用中,软硬件厂商要部署标准的编解码协议,从而为音频传输颁发各方互认的“通行证”。

但“听得清”和“压得小”一直都是一体两面:

压缩不够,音频体积太大,在弱网环境下通话仍会卡顿。压缩过度,音频质量受损,一米八的壮汉也会被卡“夹子音”。

10kbps,就是传统语音编码技术标准难以突破的天花板。行业努力多年,虽然在“实验室”摸索出了更低码率,但只要走向商用,同样的问题又会出现。

怎么破?别急,用AI。

AVS3P10标准的原型,正是腾讯会议天籁实验室携手腾讯AI Lab联手打造的“Penguins”编解码器技术。

在“听得清”和“压得小”的博弈中,Penguins提出了全新的解题思路:

//抓住“重点”

传统音频编码技术是个“死脑筋”,只会按照物理规则提取音频的所有特征参数,再进行数据压缩。

一番操作下来,需要占用近20kbps才能保证高水平音频质量。

Penguins引入了深度神经网络,提前进行海量学习(语音建模)。在编码时能“抓住重点”(音频最核心特征参数),并根据重要性智能分配码率。

如此一来,既保证了音频传输质量,又降低了网络带宽需求。

//提前“对齐”

音频传输需要先编码(压缩)再解码(解压),如果只在编码时进行重点区分和码率分配,解码后的声音依然会失真。

Penguins的深度学习网络同时在编解码两端进行联合训练,并就“重点内容”提前“对齐”。

在解码时,AI也能做到心中有数,从而预测并重建音频信号的细微结构,并还原为最接近原始音频的波形。

//懂得“变通”

作为AI编码器,Penguins并非纯靠自学(数据驱动),而是懂得借助前辈(传统编码器)的成功经验(领域知识)来提高学习效率。

在选择深度神经网络时,Penguins也懂得“变通”,模型不是越大越好,知道“小个子”才更适合自己。

当大数据、大算力不再是“刚需”,便极大摆脱了对手机性能的依赖,即便在中低端手机上也能顺畅运行。

懂了,这就用能砸开核桃的诺基亚去试试。

一款技术的成熟与否,主要看它有没有走向真实的商业场景。

从2021年起,Penguins就已在腾讯会议驾驶模式、弱网模式及QQ语音通话等场景中广泛应用,支持了亿级用户的顺畅沟通。

在线上沟通无所不在的今天,AVS3P10标准的落地,将让“信号差”不再是普通人的“魔咒”。

引用AVS 标准工作组的评价:

业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。

感谢认可,我们再接再厉!

更多【新闻资讯】相关文章

有话要说

全部评论

暂无评论
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部