腾讯云主导，新一代语音编码标准定了！

发布时间: 2024-07-03 09:08:10 |浏览量：465| 评论: 0

语音通信行业的性能极限，再次被打破！

刚刚，由腾讯主导的新一代实时语音编码行业标准AVS3P10完成定稿，即将正式发布。

该标准以腾讯会议Penguins AI语音引擎为原型，历经四年打磨，过去一年内经过数轮交叉验证后被AVS音频组采纳。

这也是全球首个系统性引入AI的低码率、高质量语音编码标准。相对传统标准，相同语音质量要求下，码率仅需1/3。

10kbps（码率，单位时间传送的数据位数）曾是香农定律（经典信息传输理论）的性能极限，一旦低于这个数值，语音通话质量将大大降低。

但AVS3P10成功实现了在6kbps以下，依然可以高清通话。在2G网络下，达到5G网络的通话质量！

这也意味着，将来无论在高铁上语音开会，还是在野外语音通话……都能拥有清晰流畅的体验。

你能听出区别吗？

网络通话就像在高速开车，车道（网络）忽然变窄，堵塞一定会发生。

要想保证良好的通话质量，除了把路修的更宽，还有一种办法，就是把车做得更小。

语音编码技术应运而生：

通过语音编码，可以对音频进行“压缩”，用较少的带宽资源尽可能多的传递信息。

在实际应用中，软硬件厂商要部署标准的编解码协议，从而为音频传输颁发各方互认的“通行证”。

但“听得清”和“压得小”一直都是一体两面：

压缩不够，音频体积太大，在弱网环境下通话仍会卡顿。压缩过度，音频质量受损，一米八的壮汉也会被卡“夹子音”。

10kbps，就是传统语音编码技术标准难以突破的天花板。行业努力多年，虽然在“实验室”摸索出了更低码率，但只要走向商用，同样的问题又会出现。

怎么破？别急，用AI。

AVS3P10标准的原型，正是腾讯会议天籁实验室携手腾讯AI Lab联手打造的“Penguins”编解码器技术。

在“听得清”和“压得小”的博弈中，Penguins提出了全新的解题思路：

//抓住“重点”

传统音频编码技术是个“死脑筋”，只会按照物理规则提取音频的所有特征参数，再进行数据压缩。

一番操作下来，需要占用近20kbps才能保证高水平音频质量。

Penguins引入了深度神经网络，提前进行海量学习（语音建模）。在编码时能“抓住重点”（音频最核心特征参数），并根据重要性智能分配码率。

如此一来，既保证了音频传输质量，又降低了网络带宽需求。

//提前“对齐”

音频传输需要先编码（压缩）再解码（解压），如果只在编码时进行重点区分和码率分配，解码后的声音依然会失真。

Penguins的深度学习网络同时在编解码两端进行联合训练，并就“重点内容”提前“对齐”。

在解码时，AI也能做到心中有数，从而预测并重建音频信号的细微结构，并还原为最接近原始音频的波形。

//懂得“变通”

作为AI编码器，Penguins并非纯靠自学（数据驱动），而是懂得借助前辈（传统编码器）的成功经验（领域知识）来提高学习效率。

在选择深度神经网络时，Penguins也懂得“变通”，模型不是越大越好，知道“小个子”才更适合自己。

当大数据、大算力不再是“刚需”，便极大摆脱了对手机性能的依赖，即便在中低端手机上也能顺畅运行。

懂了，这就用能砸开核桃的诺基亚去试试。

一款技术的成熟与否，主要看它有没有走向真实的商业场景。

从2021年起，Penguins就已在腾讯会议驾驶模式、弱网模式及QQ语音通话等场景中广泛应用，支持了亿级用户的顺畅沟通。

在线上沟通无所不在的今天，AVS3P10标准的落地，将让“信号差”不再是普通人的“魔咒”。

引用AVS 标准工作组的评价：

业界最高水平，将为用户带来前所未有的性能和体验，引领行业进入一个全新的时代。

感谢认可，我们再接再厉！

有话要说

全部评论

暂无评论

云计算资讯

腾讯云主导，新一代语音编码标准定了！

更多【新闻资讯】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动

云计算资讯

热点推荐

腾讯云主导，新一代语音编码标准定了！

更多【新闻资讯】相关文章

有话要说

全部评论

最新文章

热点排行

热门活动