腾讯云主导,新一代语音编码标准定了!
语音通信行业的性能极限,再次被打破! 刚刚,由腾讯主导的新一代实时语音编码行业标准AVS3P10完成定稿,即将正式发布。 该标准以腾讯会议Penguins AI语音引擎为原型,历经四年打磨,过去一年内经过数轮交叉验证后被AVS音频组采纳。 这也是全球首个系统性引入AI的低码率、高质量语音编码标准。相对传统标准,相同语音质量要求下,码率仅需1/3。 10kbps(码率,单位时间传送的数据位数)曾是香农定律(经典信息传输理论)的性能极限,一旦低于这个数值,语音通话质量将大大降低。 但AVS3P10成功实现了在6kbps以下,依然可以高清通话。在2G网络下,达到5G网络的通话质量! 这也意味着,将来无论在高铁上语音开会,还是在野外语音通话……都能拥有清晰流畅的体验。 你能听出区别吗? 网络通话就像在高速开车,车道(网络)忽然变窄,堵塞一定会发生。 要想保证良好的通话质量,除了把路修的更宽,还有一种办法,就是把车做得更小。 语音编码技术应运而生: 通过语音编码,可以对音频进行“压缩”,用较少的带宽资源尽可能多的传递信息。 在实际应用中,软硬件厂商要部署标准的编解码协议,从而为音频传输颁发各方互认的“通行证”。 但“听得清”和“压得小”一直都是一体两面: 压缩不够,音频体积太大,在弱网环境下通话仍会卡顿。压缩过度,音频质量受损,一米八的壮汉也会被卡“夹子音”。 10kbps,就是传统语音编码技术标准难以突破的天花板。行业努力多年,虽然在“实验室”摸索出了更低码率,但只要走向商用,同样的问题又会出现。 怎么破?别急,用AI。 AVS3P10标准的原型,正是腾讯会议天籁实验室携手腾讯AI Lab联手打造的“Penguins”编解码器技术。 在“听得清”和“压得小”的博弈中,Penguins提出了全新的解题思路: //抓住“重点” 传统音频编码技术是个“死脑筋”,只会按照物理规则提取音频的所有特征参数,再进行数据压缩。 一番操作下来,需要占用近20kbps才能保证高水平音频质量。 Penguins引入了深度神经网络,提前进行海量学习(语音建模)。在编码时能“抓住重点”(音频最核心特征参数),并根据重要性智能分配码率。 如此一来,既保证了音频传输质量,又降低了网络带宽需求。 //提前“对齐” 音频传输需要先编码(压缩)再解码(解压),如果只在编码时进行重点区分和码率分配,解码后的声音依然会失真。 Penguins的深度学习网络同时在编解码两端进行联合训练,并就“重点内容”提前“对齐”。 在解码时,AI也能做到心中有数,从而预测并重建音频信号的细微结构,并还原为最接近原始音频的波形。 //懂得“变通” 作为AI编码器,Penguins并非纯靠自学(数据驱动),而是懂得借助前辈(传统编码器)的成功经验(领域知识)来提高学习效率。 在选择深度神经网络时,Penguins也懂得“变通”,模型不是越大越好,知道“小个子”才更适合自己。 当大数据、大算力不再是“刚需”,便极大摆脱了对手机性能的依赖,即便在中低端手机上也能顺畅运行。 懂了,这就用能砸开核桃的诺基亚去试试。 一款技术的成熟与否,主要看它有没有走向真实的商业场景。 从2021年起,Penguins就已在腾讯会议驾驶模式、弱网模式及QQ语音通话等场景中广泛应用,支持了亿级用户的顺畅沟通。 在线上沟通无所不在的今天,AVS3P10标准的落地,将让“信号差”不再是普通人的“魔咒”。 引用AVS 标准工作组的评价: 业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。 感谢认可,我们再接再厉! |
全部评论
暂无评论
有话要说