2018年10月19日,一年一度的livevideostackcon音视频技术大会在北京召开。本次会议开启了一个新的科技时代。视觉为主题,汇聚经验丰富的音视频技术工程师,探讨音视频和图像技术的实践与思考。来自网易云信的资深音频算法工程师贝利在专题教育会的主题演讲中分享了网易云信nrtc针对软件层实时音频解决方案中webrtc源算法的不足,以及在音乐内容专题场景中的新思路。

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

网易云信高级音频算法工程师贝利主旨演讲

火热的市场催生了更丰富的音频和视频应用场景

互联网产品对实时音视频技术的需求正以1000亿元和100亿元的规模在各个市场爆发,并逐渐成为重要的基础设施技术。贝利认为,随着未来可玩性的发展,音频和视频的应用仍有很大的增长空.此外,实时音视频技术推动了互联网产品的创新和演进,赋予产品更丰富、更高效的场景表达,推动了实时音视频技术本身的演进。

实时音视频技术需要与行业和应用场景紧密结合。目前和未来,客户的核心需求不仅是稳定高效的技术性能要求,个性化需求也在增加。据贝利介绍,网易云信基于自主研发的全功能工业级音视频技术框架nrtc,进行了大量基于场景的、有针对性的技术优化,形成了对实时音频应用的观察和思考。

网易云信nrtc优化算法弥补了webrtc源码算法的局限性

贝利强调,虽然目前通用行业的软件层实时音频框架已经日益成熟,但仍有两个明显的痛点需要解决:第一,在复杂多变的网络条件下,由于信号微弱或网络拥塞。延迟或丢包现象;第二,随着终端类型和应用场景的增加,不同类型的终端设备和使用环境之间的巨大差异对整体解决方案的适应性提出了更高的要求。对于一般行业的通信来说,在实时音频的众多需求中,首先看重的是框架的流畅度,低延迟、高音量,没有明显的回声、噪声和杂音。除了满足以上要求,最后还要注重音质、双说话体验等表现。

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

那么如何设计一个音频框架来解决以上痛点并稳定运行呢?以webrtc的音频帧图为例:

(图:webrtc的线程模型和数据驱动模式,不同的颜色代表不同的线程,蓝色箭头代表数据驱动模式)

但是为了保证实时音频的稳定性,每个模块都需要注意很多问题,比如回声采集的非线性、音量、系统内部延迟的大小和变化等,这些都是平台下音频采集和回放中常见的问题。

由于音频预处理的挑战和webrtc源算法的一些缺点,技术人员需要进一步优化,以提高整个框架的技术性能,保证最终用户的产品体验。网易云信的全功能工业级音视频技术框架nrtc针对这些不足做了一系列优化。例如,回波采集的非线性是目前在线采集面临的普遍问题,其稳定性将直接影响回波消除和处理的效果。webrtc的缺点使得一些制造商不得不降低音量以提供回声消除服务。针对原webrtc时延估计的稳定性问题,网易云信nrtc优化了远端和近端时延的对齐,提高了整体框架在消除回声、噪声和降噪方面的性能。

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

再比如,用户在通信中产生的空气音的采集和处理,也是音频框架面临的常见困难之一。由于航空声学发音能量低,回声大,能量集中在中高频,常规算法无法满足处理要求。对比原生webrtc aec和nrtc在iphone6p声调发音下的性能,nrtc框架优化的算法明显更优。

iphone6p音调发音中原始webrtc aec与nrtc的表现

网易云信如何选择音乐场景实时音频解决方案的新思路

除了一般通信场景下的音视频应用,音乐内容及其应用场景对技术的要求更为特殊。贝利介绍说,与普通场景相比,音乐内容场景对声音有不同的要求。比如人耳对音乐感知更为敏感,在音质略有下降的情况下,人耳可以检测到,这就对声音处理提出了更高的要求。与针对通信的一般场景相比,实时音频技术对音乐内容的优先级也有所不同:稳定性和音质是第一需求,降噪和低延迟降级是第二需求。

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

由于音乐内容场景的上述特殊性,一般的实时音频框架在音乐内容场景上会表现出一定的局限性。比如适用于一般场景的音频框架的低采样率、非全频段处理、近端音和双通话的粗处理、低比特率设置、简单的音频qos,都不足以支持音乐内容的特殊场景。再比如,在采用较高比特率的情况下,如果仍然使用一般策略,会造成严重的拥塞或丢包。然后,面对这些新的需求、痛点和局限,资源有限时如何选择,贝利分享了网易云信的四个新思想:

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

& middot音乐内容下agc(自动增益控制)的新需求是由于音乐场景中情感输入的特殊需求,比如情绪舒缓时音量低,情绪激烈时音量高。因此,如果在agc算法中对能量进行类似的处理,会对音乐内容的传输造成很大的危害。

& middot音乐场景中啸声控制的危害在处理音乐演示时,如果某个频段的回声被过度消除,会对人的听觉体验产生很大的影响;

& middotns(噪音抑制)在音乐内容上的痛苦在于一些音乐场景中乐器较多,ns处理会对一些声音造成一定的损害。为了追求原声的极致体验,一些工程师干脆关闭ns模块,宁愿忍受噪音也不愿失去音乐效果。贝利介绍,网易云信深知此技术问题给产品和用户带来的困扰,并在实践中不断优化其ns算法,努力为客户提供更好的技术服务;

[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

& middot音乐场景中tsm(时间尺度修改)的影响如果将一般场景中使用的tsm算法直接复制到音乐内容场景中,会导致音乐内容节拍在传输过程中发生变化,因此需要制作专门适用于音乐场景的tsm算法。

在垂直领域日益丰富的今天,针对不同场景调整策略是每个底层技术提供商都应该思考的问题,也是网易云信一直努力的方向。贝利总结道。技术与客户匹配,服务更细致,不仅是整个行业生态追求的结果,也是推动行业生态进步的动力。

标题:[科技界] 网易云信实时音频框架背后:算法优化带来产品体验全面提升

地址:http://www.heliu2.cn/xw/6208.html