文章来自LiveVideoStack
✎ 编 者 按
成立于2019年,拍乐云是国内第一家视频会议背景的实时互动通信云服务提供商,汇聚了一大批专注于音频、视频、白板、网络、AI等领域的资深技术专家。在过去两年间,拍乐云一直致力于帮助用户实现高清、稳定、易用、低时延的实时互动。随着5G和AI技术的发展以及全球疫情的影响,音视频应用场景日益多变,拍乐云如何用更好的产品体验为用户提供完善的解决方案?LiveVideoStack近日采访了拍乐云首席科学家&合伙人章琦老师,他将从产品、技术挑战、应对策略以及AI赋能等角度和大家聊聊他对音视频技术的理解和展望。章琦老师也是LiveVideoStackCon北京站的嘉宾讲师,将在会上为我们带来精彩的演讲。
讲师介绍:章琦,拍乐云首席科学家&合伙人。浙大数学系硕士毕业,20年视频开发经验,8年WebEx音视频引擎架构师工作经验,OpenH264作者,历任虹软、WebEx、网易等公司,精通视频算法,也精通音视频工程,主导了多家公司的音视频引擎架构设计,深入理解人工智能技术以及其在实时通信领域的应用,拥有年服务千亿级分钟音视频通话的经验。
LiveVideoStack: 章老师,您好,非常高兴邀请您接受采访,您可以跟大家介绍一下您在拍乐云所负责的工作吗?
章琦:我在拍乐云主要负责音视频相关的开发工作,包括编码解码、音视频引擎、前沿技术的研究等。除了开发和管理工作,我也会参与到客户对接中。因为我们做的是toB企业服务,技术、产品、服务都很重要,所以会非常关注技术支持的对接、用户的使用反馈。
LiveVideoStack: 我们看到,拍乐云最近推出了业内首个“线上美术音视频方案”,这其中有一项视频矫正技术,您能介绍一下这项技术以及它所用到的算法吗?
章琦:美术线上教学场景下,视频的内容以画布居多。如果要完美呈现画的内容,保证画的空间比例关系,对拍摄的角度要求很高,需要将摄像头对准画布正中心,这在实际操作中其实很难,稍有偏差,作品的空间几何关系就会变化。为了降低用户使用难度,我们支持用户可以随意拍摄,在拍摄后对视频进行矫正处理,这其中需要关注摄像头的拍摄位置和角度,因此需要实时估计采集参数,然后求解几何变换矩阵,最后对视频进行处理,同时为了降低大量运算引入的时延,我们还进行了GPU优化,使整个操作在1毫秒左右,使用户的体验更加流畅。
LiveVideoStack: 在互联网这条高速公路上,最常发生的就是网络拥塞,所造成的后果就是丢包、延时和抖动,大大降低音视频的质量,在应对网络拥塞方面,拍乐云是如何做的呢?
章琦:拍乐云应对网络拥塞的主要手段是带宽预测,动态码率调整和自适应的FEC、ARQ、PLC等技术,可以实现在极限场景下依然通话流畅。同时还采用了前向纠错、丢包重传和丢包隐藏三大丢包恢复策略来应对拥塞。除了弱网对抗,拍乐云还自建了Pano Backbone全球实时传输加速网络,解决跨区域、跨国的链路问题,降低拥塞发生的概率,保障音视频的通信质量。
LiveVideoStack: 您之前讲过,所有抵抗弱网的手段都需要付出代价,也可以被认为是等价交换。这里的代价指的是什么?
章琦:这里的代价指的是抗弱网带来的其他性能的受损。举例来说,传输上的丢包是随机事件,在数据发送的时候无法得知这个数据是否会在传输时被丢。前向纠错编码虽然具备抗丢包能力,但是它对于数据包的保护是比较盲目的,客观上导致传输效率降低。从这个角度上来说,判断系统的抗弱网能力要避免从单一维度出发,需要全面考量。
LiveVideoStack: 您认为在未来,AI技术还能给RTC行业带来哪些大的变化?
章琦:AI技术对整个RTC行业带来的影响必然是非常深远的,客观地说,以深度学习为代表的AI技术的发展与成熟,对音视频关键技术的突破提供了另一个有希望的方向。有些使用传统技术无法解决的问题,可以通过与AI技术的融合,大大降低问题解决的难度。无论是RTC行业的核心音视频编解码,还是其他一些音视频处理和增强技术,比如现在比较热的音频降噪、 视频超分、对象分割识别等,在AI的加持下,都获得了突破。
LiveVideoStack: 您是浙大数学系毕业,是什么样的机缘巧合使您踏上了音视频这条路?
章琦:我的硕士研究方向是数字图像处理,三年求学期间,受益于我的导师叶懋东老师匪浅,只可惜当时的想法不够成熟,在数学这个方向的学习上未能理解叶老师的深意,至今觉得遗憾。读研期间,我还参与了信电系信息与通信工程研究所刘济林和王兴国老师的一些研究项目,他们是国内比较早研究视频编解码技术的团队,在技术上,受陈国斌博士师兄影响比较大, 可以说他们几位都是我踏上音视频开发这条路的贵人。
LiveVideoStack: 在音视频领域深耕这么多年,您能预测一下,下一个音视频技术发展趋势在哪里吗?
章琦:深度学习、虚拟现实技术、3D视频等等。深度学习在前面已有回答,这里不再赘述。虚拟现实和3D视频会依赖于相关硬件技术的成熟,我相信这一天不会太远了。
LiveVideoStack: 我了解到您平时很喜欢阅读,如果让您分别推荐一本音视频领域内的技术书,和一本行业外的其他类型的书,您会推荐哪两本?
章琦:第一本书我想推荐 Write Great Code Volume 2: Thinking Low-Level, Writing High-Level。这本书的作者是Randall Hyde,他的另一本久负盛名的作品是The Art of Assembly Language。不推荐The Art of Assembly Language 的原因是大多数同学都不会有写汇编代码的机会。不过不需要写汇编代码,并不表示你不需要掌握相关的知识,对音视频开发来说,代码执行的效率是非常重要的指标。不过实际工作中,我发现有相当比例的同学都不注意代码执行的效率。可能也是不具备相关的知识和感觉. 这本书是汇编语言的大家信手拈来之作,可以帮助你从汇编的角度来审视高级语言,理解软件是如何在CPU上运行的,从而写出高效且漂亮的代码。
Write Great Code Volume 2: Thinking Low-Level, Writing High-Level
第二本书我想推荐的是《中的精神 – 吴清源自传》, 在围棋这个圈子中,吴清源是以昭和棋圣之名享誉于世的大人物。他击败了所有日本的一流棋手,将他们的对局棋分降为先相先或让先,独步日本棋坛二十余年。但是这样一位高高在上的大人物,他的生活却相当清贫。与之对照的是他的精神世界非常丰富,舍棋之外,别无他物。金庸说他最佩服的人里,古人是范蠡,今人是吴清源。这本书就是吴清源精神世界的最好写照。
《中的精神:吴清源自传》
LiveVideoStack: 您将参加9月份在北京的LiveVideoStackCon音视频大会,那么在会上您会带来哪些令人期待的内容?
章琦:我会分享拍乐云视频编码器的设计实践以及针对实时视频系统应用场景落地的一些优化策略。
大家知道,实时视频系统对于时延的要求极高,所以视频编码器必须满足实时性的要求。现代编码器在 Rate-distortation 性能的提升上是以复杂度的上升为代价的,当前应用设备的碎片化非常严重、设备的运算能力差异巨大,这些都是新技术落地实时音视频系统将面临的挑战。所以我想分享下我们在设计实时视频编码器时,在平衡复杂度和实时性上的一些考量。
LiveVideoStack: : 好的,谢谢您接受采访,期待您在2021LiveVideoStackCon北京站的精彩演讲!