还在为音视频质量评估苦恼吗?
视听时代,音视频应用越来越广泛:直播、短视频、视频节目、音视频通话……近期由于新冠疫情带来的在线协同办公、在线教育类产品的崛起,更带来了线上音视频需求的爆发,用户对音视频质量诉求也愈加强烈。
有没有高效又有“质保”的方法?
腾讯最新开源来了。
腾讯多媒体实验室,近期设计的基于深度学习的全参考视频质量评估算法DVQA,在Github上正式开源,该算法模型的性能,目前还在公开测试数据集上取得业界领先成绩。
解决什么问题?
在整个视频链路中,大部分模块都可以精确度量,如采集、上传、预处理、转码、分发等。然而未知的部分却恰恰是最关键的部分,即用户的视频观看体验到底怎么样。
目前行业内的视频质量评估方法分为两大类:客观质量评估与主观质量评估。
前者计算视频的质量分数,又根据是否使用高清视频做参考、源视频是专业视频还是用户原创视频等进一步细分。
后者主要依赖人眼观看并打分,能够直观反映观众对视频质量的感受。
然而,这些方法仍存在耗时费力、成本较高、主观观感存在偏差等难题。
而腾讯多媒体实验室提出的视频质量评估解决方案,首先结合业务需求,使用“在线主观质量评测平台”,来构建大规模主观质量数据库。
同时使用所收集的主观数据来训练基于深度学习的客观质量评估算法。
最后把训练好的质量评估算法部署到业务线中,闭环监控可能存在的质量问题。
从以上三个角度出发,DVQA能够在兼顾不同业务、场景的前提下,满足效率与精度两大需求。
DVQA包含多个质量评估算法模型,本次开源的是针对PGC视频的算法C3DVQA。
本项目使用Python开发,深度学习模块使用PyTorch。
代码使用模块化设计,方便集成较新的深度学习技术,灵活的自定义模型,训练和测试新的数据集。
在算法设计上,C3DVQA所使用的网络结构如下:
其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。级联后使用四层三维卷积层来学习时空联合特征。
三维卷积输出描述了视频的时空掩盖效应,再使用它来模拟人眼对视频残差的感知情况:掩盖效应弱的地方,残差更容易被感知;掩盖效应强的地方,复杂的背景更能掩盖画面失真。
网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果,它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。
效果如何?
在评测结果上,腾讯多媒体实验室在LIVE和CSIQ两个视频质量数据集上对所提出算法的性能进行验证。
并使用标准的PLCC和SROCC作为质量准则来比较不同算法的性能。
将所提出的C3DVQA与常用的全参考质量评估算法进行对比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,结果如下:
目前该评估算法已在腾讯内外部多款产品中进行使用验证,如腾讯会议就借助实验室上百个符合ITU/3GPP/AVS等国外内标准的指标进行评判,闭环监控全网的用户体验质量,从用户真实体验出发,不断优化产品性能。
出品团队
腾讯多媒体实验室,腾讯旗下顶尖的音视频通信和处理研发团队,专注于实时音视频通信、音视频编解码前沿算法研究、音视频国际标准、计算机视觉图像处理、端到端音视频质量评测。在实时音视频通信和处理技术、音视频国际标准等领域积累了完整的解决方案和领先的技术水平。
最初名“腾讯音视频实验室”,2019年正式更名为“腾讯多媒体实验室”。
目前实验室掌舵者为刘杉博士,腾讯杰出科学家,也是腾讯T5——腾讯技术体系最高职级中的唯一一位女性。
刘杉本科毕业于清华大学电子工程系,硕士和博士毕业于美国南加州大学电机工程系,2017年正式加盟腾讯。
传送门:
开源地址:
https://github.com/Tencent/DVQA
国内镜像地址:
https://git.code.tencent.com/Tencent_Open_Source/DVQA
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ’ᴗ’ ի 追踪AI技术和产品新动态
“