视频P图新SOTA：推理速度快近15倍，任意分辨率均可上演人像消失大法，来自南开大学｜CVPR 2022

AI资讯2年前 (2023)发布 AI工具箱

462 0 0

众所周知：视频是可以P的。

这不，在CVPR 2022收录的论文中，就出现了这么一个P图神器，它可以分分钟给你上演各种人像消失大法，不留任何痕迹。

去水印、填补缺失更是不在话下，并且各种分辨率的视频都能hold住。

正如你所见，这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

同时它的推理时间和计算复杂表现也很抢眼：

前者比此前的方法快了近15倍，可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频；后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

如此神器，什么来头？

目前很多视频修复算法利用的都是光流法 （Optical flow）。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。

这个方法的缺点很明显：计算量大、耗时长，也就是效率低。

为此，研究人员设计了三个可训练模块，分别为流完成（flow completion）、特征传播 （feature propagation）和内容幻想（content hallucination），提出了一个流引导（flow-guided）的端到端视频修复框架：

E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应，不过可以进行联合优化，从而实现更高效的修复过程。

具体来说，对于流完成模块，该方法直接在mask viedo中一步完成操作，而不是像此前方法采用多个复杂的步骤。

对于特征传播模块，与此前的像素级传播相比，该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作，传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块，研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域，从而获得更具时间相关性的修复结果。

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验，将他们的方法与之前的视频修复方法进行了比较。

如下表所示，E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法，能够生成变形更少（PSNR和SSIM）、视觉上更合理（VFID）和时空一致性更佳（Ewarp）的修复视频，验证了该方法的优越性。

此外，E2FGVI也具有最低的FLOPs值（计算复杂度），尽管训练是在432 × 240分辨率的视频上进行，它的HQ版本做到了支持任意分辨率。

研究人员首先选择了三种最有代表性的方法，包括CAP、FGVC（基于光流法）和Fuseformer（入选ICCV 2021），进行对象移除（下图前三行）和缺失补全（下图后两行）的效果比较。

可以发现，前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊，但E2FGVI可以生成相对真实的纹理和结构信息。

此外，它们还选用了5种方法进行了用户研究，结果大部分人都对E2FGVI修复后的效果更满意。

综上，研究人员也表示，希望他们提出的方法可以成为视频修复领域新的强大基线。

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生，共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明，主要研究方向是计算机视觉和图形学。

目前，E2FGVI的代码已经开源，作者也提供了Colab实现，未来还将在Hugging Face给出demo。

论文地址：
https://arxiv.org/abs/2204.02663

GitHub主页：
https://github.com/MCG-NKU/E2FGVI

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

北理工副教授曝学生论文被100%抄袭，对方为南方某985学生，该校抄袭事件还不止一起

AI工具箱

505

散热拉满+真旗舰芯片870，realme GT Neo2是最接地气的游戏手机吗？

AI工具箱

284

自研芯片+自主AI框架，百度CTO王海峰携百度大脑6.0亮相

AI工具箱

287

电动飞船来了！水上飞的那种，售价165万

AI工具箱

397

「深度学习+」阶段来了！百度王海峰：深度学习多维度逐渐成熟，创新创造大有可为

AI工具箱

398

AI终于能生成流畅3D动作片了，不同动作过渡衔接不出bug，准确识别文本指令丨开源

AI工具箱

426

暂无评论

暂无评论...

视频P图新SOTA：推理速度快近15倍，任意分辨率均可上演人像消失大法，来自南开大学｜CVPR 2022

李飞飞团队从动物身上get AI新思路，提出RL计算框架，让机器在复杂环境学习和进化

每个工位都装监控，既拍屏幕又拍人，深圳公司神操作引热议：坐牢也不这样吧

相关文章

暂无评论