三位一体的视频换脸术，拒绝别人的嘴替我说话｜SIGGRAPH 2018

AI资讯2年前 (2023)发布 AI工具箱

372 0 0

各位说不定还记得，之前有个导演，模仿奥巴马的声音吐槽了川普，还把自己的嘴完好地贴到了奥巴马脸上。

这样，虽然嘴部有些异样，但不盯着嘴看的话，也不易察觉吐槽视频是合成的。

不过，就算只为了那一小撮火眼金睛的观众，科学家们大概还是要为合成视频的逼真程度赴汤蹈火。

最近，普朗克研究所 (MPI) 一群技艺精湛的研究人员，表示他们是第一个，把替身的3D头部和面部动作整体搬运到目标主角脸上，的团队。

三位一体

在他们的系统里，只要输入一段替身的单人表演视频，和目标主角的一段单人视频，就可以让主角学到头部和面部的所有动作。

视频输入后，算法会用“面部重构 (face reconstruction) ”的方式追踪替身和主角，得到一系列参数，用来表示头部姿势、面部表情和眼球转动等等动作。

这些参数向量可以直接输送到主角的脸上，下一步就是渲染合成的主角图像。

然后重点来了，团队建造了一个拥有时空结构 (space-time architecture)的神经网络，向它输入渲染过的人脸参数模型，它就能“脑补”出目标主角的逼真视频，称为动态肖像 (video portrait) 。

团队说，这样的真实度是靠艰苦的对抗训练来实现的。

成果是，只要有几分钟的主角视频作为训练素材，替身的表演就可以获得高质量的继承。

头发、脖子、肩膀还有目标背景，都会随着生成的头部和面部动作，发生自燃的变化。就连背景里的阴影，也能跟着前景走。

想调哪就调哪

另外，如果不想让头部跟着一起动，也可以只改表情。

还有啊，如果不想完全照搬替身的表演，我们还可以手动调节头的朝向，脸上的表情。

任何参数都可以单独调，也可以整体调。

这就是说，没有替身，直接给视频里的主角改动作也没问题。眨眨眼，撇下嘴，都可以。

有对比才有伤害

至于这研究成果到底厉害成什么样，当然还是要和其他人的算法比比看。不然，极客们怎么获得碾压同行的快感？

首先，他们把自家的动态肖像算法和Thies团队的Face2Face做了对比。

二者相比，动态肖像大法的表情更加到位，头部动作更吻合，生成的视频也就一气呵成。

第二个对手是Suwajanakorn团队基于音频的配音法术。

对方的嘴唇同步很优秀，但没有给主角任何表情控制技能，效果便略显僵硬。而己方的面部、头部和眼球搭配食用，更为自然清新。

第三场比赛，是在头部运动的选手之间展开。

Averbunch-Elor团队的算法在动作上和动态肖像相差无几，但背景明显扭曲，翻了修图大计。

对此，普朗克研究所表示，这是因为对方算法是一帧一帧单独学习的，而他们是用整段视频来学姿势。

谦虚地说，还有局限

虽然，现在生成的视频已经很接近真实了，但团队说这个算法还是有自己的局限性。

比如，人物的活跃范围，超出了训练语料库 (Training Corpus) 的表情和动作，就很难高度还原替身的表演了。

但他们说，这也是多数同行会遇到的问题。

那不就是说，“我做到的你没做到，我没做到的你也没做到”，么？

论文摘要传送门：

https://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/index.html

视频演示传送门：

https://v.qq.com/x/page/b0659sbu642.html

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

“

# AI资讯

文章版权归作者所有，未经允许请勿转载。

国内首个民营卫星工厂开建，年产将超100颗百公斤级卫星

AI工具箱

657

思谋科技完成B轮融资，领跑智能制造

AI工具箱

483

飞行汽车公司梦碎：账面还剩42万，求私募资金救急

AI工具箱

338

1亿中国人已被AI批改过作业

AI工具箱

471

3篇量子计算里程碑论文同登Nature封面：保真度超99%，达到实用化水平

AI工具箱

558

俄罗斯自研CPU实测：能玩老游戏，下一代「高性能」芯片无人代工

AI工具箱

570

暂无评论

暂无评论...

三位一体的视频换脸术，拒绝别人的嘴替我说话｜SIGGRAPH 2018

三位一体

想调哪就调哪

有对比才有伤害

谦虚地说，还有局限

史上第一个虫洞，被谷歌量子计算机造出来了 | Nature封面

照片你随便拍，「光影」我任意调，MIT谷歌新研究，器材党老法师看了会沉默

相关文章

暂无评论