镜子里的人,是人吗?对于计算机视觉系统来说:是。
大部分系统也不考虑镜子因素,它们很难分清楚镜中人。
镜子作为日常生活中非常重要的物体无处不在,不仅能够反射光线,能呈现出周围物体或者场景的镜像。
这就导致计算机视觉系统或者机器人一旦遇到有镜子的场景,性能就会大幅下降,可以说是遇到了克星。
怎么办?来自大连理工、鹏城实验室和香港城市大学的研究团队提出了一个方法。
他们发表了一篇名为Where Is My Mirror?的论文,已经被ICCV2019收录。
在这篇论文中,他们构建了一个大规模的镜像数据集,并提出了一种从输入图像中分割镜子的新方法。
不仅能够准确识别并分割出场景中的镜子,还能够消除由于镜子反射所导致的对于场景的错误理解,并帮助一些计算机视觉任务(例如深度估计和目标检测)提升鲁棒性。
他们说,这是首个解决镜子分割的方法,经过大量的实验表明,性能表现比最先进的检测和分割方法都要好。
未来,他们的目标是检测出现在城市街道上的镜子,这对户外执行的视觉任务——自动驾驶和无人机导航——都有助益。
Where Is My Mirror?
对于计算机视觉系统来说,镜子反射的内容与镜子外部的内容(即周围环境)非常相似,它们很难区分出来,更不用说从一个背景中自动分割镜子了。
从这点来看,系统是比不上人的。大多数人类,通常能很好地察觉镜子的存在。
向人类学习,成了这篇论文的突破点。研究人员观察到,人们识别镜像中的内容,通常会从边界入手,观察其不连续性。
因此,这个问题的一个直接的解决方案,是应用低层次的特征,比如颜色和纹理变化,来检测镜子边界。
但如果一个镜子前面有物体遮挡,这个方法就不管用了,比如这样的情况:
单靠检测镜子边界很难将对象的反射与对象本身分离开,也需要语义,即上下文对比信息来进行进行分割。
基于此,研究人员从两个方面来解决镜子分割问题:数据和神经网络。
自建数据集
因为这一领域之前并未有太多人关注,自然也没有可用数据集。
于是他们就自己动手,创建数据集MSD,包含4018对包含镜子和相应的手动注释的蒙版图像。
其中,有3677张来自室内场景,341张来自室外场景,基本上涵盖了生活中常见的出现镜子的场景:化妆台、装饰品、浴室、路面镜子、卧室、办公室、花园、街道和停车场。
最后有3063张图像用于训练,955张图像用于测试。
怎么找镜子?
论文中提出的镜子分割网络MirrorNet的架构,以单幅图像为输入,通过特征提取网络(FEN)提取多层特征。
然后,将最深层的、语义丰富的特征输入到所提出的上下文对比特征提取(CCFE)模块中,学习上下文对比特征,通过检测对比出现的分界线,用初始的粗糙的镜子分割图来定位镜子。
这一镜子分割图作为注意力图,用于抑制非镜子区域上一层 FEN 特征的特征噪声,使上一层能够集中学习候选镜子区域的鉴别特征。
通过这种方式,MirrorNet逐步利用上下文对比信息以从粗到精的方式细化镜子区域。最后,对最粗的网络输出进行上行采样,得到原始的图像分辨率作为输出。
镜子在这里
自建数据集提出的MirrorNet效果怎么样?
研究人员采用了相关领域中常用的5个度量(即语义分割、显著目标检测和阴影检测) ,对镜子分割性能进行定量评估。
比较对象也都是目标分割领域先进的模型,比如Mask RCNN、R3Net等等。
从这些指标来看,MirrorNet表现都是最佳。
一次跨越南北的合作
这一论文来自大连理工、鹏城实验室和香港城市大学,是一次跨越南北的合作。
第一作者有两位,分别是杨鑫和梅海洋。
杨鑫,大连理工大学计算机学院副教授、博士生导师、学校学科办建设副主任。本科毕业于吉林大学计算机学院,于浙江大学-美国加州大学戴维斯分校计算机学院进行博士生联合培养,获工学博士学位,香港城市大学博士后。
梅海洋,大连理工大学在读博士生,本科也毕业于大连理工大学。研究兴趣为图像处理、计算机视觉和深度学习。
梅海洋介绍称,他们团队围绕镜子,用了一年半的时间进行课题调研、确定问题、制作数据集、设计模型、优化模型,研究成果最终被ICCV2019接收。
后续将围绕城市间建筑表面的镜子来展开研究,以此来进一步扩展问题,缓解各种场景下镜子对于其他视觉任务的影响,提高应用价值。
最后,梅海洋说,关于这一研究的数据集和代码将会开源,希望广大的研究者们能够一起加入到这个问题的研究中~
如果你对这一研究感兴趣,请收好传送门:
https://mhaiyang.github.io/ICCV2019_MirrorNet/index.html
“