点云处理不得劲?球卷积了解一下

AI资讯1年前 (2023)发布 AI工具箱
281 0 0

量子位 报道 | 公众号 QbitAI

点云,是一种重要的三维数据形式,对于自动驾驶、VR/AR测量领域都有着十分重要的作用。

但点云天然具有非规则的数据形式使得利用深度学习处理与图像迥然不同。

来自西澳大利亚大学的研究人员独辟蹊径,提出了与传统截然不同的球卷积核方法,结合图模型对点云进行了有效的处理,并在分类和语义分割任务上取得了良好的结果。

让我们先来看看这种新的球卷积系统:

最左边的是新提出的球形核,它可以将空间系统地划分为多个部分并用相应的权重提取特征。

这种球核卷积方式具有旋转不变性和非对称特征提取特征,不仅能够对数据中相同的局域特征实现权重共享,同时也保证了几何特征的有效学习。

通过在点云上构建图模型,利用球卷积核可以有效地对点云进行语义分割:

三维点云处理

随着自动驾驶的发展,激光雷达和多视角立体视觉技术提供了海量的点云数据,但由于点云的稀疏性和不规则性使得处理、感知和理解面临着诸多挑战。

早期研究基于二维图像经验,将点云栅格化并利用于二维类似的三维卷积处理。

由于计算量和内存消耗巨大,使得处理的点云数量和分辨率都十分有限。

后来引入八叉树方法进行处理,但点云的稀疏特性依旧让划分的空间内存在大量的无效区域。

近年来图网络的兴起为点云的高效表示和处理提供了新的方向。

但如何设计出像规则卷积一样有效处理非规则点云的图卷积模块,一直是学界在不断努力解决的难题。

目前图卷积处理点云的主流方法是直接在空间域中进行处理,如果设计有效的离散卷积核科学家们一直在努力探索的目标。

与现有逐条边进行滤波的连续方法相比,离散模型将大大减小点云图的计算量。

一个有效的离散图卷积核需要满足以下三个特征:对空间的有效离散化、核操作具有可识别相似局域特征的旋转不变性、以及保证全局紧凑表达的非对称特征。

虽然PointNet及其变种提出了基于多层感知机进行点云处理的有效方式,但却没有针对点云数据提出一种适用于非规则稀疏空间的有效操作子。

如果要对非规则点云进行精确有效的学习,抽取其中细粒度核多尺度特征,并在大范围高精度点云中实现高效的表达核计算,需要研究新的空间表达核卷积操作。

而本文提出球形核处理图网络的新方法为这个问题给出了一种可能的解决方案。

离散卷积核与球卷积

为了表示点云的邻域特征,先前的方法利用目标点和周围点的连续函数来计算权重:

w=h(xi-xj)

一般使用多层感知机来实现连续函数h,随后再将基于这一权重滤波器进行特征计算。而如果使用离散核来处理则无需进行中间的权重计算,使得模型所需的计算量大幅下降,从而也提升了计算效率。

与连续卷积不同,离散卷积首先对空间进行了划分量化为一个个离散空间。针对每个空间区域有相匹配的权重进行作用。

先前的工作已经在基于3D体素中进行了一系列研究,但却存在分辨率低、无效计算多等缺点。

在这篇文章中,研究人员则提出了将离散和用于图表达中来实现更为高效的点云特征抽取。这种新方法被称为CNN3D。

它首先对空间中每一个划分好的区域(也称作bin)建立索引,并为每个区域赋予对应的权重以便将目标点领域内的所有点特征急性提取,避免了对于没有点区域的无效计算。

此外研究人员还发现与规则图像中常用的矩形栅格相比,球形空间更适合于对非规则的无序点云的处理。

在离散卷积核球空间的基础上,研究人员基于球形作为基本几何形状,构建出了新的卷积操作球卷积核

提取目标点的邻域信息是抽取点云特征的关键。研究人员以目标点为中心,距离rho为半径构建起邻域空间。

将这个球形空间划分为nxpxq个区域,其中在经度和纬度方向上均匀划分,而在半径方向上进行非均匀划分以适应体积随半径的变换。

此外还在目标点的中心定义了一个自卷积区域bin,一共将空间划分成了nxpxq+1个区域。下图中详细展现了传统三维卷积核球卷积SPH3D的差异。

CNN3D中空间被剖分为均匀的三维体素,而在SPH3D中则按球的几何特性划分成了非均匀的空间结构。

对于两种方式来说,落在对应bin区域中的点通过bin对应的权重w将会把这些领域点的信息传到目标点作为目标点的邻域信息。

这种求卷积核具有非对称性可以有效学习点云中的细节信息,对于几何相关性的学习是的它具有很强的抗干扰能力,同时旋转不变性则为点云学习不同位置上的相似结构提供了可能。

与规则的三维体素卷积方式相比,SPH3D在空间分辨率、学习能力和表达能力上都有突出的优点。

首先针对空间分辨率来说,规则的体素分割法空间中之内分割出3x3x3=27个区域,而在相同的分辨率下,如果使用球卷积的风格方法,最以pi/2作为最粗糙的角度分割,那么也能将这一区域分割为4x4x3+1=49个区域。

此外,沿半径方向上可以发现中心区域的空间相较于外层较小,细粒度的划分bin集中在目标点周围,这可以将点云邻域更为细节的信息进行编码,实现对点云更紧致的表达。

而基于规则体素的CNN3D则会在减小划分区域提高分辨率的同时大幅度提高内存和计算的消耗。

实验表明球卷积的非均匀空间划分在33个bin的情况下就超过了规则划分CNN3D利用125bins得到的结果精度。

基于球卷积的图神经网络

在图卷积的基础上,研究人员构建了编码器解码器的图卷积网络架构。

其中层间跳接特征集成是的更多的底层信息被涵盖到解码器中,而池化淤上采样的实现则为网络提供了特征提取和分辨率提升的有效手段。

为了构建代表点云的图,研究人员首先使用限定数量的距离搜索方法来为空间点寻找到半径rho内的相邻点,并基于此构建图中每个顶点及其对应的边。

每个点对于邻域进行距离搜索相对独立可以充分利用GPU加速图的构建。随后采用了最远点采样的方法对下层点云进行粗糙采样,并在粗糙化的基础上利用pooling来抽取其中相关特征。

最终在解码阶段还需利用unpooling来重新增加网络的分辨率。这一网络中的卷积都通过前述的球卷积实现,同时研究人员还利用cuda实现了池化和上采样的相关接口并可以利用tensorflow调用。

实验结果

为了验证这一方法的有效性,研究人员在多个仿真和真实数据上进行了试验。modelnet,shapnet、Monge2014、ScanNet、S3DIS等等都是常用的三维点云基准数据。

针对每个数据集,研究人员都和相关的算法进行了比较。我们着重来看看针对真实扫描数据集S3DIS的结果。

图中可以看到,相较于先前的方法,SPH3D方法在全局精度、平均精度和IoU上都达到了很好的结果。

S3DIS是一个大规模的室内扫描数据,其中的数据点多大百万量级。研究人员使用了下采样策略,在0.4M的模型参数规模上实现了超过卷积网络的结果。

为了更详细的理解模型,文章中还对球卷积核进行了可视化分析。下图中的卷积来于编码器第二层的可视化结果,其中的区域被剖分成了8x2x2+1个区间。

可以看到不同核的权重分布各不相同,例如第一行第三个核在上半球为正下半球为负,而下方的卷积核则全部都为负。

这意味着不同的核负责识别出不同模式的特征,有效的将点云中的特征进行了抽取。

与图像处理的CNN类似,对于点云的空间处理也具有各种典型的模式。这一基于球空间剖分的图卷积工作为点云的处理提供了新的思路。

论文传送门:

https://arxiv.org/pdf/1909.09287.pdf

代码传送门:

https://github.com/hlei-ziyan/SPH3D-GCN

— 完 —

© 版权声明

相关文章

暂无评论

暂无评论...