第一个大规模点云的自监督预训练MAE算法Voxel-MAE-德赢Vwin官网网

作者：Chen Min， Xinli Xu， Dawei Zhao， Liang Xiao， Yiming Nie， Bin Dai

基于掩码的自监督预训练方法在图像和文本领域得到了成功的应用。但是，对于同样信息冗余的大规模点云，基于掩码的自监督预训练学习的研究还没有展开。在这篇文章中，我们提出了第一个将掩码自编码器引入大规模点云自监督预训练学习的方法：Voxel-MAE。不同于2D MAE采用RGB像素回归，3D点云数量巨大，无法直接学习每个点云的数据分布，因此Voxel-MAE将点云转成体素形式，然后进行体素内是否包含点云的二分类任务学习。这种简单但是有效的分类学习策略能使模型在体素级别上对物体形状敏感，进而提高下游任务的精度。即使掩蔽率高达90%，Voxel-MAE依然可以学习有代表性的特征，这是因为大规模点云的冗余度非常高。另外考虑点云随着距离增大变稀疏，设计了距离感知的掩码策略。2D MAE的Transformer结构无法处理大规模点云，因此Voxel-MAE利用3D稀疏卷积来构建encoder，其中position encoding同样可以只处理unmasked的体素。我们同时在无监督领域自适应任务上验证了Voxel-MAE的迁移性能。Voxel-MAE证明了对大规模点云进行基于掩码的自监督预训练学习，来提高无人车的感知性能是可行的。KITTI、nuScenes、Waymo数据集上，SECOND、CenterPoint和PV-RCNN上的充分的实验证明Voxel-MAE在大规模点云上的自监督预训练性能。

Voxel-MAE是第一个大规模点云的自监督掩码自编码器预训练方法。

不同于MAE中，Voxel-MAE为大规模点云设计了适合的体素二分类任务、距离感知的掩码策略和3D稀疏卷积构建的encoder等。

Voxel-MAE的自监督掩码自编码器预训练模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo数据集上的性能。

Voxel-MAE同时在无监督领域自适应3D目标检测任务上验证了迁移性能。

算法流程

图1 Voxel-MAE的整体框图：首先将大规模点云转成体素表示，然后采用距离感知的掩码策略对体素进行mask，再将unmasked的体素送入不对称的encoder-decoder网络，重建体素。最后，采用判断体素内是否包含点云的二分类交叉熵损失函数端到端训练整个网络。Encoder采用三维稀疏卷积网络构建，Decoder采用三维反卷积实现。

Range-aware Masking

遵循常见的3D点云目标检测的设置，我们将WXHXD范围内的大规模点云沿着XYZ方向分成大小为VWXVHXVD的体素。所有体素的个数为nl，包含点云的体素个数为nv。

不同于2D图像，3D点云的分布随着离激光雷达的距离增加越来越稀疏。因此不能对不同位置的点云采用相同的掩码策略。

对此我们设计了距离感知的掩码策略。即对近处稠密的点云masking多，对远处稀疏的点云masking少。具体我们将点云分成30米以内，30-50米，50米以外，然后分别采用r1，r2和r3三种掩码率来对点云体素进行随机掩蔽，其中r1》r2》r3。剩余的unmasked的体素个数为nun。对于所有包含点云的体素nl，我们将其点云体素分类目标设为1，其他设为0。

3D Sparse Convolutional Encoder

MAE论文中采用Transformer网络架构对训练集中的unmasked部分进行自注意力机制学习，不会被masked部分影响。但是由于unmasked的点云数量仍然很大，几十万级别，Transformer网络无法处理如此大规模unmasked的点云数据。研究者通常采用3D SparseConvolutions来处理大规模稀疏3D点云。因此不同于2D MAE，Voxel-MAE采用3D SparseConvolutions来构建MAE中的encoder，其采用positional encoding来只对unmasked的体素聚合信息，从而类似MAE中的Transformer结构，可以降低训练模型的计算复杂度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷积构建decoder。最后一层输出每个体素包含点云的概率。decoder网络简单，只用于训练过程。

Voxel-MAE的encoder和decoder的结构如下：