1 第一个大规模点云的自监督预训练MAE算法Voxel-MAE-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

第一个大规模点云的自监督预训练MAE算法Voxel-MAE

3D视觉工坊 来源:arxiv 作者:arxiv 2022-10-21 16:15 次阅读

作者:Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai

基于掩码的自监督预训练方法在图像和文本领域得到了成功的应用。但是,对于同样信息冗余的大规模点云,基于掩码的自监督预训练学习的研究还没有展开。在这篇文章中,我们提出了第一个将掩码自编码器引入大规模点云自监督预训练学习的方法:Voxel-MAE。不同于2D MAE采用RGB像素回归,3D点云数量巨大,无法直接学习每个点云的数据分布,因此Voxel-MAE将点云转成体素形式,然后进行体素内是否包含点云的二分类任务学习。这种简单但是有效的分类学习策略能使模型在体素级别上对物体形状敏感,进而提高下游任务的精度。即使掩蔽率高达90%,Voxel-MAE依然可以学习有代表性的特征,这是因为大规模点云的冗余度非常高。另外考虑点云随着距离增大变稀疏,设计了距离感知的掩码策略。2D MAE的Transformer结构无法处理大规模点云,因此Voxel-MAE利用3D稀疏卷积来构建encoder,其中position encoding同样可以只处理unmasked的体素。我们同时在无监督领域自适应任务上验证了Voxel-MAE的迁移性能。Voxel-MAE证明了对大规模点云进行基于掩码的自监督预训练学习,来提高无人车的感知性能是可行的。KITTI、nuScenes、Waymo数据集上,SECOND、CenterPoint和PV-RCNN上的充分的实验证明Voxel-MAE在大规模点云上的自监督预训练性能。

Voxel-MAE是第一个大规模点云的自监督掩码自编码器预训练方法。

不同于MAE中,Voxel-MAE为大规模点云设计了适合的体素二分类任务、距离感知的掩码策略和3D稀疏卷积构建的encoder等。

Voxel-MAE的自监督掩码自编码器预训练模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo数据集上的性能。

Voxel-MAE同时在无监督领域自适应3D目标检测任务上验证了迁移性能。

算法流程

图1 Voxel-MAE的整体框图:首先将大规模点云转成体素表示,然后采用距离感知的掩码策略对体素进行mask,再将unmasked的体素送入不对称的encoder-decoder网络,重建体素。最后,采用判断体素内是否包含点云的二分类交叉熵损失函数端到端训练整个网络。Encoder采用三维稀疏卷积网络构建,Decoder采用三维反卷积实现。

Range-aware Masking

遵循常见的3D点云目标检测的设置,我们将WXHXD范围内的大规模点云沿着XYZ方向分成大小为VWXVHXVD的体素。所有体素的个数为nl,包含点云的体素个数为nv。

不同于2D图像,3D点云的分布随着离激光雷达的距离增加越来越稀疏。因此不能对不同位置的点云采用相同的掩码策略。

对此我们设计了距离感知的掩码策略。即对近处稠密的点云masking多,对远处稀疏的点云masking少。具体我们将点云分成30米以内,30-50米,50米以外,然后分别采用r1,r2和r3三种掩码率来对点云体素进行随机掩蔽,其中r1》r2》r3。剩余的unmasked的体素个数为nun。对于所有包含点云的体素nl,我们将其点云体素分类目标设为1,其他设为0。

3D Sparse Convolutional Encoder

MAE论文中采用Transformer网络架构对训练集中的unmasked部分进行自注意力机制学习,不会被masked部分影响。但是由于unmasked的点云数量仍然很大,几十万级别,Transformer网络无法处理如此大规模unmasked的点云数据。研究者通常采用3D SparseConvolutions来处理大规模稀疏3D点云。因此不同于2D MAE,Voxel-MAE采用3D SparseConvolutions来构建MAE中的encoder,其采用positional encoding来只对unmasked的体素聚合信息,从而类似MAE中的Transformer结构,可以降低训练模型的计算复杂度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷积构建decoder。最后一层输出每个体素包含点云的概率。decoder网络简单,只用于训练过程。

Voxel-MAE的encoder和decoder的结构如下:

Reconstruction Target

2D MAE中采用masked部分的RGB像素回归作为掩码自编码器自监督学习的目标,但是3D点云的数量很大,回归点云需要学习每个点云的数据分布,是难以学习的。

对于3D点云的体素表示,体素内是否包含点云非常重要。因此我们为Voxel-MAE设计了体素是否包含点云的二分类任务。目标是恢复masked的体素的位置信息。虽然分类任务很简单,但是可以学习到大规模点云的数据分布信息,从而提高预训练模型的性能。

实验结果

采用OpenPCDet算法基准库,在KITTI、nuScenes、Waymo数据集上进行了实验验证。

1.KITTI

2. Waymo

3. nuScenes

4. 3D点云无监督领域自适应任务验证迁移性能

5. 3D点云重建可视化图

审核编辑:郭婷


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3638

    浏览量

    134418
  • 激光雷达
    +关注

    关注

    968

    文章

    3967

    浏览量

    189817
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24688

原文标题:Voxel-MAE: 第一个大规模点云的自监督预训练MAE算法

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    ,在大模型实践和理论研究的过程中,历时8月完成 《大规模语言模型:从理论到实践》 书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用,并解决相关技术问题。 本书经上市,
    发表于 03-11 15:16

    个大规模电路是怎么设计出来的???

    组合成电路,比如电视机的电路板上电子元件纵横交错,怎么设计组合成那样的,还有各与器件参数大小怎么算的?数字电路的各个门,模拟电路的三极管,单个是简单,就是不明白怎么组合成大规模电路的。书上就那么几个简单的电路图,网上也查询过
    发表于 12-24 20:34

    AU1200 MAE驱动程序的开发流程是什么?

    随着移动多媒体终端的口益普及,功能的日益强大,人们已经不满足于自己的手持终端仅仅能够听MP3音乐,而是希望终端在播放音乐的同时能够播放高质量视频,并支持多种视频格式。AU 1200作为
    发表于 03-16 07:38

    请问怎样去设计MAE前端驱动软件?

    MAE是什么?MAE的开发环境如何去建立?怎样对MAE前端驱动软件进行设计及测试?
    发表于 04-22 06:04

    神经网络在训练时常用的些损失函数介绍

    标准的高斯分布,说明我们的这个损失函数可能不是很适合这个问题。下图显示各训练轮次的对比MSE收敛得很好,但MSE可能过拟合了,因为它从20轮开始下降变得变换并且开始上升。MAE
    发表于 10-20 17:14

    AU 1200 MAE驱动程序开发流程

    AU 1200作为款基于MIPS架构的处理器,由于其片上集成了视频硬件设备(Media Accel-eration Engine,MAE),使得该处理器无需配合其他视频解码芯片即可完成多种格式的视频解码功能 &nb
    发表于 06-24 09:38 608次阅读
    AU 1200 <b class='flag-5'>MAE</b>驱动程序开发流程

    个大规模超文本网络搜索引擎剖析(英文版)

    个大规模超文本网络搜索引擎剖析(英文版)
    发表于 04-30 14:09 0次下载

    如何向大规模训练语言模型中融入知识?

    本文关注于向大规模训练语言模型(如RoBERTa、BERT等)中融入知识。
    的头像 发表于 06-23 15:07 4227次阅读
    如何向<b class='flag-5'>大规模</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>语言模型中融入知识?

    用于弱监督大规模语义分割的混合对比正则化框架

    为了解决大规模语义分割中的巨大标记成本,我们提出了种新的弱监督环境下的混合对比正则化(HybridCR)框架,该框架与全
    的头像 发表于 09-05 14:38 1345次阅读

    MAE再发力,跨模态交互式自编码器PiMAE席卷3D目标检测领域

    MAE以其简单的实现方式、强大的视觉表示能力,可以在很多基础视觉任务中展现出良好的性能。但是目前的工作大多是在单视觉模态中进行,那MAE在多模态数据融合方面表现如何呢?本文
    的头像 发表于 04-21 09:36 991次阅读

    PyTorch教程11.9之使用Transformer进行大规模训练

    德赢Vwin官网 网站提供《PyTorch教程11.9之使用Transformer进行大规模训练.pdf》资料免费下载
    发表于 06-05 15:07 0次下载
    PyTorch教程11.9之使用Transformer进行<b class='flag-5'>大规模</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>

    基础模型监督训练的数据之谜:大量数据究竟是福还是祸?

    。然而,在监督训练中,是否数据越多越好?数据增广是否始终有效?华为诺亚方舟实验室与香港科技大学的研究团队近期发现: 主流
    的头像 发表于 07-24 16:55 557次阅读
    基础模型<b class='flag-5'>自</b><b class='flag-5'>监督</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>的数据之谜:大量数据究竟是福还是祸?

    在各种检测器的所有模块实现无监督训练

    近年来,大规模训练后微调优化方法在计算机视觉中取得了重大进展。系列训练
    的头像 发表于 08-01 11:42 850次阅读
    在各种检测器的所有模块实现无<b class='flag-5'>监督</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>

    NeurIPS 2023 | 全新的监督视觉训练代理任务:DropPos

    ://arxiv.org/pdf/2309.03576 代码链接:  https://github.com/Haochen-Wang409/DropPos 今天介绍我们在 监督视觉训练
    的头像 发表于 10-15 20:25 522次阅读
    NeurIPS 2023 | 全新的<b class='flag-5'>自</b><b class='flag-5'>监督</b>视觉<b class='flag-5'>预</b><b class='flag-5'>训练</b>代理任务:DropPos

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习是种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模
    的头像 发表于 07-09 18:06 775次阅读