1 李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

CVer 来源:新智元 2023-06-12 14:18 次阅读

【导读】只需一个简单操作扩展MAE,即可实现自监督学习新sota!

计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。

最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders)以学习视频中的视觉对应关系。

666d8786-08df-11ee-962d-dac502259ad0.png

论文链接:https://siam-mae-video.github.io/resources/paper.pdf

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。

通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。

6682c56a-08df-11ee-962d-dac502259ad0.gif

尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。

孪生掩码自编码器

研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。

66cad7ec-08df-11ee-962d-dac502259ad0.png

Patchify

给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。

与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。

最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。

Masking

像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。

为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。

这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。

研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。

所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。

66e9b522-08df-11ee-962d-dac502259ad0.png

为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。

编码器

研究人员探索了两种不同的编码器配置来处理输入帧。

联合编码器(joint encoder)是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。

孪生编码器(siamese encoder)是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。

在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。

解码器

编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token

研究人员探索了三种不同的解码器配置:

联合解码器(joint decoder)在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。

交叉自解码器(cross-self decoder)与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。

可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。

交叉解码器(cross decoder)由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。

最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。

实验结果

66fbc73a-08df-11ee-962d-dac502259ad0.png

视频物体分割

在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。

实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。

6719c7ee-08df-11ee-962d-dac502259ad0.png

与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。

67342d82-08df-11ee-962d-dac502259ad0.gif

还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。

而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。

因此,对称地处理空间和时间信息可能是次优的。

视频部分分割(Video Part Segmentation)

在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。

与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。

与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。

6761b14e-08df-11ee-962d-dac502259ad0.gif

SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。

SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。

姿势追踪(pose tracking)

在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)

67822ea6-08df-11ee-962d-dac502259ad0.gif

参考资料: https://siam-mae-video.github.io/resources/paper.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40716
  • 编码器
    +关注

    关注

    45

    文章

    3638

    浏览量

    134415
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40449

原文标题:李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于变分自编码器的异常小区检测

    出来。  本文提出了一种基于变分自编码器的异常小区检测方法,其基本原理是利用异常小区的KPI数据在通过变分自编码器编码与解码过程中所产生的较大波动来实现异常检测。实验结果表明,该
    发表于 12-03 15:06

    是什么让变分自编码器成为如此成功的多媒体生成工具呢?

    标准自编码器能学习生成紧凑的数据表达并重建输入数据,然而除了像去噪自编码器等为数不多的应用外,它的应用却极其有限。其根本原因在于自编码器将输入转换为隐含空间中的表达并不是连续的,使得其中的插值和扰动难以完成。
    的头像 发表于 04-19 16:48 1.3w次阅读
    是什么让变分<b class='flag-5'>自编码器</b>成为如此成功的多媒体生成工具呢?

    自编码器是什么?有什么用

    自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码(coding),同时用学习到的新特征可以重构出原始输入数据,称之为解码(decoding)。
    的头像 发表于 08-02 16:47 1.8w次阅读

    自编码器介绍

    自编码器若仅要求X≈Y,且对隐藏神经元进行稀疏约束,从而使大部分节点值为0或接近0的无效值,便得到稀疏自动编码算法。一般情况下,隐含层的神经元数应少于输入X的个数,因为此时才能保证这个网络结构的价值。
    发表于 06-11 15:07 4928次阅读

    稀疏自编码器及TensorFlow实现详解

     稀疏自编码器(又称稀疏自动编码机)中,重构误差中添加了一个稀疏惩罚,用来限定任何时刻的隐藏层中并不是所有单元都被激活。如果 m 是输入模式的总数,那么可以定义一个参数 ρ_hat,用来表示每个隐藏层单元的行为(平均激活多少次)。
    发表于 06-11 16:45 3850次阅读
    稀疏<b class='flag-5'>自编码器</b>及TensorFlow实现详解

    自编码器基础理论与实现方法、应用综述

    自编码器是深度学习中的一种非常重要的无监督学习方法,能够从大量无标签的数据中自动学习,得到蕴含在数据中的有效特征。因此,自编码方法近年来受到了广泛的关注,已成功应用于很多领域,例如数据分类、模式识别
    发表于 03-31 11:24 9次下载
    <b class='flag-5'>自编码器</b>基础理论与实现<b class='flag-5'>方法</b>、应用综述

    一种多通道自编码器深度学习的入侵检测方法

      针对现有的入侵检测方法在检测准确率和误报率方面存在的不足,提岀了一种多通道自编码器深度学习的入侵检测方法。该方法分为无监督学习和有
    发表于 04-07 15:23 7次下载
    一种多通道<b class='flag-5'>自编码器</b>深度学习的入侵检测<b class='flag-5'>方法</b>

    一种基于变分自编码器的人脸图像修复方法

    基于卷积神经网络的人脸图像修复技术在刑事侦破、文物保护及影视特效等领域有着重要的应用。但现有方法存在着图像修复结果不够清晰以及结果多样化不足等缺点,为此,提出了一种基于变分自编码器的人脸图像修复方法
    发表于 04-21 10:51 10次下载
    一种基于变分<b class='flag-5'>自编码器</b>的人脸图像修复<b class='flag-5'>方法</b>

    基于变分自编码器的网络表示学习方法

    ,将这些信息融入到网络表示学习过程中,有助于提升下游任务的性能。但是针对不同的应用场景,结构和属性信息并不总是线性相关,而且它们都是高度非线性的数据。提岀一种基于变分自编码器的网络表示学习方法 VANRL。变分
    发表于 05-12 14:50 27次下载

    基于自编码特征的语音声学综合特征提取

    信噪比衡量)很低。在不影响可懂度的情况下,为了提高语音増强后语音质量,提出了一种基于自编码特征的综合特征。首先利用自编码器提取自编码特征,然后利用 Group Lasso算法验证自编码
    发表于 05-19 16:33 27次下载

    自编码器神经网络应用及实验综述

    自编码器是深度学习中的一种非常重要的无监督学习方法,能够从大量无标签的数据中自动学习,得到蕴含在数据中的有效特征。因此,自编码方法近年来受到了广泛的关注,已成功应用于很多领域,例如数据分类、模式识别
    发表于 06-07 16:38 7次下载

    基于无监督稀疏自编码的图像哈希算法

    基于无监督稀疏自编码的图像哈希算法
    发表于 06-28 16:46 32次下载

    堆叠降噪自动编码器(SDAE)

    自动编码器(Auto-Encoder,AE) 自编码器(autoencoder)是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器内部有一个隐藏层 h,可以产生编码(code
    的头像 发表于 01-11 17:04 6521次阅读
    堆叠降噪自动<b class='flag-5'>编码器</b>(SDAE)

    自编码器 AE(AutoEncoder)程序

    原文链接 1.程序讲解 (1)香草编码器 在这种自编码器的最简单结构中,只有三个网络层,即只有一个隐藏层的神经网络。它的输入和输出是相同的,可通过使用Adam优化和均方误差损失函数,来学习如何重构
    的头像 发表于 01-11 17:29 1346次阅读
    <b class='flag-5'>自编码器</b> AE(AutoEncoder)程序

    自编码器的原理和类型

    自编码器(Autoencoder, AE)是一种无监督学习的神经网络模型,它通过编码器和解码的组合,实现了对输入数据的压缩和重构。自编码器
    的头像 发表于 07-09 11:25 1149次阅读