1 NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

智能感知与物联网技术研究所 来源:未知 2023-12-24 21:35 次阅读
在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑活动中以高分辨率出解析出人眼观看到的图像。

人类的感知不仅由客观刺激塑造,而且深受过往经验的影响,这些共同促成了大脑中的复杂活动。在认知神经科学领域,解码大脑活动中的视觉信息成为了一项关键任务。功能性磁共振成像(fMRI)作为一种高效的非侵入性技术,在恢复和分析视觉信息,如图像类别方面发挥着重要作用。

然而,由于 fMRI 信号的噪声特性和大脑视觉表征的复杂性,这一任务面临着不小的挑战。针对这一问题,本文提出了一个双阶段 fMRI 表征学习框架,旨在识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式,成功从大脑活动中重建出高分辨率且语义上准确的图像。

wKgZomWINLKALJHdAADF5GvzRlU019.png

论文链接:https://arxiv.org/abs/2305.17214

项目链接:https://github.com/soinx0629/vis_dec_neurips/

论文中提出的方法基于双重对比学习、跨模态信息交叉及扩散模型,在相关 fMRI 数据集上取得了相对于以往最好模型接近 40% 的评测指标提升,在生成图像的质量、可读性及语义相关性相对于已有方法均有肉眼可感知的提升。该工作有助于理解人脑的视觉感知机制,有益于推动视觉的脑机接口技术的研究。相关代码均已开源。

功能性磁共振成像(fMRI)虽广泛用于解析神经反应,但从其数据中准确重建视觉图像仍具挑战,主要因为 fMRI 数据包含多种来源的噪声,这些噪声可能掩盖神经激活模式,增加解码难度。此外,视觉刺激引发的神经反应过程复杂多阶段,使得 fMRI 信号呈现非线性的复杂叠加,难以逆转并解码。

传统的神经解码方式,例如岭回归,尽管被用于将 fMRI 信号与相应刺激关联,却常常无法有效捕捉刺激和神经反应之间的非线性关系。近期,深度学习技术,如生成对抗网络(GAN)和潜在扩散模型(LDMs),已被采用以更准确地建模这种复杂关系。然而,将视觉相关的大脑活动从噪声中分离出来,并准确进行解码,依然是该领域的主要挑战之一。

为了应对这些挑战,该工作提出了一个双阶段 fMRI 表征学习框架,该方法能够有效识别并去除大脑活动中的噪声,并专注于解析对视觉重建至关重要的神经激活模式。该方法在生成高分辨率及语义准确的图像方面,其 50 分类的 Top-1 准确率超过现有最先进技术 39.34%。

方法概述

fMRI 表征学习 (FRL)

wKgZomWINLKAcFDpAAO2RXreIdY129.png

第一阶段:预训练双对比掩模自动编码器 (DC-MAE)

为了在不同人群中区分共有的大脑活动模式和个体噪声,本文引入了 DC-MAE 技术,利用未标记数据对 fMRI 表征进行预训练。DC-MAE 包含一个编码器wKgZomWINLOACY85AAATCYkGrj4217.jpg和一个解码器wKgZomWINLOABwpmAAATHGKaoqQ493.jpg,其中wKgZomWINLOACY85AAATCYkGrj4217.jpg以遮蔽的 fMRI 信号为输入,wKgZomWINLOABwpmAAATHGKaoqQ493.jpg 则被训练以预测未遮蔽的 fMRI 信号。所谓的 “双重对比” 是指模型在 fMRI 表征学习中优化对比损失并参与了两个不同的对比过程。

在第一阶段的对比学习中,每个包含 n 个 fMRI 样本 v 的批次中的样本wKgZomWINLOAZytRAAAY_FrfB3k709.jpg被随机遮蔽两次,生成两个不同的遮蔽版本wKgZomWINLOAArgcAAAUaigjVac307.jpgwKgZomWINLOAPQaBAAAUPkzrEOE862.jpg,作为对比的正样本对。随后,1D 卷积层将这两个版本转换为嵌入式表示,分别输入至 fMRI 编码器wKgZomWINLOACY85AAATCYkGrj4217.jpg解码器wKgZomWINLOABwpmAAATHGKaoqQ493.jpg 接收这些编码的潜在表示,产生预测值wKgZomWINLOAO6mOAAASQACFk9g996.pngwKgZomWINLOAet-dAAAVNYeXg70733.jpg通过 InfoNCE 损失函数计算的第一次对比损失,即交叉对比损失,来优化模型:

wKgZomWINLSAIiN7AABBN0m1cj8083.jpg

在第二阶段对比学习中,每个未遮蔽的原始图像wKgZomWINLSAHEJRAAAXn-h_7Ng614.jpg及其相应的遮蔽图像wKgZomWINLSAC2WQAAAT5Kwzsi8234.jpg形成一对天然正样本。这里的wKgZomWINLSAQovGAAAUiK-KtBw912.jpg代表解码器wKgZomWINLOABwpmAAATHGKaoqQ493.jpg预测出的图像。第二次对比损失,也就是自对比损失,根据以下公式进行计算:

wKgZomWINLSAMPzRAABAeYZE5Qc055.jpg

优化自对比损失wKgZomWINLSAF2rFAAARX8jVJfI764.png能够实现遮蔽重建。无论是wKgZomWINLSAfymTAAAS0IvT2_Q525.jpg还是wKgZomWINLSAF2rFAAARX8jVJfI764.png,负样本wKgZomWINLSAXwLZAAAN_22lvAA884.png都来自同一批次的实例。wKgZomWINLSAfymTAAAS0IvT2_Q525.jpgwKgZomWINLSAF2rFAAARX8jVJfI764.png共同按如下方式优化:wKgZomWINLWAD1DbAAAch545_CM537.jpg,其中超参数wKgZomWINLWAdlluAAASYyUq0R4990.jpgwKgZomWINLWAMR7FAAASq6Kh68E113.jpg于调节各损失项的权重。

  • 第二阶段:使用跨模态指导进行调整

考虑到 fMRI 记录的信噪比较低且高度卷积的特性,专注于与视觉处理最相关且对重建最有信息价值的大脑激活模式对 fMRI 特征学习器来说至关重要。

在第一阶段预训练后,fMRI 自编码器通过图像辅助进行调整,以实现 fMRI 的重建,第二阶段同样遵循此过程。具体而言,从 n 个样本批次中选择一个样本wKgZomWINLWATUnSAAAXnpwIGVw982.jpg及其对应的 fMRI 记录的神经反应wKgZomWINLWAUdYrAAATFNte410567.jpgwKgZomWINLWAV1W_AAASi0eS_Co553.jpgwKgZomWINLWAUdYrAAATFNte410567.jpg经过分块和随机遮蔽处理,分别转变为wKgZomWINLWARjeiAAAT3H5zAhk833.jpgwKgZomWINLSAC2WQAAAT5Kwzsi8234.jpg,然后分别输入到图像编码器wKgZomWINLaAVwfBAAAS6nvhto0598.jpg和 fMRI 编码器wKgZomWINLOACY85AAATCYkGrj4217.jpg中,生成wKgZomWINLaAIzbCAAAcAQiZ6Yc949.jpgwKgZomWINLaAe6vgAAAcmXnXrIY053.jpg为重建 fMRIwKgZomWINLWAUdYrAAATFNte410567.jpg,利用交叉注意力模块将wKgZomWINLaASTQoAAAUKoGGLKU898.jpgwKgZomWINLaAfeUhAAAT-v86Tio504.jpg进行合并:

wKgZomWINLaAajRJAABNntKnTqU552.jpg

W 和 b 分别代表相应线性层的权重和偏置。wKgZomWINLaATBQZAAAVPGeh5Og542.jpg是缩放因子,wKgZomWINLaAeeVsAAATW_AMVgw267.jpg是键向量的维度。CA 是交叉注意力(cross-attention)的缩写。wKgZomWINLeAHF1nAAAfybuIBoI821.jpgwKgZomWINLaAe6vgAAAcmXnXrIY053.jpg后,输入到 fMRI 解码器中以重建wKgZomWINLWAUdYrAAATFNte410567.jpg,得到wKgZomWINLeAVvYYAAATnH0DhiA804.jpg

wKgZomWINLeAFXQxAAAxL45-TkQ550.jpg

图像自编码器中也进行了类似的计算,图像编码器wKgZomWINLaAVwfBAAAS6nvhto0598.jpg的输出wKgZomWINLeAUm6AAAAcAaDek6k559.jpg通过交叉注意力模块wKgZomWINLeAQpWXAAATeI5Kmq8032.jpgwKgZomWINLOACY85AAATCYkGrj4217.jpg的输出合并,然后用于解码图像wKgZomWINLWAV1W_AAASi0eS_Co553.jpg,得到wKgZomWINLeAKIigAAATwpBzL4M079.jpg

wKgZomWINLiAb5_6AAAxBx5M7Xg526.jpg

通过优化以下损失函数,fMRI 和图像自编码器共同进行训练:

wKgZomWINLiAZrSMAAArMzBgJiY411.jpg

使用潜在扩散模型 (LDM) 生成图像

wKgZomWINLiARoeeAAKqfqRTYGQ047.png

在完成 FRL 第一阶段和第二阶段的训练后,使用 fMRI 特征学习器的编码器wKgZomWINLOACY85AAATCYkGrj4217.jpg来驱动一个潜在扩散模型(LDM),从大脑活动生成图像。如图所示,扩散模型包括一个向前的扩散过程和一个逆向去噪过程。向前过程逐渐将图像降解为正态高斯噪声,通过逐渐引入变方差的高斯噪声。

该研究通过从预训练的标签至图像潜在扩散模型(LDM)中提取视觉知识,并利用 fMRI 数据作为条件生成图像。这里采用交叉注意力机制,将 fMRI 信息融入 LDM,遵循稳定扩散研究的建议。为了强化条件信息的作用,这里采用了交叉注意力和时间步条件化的方法。在训练阶段,使用 VQGAN 编码器wKgZomWINLiALLOQAAATKKDDL5A531.jpg和经 FRL 第一和第二阶段训练的 fMRI 编码器wKgZomWINLOACY85AAATCYkGrj4217.jpg处理图像 u 和 fMRI v,并在保持 LDM 不变的情况下微调 fMRI 编码器,损失函数为:

wKgZomWINLiAURK6AAAxi8Qwnmw428.jpg

其中,wKgZomWINLiAJMGVAAAh0LxI2rw895.jpg是扩散模型的噪声计划。在推理阶段,过程从时间步长 T 的标准高斯噪声开始,LDM 依次遵循逆向过程逐步去除隐藏表征的噪声,条件化在给定的 fMRI 信息上。当到达时间步长零时,使用 VQGAN 解码器wKgZomWINLiAXoQOAAATapgIzh8041.jpg将隐藏表征转换为图像。

实验

重建结果

wKgZomWINLmADsjhAAWOjRY9Q58396.png

通过与 DC-LDM、IC-GAN 和 SS-AE 等先前研究的对比,并在 GOD 和 BOLD5000 数据集上的评估中显示,该研究提出的模型在准确率上显著超过这些模型,其中相对于 DC-LDM 和 IC-GAN 分别提高了 39.34% 和 66.7%

wKgZomWINLmAUZrOAAQs152VB3o042.png

在 GOD 数据集的其他四名受试者上的评估显示,即使在允许 DC-LDM 在测试集上进行调整的情况下,该研究提出的模型在 50 种方式的 Top-1 分类准确率上也显著优于 DC-LDM,证明了提出的模型在不同受试者大脑活动重建方面的可靠性和优越性。

实验结果表明,利用所提出的 fMRI 表示学习框架和预先训练的 LDM,可以更好的重建大脑的视觉活动,大大优于目前的基线。该工作有助于进一步挖掘神经解码模型的潜力。


原文标题:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2909

    文章

    44556

    浏览量

    372739

原文标题:NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用ADS1299进行电信号采集时采集不到电信号,怎么解决?

    您好!我这边在使用ADS1299进行电信号采集时采集不到电信号,用信号发生器进行测试,能采集到0.5uV左右的正弦波,文档是该芯片的原理图和电极连接方式说明,请问是否有问题?还麻烦指教,谢谢!
    发表于 11-13 06:52

    解锁机器人视觉与人工智能的潜力,“盲人机器”改造成有视觉能力的机器人(上)

    正如人类依赖眼睛和大脑来解读世界,机器人也需要自己的视觉系统来有效运作。没有视觉,机器人就如同蒙上双眼的人类,仅能执行预编程的命令,容易碰撞障碍物,并犯下代价高昂的错误。这正是机器人
    的头像 发表于 10-12 09:56 389次阅读
    解锁机器人<b class='flag-5'>视觉</b>与人工智能的潜力,<b class='flag-5'>从</b>“盲人机器”改造成有<b class='flag-5'>视觉</b>能力的机器人(上)

    SynSense时识科技收购瑞士类视觉传感器公司iniVation 100%股权

    SynSense时识科技今日宣布成功收购瑞士类视觉传感器公司iniVation 100%股权。随着交割完成,SynSense时识科技成为全球首个同时拥有类智能领域感知与计算技术,并掌握该领域大量
    的头像 发表于 07-19 18:09 1626次阅读

    SynSense时识科技成功收购瑞士类视觉传感器公司iniVation,类智能航母蓄势待发

    SynSense时识科技今日宣布 成功收购瑞士类视觉传感器公司iniVation 100%股权 。随着交割完成,SynSense时识科技成为全球首个同时拥有类智能领域感知与计算技术,并掌握该领域
    发表于 07-19 18:00 513次阅读
    SynSense时识科技成功收购瑞士类<b class='flag-5'>脑</b><b class='flag-5'>视觉</b>传感器公司iniVation,类<b class='flag-5'>脑</b>智能航母蓄势待发

    基于FPGA的类计算平台 —PYNQ 集群的无监督图像识别类计算系统

    模拟器开源软件,应用广泛。NEST 一大优势是可用于模 拟任何规模的脉冲神经网络,如可模拟哺乳动物的视觉或听觉皮层这样的信息处理模型。也可模拟网络活动的动力学模型,比如层状皮质网络或平衡随机网络以及
    发表于 06-25 18:35

    世界首款!又是清华:类互补视觉芯片“天眸芯”

    近日,清华大学在类视觉感知芯片领域取得重要突破:清华大学依托精密仪器系的类计算研究中心施路平教授团队,提出一种基于视觉原语的互补双通路类
    的头像 发表于 06-04 08:36 403次阅读
    <b class='flag-5'>世界</b>首款!又是清华:类<b class='flag-5'>脑</b>互补<b class='flag-5'>视觉</b>芯片“天眸芯”

    清华类视觉芯片取得重大突破,“天眸芯”登上Nature封面

    with complementary pathways for open-world sensing”,即面向开放世界感知的具有互补路径的视觉芯片。   这是世界上首款类互补
    的头像 发表于 06-01 00:54 4699次阅读
    清华类<b class='flag-5'>脑</b><b class='flag-5'>视觉</b>芯片取得重大突破,“天眸芯”登上Nature封面

    机接口技术如何获取信号至关重要

    机接口又可分为输出型和输入型两种。输出型机接口主要由大脑向外部设备输出通信或控制指令,在不依赖外周神经或肌肉的条件下,把用户的感知觉、表象、认知和思维等直接转化为动作。
    的头像 发表于 04-09 11:16 774次阅读

    机接口:探寻大脑活动新解码技术

    据最新研究,2月20日,英国知名学术期刊《自然》(Nature)特别报道了未来机接口的发展趋势及潜在影响力。研究强调,机接口不仅改变了我们看待大脑的视角,也刷新了我们对大脑各区域间
    的头像 发表于 02-25 15:50 747次阅读

    我国发布首部《机接口研究伦理准则》

    机接口是一种新颖的交叉技术,能够在大脑与外部设备间创建信息通道,实现他们的直接信息交换。其过程为记录颅内或外的大脑神经活动,使用机器学习
    的头像 发表于 02-18 14:20 681次阅读

    新火种AI|洞照进现实!马斯克正式官宣,已将芯片连入大脑...

    与电脑的直接连接更近了一步。 对于“大脑芯片植入”这一类的字眼,喜欢看科幻大片的小伙伴们应该都不陌生。诸如AI,机器人,接口技术等概念会时常出现在科幻电影里,很是炫酷。但如今,如此炫酷的科幻桥段却照进了现实,真真切切的发生在了我们日常
    的头像 发表于 02-01 14:38 394次阅读

    马斯克的“机”到底是干什么的 建立大脑与外部设备全新的通信与控制

    马斯克称已将芯片植入患者大脑这引发了大量关注。马斯克创办的机接口初创公司Neuralink宣布在1月29日成功完成首例人脑植入手术。马斯克在X平台发文称,初步结果显示神经元尖峰检测(neuron
    的头像 发表于 01-31 11:43 2559次阅读

    马斯克的“机”到底是干什么的

    马斯克的机接口公司Neuralink已经完成了首例人类大脑设备植入手术,并称接入者恢复良好。
    的头像 发表于 01-31 09:46 2009次阅读

    机接口新突破!透明植入物揭秘大脑深层活动

    在实验,在将其放置在转基因小鼠的大脑上后,研究小组能够读取啮齿动物大脑表层信号。然而,真正的进步在于这种薄膜是透明的。这使得研究人员可以同时发射激光穿过它,并使用双光子显微镜来成像位于表面下250微米深处的神经元的钙离子尖峰
    的头像 发表于 01-23 14:23 582次阅读

    机接口案例:如何用超声波技术实现无创“

    这一研究发现为确认超声机接口技术的可行性,以及新型微创(硬膜外)机接口技术发展提供重要指引依据。
    的头像 发表于 01-04 11:00 958次阅读
    <b class='flag-5'>脑</b>机接口案例:如何用超声波技术实现无创“<b class='flag-5'>读</b><b class='flag-5'>脑</b>”