1 Sonicverse:用于训练同时能够看和听的家居智能体的多感官仿真平台-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sonicverse:用于训练同时能够看和听的家居智能体的多感官仿真平台

3D视觉工坊 来源:3D视觉工坊 2023-07-05 10:20 次阅读

本文介绍了SONICVERSE,这是一个多感官vwin 平台,用于训练既能看又能听的家用代理人。该平台在实时的3D环境中实现了逼真的连续音频渲染,并通过新的音频-视觉虚拟现实界面实现与代理人的交互。此外,针对语义音频-视觉导航任务,作者提出了一种新的多任务学习模型,并展示了SONICVERSE通过模拟到真实环境的迁移所达到的真实感。

1 前言

本文介绍了SONICVERSE,一个新的具备多感官功能的模拟平台,用于训练音频-视觉具身代理。该平台实现了实时的3D环境中连续音频渲染,通过使用完整的场景几何和材料属性达到了高保真度的空间音频渲染。同时,还引入了一个多任务学习框架,用于语义音频-视觉导航和占据地图预测,取得了最先进的结果。此外,本文还首次展示了在模拟中训练的音频-视觉导航代理可以成功部署到现实环境中。

作者的贡献有三个方面。

介绍了SONICVERSE,这是一个新的多感官模拟平台,实时模拟了3D环境中的连续音频渲染,为许多需要音频-视觉感知的具身化人工智能和人机交互任务提供了一个新的测试平台。

介绍了一个多任务学习框架,用于语义音频-视觉导航和占据地图预测,取得了最先进的结果。

首次展示了在模拟中训练的音频-视觉导航代理可以成功部署到现实环境中。

85638bd4-1ad9-11ee-962d-dac502259ad0.png

2 相关工作

本文介绍了具身AI模拟器和视听学习的相关研究。作者提出了SONICVERSE模拟器,它能够提供连续的3D空间音频渲染,并结合完整的场景几何和表面材料特性实现高度逼真性。作者的工作填补了现有视觉导航研究中缺乏音频的重要空白,并提供了一个新的测试平台来支持需要音视知觉的具身AI任务。通过音视导航任务的案例研究,作者展示了我们模拟器的有用性和逼真性。此外,作者的工作还提供了一个新的视觉和听觉学习的框架,可以应用于各种具身AI任务,包括音视导航、平面图重建、探索驱动好奇心等。

3 SONICVERSE模拟平台

本节介绍了SONICVERSE模拟平台,它是一个具备音视感知功能的具身AI模拟平台。该平台构建在iGibson 2.0之上,并使用开源的Resonance Audio SDK实现对音频的模拟。平台提供了音频模拟、3D环境和其他关键功能,为研究者开展音视知觉方面的具身AI研究提供了强大的工具和环境。

8598be62-1ad9-11ee-962d-dac502259ad0.png

3.1. 声学模拟

声学模拟中的主要组成部分包括直接声音、动态遮挡、早期反射和晚期混响以及头部相关传递函数(HRTFs)。直接声音表示从源头到听者的未受环境阻碍或反射影响的声音,并随着距离的增加而衰减。动态遮挡通过遮挡节点衰减源头到听者的声音,并模拟现实世界的遮挡效果。早期反射和晚期混响是通过预模拟混响烘焙过程计算得到的,早期反射还考虑了听者与探测器位置的关系,并使用箱形近似房间的方法呈现。头部相关传递函数(HRTFs)用于模拟人类通过感知声音的时间和级别差异来定位声源。整个声学模拟过程可以实现逼真的空间音频渲染和实时性能。

3.2. 三维环境

SONICVERSE支持Matterport3D和iGibson两个3D场景数据集,其中Matterport3D包含85个大型的现实世界室内环境场景,而iGibson包含15个具有家具和可动物体的现实世界家庭场景。对于Matterport3D场景,作者使用整个场景进行混响烘焙,并通过将语义网格类别映射到Resonance Audio的材料类型来确定房间表面的声学特性。对于iGibson场景,由于物体可移动,作者只使用场景的静态骨架进行混响烘焙,并对墙壁、天花板、窗户和地板进行相应的映射。

3.3. 主要特点

SONICVERSE是一个具备音频-视觉虚拟现实界面和Sim2Real转换能力的模拟器。其音频-视觉虚拟现实界面基于iGibson 2.0和OpenVR,能够将戴着VR头显的人作为音频-视觉化身,并实现人与代理之间的音频-视觉交互任务。具体的任务原型包括说话人跟随、语音驱动的物体检索和盲人听觉定位训练。同时,SONICVERSE使用TurtleBot作为具体化代理,通过3Dio FS双耳麦克风和Tascam音频接口实现音频模拟,并借助Asus XTION PRO RGBD相机和Intel NUC进行视频捕获和处理。相比于SoundSpaces和ThreeDWorld,SONICVERSE的模拟器通过将声音附加到场景中的动态物体实现音频和视觉模拟的整合,并支持动态遮挡和连续空间的音频渲染。此外,SONICVERSE利用完整的场景几何和自动映射的材质进行混音烘焙,实现了更高的逼真度。虽然与ThreeDWorld不同,SONICVERSE不直接模拟物体碰撞声音,但支持将现有的多感官物体资源与预计算的音频模拟相结合使用。通过上述优势和功能,SONICVERSE为音频-视觉模拟和实际环境的转换提供了有效的解决方案。

85c938c6-1ad9-11ee-962d-dac502259ad0.png

4 在SonicVerse中训练音视化具象导航智能

SonicVerse支持许多需要音视感知的具象人工智能任务。作者以具有挑战性的语义音视导航任务作为案例研究,以展示作者模拟器的实用性。这是音频目标导航的更具挑战性的版本,其中智能体必须定位一个持续发出声音的来源。在语义音视导航中,物体会发出与其现实世界对应物相符的声音(例如,门会发出咯吱的声音),而这些声音只会持续很短的一段时间。因此,智能体必须能够在声音停止发出后更好地定位声源,可能通过利用已学习的关于哪些物体可以发出某些声音的知识。

任务定义:在这个任务中,智能体需要通过听到物体发出的声音,在一个未知且未映射的环境中导航到一个特定的有语义意义的物体。声音可以是非周期性的、不连续的,并且长度各异。为了到达目标物体,智能体必须推理出声音物体的语义类别以及音频感知中的双耳空间线索。作者在实验中使用一台TurtleBot作为智能体。使用的15个有语义意义的声音,包括水槽、靠垫、电视、淋浴等声音。每个声音都与特定的目标类别进行一对一映射。为了被认为是成功,智能体需要在声音停止后仍能定位到目标位置,并导航到发出声音的特定目标物体,而不是类别内的其他物体。

行动和观测空间:与任务的现有规范相反,该规范使用固定步长的离散平移和旋转,作者使用连续动作空间来表示机器人轮轴速度。这使得任务设定更加现实和具有挑战性,并且更适用于真实世界的机器人环境。智能体的观测包括RGB图像、深度图、两只耳朵接收到的双声道音频谱图、碰撞传感器输入以及与起始位置相关的当前姿态。

回合规范与成功准则:每个回合由以下内容定义:场景、智能体的起始位置和方向、目标类别、类别内的一个目标物体以及离目标物体位置一米范围内的八个位置,这些位置被视为定义物体边界的附近位置。当智能体到达这九个终止位置之一时,被认为满足成功准则:八个靠近目标物体的位置和原始目标物体位置。达到终点的距离容差为0.36m,这是真实TurtleBot的宽度。

音视导航模型:作者提出了一个多任务学习框架,同时学习语义音视导航和占据地图预测。在每个时间步t,智能体接收到中心视野的视觉观测,包括RGB图像和深度图,以及代表智能体左右耳朵的双声道音频,表示为双声道音频谱图。作者分别从视觉编码器和音频编码器中提取视觉和音频特征。

对于语义音视导航,作者采用了来自SAVi的基本架构,该架构改编自场景记忆变换网络。它主要由两个组件组成:1) Goal Predictor,它以音频特征和智能体当前姿态作为输入,预测一个包含有关声源位置和声音物体的对象类别信息的目标描述符;2) Audio-Visual Transformer,它使用一个记忆模块对智能体的观测进行编码,并使用自注意机制来推理到目前为止看到的3D环境。变换器的解码器使用目标预测器的输出和内存中编码的观测,预测状态特征,然后将其馈送给一个用于预测下一步动作的actor-critic网络。使用中的分布式分散的邻近策略优化两阶段训练范式。

对于占据地图预测,作者将其规定为逐像素分类任务。将自中心自我位置图p ∈ V ×V表示为垂直俯视的地图,该地图由相机前方V×V个单元格的局部区域组成,该区域表示一个5m × 5m的区域。每个单元格中的值表示该单元格被占用的概率。通过使用对应室内环境的3D网格获得地面实际局部占用。使用U-Net进行占据地图预测。编码器的输入是从深度投影中获得的局部占用地图,通过在深度和相机内参的点云上设置高度阈值来获得。然后,复制和平铺状态特征向量以匹配特征图的空间维度,并在后3层编码器的通道维度上进行连接。解码器然后将融合的特征图作为输入,并通过一系列上卷积层输出预测的局部占用地图,包括可见和不可见的单元格。作者使用二元交叉熵损失训练占据预测网络。

作者的占据地图预测模块与机器人技术和具体视觉导航中建立世界的连续表示的前期方法相似。然而,作者联合学习占据预测和音视导航,有新的见解表明准确预测占据地图有助于学习更好的音视特征,从而有助于导航。

85ef44a8-1ad9-11ee-962d-dac502259ad0.png

5 实验

该研究展示了在音频视觉导航领域的实验结果,并将在SONICVERSE模拟器中训练的代理转移到真实世界中。通过与多个基准方法进行比较,作者证明了他们的模型在语义音频视觉导航中的出色性能。作者还使用不同的评估指标对模型进行了评估,并比较了不同数据集上的性能。结果显示,作者的多任务学习框架在所有指标上均优于现有的方法。此外,通过在俯视地图上显示导航轨迹,并与基准方法进行对比,作者进一步证明了他们的模型在感知障碍物和声音、并高效导航到目标物体方面的能力。同时,该研究还展示了他们的模拟器的逼真性,通过将在模拟中训练的导航代理成功转移到真实世界环境中。三个关键步骤(记录机器人噪音、随机变化源声音的增益、校准深度相机)被证明可以减少虚实差距,从而实现成功的策略转移。总体而言,该研究为音频视觉导航领域的研究提供了有价值的见解,并提供了促进虚实转换的有效方法。

8618a69a-1ad9-11ee-962d-dac502259ad0.png86c4f648-1ad9-11ee-962d-dac502259ad0.png

5 总结

本研究介绍了SONICVERSE,一个用于训练同时能够看和听的家居智能体的多感官仿真平台。该平台能够实时渲染3D环境中的连续音频,并支持虚拟现实中的音频流传输,为需要音频视觉感知的体验式人工智能任务提供了新的测试平台。在音频视觉导航任务上,研究者提出了一种新的语义音频视觉导航模型,其性能优于以前的方法。此外,他们还成功地将在模拟中训练的智能体应用到真实世界环境中。研究者对SONICVERSE带来的体验式多感官学习研究表示期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107474
  • 音频
    +关注

    关注

    29

    文章

    2868

    浏览量

    81490
  • 仿真平台
    +关注

    关注

    0

    文章

    26

    浏览量

    9922

原文标题:ICRA2023 | Sonicverse:一个多感官模拟平台,让AI具体任务成为可能

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Veloce Apps硬件仿真平台

    用于硬件仿真平台的新型应用程序,开辟了硬件仿真的新**。新型Veloce Apps包括Veloce Deterministic ICE、Veloce DFT和Veloce FastPath,可以
    发表于 04-15 16:25

    智能仿真平台

    求适用于K60的智能仿真平台
    发表于 01-05 18:36

    电磁环境仿真平台VREM EmXpert介绍

    仿真、军事模拟训练的研发和服务,形成具有自主知识产权的核心应用软件产品、系列化的仿真平台以及软硬件系统的整体解决方案,在专业方向上涵盖了作战推演、模拟训练、网络安全、预警探测、频谱管理
    发表于 06-14 14:51

    在LabVIEW图形化编程环境下的智能仿真平台

    中,用户可以调用这些文件,对其仿真结果进行后期分析和处理,从而可以更准确地发现问题,指导赛车设置和控制算法的优化。成果通过测试和对比,Plastid智能仿真平台可以有效地仿真出赛车的
    发表于 04-08 09:40

    如何对数字预失真平台系统进行仿真测试?

    数字预失真平台系统模型是怎样构成的?如何对数字预失真平台系统进行仿真测试?
    发表于 04-21 07:23

    基于STM32-XPC仿真平台的构架 精选资料推荐

    基于STM32-XPC仿真平台的构架 xPC Target是MathWorks公司的MATLAB提供的一个基于RTW(Real-Time Workshop)体系框架的附加产品,是一种用于产品原型开发
    发表于 08-18 07:20

    什么是全数字仿真平台

    。什么是全数字仿真平台全数字仿真平台SkyEye是能够满足模拟或仿真外部硬件行为进行软件运行和测试需求的工具。该工具运用国际流行的仿真、测试
    发表于 12-17 07:48

    什么是全数字仿真平台

    。什么是全数字仿真平台全数字仿真平台SkyEye是能够满足模拟或仿真外部硬件行为进行软件运行和测试需求的工具。该工具运用国际流行的仿真、测试
    发表于 12-21 06:42

    三维虚拟仿真平台,三维虚拟仿真平台是什么意思

    三维虚拟仿真平台,三维虚拟仿真平台是什么意思 1. 概述 三维虚拟仿真平台旨在建设一个具有大范围的海量
    发表于 04-10 11:35 5956次阅读

    ADS无线协同仿真平台

    ADS无线协同仿真平台
    发表于 10-11 16:30 0次下载
    ADS无线协同<b class='flag-5'>仿真平台</b>

    Xilinx:如何使用Zynq仿真平台

    Xilinx合作伙伴和客户展示了他们如何使用Zynq仿真平台
    的头像 发表于 01-03 13:14 4752次阅读

    自动驾驶仿真平台概述

    自梳理各大仿真平台的主要功能以及自动驾驶领域仿真标准。 51Sim-One Cloud是一款集静态和动态数据导入、测试场景案例编辑、目标级传感器仿真、动力学仿真、可视化、测试与回放等
    发表于 06-02 14:45 0次下载
    自动驾驶<b class='flag-5'>仿真平台</b>概述

    尺度材料设计与仿真平台Device Studio介绍

                              · · Device Studio (简称:DS)作为鸿之微科技(上海)股份有限公司(简称:鸿之微)研发的尺度材料设计与仿真平台,可实现材料原子
    的头像 发表于 06-12 15:56 2600次阅读
    <b class='flag-5'>多</b>尺度材料设计与<b class='flag-5'>仿真平台</b>Device Studio介绍

    Adams—系统级动力学仿真平台

    Adams是一款系统级动力学仿真平台,被广泛应用于汽车、能源、重型机械等多个行业。该工具凝聚了丰富行业应用经验,能够快速进行系统级的运动
    的头像 发表于 05-13 14:32 1191次阅读
    Adams—系统级<b class='flag-5'>多</b><b class='flag-5'>体</b>动力学<b class='flag-5'>仿真平台</b>

    仿真平台Device Studio应用实例

       Device Studio (简称:DS)作为鸿之微科技(上海)股份有限公司(简称:鸿之微)研发的尺度材料设计与仿真平台,可实现材料原子级建模(百万量级)、高性能科学仿真计算、计算任务的监控
    的头像 发表于 07-23 14:56 707次阅读
    <b class='flag-5'>仿真平台</b>Device Studio应用实例