1 使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

NVIDIA英伟达 来源:未知 2023-08-22 19:20 次阅读
31020dca-40dd-11ee-a2ef-92fbcf53809c.png

NVIDIA Jetson Orin 是同类嵌入式人工智能平台中的翘楚。Jetson Orin SoC 模块NVIDIA Ampere 架构 GPU 为核心,但 SoC 上还有更多的计算功能:

NVIDIA Orin SoC 的功能非常强大,拥有 275 个峰值 AI TOPs,是最佳的嵌入式和汽车 AI 平台。您知道吗,这些 AI TOPs 中近 40% 来自 NVIDIA Orin 上的两个 DLA?NVIDIA Ampere GPU 拥有同类产品中最佳的吞吐量,而第二代 DLA 则拥有同类产品中最佳的能效。近年来,随着 AI 应用的快速增长,对更高效计算的需求也在不断增长。在能效始终是关键 KPI 的嵌入式方面尤其如此。

这就是 DLA 的用武之地。DLA 专门为深度学习推理而设计,可以比 CPU 更有效地执行卷积等计算密集型深度学习操作。

当集成到 SoC(如Jetson AGX OrinNVIDIA DRIVE Orin)中时, GPU 和 DLA 的组合可以为您的嵌入式 AI 应用程序提供一个完整的解决方案。我们将在这篇文章中讨论深度学习加速器,让您不再错过。我们将介绍涵盖汽车和机器人领域的几个案例研究,以展示 DLA 如何帮助 AI 开发者为其应用程序添加更多功能和性能。最后,我们将介绍视觉 AI 开发者如何使用 DeepStream SDK 构建应用工作流,使用 DLA 和整个 Jetson SoC 实现最佳性能。

以下是 DLA 会产生重大影响的一些关键性能指标。

关键性能指标

在设计应用程序时,您需要满足一些关键性能指标或 KPI。例如最大性能和能效之间的设计权衡,这需要开发团队仔细分析和设计应用程序,以便在 SoC 上使用不同的 IP。

如果应用程序的关键 KPI 是延迟,则必须在一定的延迟预算下在应用程序中安排任务。您可以将 DLA 作为加速器,用于与运行在 GPU 上的计算密集型任务并行的任务。DLA 峰值性能对 NVIDIA Orin 整体深度学习(DL)性能的贡献率在 38% 至 74% 之间,具体取决于电源模式。

3133ff6a-40dd-11ee-a2ef-92fbcf53809c.png

表 1. DLA 吞吐量

Jetson AGX Orin 64GB 上 30W 和 50W 功率模式的 DLA TOPs 与 NVIDIA DRIVE Orin 汽车平台上的最大时钟相当。

如果功耗是您的关键 KPI 之一,那么就应该考虑使用 DLA 来利用其功耗效率方面的优势。与 GPU 相比,每瓦 DLA 的性能平均高出 3–5 倍,这具体取决于电源模式和工作负载。以下图表显示了代表常见用例的三个模型的每瓦性能。

314aaee0-40dd-11ee-a2ef-92fbcf53809c.png

图 1. DLA 能效

315f7b04-40dd-11ee-a2ef-92fbcf53809c.png

图 2. 结构化稀疏性和每瓦性能优势

换句话说,如果没有 DLA 的能效,就不可能在给定的平台功率预算下在 NVIDIA Orin 上实现高达 275 个峰值的 DL TOPs。想要了解更多信息和更多型号的测量结果,请参阅 DLA-SW GitHub 库。

以下是 NVIDIA 内部如何在汽车和机器人领域使用 DLA 提供的 AI 计算的一些案例研究。

案例研究:汽车

NVIDIA DRIVE AV是端到端的自动驾驶解决方案堆栈,可帮助汽车原始设备制造商在其汽车产品组合中添加自动驾驶和映射功能。它包括感知层、映射层和规划层,以及基于高质量真实驾驶数据训练的各种 DNN。

NVIDIA DRIVE AV 团队的工程师致力于设计和优化感知、映射,并通过利用整个 NVIDIA Orin SoC 平台规划工作流。考虑到自动驾驶堆栈中需要处理大量的神经网络和其他非 DNN 任务,它们会依靠 DLA 作为 NVIDIA Orin SoC 上的专用推理引擎来运行 DNN 任务。这一点至关重要,因为 GPU 计算能力是为处理非 DNN 任务而保留的。如果没有 DLA 计算,团队将无法达到 KPI。

31754696-40dd-11ee-a2ef-92fbcf53809c.png

图3.感知管线的一部分

想要了解更多信息,请访问Near-Range Obstacle Perception with Early Grid Fusion:https://developer.nvidia.cn/zh-cn/blog/near-range-obstacle-perception-with-early-grid-fusion/

例如,在感知工作流中,它们有来自八个不同相机传感器的输入,整个工作流的延迟必须低于某个阈值。感知堆栈是 DNN 的重头戏,占所有计算的 60% 以上。

为了达到这些 KPI,并行工作流任务被映射到 GPU 和 DLA,其中几乎所有的 DNN 都在 DLA 上运行,而非 DNN 任务则在 GPU 上运行,以实现总体工作流的延迟目标。然后,其他 DNN 在映射和规划等其他工作流中按顺序或并行消耗输出。您可以将工作流视为一个巨大的图形,其中的任务在 GPU 和 DLA 上并行运行。通过使用 DLA,该团队将延迟降低了 2.5 倍。

319e50ae-40dd-11ee-a2ef-92fbcf53809c.png

图 4. 作为感知堆栈一部分的对象检测

NVIDIA 自动驾驶团队工程经理 Abhishek Bajarger 表示:“利用整个 SoC,特别是 DLA 中专用的深度学习推理引擎,使我们能够在满足延迟要求和 KPI 目标的同时,为软件堆栈添加重要功能。只有 DLA 才能做到这一点。”

案例研究:机器人

NVIDIA Isaac 是一个功能强大的端到端平台,用于开发、仿真和部署机器人开发者使用的 AI 机器人。特别是对于移动机器人来说,可用的 DL 计算、确定性延迟和电池续航能力是非常重要的因素。这就是为什么将 DL 推理映射到 DLA 非常重要的原因。

NVIDIA Isaac 团队的一组工程师开发了一个使用 DNN 进行临近分割的库。邻近分割可用于确定障碍物是否在邻近场内,并避免在导航过程中与障碍物发生碰撞。他们在 DLA 上实现了 BI3D 网络,该网络可通过立体摄像头执行二进制深度分类。

31db9716-40dd-11ee-a2ef-92fbcf53809c.png

图 5. 近距离分割流水线

一个关键的 KPI 是确保从立体摄像头输入进行 30 帧/秒的实时检测。NVIDIA Isaac 团队将这些任务分配到 SoC 上,并将 DLA 用于 DNN,同时为在 GPU 上运行的硬件和软件提供功能安全多样性。想要了解更多信息,请访问NVIDIA Isaac ROS 邻近分割https://github.com/NVIDIA-ISAAC-ROS/isaac_ros_proximity_segmentation

31f37854-40dd-11ee-a2ef-92fbcf53809c.gif

图 6. 使用 BI3D 对立体输入进行邻近分割

将 NVIDIA DeepStream 用于 DLA

探索 DLA 最快捷的方式是通过 NVIDIA DeepStream SDK,一个完整的流分析工具包。

如果你是一名视觉 AI 开发者,正在构建 AI 驱动的应用程序来分析视频和传感器数据,那么 DeepStream SDK 可以帮助您构建最佳的端到端工作流。对于零售分析、停车管理、物流管理、光学检测、机器人技术和体育分析等云端或边缘用例,DeepStream 可让您不费吹灰之力就能使用整个 SoC,特别是 DLA。

例如,您可以使用下表中突出显示的 Model Zoo 中的预训练模型在 DLA 上运行。在 DLA 上运行这些网络就像设置一个标志一样简单。想要了解更多信息,请访问如何使用 DLA 进行推理https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_Quickstart.html#using-dla-for-inference

32dc432c-40dd-11ee-a2ef-92fbcf53809c.png

表 2. Model Zoo 网络样本

及其在 DLA 上的吞吐量

开始使用深度学习加速器

准备好深入了解了吗?有关详细信息,请参阅以下资源:

  • Jetson DLA 教程演示了基本的 DLA 工作流,帮助您开始将 DNN 部署到 DLA:https://github.com/NVIDIA-AI-IOT/jetson_dla_tutorial

  • DLA-SW GitHub存储库中有一系列参考网络,您可以使用它们来探索在 Jetson Orin DLA 上运行 DNN:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/main/scripts/prepare_models

  • 示例页面提供了关于如何使用 DLA 充分利用 Jetson SoC 的其他示例和资源:https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/

  • DLA 论坛有其他用户的想法和反馈:https://forums.developer.nvidia.com/tag/dla

SIGGRAPH 2023

NVIDIA 精彩发布

SIGGRAPH 2023 | NVIDIA 主题演讲重磅发布精彩回顾,探索 AI 无限未来!

敬请持续关注...

SIGGRAPH 2023 NVIDIA 主题演讲中文字幕版已上线 !扫描下方海报二维码,或点击“阅读原文”即可观看,与 NVIDIA 创始人兼首席执行官黄仁勋一起探索 AI 的未来!


原文标题:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3770

    浏览量

    90978

原文标题:使用 DLA 在 NVIDIA Jetson Orin 上最大限度地提高深度学习性能

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA发布小巧高性价比的Jetson Orin Nano Super开发者套件

    为2070元人民币。 与上一代产品相比,Jetson Orin Nano Super开发者套件性能上有了显著提升。
    的头像 发表于 12-19 11:28 242次阅读

    初创公司借助NVIDIA Metropolis和Jetson提高生产线效率

    初创公司使用 NVIDIA Metropolis 视觉 AI 和 Jetson 边缘 AI 平台提高生产线效率。
    的头像 发表于 11-19 14:39 173次阅读

    TAS5630如何才能最大限度地减少电压失调,或者调节为0?

    交流耦合输入的情况下,将 BTL 模式下的输出失调电压指定为高达 150mV。这对PBTL 模式是否同样适用?如何才能最大限度地减少电压失调,或者调节为 0?
    发表于 11-08 08:02

    Orin芯片在汽车行业的应用

    Orin芯片概述 Orin芯片是NVIDIA推出的一款系统级芯片(SoC),专为自动驾驶汽车设计。它基于ARM架构,集成了NVIDIA的GPU、
    的头像 发表于 10-27 15:55 736次阅读

    Orin芯片功耗分析

    NVIDIA推出的一款专为自动驾驶设计的系统级芯片(SoC),它基于Arm架构,采用了先进的制程技术。Orin芯片集成了多个高性能的CPU核心、GPU核心以及深度
    的头像 发表于 10-27 15:45 589次阅读

    Orin芯片与其他芯片对比

    Orin芯片是由NVIDIA推出的一款高性能自动驾驶芯片,它代表了NVIDIA自动驾驶领域的最新技术成果。
    的头像 发表于 10-27 15:42 825次阅读

    最大限度提高MSP430™ FRAM的写入速度

    德赢Vwin官网 网站提供《最大限度提高MSP430™ FRAM的写入速度.pdf》资料免费下载
    发表于 10-18 10:09 0次下载
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>MSP430™ FRAM的写入速度

    最大限度地减少TPS53355和TPS53353系列器件的开关振铃

    德赢Vwin官网 网站提供《最大限度地减少TPS53355和TPS53353系列器件的开关振铃.pdf》资料免费下载
    发表于 10-15 11:17 0次下载
    <b class='flag-5'>最大限度</b>地减少TPS53355和TPS53353系列器件的开关振铃

    最大限度提高GSPS ADC中的SFDR性能:杂散源和Mitigat方法

    德赢Vwin官网 网站提供《最大限度提高GSPS ADC中的SFDR性能:杂散源和Mitigat方法.pdf》资料免费下载
    发表于 10-10 09:16 0次下载
    <b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>GSPS ADC中的SFDR<b class='flag-5'>性能</b>:杂散源和Mitigat方法

    利用智能eFuses最大限度地缩短系统停机时间

    德赢Vwin官网 网站提供《利用智能eFuses最大限度地缩短系统停机时间.pdf》资料免费下载
    发表于 09-25 10:25 0次下载
    利用智能eFuses<b class='flag-5'>最大限度</b>地缩短系统停机时间

    如何在C2000设备中最大限度地利用GPIO

    德赢Vwin官网 网站提供《如何在C2000设备中最大限度地利用GPIO.pdf》资料免费下载
    发表于 09-19 13:40 0次下载
    如何在C2000设备中<b class='flag-5'>最大限度</b>地利用GPIO

    通过优化补偿最大限度地减少导通时间抖动和纹波

    德赢Vwin官网 网站提供《通过优化补偿最大限度地减少导通时间抖动和纹波.pdf》资料免费下载
    发表于 08-26 11:34 0次下载
    通过优化补偿<b class='flag-5'>最大限度</b>地减少导通时间抖动和纹波

    NVIDIA Jetson Orin系列边缘计算主机

    MLPref实现卓越的边缘性能。同时可以实现更大型、更复杂的深度神经网络,具有物体识别、目标检测追踪、语音识别、及其他视觉开发等功能,满足更多人工智能应用场
    的头像 发表于 07-10 08:02 697次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Jetson</b> <b class='flag-5'>Orin</b>系列边缘计算主机

    用于并行采样的EVADC同步转换,如何在最大化采样率的同时最大限度地减少抖动?

    我的应用程序中,HSPDM 触发 EVADC 同时对两个通道进行采样。 我应该如何配置 EVADC 以最大限度地减少采样抖动并最大限度提高采样率? 在用户手册中,它提到 SSE=
    发表于 01-18 07:59

    Wi-SUN 可最大限度提高太阳能跟踪器的性能

    的影响。通过利用尽可能多的能量,太阳能光伏跟踪器成为一大关键,可最大限度提高太阳能发电厂的投资回报。 无线带来了可扩展性和更大的灵活性 每个太阳能发电厂部署中,选择无线还是有线连接的跟踪器要取决于具体的要求、规
    的头像 发表于 01-07 08:38 719次阅读
    Wi-SUN 可<b class='flag-5'>最大限度</b>地<b class='flag-5'>提高</b>太阳能跟踪器的<b class='flag-5'>性能</b>