1 提高TinyML、ML-DSP和深度学习工作负载的能效-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

提高TinyML、ML-DSP和深度学习工作负载的能效

CEVA 来源:CEVA 作者:CEVA 2023-11-09 13:10 次阅读

近来,对实时决策、降低数据吞吐量以及注重隐私的需求,已将人工智能处理的很大一部分工作转移到边缘。这一转变催生了大量边缘人工智能应用,每种应用都有着不同的要求,面临着不同的挑战。

据预测,2025年人工智能SoC市场规模将达到500亿美元(资料来源:Pitchbook Emerging Tech Research),边缘人工智能芯片预计将在这一市场中占据重要地位。

人工智能处理向边缘转移及提高能效势在必行

人工智能处理向边缘转移标志着一系列应用(从物联网传感器到自主系统)进入了实时决策的新时代。这一转移有助于:减少延迟,这对即时响应起到决定性作用;通过本地处理提高数据隐私保证;支持离线功能,确保在远程或具有挑战性的环境中不间断运行。由于这些边缘应用在电池供电的设备上运行,能效有限,因此能效在这一变革中会成为焦点。

边缘人工智能工作负载本质多元

确保边缘人工智能处理能效的关键难题之一是工作负载本质多元。不同应用的工作负载大不相同,带来独特挑战。总体而言,所有人工智能处理工作负载可大致分为TinyML、ML-DSP深度学习工作负载。

TinyML:声音分类、关键词识别及人体存在检测等任务需要在传感器附近进行低延迟、实时处理。此处涉及的工作负载称为TinyML,牵涉到在资源有限的边缘设备上运行轻量级机器学习模型。TinyML模型专为特定硬件定制,支持顺利执行人工智能任务。定制硬件处理器和高度优化的软件库对于满足TinyML严格至极的功耗要求至关重要。

深度学习:相较而言,深度学习应用程序是一种计算密集型工作负载。此类应用程序涉及运行复杂的计算,通常出现在高级计算机视觉、自然语言处理及其他经典和生成式人工智能密集型任务中。深度学习具有计算密集型特性,通常需要专门的硬件,如神经处理单元 (NPU)。NPU采用多层神经网络结构,能够高效地处理各种复杂的计算任务。NPU可为高级人工智能任务提供所需的计算能力,而且能效很高。

ML-DSP:介于上述两类工作负载之间的是ML-DSP工作负载,涉及DSP处理、过滤及清理信号,然后才能执行人工智能感知任务。雷达属于此类工作负载,是一种涉及点云图像分析的常见应用。

工作负载决定采用的架构

为了应对边缘人工智能工作负载的多面性及其带来的能效挑战,人们开发了各种架构和硬件引擎。为各工作负载选择有针对性的架构和硬件是为了在提供最佳计算性能的同时最大限度地降低功耗。就此而言,TOPS/Watt(每秒万亿次运算/瓦)是常用的能效指标。选择合适的架构来处理TinyML、ML-DSP及深度学习工作负载,是满足所需能效指标的关键。

标量处理架构最适合TinyML工作负载,此类负载通常涉及用户界面管理、基于时间数据制定决策以及非密集型计算需求。矢量处理架构非常适合同时处理多个数据元素的运算,及在人工智能感知之前涉及信号处理的工作负载。张量和矩阵处理架构是涉及复杂矩阵运算、图像识别、计算机视觉及自然语言处理等深度学习任务的理想选择。能够以尽量高的能效高效处理涉及大型矩阵和神经网络的任务。人工智能处理器通常结合利用这些架构来高效处理各种任务。请参阅下图。

wKgZomVMataAGTK_AANiyugdJck222.png

CEVA产品可应对各种人工智能工作负载

CEVA提供一系列产品,希望满足TinyML、ML-DSP 及深度学习工作负载的需求。我们的产品包括CEVA-BX、SensPro2及NeuPro-M,品质优越,既能支持搭载人工智能功能的边缘设备,也能确保能效。

CEVA-BX处理器高度灵活,能够根据具体应用配置和优化,包括音频、语音处理及人工智能相关的工作负载。其架构旨在实现性能和能效平衡,因此适用于广泛的边缘计算应用。

CEVA的SensPro2是一种高度可配置且独立的矢量DSP架构,针对浮点和整数数据类型进行标量和矢量处理。专为计算机视觉和其他传感器中的并行高带宽数据应用而设计。能够高效处理多达5 TOPS的人工智能工作负载,集成多达1,000个MAC。SensPro2是需要高带宽数据和人工智能处理能力的视觉和雷达系统的合适选择。

CEVA的NeuPro-M是一款神经处理单元(NPU)IP,涵盖在CEVA深度学习人工智能处理器NeuPro系列中。NeuPro-M旨在处理当今大多数经典和生成式人工智能网络模型,包括Transformer。专门针对低功耗、高效率处理优化,包括一个矢量处理单元(VPU)和许多其他异构处理引擎,如稀疏性、压缩和激活逻辑。随着人工智能网络模型快速发展,NeuPro-M凭借内置VPU,可以为边缘人工智能应用提供经得起未来考验的功能。NeuPro-M目前无法处理的更新、更复杂的人工智能网络层,可以利用VPU得到高效管理。

CEVA的音频人工智能处理器、传感器中枢 DSP、NeuPro-M NPU IP以及相关软件工具和开发套件可满足所有边缘人工智能处理工作负载的需求。

wKgZomVMataATAFOAAMoVpwGluE002.png

本文作者:Moshe Sheier, Vice President of Marketing, CEVA

关于CEVA

CEVA是排名前列的无线连接和智能传感技术以及集成IP解决方案授权商,旨在打造更智能、更安全、互联的世界。我们为传感器融合、图像增强、计算机视觉、语音输入和人工智能应用提供数字信号处理器、人工智能处理器、无线平台、加密内核和配套软件。许多世界排名前列的半导体厂商、系统公司和OEM利用我们的技术和芯片设计技能,为移动、消费、汽车、机器人工业、航天国防和物联网等各种终端市场开发高能效、智能、安全的互联设备。

我们基于DSP的解决方案包括移动、物联网和基础设施中的5G基带处理平台;摄像头设备的高级影像技术和计算机视觉;适用于多个物联网市场的音频/语音/话音应用和超低功耗的始终开启/感应应用。对于传感器融合,我们的Hillcrest Labs传感器处理技术为耳机、可穿戴设备、AR/VR、PC机、机器人、遥控器、物联网等市场提供广泛的传感器融合软件和惯性测量单元 (“IMU”) 解决方案。在无线物联网方面,我们的蓝牙(低功耗和双模)、Wi-Fi 4/5/6/6E (802.11n/ac/ax)、超宽带(UWB)、NB-IoT和GNSS 平台是业内授权较为广泛的连接平台。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    553

    文章

    7986

    浏览量

    348724
  • CEVA
    +关注

    关注

    1

    文章

    177

    浏览量

    75933
  • ML
    ML
    +关注

    关注

    0

    文章

    149

    浏览量

    34640
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121107
  • TinyML
    +关注

    关注

    0

    文章

    42

    浏览量

    1225

原文标题:提高TinyML、ML-DSP和深度学习工作负载的能效

文章出处:【微信号:CEVA-IP,微信公众号:CEVA】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用TinyML在MCU上实现AI/ML推论工作

    众所皆知,MCU运算力有限(相对于IoT网关、手机、计算机),而AI/ML向来耗用运算力,如此TinyML的技术主张岂不矛盾?事实上,MCU的运算力也非如刻板印象中那样一直不堪,MCU运算力也在提升,如此可用来执行简单(相对于云端机房、边缘运算)的AI/
    发表于 09-20 11:10 2170次阅读

    开发TinyML系统必须考虑的四大指标

    最近,随着机器学习ML, Machine Learning)的进步出现了分歧,分为两个规模:一个是传统的大型ML(云ML),模型越来越大,以实现准确性方面的最佳性能;另外一个是新兴的
    的头像 发表于 01-11 12:10 2501次阅读

    Alif Semiconductor宣布推出先进的BLE和Matter无线微控制器,搭载适用于AI/ML工作负载的神经网络协同处理器

    全新Balletto™系列无线MCU基于Alif Semiconductor先进的MCU架构,该架构具有DSP加速和专用NPU,可快速且低功耗地执行AI/ML工作负载   中国,北京
    发表于 04-18 17:51 668次阅读
    Alif Semiconductor宣布推出先进的BLE和Matter无线微控制器,搭载适用于AI/<b class='flag-5'>ML</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>的神经网络协同处理器

    【先楫HPM5361EVK开发板试用体验】:4、TinyML测试(1)

    是在这些设备上实现低功耗、低延迟和隐私保护的机器学习应用。 TinyML的发展受益于多个技术进步,包括模型压缩、量化、剪枝和量化训练等技术。这些技术允许将大型的深度学习模型压缩到足够小
    发表于 12-22 10:12

    深度学习及无线通信热点问题介绍

    利用ML构建无线环境地图及其在无线通信中的应用•使用深度学习的收发机设计和信道解码基于ML的混合学习方法,用于信道估计、建模、预测和压缩 使
    发表于 07-01 10:49

    什么是TinyML?微型机器学习

    了解一个叫做微型机器学习(Tiny Machine Learning,TinyML)的机器学习分部,它是什么,它的应用,硬件和软件需求,以及它的好处。机器学习(
    发表于 04-12 10:20

    Arm Neoverse V1的AWS Graviton3在深度学习推理工作负载方面的作用

    ML 工作负载。MLCommons 是一个开放的工程联盟,通过基准、指标、数据集和最佳实践来支持和改进机器学习行业。在此分析中,我们为两个广泛使用的
    发表于 08-31 15:03

    优化用于深度学习工作负载的张量程序

    华盛顿大学计算机系博士生陈天奇、以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架,以优化用于深度学习工作负载的张量程序。
    的头像 发表于 05-23 15:32 2381次阅读
    优化用于<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>的张量程序

    微软要让ML.NET框架也能用于开发深度学习应用

    模型评分转换(TensorFlow Transform)。微软提到,深度学习是人工智能和机器学习的子集,能够透过实例来学习人类自然习得的能力,与传统机器
    的头像 发表于 09-27 10:33 3789次阅读

    TinyML推动深度学习和人工智能发展

    TinyML深度学习和人工智能领域的最新技术。它带来了在随处可见的微控制器(几乎是最小的电子芯片)中运行机器学习模型的能力。
    的头像 发表于 11-03 14:58 2070次阅读

    一文知道TinyML的演变

    TinyML是世界上最新的深度学习和人工智能技术。它增强了微控制器中运行机器学习模型的能力。
    的头像 发表于 11-11 17:02 3473次阅读
    一文知道<b class='flag-5'>TinyML</b>的演变

    什么是深度学习(Deep Learning)?深度学习工作原理详解

      本文将带您了解深度学习工作原理与相关案例。 什么是深度学习深度
    的头像 发表于 04-01 10:34 1w次阅读

    机器学习概述、工作原理及重要性

    本文旨在为硬件和嵌入式工程师提供机器学习(ML)的背景,它是什么,它是如何工作的,它为什么重要,以及 TinyML 是如何适应的
    发表于 06-12 09:27 1573次阅读

    如何在 MCU 上快速部署 TinyML

    您对人工智能 (AI) 和机器学习 (ML) 感到好奇吗?您想知道如何在您已经使用过的微控制器上使用它吗?在本文中,我们向您介绍了微控制器上的机器学习。该主题也称为微型机器学习 (
    的头像 发表于 07-19 10:24 1845次阅读
    如何在 MCU 上快速部署 <b class='flag-5'>TinyML</b>

    什么是TinyML

    了解机器学习ML) 的一个子部分,称为微型机器学习TinyML)、它是什么、它的应用程序、硬件和软件要求以及它的优势。 机器学习
    的头像 发表于 01-27 16:51 9898次阅读
    什么是<b class='flag-5'>TinyML</b>?