今天我们周围的一切都在变得更加智能。人工智能(AI)不仅仅是一种数据中心应用,在我们日常与之交互的各种嵌入式系统中也能够发现AI。我们希望与这些系统进行对话和手势交流,期待它们能够识别和理解我们,这种智能不仅使这些系统的功能更加完善、使用更为便捷,同时更加安全和可靠。
所有这些智能都来源于深度神经网络的进步。神经网络的关键挑战之一是计算复杂度。小型神经网络可能需要数百万次的乘积累加运算(MAC)才能产生结果,而大型神经网络则可能需要数十亿次,像大语言模型等复杂网络可能需要达到万亿级的计算量。这种级别的计算需求超出了嵌入式处理器的承载能力。
在某些情况下,这些推理计算可以通过网络被转移到数据中心。越来越多的设备拥有快速且可靠的网络连接,使得这种方式成为许多系统的可行之选。然而,也有很多系统具有严格的实时要求,即使是最快最可靠的网络也无法满足。例如,任何有自动化能力的系统(如自动驾驶汽车或无人机)都需要比离线数据中心更快地做出决策。还有一些系统处理了不应该通过网络传输的敏感数据,而且传输内容会增加黑客攻击的风险。由于性能、隐私和安全等原因,某些推理操作需要在嵌入式系统上完成。
对于简单的网络来说,嵌入式 CPU 就可以处理这些任务,例如,一个树莓派就能部署一个简单的物体识别算法。而对于更复杂的任务,嵌入式 GPU 以及针对嵌入式系统的神经处理单元(NPU)可以提供更强的计算能力。但是,要想获得更高水平的性能和效率,需要构建一个定制化的 AI 加速器。
无论是针对 ASIC 还是 FPGA,设计新的硬件都是一项艰巨的任务,但它能使开发者能够取得现成组件无法达到的性能和效率水平。和有着多代产品设计经验的设计师相比,普通开发团队如何才能构建一个更好的AI加速器呢?其中一个方法是通过针对正在执行的特定推理来定制实施方案,这样的效果会比通用解决方案更胜一筹。
在开发者通用 AI 加速器构建 NPU 时,其目标是支持任何可能的神经网络。他们希望获得尽可能多的设计输入,因此必须使设计尽可能通用,不仅如此,他们还希望在设计中内置一定程度的“future proofing”,以支持几年后可能出现的任何网络。而在技术快速发展的背景下,这并非易事。
一个定制化加速器只需支持一个或几个特定的网络。这种自由度允许将在加速器实施过程中的可编程元素固定在硬件中,使得硬件比通用硬件更小且更快。在图像和滤波器尺寸固定的情况下,一个专用卷积加速器的速度可比设计良好的通用 TPU 快上 10 倍。
通用加速器通常使用浮点数。这是因为几乎所有神经网络都是在使用浮点数的通用计算机上用 Python 开发的。为了正确支持这些神经网络,加速器必须支持浮点数。然而,大多数神经网络使用接近 0 的数值,并且需要较高的精度,而浮点乘法器体积庞大,如果不需要它们,从设计中去除可以节省大量面积和功耗。
一些 NPU 支持整数表示法,有时还支持多种大小。然而,支持多种数值表示格式会增加电路复杂性,进而消耗电力并加大传播延迟。选择一种表示格式并专门使用,可以实现更小、更快的实现。
在构建定制化加速器时,并不局限于 8 位或 16 位,任何尺寸都可以使用。选择正确的数字表示,或对神经网络进行 “量化”,可以优化数据和运算器的大小。量化可以显著减少需要存储、传输和操作的数据量。减少权重数据库的内存占用和缩小乘法器的尺寸可以显著改善设计的面积和功耗。例如,一个 10 位定点乘法器比一个 32 位的浮点乘法器小约 20 倍,功耗约为后者的 1/20。这意味着设计可以更小巧、更节能。使用更小的乘法器,设计人员也可以选择使用该区域,部署 20 个可以并行运行的乘法器,从而在使用相同资源的情况下产生更高的性能。
在构建定制化机器学习加速器时,有一个挑战是创建神经网络的数据科学家通常不了解硬件设计,而硬件设计师也不了解数据科学。在传统设计流程中,他们会通过“会议”和“规范”来传递知识和分享想法,但显然,这些方法也并不会通过信息交流得到有效传递。
通过高阶综合(High-Level Synthesis, HLS),数据科学家生成的实施方案不仅可以作为可执行参考,还可以作为硬件设计流程的机器可读输入。这就避免了在设计流程中手动重新解释算法,从而避免既缓慢又易出错的手动过程。HLS 从算法描述中合成 RTL 实现。一般来说,算法用 C++ 或 SystemC 描述,但像 HLS4ML 这样的设计流程能使 HLS 工具能够直接从机器学习框架中获取神经网络描述。
HLS 能够以一种在机器学习框架中尚不普及的方式对量化进行实际探索。为了充分理解量化的影响,需要对算法进行微精确的实现,包括溢出、饱和和舍入等影响的特征描述。目前,这只适用于硬件描述语言(HDL)或 HLS 微精确数据类型。随着机器学习的普及,更多的嵌入式系统将需要部署推理加速器。HLS 是一种实用且行之有效的构建定制加速器的方法,加速器针对特定应用进行了优化,提供比通用 NPU 更高的性能和效率。
了解更多信息:高阶综合推动下一代边缘 AI 加速器的发展
高阶综合(HLS)推动下一代 AI 加速器的发展
- 加速器(37095)
相关推荐
Freescale:半导体技术的进步推动下一代医疗设备的发展
半导体技术推动下一代医疗设备变得更智能、更精确、连通性更好。什么半导体技术正为未来的医疗设备创造条件呢?飞思卡尔半导体公司的 David Niewolny 讨论了对医疗设备设计影响最大的半导体技术演进。
2013-05-09 11:46:111316
改变加速器格局,下一代千核RISC-V芯片
。近日,Esperanto公开了他们在AI软件生态上所做的进一步努力,也透露了下一代千核RISC-V芯片的部分细节。
2023-08-07 07:00:00958
家居智能化,推动AI加速器的发展
德赢Vwin官网
网报道(文/黄山明)AI加速芯片,也称为人工智能加速器(AI Accelerator),是一种专为执行机器学习和深度学习任务而设计的ASIC或定制化处理器。在智能家居中,AI加速芯片不仅
2024-02-23 00:18:004368
2016CES:Atmel下一代触摸传感技术亮相
2016年1月7日——全球微控制器(MCU)及触控技术解决方案领域的领导者Atmel公司今日宣布,将把下一代压力传感技术应用于最新面向智能手机应用的maXTouchU系列。Atmel的压力传感技术
2016-01-13 15:39:49
HLS高阶综合的定义与解决办法
(pointtools),他们解决的是某个具体问题。软件工程师还没有一个生态系统来识别加速至硬件的代码是否需要加速。对于那个工程师而言,这时的高阶综合可能是一个敌人,而不是朋友。如果没有对底层多核平台的全面
2021-07-10 08:00:00
下一代广电综合业务网上营业厅的特点与功能
【作者】:王书庆;沙威;【来源】:《广播电视信息》2010年03期【摘要】:面对广电运营商业务发展加快和服务理念转变的趋势,下一代广电综合业务网上营业厅应运而生,本文介绍了下一代广电综合业务网上
2010-04-23 11:33:30
FPGA的高阶应用与发展方向讨论
FPGA可编程器件做高阶应用如图像处理、语音识别等需要具备哪些能力,需要怎样更有效从入门到精通 ? FPGA与当下的AI发展结合的怎样?大家可以交流讨论
2024-03-30 18:09:28
Vivado HLS视频库加速Zynq-7000 All Programmable SoC OpenCV应用
OpenCV应用。如何重构一个使用I/O功能来封装加速器的OpenCV应用。如何在加速器功能中, 通过替换为HLS综合视频库功能的方迅速加速OpenCV功能调用。如何在Zynq ZC702参考设计中迅速
2013-12-30 16:09:34
vivado高层次综合HLS定义及挑战
(pointtools),他们解决的是某个具体问题。软件工程师还没有一个生态系统来识别加速至硬件的代码是否需要加速。对于那个工程师而言,这时的高阶综合可能是一个敌人,而不是朋友。如果没有对底层多核平台的全面
2021-07-06 08:00:00
《 AI加速器架构设计与实现》+第2章的阅读概括
首先感谢德赢Vwin官网
论坛提供的书籍和阅读评测的机会。
拿到书,先看一下封面介绍。这本书的中文名是《AI加速器架构设计与实现》,英文名是Accelerator Based on CNN Design
2023-09-17 16:39:45
【MPS电源评估板试用申请】下一代接入网的芯片研究
项目名称:下一代接入网的芯片研究试用计划:下一代接入网的芯片研究:主要针对于高端FPGA的电路设计,其中重要的包括芯片设计,重要的是芯片外部电源设计,1.需要评估芯片各个模式下的功耗功耗,2.需要
2020-06-18 13:41:35
【书籍评测活动NO.18】 AI加速器架构设计与实现
加速器架构设计与实现》
主要内容本书是一本讲解NPU硬件架构设计与技术实现的著作。作者将自己在CPU、GPU和NPU领域15年的软硬件工作经验融会贯通,将四代NPU架构设计经验融为一体,将端侧和云侧
2023-07-28 10:50:51
【转载】黑莓CEO:不会推下一代BB10平板电脑 专注智能手机
【转载】黑莓CEO:不会推下一代BB10平板电脑 专注智能手机凤凰科技讯 北京时间6月28日消息,据外国媒体CNET报道称,黑莓CEO托斯滕•海恩斯(Thorsten Heins)表示对黑莓10
2013-07-01 17:23:10
为什么说射频前端的一体化设计决定下一代移动设备?
随着移动行业向下一代网络迈进,整个行业将面临射频组件匹配,模块架构和电路设计上的挑战。射频前端的一体化设计对下一代移动设备真的有影响吗?
2019-08-01 07:23:17
使用AMD-Xilinx FPGA设计一个AI加速器通道
介绍使用 AMD-Xilinx FPGA设计一个全连接DNN核心现在比较容易(Vitis AI),但是利用这个核心在 DNN 计算中使用它是另一回事。本项目主要是设计AI加速器,利用Xilinx
2023-02-21 15:01:58
如何建设下一代蜂窝网络?
全球网络支持移动设备体系结构及其底层技术面临很大的挑战。在蜂窝电话自己巨大成功的推动下,移动客户设备数量以及他们对带宽的要求在不断增长。但是分配给移动运营商的带宽并没有增长。网络中某一通道的使用效率也保持平稳不变。下一代射频接入网必须要解决这些难题,这似乎很难。
2019-08-19 07:49:08
实现下一代机器人至关重要的关键传感器技术介绍
对实现下一代机器人至关重要的几项关键传感器技术包括磁性位置传感器、存在传感器、手势传感器、力矩传感器、环境传感器和电源管理传感器。
2020-12-07 07:04:36
性能提升1倍,成本直降50%!基于龙蜥指令加速的下一代云原生网关
日益增长的速度,CPU 硬件加速成为业界一个通用的解决方案。CPU 新特性不久前发布的第三代英特尔 ^®^ 至强 ^®^ 可扩展处理器(代号 Ice Lake),单核性能提升 30%,整机算力提升 50
2022-08-31 10:46:10
支持更多功能的下一代汽车后座娱乐系统
的不断发展,红外线或蓝牙无线耳机逐渐普及,光驱支持的编解码标准也在不断增加,如MP3或DviX解码标准。但是,这些设备的数据源基本没有发生变化,还是局限于DVD和CD两种媒体。下一代后座娱乐系统必须涵盖
2019-05-16 10:45:09
用Java开发下一代嵌入式产品
用Java开发下一代嵌入式产品在我10年的Java布道师生涯里,没有哪次Java新版本发布能让我如此兴奋。Java 8的发布不仅在语言本身加入了些不错的新特性,还在嵌入式开发上加入了很棒的功能
2021-11-05 09:12:34
请问Ultrascale FPGA中单片和下一代堆叠硅互连技术是什么意思?
大家好, 在Ultrascale FPGA中,使用单片和下一代堆叠硅互连(SSI)技术编写。 “单片和下一代堆叠硅互连(SSI)技术”是什么意思?谢谢娜文G K.
2020-04-27 09:29:55
远景研讨会 纪要,面向下一代计算的开源芯片与敏捷开发方法
远景研讨会(SIGARCH Visioning Workshop)纪要面向下一代计算的开源芯片与敏捷开发方法作者:包云岗2019 年8 月转自中国开放指令生态(RISC-V)联盟概要近年来,开源硬件
2022-08-04 15:38:02
下一代网络概述
了解下一代网络的基本概念掌握以软交换为核心的下一代网络(NGN)的形态与结构掌握下一代网络的网关技术,包括媒体网关、信令网关、接入网关掌握软交换的概念、原理、
2009-06-22 14:26:1734
下一代宽带无线通信网络信令体系结构
下一代宽带无线通信网络是当前多种无线通信网络发展与融合的未来方向之一。在下一代宽带无线通信网络的形成过程中,不同的网络研究领域专家们从各自的视角对下一代宽带无线通
2011-05-24 18:27:3939
节能省电,下一代功率半导体的发展趋势
当前,材料的发展引领了产品性能的提升,碳化硅和氮化镓的发展也就推动了在变频器和转换器设计上用到的功率半导体的发展,下面我们就下一代的功率半导体发展趋势进行分析。
2012-12-03 09:09:052209
下一代网络核心技术概览
下一代网络技术(NGN)的概念起源于美国克林顿政府1997年10月10日提出的下一代互联网行动计划(NGI)。其目的是研究下一代先进的组网技术、建立试验床、开发革命性应用。NGN一直是业界普遍关注的热点和焦点,一些行业组织和标准化机构也分别对各自领域的下一代网络技术进行了研究。
2016-01-14 16:18:000
使用教程分享:在Zynq AP SoC设计中高效使用HLS IP(一)
高层次综合设计最常见的的使用就是为CPU创建一个加速器,将在CPU中执行的代码移动到FPGA可编程逻辑去提高性能。本文展示了如何在Zynq AP SoC设计中使用HLS IP。 在Zynq器件
2017-02-07 18:08:113495
Xilinx推出有关 Zynq SoC 加速器的最新培训课程
为期 1 天的加速器开发流程介绍主要讲解如何测量系统性能、确定什么软件功能应该移至硬件,如何使用 Vivado® HLS 工具装配一款定制加速器,如何将该定制加速器添加至 Zynq SoC 设计,以及如何测量加速性能。 了解更多 »
2017-02-09 06:23:11339
利用硬件加速器提高处理器的性能
超过两倍。本文以下一代音频系统为例,说明硬件加速器在这方面的应用。 为什么使用硬件加速器 FIR滤波器、IIR滤波器和FFT操作在数字信号处理器中应用十分普遍,且具有规则的结构,因此可以用硬件直接实现,特别是用硬件加速器。硬件加速器是专用
2017-12-04 15:22:361205
全球下一代互联网峰会召开 技术迭代带来数字经济发展新机遇
2018年5月21-22日,全球最具影响力的下一代互联网产业盛会——“全球下一代互联网峰会” (IPv6.conference.cn)在杭州开幕,全球超千位产业精英齐聚一堂,就全球下一代互联网发展现状、下一代互联网技术体系及为中国带来的新的发展机遇等方面展开探讨。
2018-05-22 10:48:156754
“下一代AI联络中心“服务模式正式落地!
2019年6月24日,领先的人工智能技术公司小i机器人与大型服务外包企业诚伯信息在上海签署战略合作协议,双方将作为联合运营方提供“下一代AI客户联络中心”服务。
2019-06-27 15:47:222738
下一代无线技术是VR下一代发展的缺失环节
虚拟现实头显在过去五年中取得了明显的改进,并且在未来五年内,由于计算机图形和显示技术的进步,将向前迈出更大的一步。下一代无线技术是VR下一代发展的缺失环节,因为当代无线VR硬件无法满足用户期望的流畅沉浸。
2019-08-11 10:46:20722
随着科技的发展下一代光纤连接器或将无需插芯
下一代光连接器应该是什么样子的?按照欧盟VECTOR项目的说法,至少是没有插芯的。VECTOR项目的全名是通用易安装的连接器新技术,用来加速欧洲的光接入网络部署,其目标是开发低成本、现场组装的光纤接入网用光纤连接器。
2019-11-04 11:43:461124
疫情已被证明是云应用和扩展的加速器,将继续推动云计算发展
COVID-19大流行已经被证明是云应用和扩展的加速器,并将继续推动向以云为中心的IT的更快转换。
2020-10-20 15:05:331644
HLS高阶综合的定义及挑战
HLS高阶综合(high level synthesis)在被广泛使用之前,作为商业技术其实已经存在了20多年。设计团队对于这项技术可以说呈现出两极化的态度:要么坚信它是先进技术之翘楚,要么对其持谨慎怀疑态度。
2020-11-04 13:45:033234
什么是AI加速器 如何确需要AI加速器
AI加速器是一类专门的硬件加速器或计算机系统旨在加速人工智能的应用,主要应用于人工智能、人工神经网络、机器视觉和机器学习。
2022-02-06 12:47:004270
加速边缘设备中计算机视觉和语音的AI推理模型
SiFive 将 RISC-V 处理器 IP 引入其下一代 AI 推理加速器,为边缘设备中的计算机视觉和语音提供更快、更高效的计算能力。
2022-05-31 10:47:55884
边缘设备中计算机视觉和语音的AI推理加速器应用
SiFive 将 RISC-V 处理器 IP 引入其下一代 AI 推理加速器,为边缘设备中的计算机视觉和语音提供更快、更高效的计算能力。
2022-08-16 11:24:051015
先进的嵌入式系统推动下一代汽车应用
向具有先进功能的智能汽车的迁移正在迅速进行,但让汽车在现实世界中自动驾驶并不是那么简单。需要高度集成的处理器来支持下一代汽车必须提供的高级功能,提供片上专用加速器和功能安全特性等功能,以及运行它的统一软件平台。
2022-11-29 16:30:09547
为下一代3D传感器开发光控超构表面(LCM™)技术
Lumotive将利用新资金加速光学半导体器件的开发和客户交付,以支持下一代激光雷达(LiDAR)传感器。
2023-01-08 17:17:282164
带有PYNQ和Vitis HLS的SHA256加密加速器
德赢Vwin官网
网站提供《带有PYNQ和Vitis HLS的SHA256加密加速器.zip》资料免费下载
2023-02-09 10:32:493
硬件加速器提升下一代SHARC处理器的性能
SHARC ADSP-2146x处理器集成了硬件加速器,可实现三种广泛使用的信号处理操作:FIR(有限脉冲响应)、IIR(无限脉冲响应)和FFT(快速傅里叶变换)。加速器卸载了核心处理器,并有可能使处理器的计算吞吐量增加一倍以上。本文以加速器在下一代音频系统中的应用为例。®
2023-03-03 14:46:511063
PCIe在AI加速器中的作用
从线上购物时的“猜你喜欢”、到高等级自动驾驶汽车上的实时交通信息接收,再到在线视频游戏,所有的这些都离不开人工智能(AI)加速器。AI加速器是一种高性能的并行计算设备,旨在高效处理神经网络等AI工作负载并提供近乎实时的处理方案,从而实现一系列应用。
2023-11-18 10:36:301720
智物发布天玑900平台无线AR智能眼镜参考设计,推动下一代无线AR发展
智物发布天玑900平台无线AR智能眼镜参考设计,推动下一代无线AR发展。无线AR智能眼镜的设计参考搭载了天玑900平台,运行频率为2.4GHz的八核处理器,性能更加出色。同时,它的外形缩小了30
2023-12-11 17:27:59523
粒子加速器的加速原理是啥呢?
粒子加速器的加速原理是啥呢? 粒子加速器是一种重要的实验设备,用于研究粒子物理学、核物理学等领域。其主要原理是通过电场和磁场的作用,对带电粒子进行加速,在高速运动过程中使其获得较大的动能,最终达到
2023-12-18 13:52:081615
TDK和固特异合作推动下一代轮胎解决方案
TDK 株式会社(TES:6762)和固特异轮胎橡胶公司(NASDAQ:GT)今日宣布将合作推动下一代轮胎解决方案,旨在加快轮胎和汽车生态系统中集成智能硬件和软件的开发和采用。
2024-01-10 13:33:25475
瑞萨发布下一代动态可重构人工智能处理器加速器
瑞萨最新发布的动态可重构人工智能处理器(DRP-AI)加速器,在业界引起了广泛关注。这款加速器拥有卓越的10 TOPS/W高功率效率,相比传统技术,效率提升了惊人的10倍。其独特之处在于,它能在低功耗的传统嵌入式处理器(MPU)上运行复杂的图像AI模型,不再需要依赖高功耗的GPU。
2024-03-08 13:45:47564
NVIDIA的专用AI平台如何推动下一代医疗健康行业的发展
医疗科技创新企业在 GTC 上介绍了 NVIDIA 的专用 AI 平台如何推动下一代医疗健康行业的发展。
2024-04-09 10:10:541122
Rebellions选择 arteris作为其下一代神经处理单元,瞄准生成人工智能
来源:Yole Group 加速片上系统 (SoC) 创建的系统 IP 提供商 Arteris 宣布,领先的 AI 半导体初创公司 Rebellions 将为其下一代 AI 硬件加速器神经处理单元
2024-04-18 16:44:45189
丰田、日产和本田将合作开发下一代汽车的AI和芯片
丰田、日产和本田等日本主要汽车制造商确实计划联手开发下一代汽车的软件,包括在生成式人工智能(AI)和半导体(芯片)等领域进行合作。
2024-05-20 10:25:50845
24芯M16插头在下一代技术中的潜力
德索工程师说道随着科技的飞速发展,下一代技术正逐渐展现出其独特的魅力和潜力。在这一背景下,24芯M16插头作为一种高性能、多功能的连接器,将在下一代技术中发挥至关重要的作用。以下是对24芯M16插头在下一代技术中潜力的详细分析:
2024-06-15 18:03:47161
西门子推出Catapult AI NN软件,赋能神经网络加速器设计
西门子数字化工业软件近日发布了Catapult AI NN软件,这款软件在神经网络加速器设计领域迈出了重要一步。Catapult AI NN软件专注于在专用集成电路(ASIC)和芯片级系统(SoC)上实现神经网络的高层次综合(HLS),为机器学习应用提供了硬件加速的新途径。
2024-06-19 11:27:22634
西门子推出Catapult AI NN:重塑神经网络加速器设计的未来
的需求,西门子数字化工业软件日前推出了一款名为Catapult AI NN的创新软件,旨在帮助神经网络加速器在专用集成电路(ASIC)和芯片级系统(SoC)上实现更高效的高层次综合(HLS)。
2024-06-19 16:40:33485
下一代高功能新一代AI加速器(DRP-AI3):10x在高级AI系统高级AI中更快的嵌入处理
德赢Vwin官网
网站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高级AI系统高级AI中更快的嵌入处理.pdf》资料免费下载
2024-08-15 11:06:410
评论
查看更多