AiM Future是LG电子的衍生公司,正在将韩国消费巨头的AI加速IP商业化,用于消费电子,机器人和汽车等各种应用。该 IP 专为多模式操作而设计,可同时运行许多不同的 AI 模型。当前一代硬件还支持边缘训练,未来几代旨在将有效扩展扩展到当前数十个 TOPS 范围之上。
LG在2020年退出手机市场之前,于2021年剥离了其半导体和IP部门。AiM的创始人是LG员工,当时在硅谷实验室从事该公司的AI加速器IP工作;他们能够筹集到1万美元的种子轮融资,并将很快完成8万美元的A轮融资。LG是主要投资者,当AiM将自今年晚些时候分拆以来开发的IP商业化时,LG将成为AiM的潜在客户,AiM Future首席执行官ChangSoo Kim告诉EE Times。
AiM的AI加速器IP,NeuroMosaic,自2015年以来一直在开发中,前几代NeuroMosaic已经在LG机器人吸尘器和洗衣机中发货。AiM拥有已经开发的专利和知识产权的独家许可,并正在研究该技术的未来几代。金说,到目前为止,AiM已经向韩国公司出售了三份商业许可证,其中包括至少一家汽车公司。
LG在CES 2023上推出的Moodup概念冰箱采用了LG基于NeuroMosaic 1.2代IP的DQ5芯片。Moodup是一款多面板概念冰箱,当您敲玻璃时,其门会在22种不透明颜色和透明之间切换。它还会随着蓝牙扬声器上播放的音乐及时闪烁灯光,并在您靠近时闪烁以向您打招呼。(来源:LG电子)
神经马赛克
NeuroMosaic 是一种多模态、可扩展的设计,适用于图像、视频、音频和时间序列传感器数据处理以及传感器融合。
“该架构本来是通用的......它是由以LG为中心的最终产品推动的,“AiM Future营销和业务发展副总裁Bob Allen告诉EE Times。“但它们都是符合我们通常所说的物联网的产品。
这可能包括自主机器人,它可能有多种传感器类型,或者AR眼镜需要在严格的时间窗口内处理来自不同传感器模式的数据。
“有一些明确的用例,引擎需要同时做多件事,”艾伦说。“这种多模式、面向多任务的架构[旨在]处理同时运行的多种不同类型的应用程序,以便能够提供最佳类型的用户体验。
NeuralMosaic旨在提供并发、独立的多任务操作,即使并发任务是级联的。例如,关键字发现可用于触发语音识别,而语音识别可用于触发另一个任务。
“默认情况下,没有其他人真正在他们的架构中提供这种功能,”艾伦说,并补充说,为这些类型的任务使用单独的加速器芯片会增加复杂性,成本和功耗。
NeuroMosaic的软件可以分配任务,也许是处理不同传感器模式的模型,取决于所需的延迟(来源:AiM Future)
NeuroMosaic的设计有32个GOPS NPU核心,16-GOPS磁贴中有512个核心。艾伦说,洗衣机中的物体检测等小型工作负载可能只需要一个内核,具有持续学习功能的机器人吸尘器可能需要32个内核,智能电视超分辨率可能需要128-256个内核,而更大的ADAS应用可能需要320-512个内核。
NeuroMosaic NPU核心可以独立工作,软件可以管理即时任务分配。AiM 的 SDK 可以模拟工作负载,以了解在特定时间内获得结果需要多少个内核。
“[任务分配]可以在软件中完成,并且可以根据我们不断执行的操作进行更改,因此它可以即时更改,”Kim说。“我们已经知道每个任务需要多少性能,我们可以分配更少的内核,但随后需要更长的时间。
磁贴和磁贴
NeuroMosaic 磁贴最多支持 16 个磁贴,每个磁贴都有一个 NPU 内核、一些内存和一个小型 RISC-V 处理器供 NPU 回退。
“如果客户今天选择我们的IP,他们的芯片可能会在一两年内制造出来,”Kim说。“在接下来的两年里,优化可能会有很多变化,神经网络将取得进步。某些神经网络可能没有我们的IP可以支持的层和功能。在这种情况下,RISC-V内核将通过软件方法执行。
NeuroMosaic的NPU位于带有内存和小型RISC-V内核的磁贴中。每个图块中最多有16个图块(点击放大)(来源:AiM Future)
目前有三代NeuroMosaic可用:2.5代,3.0代和4.0-EL。
第 2.5 代经过硅验证;它提供 INT16 或 INT8 推理,架构支持融合层计算。
3.0代增加了共享平铺内存,支持同步操作,提高了内存带宽。每个 Tilelet 中的内存矩阵可用于输入、权重和操作输出,但更大的共享切片内存可以容纳来自片外 DDR 的大量数据供内核使用。AiM 已验证设计,平铺共享内存在 64-512 KB 之间。
4.0-EL 代支持 INT8 和 BF16,这意味着可以实现一定程度的设备级培训。
“我们认为,由于许多原因,包括安全性和延迟,未来的培训需求将进入边缘,”Kim说,并补充说,虽然FP32在边缘实施过于昂贵,但BF16培训提供了准确性和硅面积之间的平衡。“瓷砖约占瓷砖整个面积的20%......为瓦片添加训练功能可以增加它们,但由于瓦片没有那么大,即使 NPU 增长 20%,整体面积增加也不会那么大。
其中包括对量化感知训练的支持,这是一种在正向传递上模拟较低精度推理的训练方案,在训练期间引入量化错误,以提高训练模型对最终量化的鲁棒性。
在实践中,AiM驱动的芯片上的边缘训练通常仅限于微调或重新训练最终的神经网络层。艾伦的例子是一个机器人吸尘器,它学习识别家中的特定家具物品,每天在20个小时不运行时进行自我训练。
4.0-EL 还为每个磁贴添加一个 softmax 加速器。
“Softmax需要在CPU中进行大量计算 - 因为它是串联操作,很难在[NPU]中加速,”Kim说。“我们发现,在CPU中运行softmax层需要数千个周期,但使用我们的硬件加速器,性能提高了十倍。它占用了芯片上的一些面积,但如果客户想在硬件中做softmax,通过牺牲一些面积来提高整体性能,这取决于他们。
配置
磁贴的所有功能块都可以根据客户的要求进行配置,包括磁贴中的块。AiM 还创建了小型(最多 512 个 GOPS)、中型(最多 4 个 TOPS)和大型(最多 16 个 TOPS)版本的 IP 预配置版本,可以应用于任何一代的架构(2.5 代预配置系统的 4.0 版本目前经过硅验证,而 <>.<>-EL 版本已经过全面验证)。
Kim说,虽然没有理由多瓦设计不能扩展到16 TOPS,但实际上,大于数十个TOPS的设计超出了最佳点,并且在硅面积方面效率不高。
软件
AiM的软件堆栈NeuroMosaic Studio目前提供了完整的开发人员流程,尽管某些功能仍在开发中。
当前版本包括一个转换器,它可以优化和压缩NeuroMosaic硬件架构的模型,并量化它们。还有一个映射器,编译器,模拟器和一个模型动物园。
下个季度推出的下一个版本的NeuroMosaic Studio将增加对边缘训练、RNN和LSTM以及其他计算机视觉模型的支持。
AiM的软件堆栈NeuroMosaic Studio目前提供了完整的开发人员流程,尽管某些功能仍在开发中(来源:AiM Future)
路线图
AiM对2023年有宏伟的计划。这包括多项目晶圆运行,以演示硅片中的3.0和4.0-EL代,以及软件更新,包括对边缘训练的支持。
AiM还在开发NeuroMosaic硬件架构的5.0代,目前在FPGA上启动并运行。
这种下一代架构旨在实现数十 TOPS 以上的高效扩展,并有望将硅面积减少 25%,功耗降低 50%(与相同工艺技术下的 2.5 代相比)。5.0代预计将于下个季度推出。
相关主题: 人工智能, 人工智能加速器, 人工智能和大数据, 人工智能和机器学习, 人工智能和机器学习, 人工智能软件, 基于人工智能的芯片, 人工智能/机器学习, AIIOT, 人工智能 (AI), 人工智能 (AI), 消费电子, 消费电子和电器, IP(知识产权), SOC