1 闪存芯片阵列+计算加速器,在个人电脑达到服务器级性能-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

闪存芯片阵列+计算加速器,在个人电脑达到服务器级性能

DPVg_AI_era 来源:未知 作者:胡薇 2018-06-05 10:12 次阅读

麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员设计出一种设备,使用廉价的闪存,仅使用一台个人电脑就能处理大量的图形,达到与数千美元的传统服务器一致的性能。研究者认为,这将彻底改变我们处理大数据的方式。

在数据科学的说法中,图(graph)是指用于映射大量复杂的数据关系的节点(nodes)和连接线(connecting lines)的结构。分析graph在许多应用中非常有用,例如网页排名、分析社交网络以获取政治见解,或者绘制大脑的神经元结构。

然而,由数十亿个节点和线组成的大型 graphs 大小可以达到TB级。通常来说,图数据的处理需要跨多个耗电量大的服务器,在昂贵的动态随机存取存储器(DRAM)中进行。

最近,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员设计出一种设备,使用廉价的闪存(智能手机中使用的那种),仅使用一台个人电脑就能处理大量的图形。

该设备包含一个闪存芯片阵列(图中黑色的8个芯片)和一个计算“加速器”(芯片阵列左边)。研究人员提出一种新算法,将图形数据的所有访问请求排序为闪存可以轻松访问的顺序,同时合并一些请求以减少排序开销。

闪存芯片阵列+计算加速器,在个人电脑达到服务器级性能

在处理图数据时,闪存通常比DRAM慢得多。但研究人员开发出一种由闪存芯片阵列和计算“加速器”组成的设备,可以使闪存达到类似于DRAM的性能。

驱动该设备的是一种新的算法,它可以将图数据的所有访问请求排序为闪存可以快速、轻松访问的顺序。它还将一些请求合并,以减少排序的开销——组合计算时间、内存、带宽和其他计算资源。

研究人员使用该设备与几个传统的高性能系统一起处理几个大型图,包括庞大的Web Data Commons Hyperlink Graph,该Graph有35亿个节点和1280亿个连接线。为了处理这个Graph,传统的系统需要耗资数千美元的服务器,以及128GB的DRAM。研究人员将两台新设备(总计1GB的DRAM和1TB的闪存)接入台式电脑,获得了同样的性能。此外,通过合并几个设备,可以处理更大的图——多达40亿个节点和1280亿个连接线——而其他系统无法在128G的服务器上处理这些图。

研究人员将两台设备(总计1GB的DRAM和1TB的闪存)接入一台台式电脑,获得了与数千美元的传统服务器同样的性能。

CSAIL的研究生、论文第一作者Sang-Woo Jun说:“最重要的是,我们可以用更小功耗、更少、温度更低的设备保持一样的性能。”该研究发表在今年的国际计算机体系结构研讨会(ISCA)上。

该设备可以用于降低与图形分析相关的成本和能耗,甚至可以在许多应用中提高性能。例如,研究人员目前正在开发一个程序,可以识别导致癌症的基因。谷歌等大型科技公司也可以利用这些设备,通过使用更少的机器来运行分析,以减少能源消耗。

“图形处理(graph processing)是一个很普遍的想法,”该研究的合作者、计算机科学工程系教授Arvind说,“网页排名和基因检测有什么共同之处呢?对我们来说,它们是相同的计算问题,只不过不同的graph表达的含义不同。”

论文合著者还有CSAIL的两名研究生Shuotao Xu和Andy Wright,以及电子工程与计算机科学系的Sizhuo Zhang。

sort-reduce算法

在图分析中,系统根据节点与其他节点的连接以及其他度量指标来搜索和更新节点的值。例如,在网页排名中,每个节点代表一个网页。如果节点A具有较高的值并连接到节点B,那么节点B的值也会增加。

传统的系统将所有图数据存储在DRAM中,这使得它们在处理数据时速度很快,但也导致成本昂贵而且耗电。有些系统将部分数据存储卸载到闪存上,这种方式更便宜,但速度更慢,效率更低,因此仍需要大量的DRAM。

CSAIL研发的新设备运行在被称为“sort-reduce”的算法上,该算法解决了使用闪存作为主要存储源的一个主要问题:浪费。

图分析系统需要通过大量的、稀疏的图结构访问彼此间距离很远的节点。系统通常请求直接访问4到8字节的数据,以更新节点的值。DRAM提供了非常快速的直接访问。然而,闪存只能访问4KB到8KB的数据块,但仍然只更新几个字节。在跳过图形时,重复访问每个请求会浪费带宽。

sort-reduce算法转而采用所有的直接访问请求,并按照标识符的顺序对它们进行排序,标识符显示请求的目的地——例如将节点A的所有更新分成一组,全部分配给节点B。这样,闪存就可以同时访问数千个kilobyte大小的chunks的请求,从而大大提高效率。

为了进一步节省计算力和带宽,该算法同时将数据合并到尽可能最小的分组中。只要算法记录了匹配的标识符,它就将这些数据加载到一个数据包中——例如将A1和A2合并成A3。这种做法重复多遍,用匹配的标识符创建越来越小的数据包,直到产生可进行排序的最小数据包。这大大减少了访问重复请求的数量。

研究人员在两个大型graphs上使用 sort-reduce 算法,将需要在闪存中更新的全部数据减少了大约90%。

定制加速器

然而,对于主机来说, sort-reduce算法的计算量很大。因此,研究人员在设备中添加一个定制加速器。加速器在主机和闪存芯片之间充当中间点,执行算法的所有计算。这为加速器大大减少了电量消耗,以至于可以用一个低功耗的PC或笔记本电脑作为主机,用来管理已排序的数据并执行其他次要任务。

Arvind说:“加速器本来是用来帮助主机进行计算的,但是目前的结果显示,主机变得不那么重要了。”

“MIT的这个工作展示了一种在非常大的图上执行分析的新方法:利用闪存存储图形,并利用FPGA(定制的集成电路)以巧妙的办法执行所需的数据处理和分析,“德克萨斯大学奥斯汀分校计算机科学教授Keshav Pingali说,“从长远来看,这可能使得系统能够在笔记本电脑或台式机上有效地处理大量数据,这将彻底改变我们处理大数据的方式。”

MIT的研究人员说,由于主机的耗能很低,他们的长期目标是创建一个通用的平台和软件库,以便用户为图分析之外的应用开发自己的算法。Jun说:“你可以把这个平台插入笔记本电脑,下载这个软件,然后编写简单的程序,就可以在你的笔记本电脑上获得服务器级的性能。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 闪存
    +关注

    关注

    16

    文章

    1782

    浏览量

    114892
  • DRAM
    +关注

    关注

    40

    文章

    2311

    浏览量

    183439
  • MIT
    MIT
    +关注

    关注

    3

    文章

    253

    浏览量

    23388

原文标题:MIT 开发廉价闪存设备,处理图数据性能堪比服务器

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PC慢慢_解决个人电脑运行缓慢的问题

    PC慢慢(PCslow Doctor) V3.2_解决个人电脑运行缓慢的问题PC慢慢—主要用于解决个人电脑运行缓慢的一款免费扫描软件 ,是国内最流行的电脑优化加速软件。
    发表于 04-13 12:13

    基于ST的MEMS传感个人电脑和媒体遥控空中运动控制

    的新鼠标可以个人电脑100英尺的空中无线控制个人电脑,而无需放置鼠标桌面。因为能够对人手的运动做出精准可靠的反应,新鼠标几乎可以在任何地方,包括像在出租车或飞机上的狭窄空间内,准确跟踪定位人手
    发表于 10-25 11:22

    华为FPGA加速服务器如何加速让硬件应用高效上云?

    华为FPGA加速服务器让“硬用”上云成为新增长点随着通信和互联网产业的快速发展,FPGA作为高性能计算加速器
    发表于 10-22 07:12

    什么是服务器

    、内存、系统总线等,和通用的计算机架构类似。由于服务器需要提供高可靠的服务,所以处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
    发表于 07-16 07:35

    嵌入式web服务器的设计资料,绝对实用

    实验原理WEB浏览 浏览是个显示网页伺服或档案系统内的HTML文件,并让用户与此些文件互动的一种软件。个人电脑上常见的网页浏览包括I
    发表于 10-28 07:29

    使用实时 MCU 顺应服务器电源的设计趋势

    随着服务器和数据中心全球范围内的应用日益广泛,对稳定高效电源的需求越来越强烈,以应对不断增加的功耗。用电量一直快速增长,因此需要更多的集成中央处理单元、图形处理单元和加速器来提高服务器
    发表于 12-15 07:00

    服务器内存

    服务器内存              服务器内存也是内存(RAM),它与普通PC(个人电脑)机内存在外观和结构上没有什么明显实
    发表于 12-17 11:12 360次阅读

    如何更好地架设个人服务器

    如何更好地架设个人服务器   当你计划构建个人服务器时,应考虑一些相关因素:拟在服务器
    发表于 01-21 12:04 505次阅读

    个人电脑变网站服务器解决方案

    个人电脑变网站服务器解决方案 怎么回事,我的主页不能访问了?!唉,原来这个免费空间又暂停服务了。   到哪里给我们的网站找个
    发表于 02-01 11:58 975次阅读

    什么是3D加速器

    三维图形加速器是一种可安装成城电脑. 一个人这样做将安装这个局以加快时间需为其机负荷和创造图像监控他们的电脑. 因为包括自身董事会功能、三维加速器
    发表于 03-09 11:24 3187次阅读

    Mac网游加速器的使用步骤教程_Mac电脑网游加速器推荐

    网游加速器是针对个人用户快速连接网游服务器的一种服务。为了解决国内南北网络互联瓶颈的问题,“网络加速器”厂商通过搭建多个高带宽的双线机房(或
    发表于 12-14 09:47 2.3w次阅读

    杰华特服务器个人电脑JWH6374 JWH7067 JWH7030 JWH7222 JW7221

    杰华特服务器个人电脑JWH6374JWH7067JWH7030JWH50855085A5087AJWH7222JW7221JW5068AC
    发表于 11-07 16:06 18次下载

    AMD上季度营收58亿美元,个人电脑服务器需求推动增长

    amd总裁兼首席执行官dr. su表示:“得益于对leron 7000系列个人电脑处理的需求和服务器处理的销售,销售额和收益有所增加。”“由于epyc cpu有价证券组合的优势和I
    的头像 发表于 11-01 14:25 609次阅读

    服务器cpu和普通电脑cpu的区别

    通常具有更高的性能,因为它们通常需要处理更复杂和更大规模的任务。这也意味着服务器CPU具有更大的处理能力,能够处理更多的数据和并发请求。而普通电脑CPU更加注重于个人
    的头像 发表于 02-01 11:14 6633次阅读

    服务器连接应用解决方案

    C4201系列线对板连接服务器的连接应用--C4201系列线对板连接,防震、防尘、防脱,电源及信号传输高效稳定。服务器是一种专门的计算
    的头像 发表于 02-19 12:38 269次阅读
    <b class='flag-5'>服务器</b>连接应用解决方案