1 Hadoop大数据存算分离方案:计算层无缝对接存储系统-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hadoop大数据存算分离方案:计算层无缝对接存储系统

杉岩老李 来源:杉岩老李 作者:杉岩老李 2022-12-26 14:45 次阅读

Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展。随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐,并纷纷开始对Hadoop架构进行改造。

为满足大数据不同场景需求,杉岩数据此前研发推出了兼容HDFS接口能力的高性能数据湖文件网关,为使湖仓一体方案更加完善,杉岩数据全新升级了面向AI训练、机器学习、大数据分析等场景的高性能文件存储——杉岩云原生文件存储(以下简称杉岩CNFS),为客户实现All in One的存储能力。

存算分离实现方案:客户端模式

杉岩CNFS支持客户端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件协议)接口实现,对HDFS接口协议完全兼容,可以保证应用层就像使用原生HDFS存储一样使用杉岩CNFS。

实际场景中,通过在计算平台部署安装专用的客户端与简单的配置,即可实现Hadoop平台的组件与分离部署的存储交互。针对业界使用比较广泛的CDH平台(Hadoop商业发行版之一),杉岩CNFS也开发了配套的Parcel资源包,利用CDH自身的管理便捷地配置使用杉岩CNFS提供的存储空间。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

图1 杉岩湖仓一体方案存算分离实现(客户端模式)

但是像所有HCFS接口实现一样,侵入式的部署方式使计算组件有了额外的依赖需要管理,当涉及计算组件自身的升级、替换等场景时,就要考虑杉岩CNFS客户端软件包和配置的同步,增加了运维工作。因此这种对接方式一定程度限制了计算组件自身的灵活性。

在实际应用中,用户如果有相对较为频繁的升级更替计算组件的场景,往往不能接受侵入式的部署对接方式。

实现无缝对接!杉岩数据推出HDFS网关服务端组件

针对这一需求,杉岩数据研发推出了HDFS网关服务端组件,进一步简化对接部署过程。HDFS网关实现了原生HDFS协议,可收发原生HDFS协议的请求,计算节点通过Hadoop环境自带的原生HDFS-Client即可访问存储系统,无需额外安装专用客户端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

图2 杉岩湖仓一体方案存算分离实现(服务端模式)

方案优势

原生HDFS协议,兼容性良好:HDFS网关支持几乎所有的HDFS数据面接口,可对接市场上常见的大数据平台。

无缝对接,简化对接部署过程:通过原生HDFS协议直接访问存储系统,无需在计算层安装专用客户端。计算组件升级、替换时,无需考虑客户端配置,减少运维工作量。

高数据吞吐能力,无单点故障:通过杉岩云原生文件存储对HDFS网关的数据处理卸载能力,大大降低了HDFS网关的数据处理开销,提升了整体的数据吞吐能力,并结合LVS实现了对HDFS网关的去中心化、水平扩展。

性能测试

LVS只处理HDFS NameNode的元数据相关RPC,实际占大部分网络带宽的数据读写是DataNode角色的block读写流量,不通过LVS,而由HDFS Gateway通过NameNode RPC返回自身节点的IP,HDFS-Client直接和各HDFS Gateway通讯。所以LVS不会成为大数据读写的瓶颈,如下图所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

图3 通过LVS访问HDFS网关的交互

以下是在3节点存储加3节点Hadoop集群环境,通过TestDFSIO读写9个30G文件的对比测试结果,可见HDFS网关对存储系统带宽影响较小。但HDFS网关的增加会使IO路径长度多一跳,对存储网络带宽需求增加,规划存储网络时应考虑这一点。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

图4 存算分离场景杉岩CNFS直通和通过HDFS网关带宽测试

值得一提的是,有些计算层组件可能针对HDFS做特别的优化,例如Hbase就实现了自己的异步HDFS-Client,此情况下使用HDFS网关可以继续使用计算侧的特别优化,能获得更好的性能。

总结

随着5GIoT的快速发展,数据激增,企业级大数据平台建设逐渐深入,基于存算分离架构,计算承接丰富的应用接入需求,存储提供成熟稳定的底座支撑业务发展和生态对接是大势所趋。

上述内容体现了杉岩云原生文件存储在Hadoop大数据存算分离场景中的优势,杉岩数据推出HDFS网关服务端组件,通过原生HDFS协议直接访问存储系统,简化了对接部署过程,为用户提供了更多的选择,使基于杉岩大数据智能存储为基座的湖仓一体方案更加完善。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储系统
    +关注

    关注

    2

    文章

    409

    浏览量

    40850
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    15971
  • HDFS
    +关注

    关注

    1

    文章

    30

    浏览量

    9588
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137391
  • 存算分离
    +关注

    关注

    0

    文章

    6

    浏览量

    60
收藏 人收藏

    评论

    相关推荐

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式
    的头像 发表于 12-18 09:45 91次阅读

    开源芯片系列讲座第24期:基于SRAM的高效计算架构

    先进的计算架构技术,以克服传统冯诺依曼架构中计算单元与存储单元分离导致的“内存墙”问题。基于SRAM的
    的头像 发表于 11-27 01:05 207次阅读
    开源芯片系列讲座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效<b class='flag-5'>计算</b>架构

    一体化与边缘计算:重新定义智能计算的未来

    随着数据量爆炸式增长和智能化应用的普及,计算存储的高效整合逐渐成为科技行业关注的重点。数据存储和处理需求的快速增长推动了对
    的头像 发表于 11-12 01:05 208次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b>一体化与边缘<b class='flag-5'>计算</b>:重新定义智能<b class='flag-5'>计算</b>的未来

    WDS分布式存储系统软件助力电信工程海量数据存储项目

    WDS分布式存储系统软件助力电信工程海量数据存储项目
    的头像 发表于 11-11 09:59 179次阅读
    WDS分布式<b class='flag-5'>存储系统</b>软件助力电信工程海量<b class='flag-5'>数据</b><b class='flag-5'>存储</b>项目

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理超大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具和技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据应用。
    的头像 发表于 10-08 15:12 148次阅读
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能

    计算存储系统的工作原理和功能

    计算存储系统作为计算机系统中至关重要的组成部分,其原理和功能对于理解计算机的运行机制具有关键意义。以下将详细阐述计算
    的头像 发表于 09-26 16:42 851次阅读

    计算存储系统的构成

    计算存储系统计算机中用于存放程序和数据的设备或部件的集合,它构成了计算机信息处理的基础。一个完整的
    的头像 发表于 09-26 15:25 784次阅读

    基于分布式存储系统医疗影像数据存储解决方案

    基于分布式存储系统医疗影像数据存储解决方案
    的头像 发表于 09-14 09:53 303次阅读
    基于分布式<b class='flag-5'>存储系统</b>医疗影像<b class='flag-5'>数据</b><b class='flag-5'>存储</b>解决<b class='flag-5'>方案</b>

    基于CSS融合存储系统的自动化制造服务平台存储解决方案

    基于CSS融合存储系统的自动化制造服务平台存储解决方案
    的头像 发表于 09-10 10:15 334次阅读
    基于CSS融合<b class='flag-5'>存储系统</b>的自动化制造服务平台<b class='flag-5'>存储</b>解决<b class='flag-5'>方案</b>

    数据中心存储系统出现故障的处理方法有哪些?数据中心存储系统出现故障怎么办?

    互联网+时代,大数据非常重要,如果保护好如数据存储系统相当关键。如今,随着互联网的快速发展,各种攻击变得越来越严重,数据存储系统也变得越来越
    的头像 发表于 06-19 11:30 782次阅读

    科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    计算都是一体架构的重要组成部分,目的是在硬件层面上优化数据处理流程,使得计算机系统能够更快速、更有效地处理大规模
    发表于 05-16 16:38

    计算WTM2101编译工具链 资料

    出来再进行计算,读取时间与参数规模成正比,计算芯片的功耗和性能受限,GPU力利用率甚至不到8%。 计算芯片实现了
    发表于 05-16 16:33

    探索计算—基于 SRAM 的计算与基于 MRAM 的一体的探究

    技术,包括其工作原理、优势以及在军工和大数据存储领域的应用。最后,对比了SRAM的计算和基于MRAM的
    的头像 发表于 05-16 16:10 2769次阅读
    探索<b class='flag-5'>存</b>内<b class='flag-5'>计算</b>—基于 SRAM 的<b class='flag-5'>存</b>内<b class='flag-5'>计算</b>与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b>一体的探究

    大数据时代的存储革命:理解分布式存储系统

    管理的效率极低。因此,分布式存储系统应运而生。 分布式存储就是将数据存储在众多的服务器或网络节点上,而不是集中在单个位置。这种方式的好处包括:方便扩容、
    的头像 发表于 03-07 15:40 421次阅读

    分布式存储计算大数据时代的解决方案

    分布式存储计算技术应运而生,并迅速成为处理大数据的首选方案。本文将深入探讨分布式存储计算的概
    的头像 发表于 03-07 14:42 749次阅读