1 超融合数据中心网络架构的典型特征与价值-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超融合数据中心网络架构的典型特征与价值

架构师技术联盟 来源:全栈云技术架构 作者:郭亮 2022-12-19 10:53 次阅读

介绍了数据中心网络对于算力的意义,归纳出影响数据中心全以太化演进的因素,以及超融合数据中心网络架构的典型特征与价值。

结合业界在超融合数据中心网络技术中的实践与探索,对超融合数据中心网络架构的未来发展进行了展望。数据中心内数据处理包括数据的存储、计算和应用三个环节,分别对应三大资源区:

数据存储区:存储服务器内置不同的存储介质,如机械硬盘、闪存盘(SSD)、蓝光等,对于数据进行存储、读写与备份,存储节点间通过存储网络互联。

高性能计算区:服务器较少虚拟化,配置CPUGPU 等计算单元进行高性能计算或 AI 训练,服务器节点间通过高性能计算网络互联。

通用计算区:服务器大量使用 VM或容器等虚拟化技术,通过通用计算网络(又称为应用网络、业务网络、前端网络),与外部用户终端对接提供服务。

在这个持续循环的过程中,网络就像联接计算和存储资源的中枢神经,贯穿数据处理的全生命周期。数据中心算力水平不仅取决于计算服务器和存储服务器的性能,很大程度上也受到网络性能的影响。如果网络算力水平无法满足要求,则会引发“木桶效应”拉低整个数据中心的实际算力水平。

7364b9ca-7ed6-11ed-8abf-dac502259ad0.png

数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。在服务器主板上,数据传输的顺序依次为 CPU、内存、硬盘和网卡,若针对图形则需要 GPU。所以,从广义上讲,数据中心算力是一个包含计算、存储、传输(网络)等多个内涵的综合概念,是衡量数据中心计算能力的一个综合指标。

提升网络性能可显著改进数据中心算力能效比

定 义 数 据 中 心 算 效(CE,Computational Efficiency)为数据中心算力与所有 IT 设备功耗的比值,即“数据中心 IT 设备每瓦功耗所产生的算力”(单位:FLOPS/W):

737f62c0-7ed6-11ed-8abf-dac502259ad0.png

在服务器规模不变的情况下,提升网络能力可显著改善数据中心单位能耗下的算力水平。ODCC2019 年针对基于以太的网算一体交换机的测试数据表明,在 HPC场景同等服务器规模下,相对于传统 RoCE(基于融合以太的远程内存直接访问协议)网络,网算一体技术可大幅度降低HPC 的任务完成时间,平均降幅超过 20%。即:单位时间提供的算力提升 20%,同等算力下能耗成本降低 20%。

在存储网络场景,采用基于 NVMeover Fabric 的无损以太网络,可实现同等服务器规模 下, 存 储 IOPS性能相对于传统 FC网络最高可提升87%,这也将大幅减少业务端到端运行时长。由此可见,重构数据中心网络可以实现在单位ICT 能耗下对算力的极大提升,更好满足绿色节能数据中心的建设要求。在大算力需求持续高涨的情况下,为企业带来更加直接的价值。

存储全闪存化驱动 RoCE 产业生态发展

相比 HDD,SSD 介质在短时间内将存储性能提升了近 100 倍,实现了跨越式的发展,而 FC 网络技术无论是从带宽或时延已成为存储网络场景的系统瓶颈,存储业务开始呼唤更快、更高质量的网络。为此,存储与网络从架构和协议层进行了深度重构,NVMeoverFabric 应运而生。

在新一代存储网络技术的选择上,业界存在NVMeoverFC、NVMeoverRoCE等多条路径。然而,FC 网络始终无法突破三大挑战:

第一、FC 网络技术及互通性相对封闭,整体产业生态与连续性面临着很大挑战;

第二、由于产业规模受限,FC 技术的发展相对迟缓,目前最大带宽只有 32G 且已长达 6 年没有出现跨代式技术;

第三、同样由于产业规模受限,FC 网络运维人员稀缺,能够运维 FC 网络的技术人员不足以太网络维护人员的 1/10。这造成 FC网络运维成本居高不下,故障解决效率低下。

相比FC网络,NVMeoverRoCE 技术无论从产业规模、技术活跃度、架构扩展性、开放生态、和多年 SDN(Software-DefinedNetwork,软件定义网络)管理运维能力积累上都具有明显的优势,已成为下一代存储网络技术的最优选择。

CPU/GPU 去PCIe化,直出以太以获取极致性能

随着人工智能技术的快速发展,PCIe 总线瓶颈凸显。PCIe 是英特尔在 2001 年提出的高速串行计算机扩展总线标准,接口速度决定了 CPU 间的通信速度,而接口数量则决定了主板的扩展性。

739e1fee-7ed6-11ed-8abf-dac502259ad0.png

当前,占据数据中心服务器 CPU 市场绝对地位的 Intelx86 架构普遍使用 PCIe3.0,PCIe3.0 单通道仅支持 8GT/s 的传输速率,且通道扩展数量有限。在 AI 超算服务器已经全面迈入 100GE 网卡的时代,PCIe3.0 架构速率成为大吞吐高性能计算场景下的性能瓶颈。

为此,业界开始探索计算单元去 PCIe 之路。2019 年,Habana 公司发布了在 AI 芯片处理器片内集成 RoCE 以太端口的处理器 Gaudi,Gaudi 将10 个基于融合以太网的 RoCE-RDMA100GE 端口集成到处理器芯片中,每个以太网端口均支持 RoCE功能,从而让 AI 系统通过标准以太网,在速度和端口数方面获得了几乎无限的可扩展性,提供了过去的芯片无法实现的可扩展能力。同年,华为的达芬奇芯片昇腾 910 集成了 RoCE 接口,通过片内RoCE 实现节点间直接互联,为构建横向扩展(ScaleOut)和纵向扩展(ScaleUp)系统提供了灵活高效的方法。

IPv6 大规模部署,产业政策加速以太化进程

IPv6 即互联网协议第6版,是互联网工程任务组设计的用于替代 IPv4 的下一代 IP 协议。IPv6 不仅能解决网络地址资源数量的问题,而且还解决了多种接入设备连入互联网的障碍问题,具有更大的地址空间和更高的安全性。从人人互联到万物智联,网络对 IP 地址的需求量指数级增加;数据中心作为智能世界的算力中枢,IPv6 成为互联的基础诉求。

超融合数据中心网络架构与核心特征

下一代超融合数据中心网络需具备如下特征,实现三个层面的融合:

73e55b70-7ed6-11ed-8abf-dac502259ad0.png

• 全无损以太网络,实现流量承载融合:通用计算、存储、高性能计算网络统一承载在 0 丢包以太网技术栈上,实现大规模组网协议统一,TCP、RoCE 数据混流运行,打破传统分散架构限制;

• 全生命周期自动管理,实现管控析融合:基于统一网络数字孪生底座,加以大数据及 AI 手段,实现规划、建设、维护、优化全生命周期自动化,代替人工处理大量重复性、复杂性的操作,并可基于海量数据提升网络预测和预防能力,打破多工具多平台分散管理限制;

• 全场景服务化能力,实现全场景融合:抽象数据中心网络“物理网络服务”、“逻辑网络服务”、“应用服务”、“互联服务”、“网络安全服务”、“分析服务”等核心服务能力,基于开放服务化架构实现多厂家、离线与在线数据的灵活接入。满足多私有云、多公有云、混合云、以及丰富行业场景下的网络统一编排需求,支持算力跨云灵活智能调度,打破区域与场景限制。

超融合数据中心网络技术最佳实践

基于全无损以太的超融合数据中心网络技术正在迅猛发展,在存储、高性能计算、通用计算等场景得到了较好地商业实践。

在无损网络方向,标准以太网络虽然有 QoS 以及流量控制能力,但执行机制简单粗暴,通常通过静态水线控制。静态水线无法适应千变万化的存储业务流量,设置过高可能引发丢包,设置过低则无法充分释放存储的 IOPS 性能。为了解决这个难题,业界将 AI 机制引入到交换机中,一方面交换机可毫秒级感知流量变化,另一方面基于海量存储流量样本持续训练获得的 AI 算法可通过智能动态调整队列水线实现亚秒级流量精准控制,最大程度释放存储性能。

74291a54-7ed6-11ed-8abf-dac502259ad0.png

在可靠性方面,业界正在推动网络与存储在故障场景下的联动标准化方案。通过交换机毫秒级主动通告故障,并联动存储协同倒换,可支持亚秒级的网络故障倒换,真正实现网络单点故障存储业务无感知。

7440fb10-7ed6-11ed-8abf-dac502259ad0.png

在网络易用性与运维方面,业界发布了以太网络环境下的存储即插即用最佳实践,相比传统以太逐节点、逐 ZONE 手工配置方式,可以做到业务单点配置、全网同步,实现存储设备的即插即用。

746fd732-7ed6-11ed-8abf-dac502259ad0.png

由于传统 FC 网络当前主流商用端口带宽只有8G,最大端口带宽只有 32G,同城 100G 存储传输往往需要 4~10 条以上的链路。相比之下,以太网络 100G/400G 接口能力已经成熟商用,可以大幅减少同城链路资源。然而,在同城双活及灾备场景中,跨城传输时延增大,短距流控反压机制存在严重的滞后性。以同城 70 公里传输场景为例,RTT(Round-TripTime)时延往往大于 1 毫秒,导致传统流控机制彻底失效。网络时延由四部分组成:

动态时延:主要由排队时延产生,受端口拥塞影响;

静态时延:主要包括网络转发(查表)时延和转发接口时延,一般为固定值,当前以太交换静态时延远高于超算专网;

网络跳数:指消息在网络中所经历的设备数;

入网次数:指消息进入网络的次数。新一代无损以太网络在动态时延、静态时延、网络跳数以及入网次数几个方面均做出了系统性优化,大幅优化了网络性能,可满足高性能计算场景的实际诉求。

传统的以太交换机在转发层面,因需要考虑兼容性和众多协议支持等问题,导致转发流程复杂、转发时延较大。与此同时,以太查表算法复杂、查表时延大,导致整体转发处理时延长。目前业界主流商用以太交换机的静态转发时延大约在 600ns-1us 左右。

748fc3b2-7ed6-11ed-8abf-dac502259ad0.png

高性能计算场景的流量关注静态时延的同时需要支持超大规模组网。然而传统的 CLOS 架构作为主流网络架构,主要关注通用性,牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计。

74bf3ed0-7ed6-11ed-8abf-dac502259ad0.png

当前数据中心网络架构设计大多基于工程经验,不同搭建方式之间难以选择,缺乏理论指导和统一性设计语言。网络拓扑性能指标繁多,不同指标之间相互制约,指标失衡很难避免。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10854

    浏览量

    211567
  • SSD
    SSD
    +关注

    关注

    21

    文章

    2857

    浏览量

    117360
  • 数据中心
    +关注

    关注

    16

    文章

    4761

    浏览量

    72030

原文标题:超融合数据中心网络解决方案

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 284次阅读

    数据中心、智算中心中心,有何区别?

    数据中心、智算中心中心是当前计算机领域中比较重要的研究方向,三者虽然都属于数据中心的范畴,但在服务领域、技术体系上存在显著的区别。服
    的头像 发表于 06-22 08:27 5326次阅读
    云<b class='flag-5'>数据中心</b>、智算<b class='flag-5'>中心</b>、<b class='flag-5'>超</b>算<b class='flag-5'>中心</b>,有何区别?

    华为联合IEEE面向全球发布L4数据中心自动驾驶网络白皮书

    在华为数据通信创新峰会2024期间,华为联合IEEE面向全球发布L4数据中心自动驾驶网络白皮书,全面阐述了数据中心网络在AI大模型时代的应用
    的头像 发表于 05-16 09:09 587次阅读
    华为联合IEEE面向全球发布L4<b class='flag-5'>数据中心</b>自动驾驶<b class='flag-5'>网络</b>白皮书

    融合基础架构的软硬件设计思路

    简单来说,融合基础架构就是在业务节点上运行服务器虚拟化软件和存储虚拟化软件,将所有的计算节点通过网络聚合成一个统一的虚拟计算和虚拟存储资源池,以资源池的形式提供
    的头像 发表于 04-25 10:28 1788次阅读
    <b class='flag-5'>超</b><b class='flag-5'>融合</b>基础<b class='flag-5'>架构</b>的软硬件设计思路

    讯维融合通信系统在金融数据中心建设的实践探索

    讯维融合通信系统在金融数据中心建设的实践探索中,展现出了其独特的技术优势和应用价值。以下是对这一实践探索的详细分析: 首先,金融数据中心作为金融机构的核心信息枢纽,对通信系统的可靠性、
    的头像 发表于 04-18 15:41 316次阅读

    融合架构解决方案

    随着信息技术的发展,企业对数据中心的依赖日益增强,对存储、计算和网络资源的需求也在不断增长。融合架构作为一种新兴的IT基础设施解决方案,正
    的头像 发表于 04-10 14:57 633次阅读

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    传统数据中心架构和叶脊架构网络解决方案

    网络带宽- 特别是满足东西向流量的要求(数据中心中大部分流量是东西向的)。 注意:东西向流量表示数据中心内的服务器/应用之间的流量,而南北向流量表示出入数据中心的流量。
    发表于 03-21 10:52 1162次阅读
    传统<b class='flag-5'>数据中心</b><b class='flag-5'>架构</b>和叶脊<b class='flag-5'>架构</b><b class='flag-5'>网络</b>解决方案

    CloudFabric3.0融合数据中心网络全新升级,携手共筑算力新联接

    在华为中国合作伙伴大会2024期间,华为举办了以“融合数据中心网络,携手共筑算力新联接”为主题的数据中心网络分论坛。
    的头像 发表于 03-19 09:18 874次阅读

    数据中心网络架构:万兆电口模块的重要作用

    数据中心网络架构中,万兆电口模块作为一种高速、高效的网络连接解决方案,具有重要作用。它采用RJ45接口,传输速度可达10Gbps,可提供高速的数据
    的头像 发表于 02-26 16:30 602次阅读

    华为发布2024数据中心能源十大趋势,引领未来变革

    布《白皮书》。在本次发布会上,华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合极简、低碳绿色,并分享数据中心在部件、产
    的头像 发表于 01-17 08:25 557次阅读
    华为发布2024<b class='flag-5'>数据中心</b>能源十大趋势,引领未来变革

    华为发布2024数据中心能源十大趋势

    今日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。发布会上,华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合
    的头像 发表于 01-15 17:29 948次阅读

    融合和虚拟化的区别

    融合和虚拟化是当今IT领域非常热门的两个概念,它们都是为了提高数据中心的效能和灵活性,但在实现方式和功能上存在一些区别。本文将详细讨论融合
    的头像 发表于 01-15 10:36 4226次阅读

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    性能领先|忆联×新华三,打造融合架构下的高性能存储方案

    为助力企业用户构建融合架构的现代化数据中心,满足业务发展需求,忆联联合新华三集团在融合
    的头像 发表于 12-27 18:21 610次阅读
    性能领先|忆联×新华三,打造<b class='flag-5'>超</b><b class='flag-5'>融合</b><b class='flag-5'>架构</b>下的高性能存储方案