1 超带宽域成为业内技术探索新领域-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超带宽域成为业内技术探索新领域

奇异摩尔 来源:奇异摩尔 2024-11-18 11:16 次阅读

AI大模型的迅猛发展,使得网络基础设施技术的进步速度超乎想象。产业链上的每一个环节都需紧密追踪AI驱动的技术革新,并据此进行同步的创新升级。

AI网络的Scale-up正在上演一场热烈的军备赛,业界正在呼唤更统一开放的GPU计算卡互联标准,从而打破NVIDIA主导的NVLink以及其所构建的强大的HBD 网络架构的护城河。NVLink 是一种“多节点无损网络”的代表,由一个强大的软件协议组成,通常通过印在计算机板上的多对导线实现,可以让处理器以极高的速度收发共享内存池中的数据。NVLink 的主要设计目的,就是突破PCIe的屏障,达成GPU-GPU及CPU-GPU的片间高效数据交互。

wKgaoWc6sduALsx-AAHGpVuTpSM340.png

(来源: NVIDIA)

目前NVLink已经升级到5.0版本。第五代 NVLink 大幅提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接,总带宽可达 1.8 TB/s,比上一代产品提高了两倍,是 PCIe 5.0 带宽的 14 倍之多。

如今讨论Scale-up网络已经不仅提及NVIDIA的NVLink,无论是国际还是国内,行业更多的是在找寻一种更加紧密连接的集群组网,这种紧密耦合所形成的计算系统将有助于推动以GPU为核心的AI网络获得极高的带宽与极低的延迟。

01超带宽域(HBD)成为

业内技术探索新领域

大模型时代,需要更大的模型并行规模,模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,当前典型一机8卡服务器限制了Tensor并行的规模或Expert并行通过机间网络。由此业界开始探索一种以超带宽(HB)互联GPU-GPU的系统,又称HBD(High Bandwidth Domain)。通过构建更大的HBD系统,以Scale-up方式提升系统算力是解决万卡到十万卡集群以上互联挑战的有效途径之一。

于是NVIDIA的暴力美学再度彰显,以其强大的计算能力继续发挥着引领HBD技术趋势的威力。NVIDIA将HB互联扩展至GPU片间通信之外的领域,将其应用到GPU-CPU/Memory之间的超大带宽互联,例如GH200、GB200产品。借助NVLink-C2C技术的创新,为GPU提供一个超带宽访问CPU/Memory的能力。

NVIDIA的GB200NVL72服务器产品体现了典型的超大HBD域系统,实现了36组GB200(36个Grace CPU,72个B200 GPU)之间的超高带宽互联。一个NVL72机架服务器内部共有18个Compute Tray和9个Switch Tray。

wKgZoWc6seCAZ98kAAEgfkXxLPs514.png

(来源:Semianalysis)

上图右侧是另外一种NVIDIA的Scale-up HBD 组网形态:GB200 NVL36 * 2,它把两个并排的机架互联在一起。大多数 GB200 机架都将使用此外形规格。每个机架包含 18 个 Grace CPU 和 36 个 Blackwell GPU。在 2 个机架之间,它仍然在 NVL72 中的所有 72 个 GPU 之间保持非阻塞全对全。每个Compute Tray(高度为2U )包含 2 个 Bianca 板。每个 NVSwitch Tray都有两个 28.8Tb/s NVSwitch5 ASIC 芯片

wKgaomc6sduAHDV0AAJ7RKs2_6k313.png

(来源:Semianalysis)

更夸张的是,黄仁勋表示GB200 NVLink 可以同时连接到 576 个 Blackwell GPU。据Semianalysis调研,该网络系统使用具有 18 个平面的 2 层胖树拓扑来完成。这意味着NVIDIA计划让 DGX H100 NVL256 连接 16 个 NVL36 机架。NVL576形成一个超级大的GPU HBD域,则包含288个GB200 GPU,576个B200 GPU。

据悉,该系统形态的互联已经超过铜缆能够实现的物理连接距离,必须使用光纤连接,这意味着需要花费相当昂贵的成本来实现极高的加速卡带宽。

事实上,超带宽域的稳定运行并非易事,其复杂性不仅体现在网络和计算层面,还包括服务器机架的能耗管理、液冷散热技术、以及机架间光模块与光缆的通信效率等众多挑战。这些问题的解决非一家企业能够独立完成,它需要数据中心产业链的上下游运用集体的智慧来共同突破,以实现高达十万个以上的加速卡的互联。

02产业链集体对抗

英伟达的暴力美学

上个月底, AMD、AWS、Astera Labs、思科、谷歌、惠普企业 (HPE)、英特尔、Meta 和微软等九大董事会成员联合宣布,由其主导的UALink 联盟宣布正式成立,目前已经对行业开放成员邀请。

Ultra Accelerator Link(UALink) 是一种用于GPU加速卡间通信的开放行业标准化互联。UALink 联盟是一个开放的行业标准组织,旨在制定Scale-up互联技术规范,以促进 AI 加速卡(即 GPU)之间的高效互联。该技术规范定义了一种创新的I/O架构,单通道可达200 Gbps传输速率,支持最多1024个AI加速卡互连。相比传统以太网Ethernet)架构,UALink在性能和GPU互联规模上都具有优势,互联规模更是大幅超越NVIDIA NVLink技术。

UALink 1.0 规范可以利用开发和部署了各种加速卡和交换机的推广者成员的经验。

UALink 联盟总裁 Willie Nelson 表示:“UALink 标准定义了数据中心内扩展 AI 系统的高速、低延迟通信。我们鼓励有兴趣的公司以贡献者成员的身份加入,以支持我们的使命:为 AI 工作负载建立开放且高性能的加速卡互联。”预计UALink 1.0规范将在2025年第一季度发布,这与UEC超以太联盟1.0规范的发布节奏同步。

国内:AI网络生态联盟百花齐放

国内AI网络生态圈高度关注Scale-up互联领域的发展,在短短几个月内,以中国移动、阿里云及腾讯云等巨头电信运营商及云厂商分别引领的Scale-up互联生态 OISA、ALink System以及ETH-X超节点等技术规范旨在推动国内智算中心互联生态的快速发展。

OISA全向智感互联

由中国移动引领的OISA主要包括四大设计理念,包括“大规模GPU对等互联”、“极致报文格式”、“数据层流控和重传”以及“高效物理传输”,核心思想是为GPU卡间互联提供开放的高带宽、低时延解决方案。此前在6月份的多样性算力产业峰会上,中国移动重点展示了“OISA G1协议”并推出“OISA交换芯片原型”。

OISA G1的设计规格支持128张GPU通过8个Switch芯片互联,任意卡间点对点带宽达到800GB/s,每个Switch芯片支持128个端口,芯片总速率达到51.2T。奇异摩尔目前已经是OISA联盟的成员,公司积极联动运营商、GPU厂商、交换机及服务器领域的优秀生态伙伴、共同推进国内GPU卡间互联标准的建立与实施。

ALink System 加速器互连系统

ALS产业生态是业界首个支持UALink成立的产业生态,旨在解决AI网络纵向扩展(Scale-up)中的超高速、超大带宽等技术难题,为下一代智算网络打造开放的、统一的标准规范。在今年9月召开的2024 ODCC开放数据中心大会上, 阿里云联合信通院、奇异摩尔等十多家业界合作伙伴发起了ALS(ALink System,加速器互连系统)开放生态系统。

依托于ODCC(开放数据中心委员会)下设的ALS工作组,生态成员们携手聚焦解决GPU卡间互联系统的行业发展和规范问题,推动Scale-up互连系统标准统一建设,打造下一代AI互连网络软硬件系统。目前,ALS已形成从协议到芯片、从硬件设备到软件平台的系统体系,在ALS-D数据面支持UALink,在ALS-M管控面提供统一接口规范和管控软件平台。

ETH-X超节点

wKgZoWc6sduAQAgfAARA2bXgtSE215.png

ETH-X超节点联盟选择以太网为基础设施作为GPU超节点项目的首选原型方案。以太网技术(ETH)作为当前最成熟、最开放的网络技术,具有最大交换芯片容量、最高速Serdes技术、200ns交换芯片、最多参与企业的特点,并且已经是当前众多GPU厂商选择的Scale-up接口技术

据悉,超节点目前已完成Computer-Cable-Switch开放解偶架构设计,保证超节点系统的硬件可以由不同专业领域厂家独立研发生产,并确保了各子系统硬件可集成互通。系统解偶后,各子系统均具有兼容多种GPU芯片、多种Switch芯片及其独立演进的能力,由此充分保证了GPU超节点系统参与厂家的专业性、多样性和开放性。

正如之前我们所提及的加速卡间HBD的挑战,ETH-X以太超节点系统也面临着集成测试、系统运维、协议设计、业务测试等一些列的技术挑战。这一系列的问题需要业界充分协作,共同努力在现有开放生态基础上不断完善、加速GPU超节点系统的成熟与发展。

奇异摩尔自研的网络加速芯粒GPU Link Chiplet——NDSA-G2G,以其极高的灵活性和可扩展性为Scale-up互联生态提供了强有力的支撑。该产品基于可编程众核流式架构,支持用户自定义的协议和处理格式。通过将Chiplet芯粒集成在GPU加速卡内,并利用UCIe D2D接口与GPU互联,NDSA-G2G能够实现高性能的数据流,从而全面加速分布式计算网络。

“据中国IDC圈不完全统计,目前国内不同建设阶段的智算中心项目已超过500个,其中投产运营的项目160个,开工在建项目超过200个。智算中心的建设可谓是如火如荼,其发展关乎到区域经济的发展和产业布局的未来。”

AI网络基础设施作为智算中心的重要基石,直接决定了智算中心的能力、效率、可靠性和安全性。从芯片、交换机、网卡、光模块到其他IT硬件设备,每一个组件都不可或缺,共同构成了一套跨尺度、多层次的复杂系统工程。

奇异摩尔期待未来行业能够拥抱一种开放而统一的物理接口,产业链通过标准制定、软硬件结合等方面的协同最终实现以太网为基础的Scale-up网络和Scale-out网络的融合,从而构建一个更加高效、灵活的智算网络架构,为国内智算中心的发展释放无限可能。

关于我们

AI网络全栈式互联架构产品及解决方案提供商

奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet技术,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。

我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。

奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXPIntel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动技术创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的技术保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,技术探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19259

    浏览量

    229635
  • NVIDIA
    +关注

    关注

    14

    文章

    4978

    浏览量

    102979
  • 网络
    +关注

    关注

    14

    文章

    7553

    浏览量

    88724
  • AI
    AI
    +关注

    关注

    87

    文章

    30725

    浏览量

    268870

原文标题:Kiwi Talks | Scale-up 军备赛愈演愈烈,集体对抗英伟达的暴力美学

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    无线新领域模块780M

    众所周知我们一直使用的无线频段是 2.4G433780M是本公司研发的新领域,相对于 24G 433 有明显的优势 如下图典型参数2.4GHz433MHz780MHz通信频率该频段有蓝牙、WiFi
    发表于 12-15 10:11

    细工业内窥镜使用后应如何清洁?

      工业内窥镜虽然不同于医用内窥镜使用后有水洗、酶洗、消毒等繁杂的清洗程序,但必要的清洁保养是使用者必须做到的。当代制造技术的提高已使研发制造出来的工业内窥镜变得越来越小巧,除了便于携带,使用也是
    发表于 04-09 15:58

    电子技术帮助脑部治疗探索新领域

    。”Batjer医生解释说,要在任何一个特定领域成为专家,至少需要大约10, 000小时的练习与实践,无论是演奏乐器或是编写代码均是如此。按照他的说法,这10,000小时的指导性排练与预演能够真正的重组脑部区域
    发表于 08-29 15:29

    基于材料技术的航空武器装备应用

    近年来,在军用天线等应用领域,国外材料技术取得了突破性进展。例如,英国BAE系统公司和伦敦玛丽女王学院研制出一种新型材料平面天线,利用
    发表于 07-29 06:21

    电子技术帮助脑部治疗探索的全新领域

    在德州大学达拉斯分校的部分实验室中,Robert Rennaker博士所提出的“定向可塑”脑部康复研究正处于技术与现代医学的最前沿。
    发表于 05-13 06:00

    【2020年ST工业峰会】3大领域、50场分论坛、100多个技术产品展示,激发智能 赋能创新

    `▌ST工业峰会简介科技随“芯”精彩,意法半导体伴您相行!作为拥有18500多项行业领先专利的先驱,意法半导体已经成为许多技术创新领域长期领先的代名词。ST工业峰会已经成为一个业内重要
    发表于 10-26 15:31

    【2021年ST工业峰会】3大领域30个分论坛、150多个技术方案演示,激发智能 赋能创新

    峰会简介科技随“芯”精彩,意法半导体伴您相行!作为拥有18500多项行业领先专利的先驱,意法半导体已经成为许多技术创新领域长期领先的代名词。ST工业峰会已经成为一个业内重要的年度盛会,
    发表于 07-29 16:41

    【2021年ST工业峰会】3大领域30个分论坛、150多个技术方案演示,激发智能 赋能创新

    ▌ST工业峰会简介科技随“芯”精彩,意法半导体伴您相行!作为拥有18500多项行业领先专利的先驱,意法半导体已经成为许多技术创新领域长期领先的代名词。ST工业峰会已经成为一个业内重要的
    发表于 10-09 10:53

    解锁OpenHarmony技术日!年度盛会,即将揭幕!

    论坛 解读核心技术探索新领域商讨教育发展共同探索 OpenHarmony 发展新机遇 更有全天候互动展区体验一览生态繁荣进展给合作单位、代码贡献者、布道师们提供共同交流的阵地,让大
    发表于 04-21 10:38

    爱绿Super Diamond LED广色显示技术

    爱绿光电为大家展示了Super Diamond LED广色显示和Silence节能两种新技术。据了解,爱绿推出的Super Diamond LED
    发表于 07-23 14:10 1361次阅读

    持续布局和探索具有颠覆性军事能力的前沿技术,加强国防科技发展战略谋划

    12月,日本发布新版《防卫计划大纲》《中期防卫力量整备计划》,提出构建“多联合防卫力量”,加强太空、网络、电磁频谱与传统作战有机融合,全面提升指挥控制与情报能力,实现跨联合;重点发展太空、网络和电磁频谱等
    的头像 发表于 04-01 16:13 1.2w次阅读

    纳米技术研究的新领域

    作为纳米技术研究的新领域,二维(2D)铁磁(FM)材料在自旋电子学、传感器、存储技术等工程领域有巨大的应用潜力。目前已经有大量的二维铁磁材料被计算预测,包括一些通用的二维材料数据库,包
    的头像 发表于 06-05 10:46 3170次阅读

    中国移动产品的新领域有哪些亮点?

    一直在观察中国移动在供给侧领域的改革,说明白点,就是产品新领域探索、研发和实践;应该说还是可以找到亮点的,虽然目前亮光还很小,但是依然值得期待!
    的头像 发表于 09-14 10:00 2779次阅读

    揭秘国内主要电动夹爪厂商的专利技术分布:创新领域与竞争优势

    揭秘国内主要电动夹爪厂商的专利技术分布:创新领域与竞争优势
    的头像 发表于 05-16 14:28 670次阅读
    揭秘国内主要电动夹爪厂商的专利<b class='flag-5'>技术</b>分布:创<b class='flag-5'>新领域</b>与竞争优势

    OpenAI正深入探索文本水印技术的前沿领域

    8月5日最新资讯透露,OpenAI正积极投身于文本水印技术的尖端探索,但与此同时,公司也坦诚地指出了这一创新领域所面临的艰巨技术障碍与未解之谜。
    的头像 发表于 08-05 12:59 546次阅读