如何快速新建一个可高效扩展并易用的GPU集群-德赢Vwin官网网

基于京东部署的DGX SuperPOD集群 “天琴α”，京东探索研究院联合悉尼大学共同研发了织女模型，一并攻克了 GLUE 两项挑战性任务。

京东探索研究院致力于世界前沿技术的研究，其中人工智能方向涵盖 CV、NLP、多模态等。大规模语音模型的研究更是京东探索研究院的重中之重。

以语言模型为例，在过去 2-3 年的时间，语言模型大小每年都在以 1-2 个数量级的速度在增加，如今，则已达到万亿参数的级别。而模型的结构和复杂性日益变化，这对 GPU 集群的架构提出了不一样的要求。

从系统层面看，既有的 GPU 计算集群主要是以支持单机任务、小规模多机任务为主，相较之下，其多机之间网络扩展能力则较弱，而大规模扩展能力也较为受限。因此，在既有的 GPU 集群架构下，较无法满足服务大模型的计算需求。

对于京东探索研究院而言，掌握时效是关键，更快的模型训练意味着能加速迭代、扩展尝试空间、使产品落地更迅速，并提高业务收益。在模型越来越复杂多样、计算需求越来越大、单任务计算规模越来越大的背景下，如何快速新建一个可高效扩展并易用的 GPU 集群，以满足应对上述挑战，是亟待解决的核心问题。

基于以上挑战，京东探索研究院选择了采用NVIDIA DGX SuperPOD方案来提供支持，并成功给业务侧带来了巨大的提升及解决企业痛点。

1. NVIDIA DGX SuperPOD 是一套完整的解决方案，基于DGX A100服务器、HDR InfiniBand 200G网卡和NVIDIA Quantum QM8790交换机构建了一套全互联架构，在保证单机计算能力最强的同时，采用计算和存储网络相隔离的方案，最大程度地从网络上保证集群的互联能力。

2.安装部署方面，NVIDIA 为 DGX SuperPOD 提供专业的部署服务，包括单机系统部署、InfiniBand网络配置、调度安装调试、监控部署、多机环境、基础性能验证等，从基础系统方面，保证了最快交付。

3.使用方面，NVIDIA 为 DGX SuperPOD 部署了 Slurm 调度系统，并基于NGC和客户主要的几类模型，提供了完整的作业脚本，用户只需简单修改几行参数来适配自己的模型，即可一键方便地运行起大规模分布式任务。

4. 性能方面，DGX SuperPOD 经过一系列的基础优化（CUDA-X, Magnum IO, NGC）和评测验证（MLPerf），提供最好的 AI 训练性能，在京东探索研究院针对CV、NLP、跨模态等领域设计和研发的数十个模型上，经过双方一系列系统级的合作优化，在 DGX SuperPOD 上达到了比较理想的加速比和扩展性。

使用 DGX SuperPOD 方案，用户只需要关注自己的 AI 模型和算法研究，无需关注硬件和系统层的配置、优化、扩展性等问题，让 AI 研究人员把宝贵的时间和精力专注在前沿的 AI 技术研究上。

使用了 DGX SuperPOD 集群方案，极大地加速了用户的 AI 训练和迭代速度，为用户进一步探索出更强大更智能的 AI 模型建立了坚实的基石。

在 DGX SuperPOD 交付给用户仅仅两个多月之后，京东探索研究院就联合悉尼大学在传统 “预训练-微调” 的范式下，利用 DGX SuperPOD 的高效扩展能力，通过研究和工程上的全方位创新，研发出了织女模型，在通用语言理解评估基准（GLUE）的两项挑战性任务，即情感分析任务 SST（The Stanford Sentiment Treebank）和指代消解任务 WNLI （Winograd NLI）中首次超越人类，位居所有参赛机构第一。

京东探索研究院表示：“强悍的织女模型在京东探索研究院建设的全国首个基于 DGX SuperPOD 架构的超大规模计算集群 “天琴α” 上完成训练，该集群具有全球领先的大规模分布式并行训练技术，其近似线性加速比的数据、模型、流水线并行技术持续助力织女模型的高效训练。”

NVIDIA 将参加 CES 2022，并将在 1 月 5 日凌晨 0 点（北京时间）发表 NVIDIA 特别演讲。

NVIDIA GeForce 高级副总裁 Jeff Fisher 和 NVIDIA 汽车部门副总裁兼总经理 Ali Kani 将展示加速计算在设计、仿真、游戏和自动驾驶汽车方面的新突破。扫描下方海报，即刻将该日程添加到日历！

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。
审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4978

浏览量
102987
人工智能

人工智能

+关注

关注
1791

文章
47183

浏览量
238245
京东

京东

+关注

关注
2

文章
998

浏览量
48473

原文标题：DGX SuperPOD 加速语言模型训练，助力京东探索研究院勇刷 GLUE 榜单

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

迅为RK3576开发板满足了4G/5G、wifi6、多网口、NPU等扩展需求

FD/DSMC/UART/SPI/I2C/I3C等低速扩展接口，计算及扩展能力通用性强，一个平台可快速

发表于 12-09 14:36

马斯克xAI计划：孟菲斯超算集群将扩至100万GPU

前所未有的大规模扩张。据官方消息，Colossus超级计算机集群目前配备了10万个图形处理单元(GPU)，主要用于训练xAI旗下的聊天机器人Grok。然而，xAI并不满足于现状，他们计划将这

发表于 12-06 11:06 •250次阅读

一文梳理：如何构建并优化GPU云算力中心？

目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256，且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡（H100）的规模为例展

发表于 11-15 11:59 •316次阅读

混合云部署k8s集群方法有哪些？

混合云部署k8s集群方法是首先需在本地与公有云分别建立K8s集群，并确保网络连接。接着，配置kubeconfig文件连接两集群，并安装云服务

发表于 11-07 09:37 •140次阅读

如何构建一个高效、安全、可扩展的跨工厂IoT平台？

的重要途径。本文旨在探讨如何构建一个高效、安全、可扩展的跨工厂IoT平台，以实现多工厂间的无缝集成与智能化管理。

发表于 10-25 17:21 •185次阅读

使用可扩展的高精度温度传感器进行高效的冷链管理

德赢Vwin官网网站提供《使用可扩展的高精度温度传感器进行高效的冷链管理.pdf》资料免费下载

发表于 09-19 13:08 •0次下载

服务器集群中 IP 地址管理混乱

，共同工作以提供更高的性能、可用性和可扩展性。IP 地址则是服务器在网络中的标识符，用于数据的传输和通信。在服务器集群中，合理的 IP 地址规划和管理对于确保服务器之间的高效通信、服

发表于 08-01 14:45 •270次阅读

AMD雄心勃勃：计划构建百万级GPU超级计算机集群

在全球科技竞赛的舞台上，AMD近日宣布了一项令人瞩目的计划——打造一个包含多达120万颗GPU的超级计算机集群。这

发表于 06-27 14:37 •659次阅读

国产GPU可替代！摩尔线程千卡集群点亮新成就

摩尔线程、无问芯穹联合宣布，双方已经正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训，基于摩尔线程国产全功能GPU MTT S4000组成的千卡集群，以及无问芯穹的AIStudio PaaS平台。

发表于 05-29 11:27 •725次阅读

摩尔线程、无问芯穹合作完成国产全功能GPU千卡集群

据介绍，此项训练历时13.2天，过程稳定而有序，集群整体运行稳定性达到了100%。相较于单机训练，千卡集群的扩展效率提升了超过90%。

发表于 05-27 14:40 •622次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

，第五代NVLink、InfiniBand网络和NVIDIA Magnum IO™软件的支持，确保企业和广泛GPU计算集群的高效可扩展性。

发表于 05-13 17:16

一文详解GPU硬件与CUDA开发工具

CPU 和 GPU 的显著区别是：一个典型的 CPU 拥有少数几个快速的计算核心，而一个典型的

发表于 03-21 10:15 •1162次阅读

中国电信规划在上海建设首个国产超大规模算力液冷集群

中国电信规划建设首个国产超大规模算力液冷集群人工智能技术的快速发展催生了巨大的算力需求；中国电信规划在上海规划建设可支持万亿参数大模型训练的智算集群中心。其中会搭载液冷技术，单池

发表于 02-22 18:48 •1326次阅读

mysql怎么新建一个数据库

mysql怎么新建一个数据库如何新建一个数据库在MySQL中创建

发表于 12-28 10:01 •885次阅读

GPU集群组网技术详解

流行的GPU/TPU集群网络组网，包括：NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等，深入了解它们之间的连接方式以及如何在LLM训练中发挥作用。为了获得良好的训练性能，GPU网络需要满足

发表于 12-25 10:11 •5172次阅读