0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA AI平台为大型语言模型带来巨大收益

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-10 15:39 次阅读

随着大型语言模型( LLM )的规模和复杂性不断增长, NVIDIA 今天宣布更新 NeMo Megatron 框架,提供高达 30% 的训练速度。

这些更新包括两种开拓性技术和一个超参数工具,用于优化和扩展任何数量GPU上的 LLM 训练,提供了使用 NVIDIAAI平台训练和部署模型的新功能。

BLOOM ,世界上最大的开放科学、开放获取多语言模型,具有 1760 亿个参数,最近 在 NVIDIA AI 平台上接受培训 ,支持 46 种语言和 13 种编程语言的文本生成。 NVIDIA AI 平台还支持最强大的 transformer 语言模型之一,具有 5300 亿个参数, Megatron-Turing NLG 模型 (MT-NLG)。

法学硕士研究进展

LLM 是当今最重要的先进技术之一,涉及数万亿个从文本中学习的参数。然而,开发它们是一个昂贵、耗时的过程,需要深入的技术专业知识、分布式基础设施和全堆栈方法。

然而,在推进实时内容生成、文本摘要、客户服务聊天机器人和对话 AI 界面的问答方面,它们的好处是巨大的。

为了推进 LLM ,人工智能社区正在继续创新工具,例如 Microsoft DeepSpeed , 巨大的人工智能 , 拥抱大科学 和 公平比例 –由 NVIDIA AI 平台提供支持,涉及 Megatron LM , 顶 ,以及其他 GPU 加速库。

这些对 NVIDIA AI 平台的新优化有助于解决整个堆栈中存在的许多难点。 NVIDIA 期待着与人工智能社区合作,继续让所有人都能使用 LLM 。

更快地构建 LLM

NeMo Megatron 的最新更新为训练 GPT-3 模型提供了 30% 的加速,模型大小从 220 亿到一万亿参数不等。现在,使用 1024 个 NVIDIA A100 GPU 只需 24 天,就可以在 1750 亿个参数模型上完成训练——在这些新版本发布之前,将得出结果的时间减少了 10 天,或约 250000 个小时的 GPU 计算。

NeMo Megatron 是一种快速、高效且易于使用的端到端集装箱化框架,用于收集数据、训练大规模模型、根据行业标准基准评估模型,以及用于推断最先进的延迟和吞吐量性能。

它使 LLM 训练和推理在广泛的 GPU 簇配置上易于重复。目前,这些功能可供早期访问客户使用 DGX 叠加视图 和 NVIDIA DGX 铸造厂 以及 Microsoft Azure 云。对其他云平台的支持将很快提供。

你可以试试这些功能 NVIDIA LaunchPad ,这是一个免费项目,提供对 NVIDIA 加速基础设施上的动手实验室目录的短期访问。

NeMo Megatron 是 NeMo 的一部分, NeMo 是一个开源框架,用于为会话人工智能、语音人工智能和生物学构建高性能和灵活的应用程序。

加速 LLM 训练的两种新技术

优化和扩展 LLM 训练的更新中包括两种新技术,即序列并行( SP )和选择性激活重新计算( SAR )。

序列并行性扩展了张量级模型并行性,注意到之前未并行的 transformer 层的区域沿序列维度是独立的。

沿着序列维度拆分这些层可以实现计算的分布,最重要的是,这些区域的激活内存可以跨张量并行设备分布。由于激活是分布式的,因此可以为向后传递保存更多激活,而不是重新计算它们。

pYYBAGNDzECAU8uEAAHd26pTXCI160.png

图 1.ZFK8 层内的并行模式。

选择性激活重新计算通过注意到不同的激活需要不同数量的操作来重新计算,从而改善了内存约束强制重新计算部分(但不是全部)激活的情况。

与检查点和重新计算整个 transformer 层不同,可以只检查和重新计算每个 transformer 层中占用大量内存但重新计算计算成本不高的部分。

有关更多信息,请参阅 减少大型 transformer 模型中的激活重新计算 。

poYBAGNDzEGAG715AADqV7z1znA578.png

图 2.自注意力块。红色虚线显示了应用选择性激活重新计算的区域。

pYYBAGNDzEKAUFbdAAEUt7ut50Q387.png

图 3.由于 SP 和 SAR ,反向传递所需的激活内存量。随着模型尺寸的增加, SP 和 SAR 的内存节省量相似,所需内存减少了约 5 倍。

poYBAGNDzEaAcnRKAAsLv-HJEgM150.png

图 4.完全激活重新计算和 SP 加 SAR 的计算开销量。条形图表示向前、向后和重新计算时间的每层分解。基线是指没有重新计算和序列并行性的情况。这些技术可以有效地减少重新计算而不是保存所有激活时产生的开销。对于最大型号,开销从 36% 降至 2% 。

访问 LLM 的功能还需要高度优化的推理策略。用户可以轻松地使用经过训练的模型进行推理,并使用 p- 调优和即时调优功能针对不同的用例进行优化。

这些功能是微调的参数有效替代方案,并允许 LLM 适应新的用例,而无需对完全预训练模型进行严格的微调。在这种技术中,原始模型的参数不会改变。因此,避免了与微调模型相关的灾难性“遗忘”问题。

用于训练和推理的新超参数工具

跨分布式基础设施查找 LLM 的模型配置是一个耗时的过程。 NeMo Megatron 引入了一种超参数工具,可以自动找到最佳的训练和推理配置,无需更改代码。这使得 LLM 能够从第一天开始训练收敛以进行推理,从而消除了搜索有效模型配置所浪费的时间。

它跨不同参数使用启发式和经验网格搜索,以找到具有最佳吞吐量的配置:数据并行性、张量并行性、管道并行性、序列并行性、微批量大小和激活检查点层的数量(包括选择性激活重新计算)。

使用超参数工具和 NVIDIA 对 NGC 上的容器进行测试,我们在 24 小时内获得了 175B GPT-3 模型的最佳训练配置(见图 5 )。与使用完全激活重新计算的常见配置相比,我们实现了 20%-30% 的吞吐量加速。使用最新技术,对于参数超过 20B 的模型,我们实现了额外 10%-20% 的吞吐量加速。

pYYBAGNDzEeAabYnAACzikT_BJ4428.png

图 5.HP 工具在多个容器上的结果,表明序列并行和选择性激活重新计算的速度加快,其中每个节点是一个 NVIDIA DGX A100 。

hyperparameter 工具还允许查找在推理过程中实现最高吞吐量或最低延迟的模型配置。可以提供延迟和吞吐量约束来为模型服务,该工具将推荐合适的配置。

poYBAGNDzEiAd80PAAGugunkSuk831.png

图 6.HP 工具推断结果,显示了每 GPU 的吞吐量和不同配置的延迟。最佳配置包括高吞吐量和低延迟。

关于作者

Markel Ausin 是 NVIDIA 的深度学习算法工程师。在目前的角色中,他致力于构建和部署大型语言模型,作为 NeMo- Megatron 框架的一部分。

Vinh Nguyen 是一位深度学习的工程师和数据科学家,发表了 50 多篇科学文章,引文超过 2500 篇。

Annamalai Chockalingam 是 NVIDIA 的 NeMo Megatron 和 NeMo NLP产品的产品营销经理。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4755

    浏览量

    102335
  • AI
    AI
    +关注

    关注

    87

    文章

    28522

    浏览量

    265797
  • 深度学习
    +关注

    关注

    73

    文章

    5415

    浏览量

    120462
收藏 人收藏

    评论

    相关推荐

    NVIDIANIM微服务带来巨大优势

    新服务通过热门 AI 模型 数百万开发者 带来高达 5 倍的 token 效率提升,使他们能够立即访问在 NVIDIADGX Cloud 上
    的头像 发表于08-23 15:20 242次阅读

    MistralAINVIDIA推出全新语言模型Mistral NeMo 12B

    Mistral AINVIDIA于近日共同发布了一款全新的领先 语言 模型Mistral NeMo 12B。开发者可以轻松定制和部署该 模型
    的头像 发表于07-27 11:04 518次阅读

    NVIDIAAIFoundry全球企业打造自定义 Llama 3.1 生成式AI模型

    借助 NVIDIA AIFoundry,企业和各国现在能够使用自有数据与 Llama 3.1 405B 和 NVIDIANemotron 模型配对,来构建“超级
    发表于07-24 09:39 593次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry <b class='flag-5'>为</b>全球企业打造自定义 Llama 3.1 生成式 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

    基于CPU的大型语言模型推理实验

    随着计算和数据处理变得越来越分散和复杂, AI的重点正在从初始训练转向更高效的 AI推理。Meta 的 Llama3 是功能强大的公开可用的 大型 语言
    的头像 发表于07-18 14:28 232次阅读
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理实验

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,这也是如今生成式 AI中大 语言 模型最流行训练架构。(3) Encoder-Decoder预训练 语言 模型:这类
    发表于05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本, 故事创作等提供无限可能。大 语言 模型也面临挑战。一方面,其计算资源需求 巨大,训练和推理耗时;另一方面,
    发表于05-04 23:55

    NVIDIA部分大型亚马逊 Titan 基础模型提供训练支持

    GPU 和海量的数据集上所训练而成。 不过这可能会给想要使用生成式 AI的企业 带来很多 巨大的挑战。 NVIDIANeMo (一个用于构建、自定义和运行 LLM 的框架)能够帮助企
    的头像 发表于11-29 21:15 440次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>为</b>部分<b class='flag-5'>大型</b>亚马逊 Titan 基础<b class='flag-5'>模型</b>提供训练支持

    Dropbox 与NVIDIA携手数百万客户带来个性化的生成式AI

    Dropbox 计划使用 NVIDIAAIFoundry 构建自定义 模型,并通过 Dropbox Dash 通用搜索工具和 Dropbox AI改进
    的头像 发表于11-20 20:55 436次阅读
    Dropbox 与 <b class='flag-5'>NVIDIA</b> 携手<b class='flag-5'>为</b>数百万客户<b class='flag-5'>带来</b>个性化的生成式 <b class='flag-5'>AI</b>

    SC23 |NVIDIA全球领先的AI计算平台Hopper 再添新动力

    世界顶级服务器制造商和云服务提供商即将推出 HGX H200 系统与云实例。 11月13日, NVIDIA宣布推出 NVIDIAHGX H200 , Hopper 这一全球领先的 AI
    的头像 发表于11-14 20:05 364次阅读
    SC23 | <b class='flag-5'>NVIDIA</b> <b class='flag-5'>为</b>全球领先的 <b class='flag-5'>AI</b> 计算<b class='flag-5'>平台</b> Hopper 再添新动力

    NVIDIA全球领先的AI计算平台Hopper 再添新动力

    NVIDIAHGX™ H200, Hopper 这一全球领先的 AI计算 平台再添新动力。 NVIDIAHGX H200
    发表于11-14 14:30 179次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>为</b>全球领先的 <b class='flag-5'>AI</b> 计算<b class='flag-5'>平台</b> Hopper 再添新动力

    周四研讨会预告 | 注册报名NVIDIAAIInference Day - 大模型推理线上研讨会

    由 CSDN 举办的 NVIDIA AIInference Day - 大 模型推理线上研讨会,将帮助您了解 NVIDIA开源 大型
    的头像 发表于10-26 09:05 270次阅读

    NVIDIA扩展机器人平台,迎接生成式AI的崛起

    基于 NVIDIAJetson 平台进行开发的 1 万多家公司现在可以利用全新的生成式 AI、API 和微服务来加快推进行业数字化 强大的生成式 AI
    的头像 发表于10-20 02:05 451次阅读
    <b class='flag-5'>NVIDIA</b> 扩展机器人<b class='flag-5'>平台</b>,迎接生成式 <b class='flag-5'>AI</b> 的崛起

    NVIDIA扩展机器人平台,迎接生成式AI的崛起

    基于 NVIDIAJetson 平台进行开发的 1 万多家公司现在可以利用全新的生成式 AI、API 和微服务来加快推进行业数字化 强大的生成式 AI
    发表于10-19 17:16 181次阅读
    <b class='flag-5'>NVIDIA</b> 扩展机器人<b class='flag-5'>平台</b>,迎接生成式 <b class='flag-5'>AI</b> 的崛起

    虹科分享 | 谷歌VertexAI平台使用Redis搭建大语言模型

    Redis加持的大 语言 模型可应用于文档检索、虚拟购物助手、客户服务助理等, 企业 带来益处。 一、 语言 模型
    的头像 发表于09-18 11:26 496次阅读
    虹科分享 | 谷歌Vertex <b class='flag-5'>AI</b><b class='flag-5'>平台</b>使用Redis搭建大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    训练大语言模型带来的硬件挑战

    生成式 AI和大 语言 模型(LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大 语言 模型,训练这些
    的头像 发表于09-01 17:14 1345次阅读
    训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>带来</b>的硬件挑战