IBM 专家观点：IBM 大模型揭秘-德赢Vwin官网网

作者：吴敏达，IBM科技事业部数据与人工智能资深技术专家

作者简介：吴敏达是 The Open Group 卓越级技术专家 (DistinguishedTechnical Specialist)，同时拥有计算机技术与软件专业系统架构设计师技术资格。他现在是 IBM 科技事业部数据与人工智能资深技术专家，拥有 20 多年数据分析软件相关技术经验，是 IBM认证的大数据架构师和 Watson开发者，专长是大数据、人工智能等领域。他是 IBM Developer 的大师级作者，已经发表了 40 余篇技术文章和教程。现从事大数据、人工智能相关技术支持和架构设计工作。

引言

对企业用户而言，拥有选择权对于成功采用人工智能至关重要。对于生成式AI，并非所有大模型都是一样的，一种模型并不适合所有情况：最好的模型将取决于行业、领域和用例。IBM watsonx 为客户提供一系列模型选择，包括 IBM 开发的基础模型、开源模型以及来自第三方供应商的模型，在模型和部署环境两个维度上提供选择和灵活性。

更重要的是，模型并不总是越大越好，过大的模型推理成本太高，企业无法承担运行

数据处理

为了支持企业级大模型的训练，IBM 构建了一个来自学术界、互联网、企业 (例如金融、法律) 和源代码的非结构化语言数据的大数据集。这是非常罕见的，也表示了 IBM 对透明度和负责任的 AI 的承诺。

该预训练数据集是替代开源数据集而创建的专有数据集，开源数据集因包含有毒、有害或盗版内容而受到批评。通过构建 IBM 预训练数据语料库解决以上提到的这些问题和其他隐含问题。IBM 大模型训练中使用的数据集如下：

1. arXiv: 发布到 arXiv 的超过 180 万篇科学论文预印本。

2. Common Crawl: 开放的可以被网络爬虫获取的存储库。

3. DeepMind Mathematics: 数学问答数据。

4. Free Law: 来自美国联邦和州法院的公共领域法律意见。

5. GitHub Clean: 来自 CodeParrot 的源代码数据，涵盖多种编码语言。

6. Hacker News: 2007-2018 年产生的计算机科学与创业新闻。

7. OpenWeb Text: OpenAI 的 Web 文本语料库的开源版本，包含到 2019 年的网页。

8. Project Gutenberg (PG-19): 免费电子书库，重点关注美国版权已过期的旧作品。

9. Pubmed Central: 生物医学和生命科学论文。

10. SEC Filings: 美国证券交易委员会 (SEC)1934-2022 年的 10-K/Q 文件。

11. Stack Exchange: Stack Exchange 网络上所有用户贡献内容的匿名集合，这是一个以用户贡献的问题和答案为中心的流行网站集合。

12. USPTO: 1975年至2023年5月授予的美国专利，不包括外观设计专利。

13.Webhose: IBM 获取的 Web 内容转换为机器可读数据集。

14. Wikimedia: 维基项目 (enwiki，enwikibooks，enwikinews，enwikiquote，enwikisource，en- wikiversity，enwikivoyage，enwiktionary)。包含从页面和文章中提取的纯文本。

IBM 精选的预训练数据集正在不断增长和发展，其他数据会定期审查并考虑添加到语料库中。除了增加预训练数据的大小和范围外，还会定期生成和维护这些数据集的新版本，以反映增强的过滤功能 (例如，重复数据删除以及仇恨和脏话检测) 和改进的工具。

在 granite.13b 进行预训练时，IBM 在预处理之前收集了 6.48 TB 的数据，在预处理后构建了 2.07 TB 的训练数据。而 granite.20b.code 在预处理后构建了 100 多种不同编码语言的 1.6T 的训练数据，包括 Cobol 和 Ansible。

整个数据预处理管道的各种步骤为模型训练做好准备，整个过程是在最大的可信企业级数据湖 watsonx.data 上完成的，这是建立在开放式湖仓一体架构之上。预处理过程由以下步骤组成：

1）文本提取

2）重复数据消除

3）语言识别

4）句子拆分

5）仇恨、辱骂和脏话检测

6）文档质量注释

7）网址屏蔽列表注释

8）过滤

9）标记化

从训练数据可以看出，IBM 模型为什么可以安全地供企业使用？

根据 IBM 广泛的数据治理实践 (对应于数据清理和获取)对模型进行了审查；文件质量检查；预处理数据管道，包括标记化、重复数据删除等。
Granite 模型根据 IBM 自己的 HAP (仇恨、辱骂和脏话)检测器审查的数据进行训练，以检测并根除令人反感的内容，并以内部和公共模型为基准。
IBM 部署定期、持续的数据保护措施，包括监控以盗版或其他攻击性材料闻名的网站，并避开这些网站。

模型训练

第一阶段预训练过程，granite.13b 基础模型经过 30 万次迭代训练，批量大小为 4M 个 Token，总共 1 万亿个 Token。预训练让大模型根据输入生成文本。

第二阶段监督微调过程，使用来自不同来源的数据集混合执行监督微调，每个示例都包含一个提示和一个答案，执行3个周期获得 granite.13b.instruct 模型。

第三阶段对比微调过程，惩罚来自负数据分布的数据点概率，同时增加来自正数据分布的数据点的概率。换句话说，我们不鼓励大模型为每个训练提示生成错对齐的答案 (例如有害的答案)，同时鼓励对齐的答案 (例如有用的答案)。通过防止模型输出出现幻觉和错位，最后获得 granite.13b.chat 模型。

IBM 用于训练基础模型的主要计算基础设施是 AI 优化的云原生超级计算机 Vela[2]，每个 Vela节点：

• 8 个 80GB A100GPU

• 96CPU

• 1.5TB 的DRAM

• 4 个3.2TB NVMe 固态硬盘

• 600GBps GPU 高可用网络连接

• 1.6TB 跨机架带宽

granite.13b.v1 大模型是在较旧的基础设施上训练的，使用了 256 个 A100 GPU，花费了 1056 GPU Hours。而 granite.20b.code 大模型是在更新的基础设施上训练的，使用了 768 个 A100 GPU。

应用场景

Granite 大模型支持所有 5 个 NLP 任务 (问答、生成、提取、总结、分类)，这些任务针对跨多个领域的业务目标数据进行训练，以提供最相关的见解。IBM 训练的 AI 模型可以通过快速的工程技术进一步定制，以满足特定的企业任务，从而在 watsonx.ai 中实现更高的准确性和实现价值的时间。最终可以使用企业数据针对独特的下游任务调整模型，例如，针对正在进行的以 NLP 为中心的任务进行提示调整。

企业需要的模型一定是学到企业的专用知识，当使用 IBM 开发的模型来创建差异化的 AI 资产时，可以进一步定制 IBM 模型以满足特定的下游任务。通过提示工程和微调技术，客户可以负责任地使用自己的企业数据来提高模型输出的准确性，从而创造竞争优势。watsonx.ai 可以进行本地部署，从而实现数据的合规和安全。

Granite 大模型采用了特定领域的企业数据，10% 的训练数据来自法律和金融，这使得信用风险评估、保险 QA、对话式金融 QA 和总结等财务任务具有卓越的性能。因此，金融服务领域的客户 (银行、保险、金融)或有法律需求的客户，Granite 是一个值得推荐的绝佳模型。另外 Granite.13b 需要更少的 GPU 资源实现金融任务的卓越性能，从而实现更高的性价比。基于 IBM Research 的初步评估和测试，涵盖 11 种不同的金融任务，结果表明 granite-13b 是金融任务中表现最佳的模型之一，评估的任务包括：提供股票和财报电话会议记录的情绪评分、对新闻标题进行分类、提取信用风险评估、总结金融长篇文本以及回答金融或保险相关问题。在测试中，granite-13b 的速度比业界 70b 的大模型快 3 倍，GPU 资源消耗减少 1/4。令人欣喜的是，granite.13b.v2 也正在紧锣密鼓的开发训练中，通过添加多语言的语料训练，实现多语言支持。

在代码领域，granite.20b.code 分为 cobol 和 ansible 的两个变体，granite.20b.code.cobol 可在 IBM Z 上更快地将 COBOL 语言转换为Java语言，从而提高开发人员的工作效率；而 granite.20b.ansible 旨在为 IT 运营自动化生成 ansible 剧本。

治理和管控

IBM 的 AI 开发方法以基于信任和透明度承诺的核心原则为指导，坚信要负责任地创建、部署和利用 AI 模型来推动业务创新。

在 Granite 模型开发中利用 watsonx.governance 进行基础模型生命周期治理，通过基准测试评估模型质量，打包并标记通过测试的模型，创建模型名片，记录模型细节，合并数据名片与模型名片，形成模型事实。支持大模型特定指标收集和警报，提升公平性和责任 (例如监控滥用和亵渎行为)，通过源属性解释大模型输出，提供大模型使用指南和最佳实践。

采用生成式 AI 的首要障碍是对数据血缘或来源的担忧，为了更好地理解为其智能系统提供数据的数据，通过IBM最新收购的数据血缘厂商Manta[3]，提高了 watsonx 内部的透明度，以便企业可以确定其 AI 模型和系统是否使用了正确的数据、数据的起源、演变方式以及数据流中的任何差异。

总结

考虑到开放和单一模型无法满足每个业务用例的独特需求，Granite 系列正在开发不同参数大小的模型。同时 IBM 定期从开源大模型中从性能、伦理、法律、数据等角度选择和审查商业适用性最合适的更新到 watsonx 平台中。借助这些模型和 watsonx，帮助企业成为 AI 价值创造者，可以将企业专有数据引入 IBM 大模型和开源模型，构建适合其业务和用例的独特模型。

面向平台的方法：watsonx 是一个在 OpenShift 上运行的平台，具有 AI 推理功能并运行 Ray 和 PyTorch 等开源技术。客户可以将其部署在自己选择的基础架构中，从而可以安全地与企业数据集成。采用私有化部署，无需额外担心数据安全和主权。
客户保护: IBM 标准的知识产权保护 (与其为硬件和软件产品提供的知识产权保护相类似) 将适用于由 IBM 开发的 watsonx 模型。IBM 为其基础模型提供 IP 赔偿 (合同保护)，使其客户能够更有信心地使用他们的数据来构建 AI ，这是生成式 AI 竞争优势之所在。客户可以使用他们自己的数据和由 IBM 基础模型所提供的客户保护、准确性和信任来开发他们的 AI 应用程序。
数据和人工智能治理：随着监管人工智能，全球客户面临着利用人工智能安全创造价值的压力。 IBM watsonx 拥有全面、领先的 AI 和数据治理产品组合，提供模型治理、监控，独有的仇恨、辱骂和脏话检测过滤器，支持管理监管要求，以便客户能够以负责任、安全和合乎道德的方式扩展 AI。

参考资料：

[1] https://www.ibm.com/downloads/cas/X9W4O6BM

[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster

[3]https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities

关于 IBM

IBM 是全球领先的混合云、人工智能及企业服务提供商，帮助超过 175 个国家和地区的客户，从其拥有的数据中获取商业洞察，简化业务流程，降低成本，并获得行业竞争优势。金融服务、电信和医疗健康等关键基础设施领域的超过 4000 家政府和企业实体依靠 IBM 混合云平台和红帽 OpenShift 快速、高效、安全地实现数字化转型。IBM 在人工智能、量子计算、行业云解决方案和企业服务方面的突破性创新为我们的客户提供了开放和灵活的选择。对企业诚信、透明治理、社会责任、包容文化和服务精神的长期承诺是 IBM 业务发展的基石。

了解更多信息，请访问：https://www.ibm.com/cn-zh

END 往期回顾

→新发声&强阵容｜齐聚 IBM 企业数据合规治理研讨会

→制造企业采用 IBM App Connect 打败应用集成“拦路虎”

点击“阅读原文”，获取更多内容

原文标题：IBM 专家观点：IBM 大模型揭秘

文章出处：【微信公众号：IBM中国】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

IBM

IBM

+关注

关注
3

文章
1720

浏览量
74449

原文标题：IBM 专家观点：IBM 大模型揭秘

文章出处：【微信号：IBMGCG，微信公众号：IBM中国】欢迎添加关注！文章转载请注明出处。

IBM关闭中国研发部门

IBM近期宣布了一项重大战略调整，决定将其在中国系统实验室的基础设施业务研发工作全面撤出，并转移至海外其他 IBM基础设施基地。这一决定背后，是中国市场近年来基础设施业务面临的挑战与下滑趋势。为更好地把握全球市场机遇， IBM作出了

发表于08-27 15:58 • 215次阅读

IBMGranite系列模型被Forrester评为“强劲表现者”

近日， IBM凭借其旗舰 Granite 系列模型，在 2024年第二季度的《Forrester Wave：语言 AI 基础模型》报告中，被评为“强劲表现者”。

发表于08-16 11:34 • 282次阅读

红帽发布RHEL AI开发者预览版，集成IBMGranite模型，简化AI开发流程

RHEL AI依托InstructLab开源项目，结合 IBMResearch的开源授权Granite大型语言模型与InstructLab 模型对齐工具，采用LAB（Large-scale Alignment for chatBo

发表于05-08 15:01 • 361次阅读

IBM推出IBMStorage Assurance这一全新的IT生命周期管理模式

近日， IBM推出了 IBMStorage Assurance 这一全新的 IT 生命周期管理模式，旨在为客户的数据中心提供灵活的选择与控制，以最大程度提高性能。

发表于05-08 14:09 • 283次阅读

IBM将收购软件公司HashiCorp

科技巨头 IBM近日宣布，将斥资64亿美元以每股35美元的价格现金收购知名软件公司HashiCorp。此次收购旨在进一步增强 IBM在云计算和基础架构管理领域的实力。

发表于05-06 10:35 • 368次阅读

IBM已同意收购HashiCorp 估值64亿美元

IBM已同意收购HashiCorp 估值64亿美元 IBM公司计划以每股35美元的价格收购云软件开发商HashiCorp，支付方式为现金，预计将在2024年底之前完成。这家总部位于旧金山

发表于04-25 16:36 • 401次阅读

2023 “IBM影响力”报告

4月 11日， IBM发布 2023年“ IBM影响力”报告。该报告总结了公司 2023年在环境、社会和治理 (ESG) 方面实施的举措、合作伙伴以及投资情况，以便持续推进构建更加可持续未来的目标

发表于04-21 09:36 • 451次阅读

IBM在watsonx上提供开源的Mistral AI模型

IBM提供 Mixtral-8x7B 的优化版本，该版本可将延迟时间最多缩短 75% IBM、第三方和开源模型的目录不断增加，为客户提供更多选择和灵活性是 watsonx 人工智能与数据平台

发表于03-12 19:10 • 1210次阅读

IBM发布新量子计算芯片

IBM 量子芯片行业芯事行业资讯

深圳市浮思特科技有限公司

发布于 :2023年12月06日 16:23:09

量子计算技术重磅升级:IBM展示最新的模块化量子处理器

IBM 量子处理器

北京中科同志科技股份有限公司

发布于 :2023年12月05日 15:52:55

IBM专家观点：IBMMaximo 如何打造药企设备管理合规新名片？

近日，由中国医药设备工程协会 (CPAPE) 主办的中国制药工程技术大会暨中国医药设备工程协会 2023 年会在京举行， IBM大中华区科技事业部可持续发展软件资产管理技术总监刘清真应邀参会

发表于11-30 18:15 • 435次阅读

<b class='flag-5'>IBM</b> <b class='flag-5'>专家</b><b class='flag-5'>观点</b>：<b class='flag-5'>IBM</b> Maximo 如何打造药企设备管理合规新名片？

IBM宣布 watsonx.governance 将于 12 月初全面上市

AI 的公平性、偏见、漂移和新的 LLM 指标管理、监控和治理来自 IBM、开源社区和其它模型提供商的 AI 模型 IBM(NYSE： IBM

发表于11-16 16:05 • 241次阅读

IBM发布新一代IBMStorage Scale System 6000，加速释放数据和 AI 的潜力

面向非结构化数据的全新云规模、高性能存储设备，支持最严苛的 AI 和容量密集型工作负载近日， IBM(纽交所股票代码： IBM) 推出了全新的 IBMStorage Scale System

发表于11-14 19:45 • 474次阅读

【重磅】首批IBMwatsonx 专有 “花岗岩”Granite模型全球开始上市，化解企业采用生成式 AI 的“数据焦虑”

由 IBM开发的企业级 watsonx Granite 模型系列现已上市，旨在帮助企业构建和扩展生成式 AI 为 IBM开发的 watsonx 模型提供

发表于10-20 01:15 • 496次阅读

IBM谢东：IBMwatsonx 助力生成式 AI 的企业应用

作为 2023 中国国际服务贸易交易会的系列会议，2023 中国 AIGC 创新发展论坛于 9 月 4 日在北京召开， IBM全球副总裁、 IBM大中华区首席技术官谢东先生出席并发表演讲。他谈到

发表于09-06 18:20 • 485次阅读

搜索历史

IBM 专家观点：IBM 大模型揭秘

评论