基于LLaMA的多语言数学推理大模型

写在前面

今天给大家带来一篇《多语言SFT可以显著提高LLM数学推理能力》，来自知乎@promise

Paper: https://arxiv.org/abs/2310.20246
Github: https://github.com/microsoft/MathOctopus/tree/main
知乎：https://zhuanlan.zhihu.com/p/664504560

近来，不少研究工作都集中于如何通过instruction tuning的方式来提高大模型（LLMs）的复杂数学推理能力。但是，这些基于的LLMs研究基本都集中于单语言，如何训练一个多语言数学推理大模型依然丞待解决。

因此，在这篇论文中研究者们基于LLaMA探索并构建了一系列的多语言数学推理大模型：MathOctopus。MathOctopus不仅可以广泛地提高LLMs在多语言上推理的平均性能，而且与单语训练的模型相比在其对应的语言测试中依然可以取得更加优越的表现。

主要贡献如下：

为了解决当前多语言数学推理任务上训练数据短缺的问题，本文将英文的GSM8K数据集翻译成10种不同的语言，并使用了特定的规则来校对翻译后的语料，以确保数据的质量。最终生成的数据用来构建多语言数学推理训练数据集：MGSM8KInstruct。

基于MGSM8KInstruct数据集, 并结合不同的SFT策略和多语言拒绝采样的训练方法，本文构建了一系列有效地多语言数学推理大模型：MathOctopus。

更近一步，为了全面地验证当前模型在多语言数学推理任务上的鲁棒性和通用性，文章基于SVAMP构建了out-of-domain（OOD）的多语言测试数据集MSVAMP。

经过大量的实验，本文总结出以下结论：

MathOctopus在多语言数学推理任务中，表现出了强大的性能。MathOctopus-7B 可以将LLmMA2-7B在MGSM不同语言上的平均表现从22.6%提升到40.0%。更进一步，MathOctopus-13B也获得了比ChatGPT更好的性能。

与只在单语言上训练的LLMs相比，MathOctopus在他们对应的训练语言测试中也取得了更加卓越的效果。比如，MathOctopus-7B和,在英语GSM8K上训练的LLaMA2-7B相比，准确率从42.3%提升到了50.8%。

尽管拒绝采样方法之前在单语数学推理中证明是十分有效的方法，但是在多语言数学推理任务中，使用拒绝采样进行数据增强，对MathOctopus带来的增益相对有限。

数据收集

MGSM8KInstruct训练集

在多语言数学推理任务中，面临的问题是在low-resource语言中缺乏相应高质量的训练数据集，为此，本文使用ChatGPT将英文的GSM8K数据集翻译成多种语言，其中包括孟加拉语（Bn），中文（Zh），法语（Fr），德语（de），日语（Ja），俄语（Ru），西班牙语（Es），斯瓦希里语（Sw）和泰语（Th），并对翻译后的语料进行校对，确保数据的质量。基于此，构建了MGSM8KInstruct多语言数学推理训练数据集。

平行训练语料样例

交叉训练语料样例

翻译

在这篇文章中，使用了ChatGPT将英文的GSM8K训练集和他们对应的 chain-of-thought（COT）回答翻译成了十种语言。为了保证翻译的质量，本文在翻译时使用的提示词（prompt）中遵循以下规则：

翻译前后人物和地点的名字保持一致。

翻译前后数学公式保持不变。

所有的数字都用阿拉伯数字表示。

对于每种语言，在提示词（prompt）中提供了两个翻译的例子。

下面是完整的翻译提示词

校对

在翻译问题与答案后，ChatGPT生成的句子通常没有语言翻译错误，但存在数学公式在翻译前后不一致的情况。为了确保翻译前后的准确性，本文采取了以下做法，首先，提取翻译后答案中的所有数学公式，然后与原英文数据集中的公式进行比较，如果它们匹配，就认为翻译是准确的。如果某一数据连续五次出现翻译错误，将删除该数据。这样做有助于确保翻译的准确性。

MSVAMP测试集

为了更近一步测试当前LLMs在多语言数学推理任务上的鲁棒性，本文在现有的SVAMP数据集的基础上构建了out-of-domain（OOD）多语言数学推理测试集MSVAMP。

测试集语料样例

翻译

由于这个数据集的答案只包含最终的数字答案而不包括chain-of-thought（COT）过程，所以我们使用google翻译系统仅对问题进行翻译，本文将SVAMP测试集中1000条数据翻译成和训练集中对应的语言。

校对

为了确保翻译的质量：首先，翻译后的句子再次被翻译回英文，以检查是否存在翻译上的差异。此外，还有三名专业的人员对翻译前后的意思是否一致进行了审查，进一步确保翻译的准确性。

MathOctopus

本文基于MGSM8KInstruct，为了让模型拥有更多样化的能力，本文提出了两种不同的训练方式。

为了使模型更好地理解问题与答案，本文提出的第一种方法是parallel-training，即问题与回答是相同的语言。

为了帮助模型融汇贯通不同的语言，本文提出的第二种方法是cross-training，即问题是英语，回答是别的语言，这可以使模型更好地解决多语言问题。

实验结果与分析

下图是模型在MGSM测试集上的表现，MathOctopusP 和 MathOctopusC 指的是模型训练方式分别为parallel-training和cross-training，xRFT 指的是多语言数学推理的拒绝采样，LLaMA 指的是只在英语GSM8K上训练，RFT 指的是在英语GSM8K上训练后，进行拒绝采样。

下图是模型在MGSM测试集上的表现

下图是模型在MSVAMP测试集上的表现

根据实验结果，本文有以下发现：

MathOctopus不论是在平行训练语料还是交叉训练语料上训练的结果都远超于其他开源的LLMs。例如，在7B模型上，MathOctopus在MGSM上的准确率从22.6%提升到41.9%，MathOctopusP-13B在MGSM上的准确率超过了ChatGPT。

MathOctopusP在in-domain测试集MGSM中表现效果更好，相反MathOctopusC在out-of-domain测试集MSVAMP中体现了更强的泛化能力。

多语言拒绝采样在多语言数学推理任务中，对MathOctopus带来的提升有限。

下图展示了在GSM8K训练集上训练的LLaMA2和用MGSM8KInstruct训练的MathOctopus在GSM8K测试集和SVAMP上的表现

本文发现，和只在单语言上训练的LLMs相比，MathOctopus在英语数据测试中也取得了更好的效果。为了进一步探索在其他语言上是否有相同的现象，本文进行了以下实验：

随机从训练集中挑选三种语言，分别是西班牙语，中文，泰语。使用它们对应的训练语料分别训练三个模型，分别命名为 ES-LLaMA，CN-LLaMA，Th-LLaMA。下图展示了这几个模型在他们对应训练语言下的测试结果。由图可见，在单一语言上，MathOctopus的表现仍然超过了单语SFT模型的结果。这表明，在数学推理任务中，多语言训练比单语言训练有更好的效果。

多语言拒绝采样

《Scaling relationship on learning mathematical reasoning with large language models》表明，拒绝采样rejection sampling（RFT）可以大幅提升模型的表现。为了探究在多语言训练的场景下拒绝采样对模型的提升效果，本文在得到多语言SFT模型后，采样模型在MGSM8KInstruct数据集上的推理结果，对采样到的推理过程进行验证，如果符合要求则将其并入到原本的数据集。具体做法如下：

为了采样到多样化的推理答案，本文从MathOctopus-7B和MathOctopus-13B中分别采样25条推理路径，即每种语言总共采样50次。

为了确保推理路径的准确性，本文提取推理路径中的所有公式并对公式进行验算，如果答案正确那么就认为推理路径是正确的。

为了确保推理路径的多样化，本文采用的策略是，只有当前推理路径和先前的路径中没有相同的公式时，才将此路径放入数据集中。

下图展示了不同的采样次数下，每种语言生成的不同推理路径的个数

本文发现，通过多语言拒绝采样（xRFT）增加的数据对模型的提升效果有限，主要表现在以下几点：

在MGSM测试集上，多语言拒绝采样只能提升MathOctopusP模型1%-2%的效果。

在MSVAMP测试集上，多语言拒绝采样的提升效果不到1%。

多语言拒绝采样对MathOctopusC的提升效果更小，在MGSM数据集上的表现反而有所下降。

为了探究xRFT生成的数据量对模型的影响，本文在三个不同的采样次数（10，30，50）下分别探究对应的模型在测试集上的表现。

下图是不同采样次数下模型在MGSM数据集上的表现

下图是不同采样次数下模型在MSVAMP数据集上的表现

可以发现，在MGSM测试集上，当拒绝采样的次数越多，训练语料越多时，MathOctopusP的表现也略微变好。与之相反，在MSVAMP数据集上，当拒绝采样的次数越多，训练语料越多时，MathOctopusC的表现反而有所下降。

总结

目前仅研究到33B模型，将来还可以在LLaMA2-70B的基础上探索更大的MathOctopus模型，除此之外，在这些更大的模型上使用多语言拒绝采样也是将来的研究点之一。由于MathOctopus只有十种训练语言，更多的训练语言是否会给模型带来更好的效果仍然有待研究。

编辑：黄飞

阅读全文

多语言(6506) 多语言(6506)
ChatGPT(3870) ChatGPT(3870)
大模型(810) 大模型(810)

RISC-V 跑大模型（二）：LLaMA零基础移植教程

这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

2023-07-17 16:16:20

917

RISC-V 跑大模型（三）：LLaMA中文扩展

这是RISC-V跑大模型系列的第三篇文章，前面我们为大家介绍了如何在RISC-V下运行LLaMA，本篇我们将会介绍如何为LLaMA提供中文支持。

2023-07-17 17:15:47

495

英特尔一系列AI解决方案，为Llama 2大模型提供实力之选

和翻译内容、回答问题、参与对话以及执行复杂任务（如解决数学问题或推理）方面表现出的卓越能力，使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察，并激发AI社区推进技术发展的热情。 Llama 2旨在帮助开发者、研究人

2023-07-25 09:56:26

736

大型语言模型的逻辑推理能力探究

最新研究揭示，尽管大语言模型LLMs在语言理解上表现出色，但在逻辑推理方面仍有待提高。为此，研究者们推出了GLoRE，一个全新的逻辑推理评估基准，包含12个数据集，覆盖三大任务类型。

2023-11-23 15:05:16

476

多语言开发的流程详解

现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看多语言开发的流程!

2023-11-30 09:08:29

321

AscendCL快速入门——模型推理篇（上）

一、概述本文介绍了AscendCL模型推理相关知识，介绍了AscendCL接口加载离线模型，为离线模型准备数据结构以及调用离线模型进行推理的过程。简单来说，曻腾的AscendCL的推理工程可以问为

2023-08-24 11:04:14

HarmonyOS低代码开发-多语言支持及屏幕适配

多语言支持：低代码页面支持多语言能力，让应用开发者无需开发多个不同语言的版本。开发者可以通过定义资源文件和引用资源两个步骤以使用多语言能力。 1.在指定的i18n文件夹内创建多语言资源文件及对应

2023-05-23 14:37:24

HarmonyOS：使用MindSpore Lite引擎进行模型推理

场景介绍 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件设备 AI 模型推理的功能，目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。本文介绍

2023-12-14 11:41:13

【新功能】媒体处理MPS全新支持自适应多码率、多语言音轨

客户的需求，阿里云媒体处理MPS产品在目前已经全面支持自适应多视频码率、多语言音轨和字幕等功能。功能优势与适用场景自适应多码率：根据用户实际网络带宽条件，自动匹配视频流，兼顾清晰度和流畅度适用

2018-04-25 15:13:28

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能，根据官网提供的信息，LLaMA的模型包含4个版本，最小的只有70亿参数，最大的650亿参数，但是其性能相比较之前的OPT

2023-12-22 10:18:11

串口屏MODBUS教程9_控件显示和隐藏功能和多语言功能的使用教程

串口屏MODBUS教程9_控件显示和隐藏功能和多语言功能的使用教程1、本文主要讲述控件显示和隐藏功能和多语言功能在MODBUS协议的串口屏的应用。2、本文适合大彩基本型、经济型、商业型、F型、物联型

2019-08-15 15:18:25

串口屏能否支持全球多语言功能？

串口屏能否支持全球多语言功能？

2019-03-27 15:11:11

什么是数学建模,怎样建立数学模型

什么是数学建模,怎样建立数学模型 

2009-09-15 12:53:30

使用rk3588多npu推理模型，模型总推理时间还增加了，这怎么解释

2023-11-05 18:22:42

压缩模型会加速推理吗？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型对推理时间没有影响。aiRun 程序在 8

2023-01-29 06:24:08

基于Arm Cortex MCU的Fluent.ai高效多语言语音识别和理解

的多语言模型，可以同时识别多种语言。此功能允许用户在语言之间无缝切换，而无需在两者之间配置语言设置。Fluent.ai 提供两条主要产品线：WakeWord 和 Fluent.ai Air——用于自动意图

2022-09-15 15:18:52

怎么实现GUI界面的多语言切换，我是用ini配置文件完成的，程序分享给大家，各位还有什么好的方法，求指教？

怎么实现GUI界面的多语言切换，我是用ini配置文件完成的，程序分享给大家，各位还有什么好的方法，求指教？

2017-12-18 16:12:59

神经机器翻译的方法有哪些？

之间的翻译，也就是通过只训练一个模型就能够支持在多个语言之间的翻译。尽管目前最流行的Transformer模型已经大大推动了机器翻译在单个语言对上性能的提升，但针对多语言的机器翻译模型的研究源于其特殊的需求

2020-11-23 12:14:06

自用的一些库，包括数据库，多语言，公共库等

本帖最后由 inaction 于 2016-5-20 09:41 编辑自用的一些库，包括数据库，多语言，公共库等。目前在SQLServer测试过

2016-05-20 09:35:03

运行特性和数学模型

运行特性和数学模型

2013-04-10 21:35:00

多语言综合信息服务系统研究与设计

基于多语言的综合信息服务正成为信息服务领域的一个重要的发展方向。该文提出面向2010年上海世博会和城市信息服务的多语言综合信息服务应用的总体架构，该系统基于下一代网

2009-04-01 09:41:15

VIA USB2.0控制器驱动2.58P3 Lite多语言

VIA USB2.0控制器驱动2.58P3 Lite多语言版 For Win98 98SE ME.zip

2010-02-01 15:20:17

华硕 M3A78-CM主板亚洲多语言版说明书

华硕 M3A78-CM主板亚洲多语言版说明书.zip

2010-02-03 13:53:07

华硕 M3A78-EH主板多语言版说明书

华硕 M3A78-EH主板多语言版说明书.zip

2010-02-03 13:53:47

华硕 M4A785TD-M EVO主板多语言版说明书

华硕 M4A785TD-M EVO主板多语言版说明书.zip

2010-02-03 17:01:11

华硕 P5PL2 C主板多语言版说明书

华硕 P5PL2 C主板多语言版说明书.zip

2010-02-04 15:15:35

微星 649 Neo-V主板使用手册/说明书(多语言版)

微星 649 Neo-V主板使用手册说明书(多语言版).zip Instances of Non-Warranty1. Damage due to natural disaster

2010-02-10 16:44:20

微星 848P Neo2-V主板使用手册/说明书(多语言版)

微星 848P Neo2-V主板使用手册说明书(多语言版)在您安装主板以及加入硬件设备之前，请仔细阅读本手册提供的相关信息。在使用本产品前，请确定所有的排线、

2010-02-10 16:48:03

微星 865PE Neo3-V主板使用手册/说明书(多语言版

微星 865PE Neo3-V主板使用手册说明书(多语言版)

2010-02-10 16:49:19

微星 915P Combo 2主板使用手册/说明书(多语言版

微星 915P Combo 2主板使用手册说明书(多语言版).zip主机板上有很多敏感的电子元件很容易因为接触到静电而损坏，所以，除非您要开始安装主机板，否则尽可能不

2010-02-10 16:59:05

微星 PM8M2-V主板使用手册/说明书(多语言版)

微星 PM8M2-V主板使用手册说明书(多语言版) 主板的安装步骤：1．确认主板配件2．安装CPU3．安装内存4．查证跳线是否正确5．然后安装在机箱6

2010-02-10 17:06:42

微星 915P Neo-L主板使用手册/说明书(多语言版)

微星 915P Neo-L主板使用手册说明书(多语言版) 超频本主板被设计为可以支持超频运行。但是，请在进行超频前确认您计算机的其他部件能够支持此非正常的

2010-02-21 11:17:57

一种基于索引结构的多语言界面实现方法

针对嵌入式系统软件设计中多语言版本实现程序空间利用率不高、通用性差的问题,本文介绍一种在C51环境下,通过为不同语言的字符建立多重索引,设计了基础字符库和显示界面字符

2010-02-25 11:19:32

柯达数码相机EASYSHARE软件4.02多语言升级版

柯达数码相机EASYSHARE软件4.02多语言升级版柯达数码相机　　伊士曼柯达公司Eastman Kodak Company，简称为柯达公司，是世界上最大的影像产品及相关服务的生产和

2010-03-24 15:15:07

HC8217 多语言带呼叫等待来电显示电话芯片

HC8217 多语言带呼叫等待来电显示电话芯片 FSK/DTMF来电显示、自动侦测菜单提示：英文/法文/西班牙文/意大利文/德文/土耳其

2009-01-15 09:46:48

1105

HC8107N 多语言带电话本来电显示电话芯片

HC8107N 多语言带电话本来电显示电话芯片 FSK/DTMF来电显示、自动侦测菜单提示：英文/法文/西班牙文/意大利文/德文/土耳其文

2009-01-15 09:47:22

890

Aldec 多语言仿真器锁定主流用户

Aldec 多语言仿真器锁定主流用户 Aldec 公司日前推出了一款新型 Active-HDL 多语言仿真器，定价为 1,995 美元，据称仿真速度是 FPGA 厂家提供的 RTL 仿真器的两倍。

2010-02-08 10:09:32

1055

设备故障监测诊断平台多语言技术研究

针对嵌入式环境的特殊情况，提出了一种便于嵌入式程序使用的基于Json的多语言实现技术，该技术具有资源集中管理、易拓展、易修改、加载速度快，占用资源少等特点。通过与基于

2012-07-11 14:30:26

SoC多语言协同验证平台技术研究

SoC基于IP设计的特点使验证项目中多语言VIP（Verification IP）协同验证的需求不断增加，给验证工作带来了很大的挑战。为了解决多语言VIP在SoC验证环境灵活重用的问题。提出了一种

2015-12-31 09:25:13

基于Toradex多语言image的编译与MUI切换演示

　　Windows Embedded CE提供多语言用户界面（Multilingual User Interface，MUI）功能，允许用户在设备上更改用户界面的显示语言。您可以针对不同的地区语言

2017-09-18 10:59:16

关于多语言及跨语言的语音识别技术叙述

在大多数传统的自动语音识别（automatic speech recognition，ASR）系统中，不同的语言（方言）是被独立考虑的，一般会对每种语言从零开始训练一个声学模型（acoustic model，AM）。

2018-02-04 10:19:51

6689

Mozilla使用开源Common Voice语音识别数据集进行多语言操作

Mozilla 宣布它正在使其众包项目 Common Voice 支持更多语言。Common Voice 是一个旨在创建开源语音识别数据集的项目，于去年6月发布，它邀请来自世界各地的志愿者通过网络和移动应用程序，用他们的声音记录文本片段。

2018-06-12 11:18:00

4313

Notepad 6.4.1版本应用程序提供多语言选择

本文档的主要内容是Notepad 6.4.1版本应用程序提供多语言选择

2018-06-15 08:00:00

CH341SER多语言串口驱动应用程序免费下载

本文档的主要内容详细介绍的是CH341SER多语言串口驱动应用程序免费下载

2018-07-30 08:00:00

视频转换软件下载FreemakeVideoConverter多语言版本应用程序免费下载

本文档的主要内容是视频转换软件下载FreemakeVideoConverter多语言版本应用程序免费下载。

2018-09-04 17:11:20

谷歌再次发布BERT的多语言模型和中文模型

为了评估这些系统，我们使用了XNLI dataset，它是MultiNLI的一个版本，其中dev集和test集已经（由人类）翻译成15种语言。需要注意的是，训练集是机器翻译的（我们使用的是XNLI提供的翻译，而不是Google NMT）。

2018-11-08 09:50:19

5834

东京出租车已成功试验了多语言语音翻译系统

据IT media网站报道，近日，日本电信运营商KDDI公司携手东京5家出租车公司在东京都内进行了多语言语音翻译系统运行试验，测试期间为10月17日至11月30日，该系统的运用有望提升日本国外游客的体验。

2019-11-14 10:44:45

821

多语言AI基准可以干什么

自然语言处理主要挑战，在于要能够建立一个可使用全世界6，900种语言的系统，虽然大多数的语言都缺乏数据，并不足以单独训练出准确模型，但幸运的是这其中有不少语言，都共享大量的基础结构，且在词汇上也有不少来自同一来源。

2020-04-16 11:19:20

485

阿里完成全球首个多语言实时翻译的AI电商直播，将应用双十一活动

10 月 21 日，阿里完成全球首个多语言实时翻译的电商直播，通过 AI 实现环境降噪，解决口音不标准及口语化语言风格等问题，可实时将中文直播内容精准翻译成英语、俄语、西班牙语等语言，该技术将大规模应用于 2020 年双 11 活动。

2020-10-21 17:28:23

1900

阿里宣布完成全球首个多语言实时翻译的电商直播

今日，阿里宣布完成全球首个多语言实时翻译的电商直播，该直播实现了将中文直播内容精准翻译成英语、俄语、西班牙语等语言。

2020-10-27 11:39:13

1748

文思海辉智能多语言服务平台亮相2020南通新一代信息技术博览会

出席会议。大会集中展示了一批新一代信息技术发展成果，文思海辉携语言服务领域创新成果亮相博览会。一站式智能线上多语言服务覆盖200余种语言，7x24不间断服务，文思海辉语言服务能力遍布全球六大洲。通过多年定制化数据服务经验的积累，文思海辉

2020-11-05 11:54:48

1441

谷歌深度学习如何处理人类语言？

具有语言能力的深度学习系统已经广泛应用于人们的生活当中。其中一些系统使用了 Google 发布的特定深度学习模型 —— 多语言 BERT（Multilingual BERT，简称 mBERT

2021-03-01 15:31:43

1161

多语言翻译新范式的工作：机器翻译界的BERT

今天给大家介绍EMNLP2020的一篇关于多语言翻译新范式的工作multilingual Random Aligned Substitution Pre-training （mRASP）［1］，核心

2021-03-31 17:24:04

2598

《零起点学习单片机多语言编程》pdf

《零起点学习单片机多语言编程》pdf

2022-02-08 15:30:57

如何较为高效地完成多语言跨平台测试

针对软件静态测试，ISO26262标准的Part 6部分给出了具体要求说明，随着各大整车厂和供应商静态测试实施的逐渐深入， C、C++、Java、C#等混编语言以及复杂交叉编译环境的应用越来越多，多语言跨平台的敏捷静态测试及测试结果管理共享已经成为关键需求。

2022-03-03 12:39:15

1378

Multilingual多语言预训练语言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM预训练多语言模型，整体思路基于BERT，并提出了针对多语言预训练的3个优化任务。后续很多多语言预训练工作都建立在XLM的基础上，我们来详细看看XLM的整体训练过程。

2022-05-05 15:23:49

2521

基于Zero-Shot的多语言抽取式文本摘要模型

抽取式文本摘要目前在英文上已经取得了很好的性能，这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言，目前很难得到大规模的标注数据。

2022-07-08 10:49:12

1201

多语言任务在内的多种NLP任务实现

WeLM是一个百亿级别的中文模型，能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务，并具备记忆能力、自我纠正和检查能力。

2022-10-13 11:52:43

436

源1.0在数学推理任务方面的解决方案和表现

毫无疑问，MWP任务给模型的语言理解能力和数学推理能力都带来了极大的挑战，如何解决MWP任务也是NLP领域的研究热点之一。

2022-11-11 11:54:15

571

Firefly(流萤): 中文对话式大语言模型

Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之多，在中文领域中，大部分词表并不会被用到。我们通过删减冗余的词表，从多语言模型中提取常用的中英文词表，最终词表从25w减少到46145，缩减为原来的18.39%，在保留预训练知识的同时，有效减少参数量，提高训练效率。

2023-04-07 10:36:08

4319

“伶荔”(Linly) 开源大规模中文语言模型

Linly-Chinese-LLaMA：中文基础模型，基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力，现已开放 7B、13B 和 33B 量级，65B 正在训练中。

2023-05-04 10:29:07

706

【机器视觉】欢创播报 | 谷歌发布人工智能语言模型PaLM 2

极强的逻辑和推理能力。同时它还接受了多语言文本训练，支持100多种语言。据悉，PaLM 2分为四种规格，从小到大依次为Gecko、Otter、Bison和Unicorn，针对特定领域的数据进行了微调，以执行企业客户的特定任务。它还可完成编写软件代码、数学考试、创意作文和分析方面的测试。

2023-05-11 13:40:31

470

大语言模型的多语言机器翻译能力分析

以ChatGPT为代表的大语言模型（Large Language Models, LLM）在机器翻译（Machine Translation, MT）任务上展现出了惊人的潜力。

2023-05-17 09:56:26

903

基于LLAMA的魔改部署

去训练），并且和Vision结合的大模型也逐渐多了起来。所以怎么部署大模型是一个超级重要的工程问题，很多公司也在紧锣密鼓的搞着。目前效果最好讨论最多的开源实现就是LLAMA，所以我这里讨论的也是基于 LLAMA的魔改部署。基于LLAMA的finetune模型

2023-05-23 15:08:47

4397

智能开源大模型baichuan-7B技术改进

的改进如下：效果改进：用于提升模型的效果以及解码效率。分词改进：词表大小为64K（使用2000万条以中英为主的多语言语

2023-06-17 14:14:28

706

基于多语言的跨平台静态测试解决方案

，多语言跨平台的敏捷静态测试及测试结果管理共享已经成为关键需求。如何较为高效地完成多语言跨平台测试工程的构建以及测试项目跟踪，较大程度地实现信息共享，已经成为提高测试

2022-03-03 10:15:28

313

基于多语言的跨平台静态测试解决方案

2022-03-03 10:41:59

320

VisCPM：迈向多语言多模态大模型时代

可以大致分为两类： 1. 在图生文（image-to-text generation）方面，以 GPT-4 为代表的多模态大模型，可以面向图像进行开放域对话和深度推理； 2. 在文生

2023-07-10 10:05:01

409

RISC-V跑大模型（二）：LLaMA零基础移植教程

这是RISC-V跑大模型系列的第二篇文章，主要教大家如何将LLaMA移植到RISC-V环境里。

2023-07-10 10:10:38

706

达观曹植大模型正式对外公测！专注于长文本、多语言、垂直化发展

工程实践经验，已开发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。7月伊始，达观正式对外发布“曹植”大语言模型应用公测版，可在达观数据官网申请试用！申请通道与规则 1 申请通道公司官网申请通道

2023-07-12 15:04:01

552

英特尔通过软硬件为LIama 2大模型提供加速，持续发力推动AI发展

内容、回答问题、参与对话以及执行复杂任务（如解决数学问题或推理）方面表现出的卓越能力，使其成为最有希望规模化造福社会的AI技术之一。大语言模型有望解锁更丰富的创意和洞察，并激发AI社区推进技术发展的热情。 Llama 2旨在帮助开发者、研究人员和

2023-07-21 18:15:04

480

英特尔一系列AI解决方案，为Llama 2大模型提供实力之选

2023-07-24 19:31:56

387

中译语通展示格物多语言大模型技术和工业实践

大模型技术和工业实践。会议还汇聚了腾讯AI Lab、百度等科技企业,学术界和工业界的研究学者与从业人员,分享各自研究成果和实践经验,推动了大模型和自然语言生成领域的技术创新与研究成果转化。中译语通作为NLGIW战略合作伙伴参会展示本届会议组织单位为中国中文

2023-07-27 09:44:38

365

爆火Llama 2一周请求下载超15万，有人开源了Rust实现版本

500 行 C 语言就实现了对 Llama 2 baby 模型的推理。该项目可以在苹果 M1 笔记本上每秒输出 98 个 token。

2023-08-02 16:25:28

470

深入理解Llama模型的源码案例

目前大部分开源LLM模型都是基于transformers库来做的，它们的结构大部分都和Llama大同小异。

2023-08-23 11:44:07

1462

关于Llama 2的一切资源，我们都帮你整理好了

Meta 发布的 Llama 2，是新的 SOTA 开源大型语言模型（LLM）。Llama 2 代表着 LLaMA 的下一代版本，可商用。Llama 2 有 3 种不同的大小 —— 7B、13B 和 70B 个可训练参数。

2023-08-23 15:40:09

674

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

885

蚂蚁集团开源高性能多语言序列化框架Fury解读

Fury 是一个基于 JIT 动态编译和零拷贝的多语言序列化框架，支持 Java/Python/Golang/JavaScript/C++ 等语言，提供全自动的对象多语言 / 跨语言序列化能力，和相比 JDK 最高 170 倍的性能。

2023-08-25 17:05:00

701

腾讯发布混元大语言模型

能力和复杂语境下的逻辑推理能力；而且在时效性上比较强。目前混元大语言模型已经在小程序、腾讯云、腾讯广告、腾讯游戏等开启内测。

2023-09-07 10:23:54

815

在线研讨会 | 基于 LLM 构建中文场景检索式对话机器人：Llama2 + NeMo

4,096，并对算法细节进行了优化，加速了推理速度，让 Llama2 的性能有了很大的提升，能够和 ChatGPT 相媲美。 Llama2 大模型旨在处理广泛的语言任务，包括文本生成、机器翻译、问题回答、代码生成等等。该模型经过大规模的训练，能够理解并生成文本，为各种应用提供强大的自然语言处理能力。它的多

2023-10-13 20:35:02

564