大模型微调样本构造的trick-德赢Vwin官网网

开局一道面试题。

面试官：大模型微调如何组织训练样本？

你：大模型训练一问一答，一指令一输出，问题和指令可以作为prompt输入，答案作为输出，计算loss的部分要屏蔽掉pad token。

面试官：多轮对话如何组织训练样本呢？

你：假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。

面试官：这样的话一个session变成了三条数据，并且上文有依次重复的情况，这样会不会有啥问题？

你：数据中大部分都是pad token，训练数据利用效率低下。另外会有数据重复膨胀的问题，训练数据重复膨胀为 session数量*平均轮次数，且上文有重复部分，训练效率也会低下。

面试官：你也意识到了，有什么改进的方法吗？

你：有没有办法能一次性构造一个session作为训练样本呢？（思索）

面试官：提示你下，限制在decoder-only系列的模型上，利用模型特性，改进样本组织形式。

对于这个问题，我们思考下decoder-only模型有啥特点，第一点很关键的是其attention形式是casual的，casual简单理解就是三角阵，单个token只能看到其上文的信息。

如图所示：

其二是postion_id是只有token次序含义而无需特定指代信息，（区别于GLM模型需要postion_id来标识生成span的位置等特殊的要求）。

有了这两点我们就可以设想，如果构造多轮对话样本的input为 Q1 A1 Q2 A2 Q3 A3 ，在计算loss的时候，只需要计算 A1 A2 和 A3 部分，岂不是就可以进行session级别的训练了？

嗯为什么原来的chatglm不能用这种形式呢，虽然prefix attention可以推广为适应多轮训练的prefix attention形式，如图：

但是由于其postition id 无法简单按次序推广，故不能高效训练，这也是chatglm初代的很大的一个问题，导致后续微调的效果都比较一般。

现在chatglm2的代码针对这两个问题已经进行了改善，可以认为他就是典型的decoder-only模型了，具体表现为推断时候attention 是casual attention的形式，position id也退化为token次序增长。

那么好了，万事具备，只欠东风。我们据此实现了chatglm2-6b的代码微调。其核心代码逻辑为处理样本组织的逻辑，其他的就是大模型微调，大同小异了。

conversation=''
input_ids = []
labels = []
eos_id = tokenizer.eos_token_id
turn_idx = 0
for sentence in examples[prompt_column][i]:
    sentence_from = sentence["from"].lower()
    sentence_value = '[Round {}]

问：'.format(turn_idx) + sentence["value"] + '

答：' if sentence_from == 'human' else sentence["value"]+'

'
    conversation += sentence_value
    sentence_ids = tokenizer.encode(sentence_value, add_special_tokens=False)  
    label = copy.deepcopy(sentence_ids) if sentence_from != 'human' else [-100] * len(sentence_ids)               
    input_ids += sentence_ids 
    labels += label
    if sentence_from != 'human':
        input_ids += [eos_id]
        labels += [eos_id]
        turn_idx += 1
input_ids=tokenizer.encode('')+input_ids#addgmaskbos
labels =  [-100] * 2 + labels# #add padding
pad_len = max_seq_length - len(input_ids)
input_ids = input_ids + [eos_id] * pad_len 
labels = labels + [-100] * pad_len

其中有几个关键的地方，就是在开头要加上 bos和gmask，遵循模型原来的逻辑。问答提示词和轮次prompt，还有两个保持和原模型保持一致，最后屏蔽掉pad部分的loss计算。

实测训练效果如下：

同样的数据在chatglm1上 train loss只能降到2.x左右，同时评估测试集结果，在同样的数据上rouge等指标都有不小的提升。

我们再仔细回顾下，对话session级别训练和拆开训练从原理上有啥区别？

1.session级别训练，效果之一为等价batchsize变大（1个batch可以塞下更多样本），且同一通对话产生的样本在一个bs内。

2. session级别的不同轮次产生的梯度是求平均的，拆开轮次构造训练是求和的，这样除了等价于lr会变大，还会影响不同轮次token权重的分配，另外还会影响norm的计算。

我们用一个简化地例子定量分析下，我们假设两条训练样本分为 1.问：A 答：xx 2.问: A答：xx 问: B答：xx问: C答：xx 则session级别训练影响梯度为 (Ga+(Ga +Gb + Gc)/3)/2。对 A，B，C影响的权重分别为，2/3 1/6 1/6。拆开训练为(Ga+Ga+ (Ga+Gb)/2+(Ga+Gb+ Gc)/3)/4。对 A，B，C影响的权重分别为，17/24 5/24 1/12。从上面的权重分布来看，session级别靠后的轮次影响权重要比拆开更大。这也是更合理的，因为大部分场景下，开场白都是趋同和重复的。 一点小福利，以上面试题对应的ChatGLM2-6B微调完整的代码地址为： https://github.com/SpongebBob/Finetune-ChatGLM2-6B

实现了对于 ChatGLM2-6B 模型的全参数微调，主要改进点在多轮对话的交互组织方面，使用了更高效的session级别高效训练，训练效果相比原版ChatGLM-6B有较大提升。

这可能是目前全网效果最好的ChatGLM2-6B全参数微调代码。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7002

浏览量
88937
代码

代码

+关注

关注
30

文章
4779

浏览量
68516
大模型

大模型

+关注

关注
2

文章
2423

浏览量
2637

原文标题：大模型微调样本构造的trick

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

一个在线的自助产品咨询工具，允许客户使用自然语言进行交互式的产品问答，比如“请介绍一下您公司这款产品与××产品的不同之处”。为了让客户有更好的体验，你决定使用大模型来构造这样的咨询功能并将其嵌入公司

发表于 12-04 10:50

一种信息引导的量化后LLM微调新算法IR-QLoRA

大模型应用开卷，连一向保守的苹果，都已释放出发展端侧大模型的信号。问题是，大语言模型（LLM）卓越的表现取决于“力大砖飞”，如何在资源有限的环境中部署大模型并保障性能，仍然颇具挑战。

发表于 11-19 17:16 •275次阅读

一种信息引导的量化后LLM<b class='flag-5'>微调</b>新算法IR-QLoRA

大语言模型如何开发

大语言模型的开发是一个复杂且细致的过程，涵盖了数据准备、模型架构设计、训练、微调和部署等多个阶段。以下是对大语言模型开发步骤的介绍，由AI部落小编整理发布。

发表于 11-04 10:14 •135次阅读

示波器探头补偿微调旋钮的作用

示波器探头补偿微调旋钮是一种用于调整示波器探头性能的重要组件。一、示波器探头补偿微调旋钮的作用校准探头性能示波器探头补偿微调旋钮的主要作用是校准探头的性能。由于探头在生产过程中可能存在一定

发表于 08-09 11:31 •657次阅读

大模型为什么要微调？大模型微调的原理

难以达到最佳性能。为了提升模型在特定任务上的表现，微调（Fine-tuning）成为了一个关键步骤。本文将详细探讨大模型为什么要进行微调以及微调

发表于 07-10 10:43 •3893次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字推理等。然而，随着参数量的增加，大语言模型在这类任务上并未出现质的飞跃，除非有精心

发表于 05-07 17:21

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transformer网络，它包含多个自注意力层，能够捕捉输入数据中

发表于 05-05 10:56

基于双级优化（BLO）的消除过拟合的微调方法

这篇论文试图解决的问题是大型预训练模型在下游任务中进行微调时出现的过拟合问题。尽管低秩适应（LoRA）及其变体通过学习低秩增量矩阵有效地减少了与完全微调方法相比的可训练参数数量。

发表于 04-02 16:46 •669次阅读

揭秘大语言模型可信能力的五个关键维度

不同于上述工作从待干预模型自身抽取引导向量，我们意在从LLMs预训练过程的切片中构建引导向量来干预指令微调模型（SFT Model），试图提升指令微调

发表于 03-15 09:42 •550次阅读

大模型微调开源项目全流程

对于所有“基座”（Base）模型，–template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”（Chat）模型请务必使用对应的模板。

发表于 03-13 14:56 •868次阅读

大模型Reward Model的trick应用技巧

借助对比学习和元学习的方法。增加对比学习的loss，对比学习通过增强模型区分能力，来增强RM的对好坏的区分水平。元学习则使奖励模型能够维持区分分布外样本的细微差异，这种方法可以用于迭代式的RLHF优化。

发表于 01-25 09:31 •992次阅读

2023年LLM大模型研究进展

作为做LLM应用的副产品，我们提出了RLCD[11]，通过同时使用正例和负例prompt，自动生成带标签的生成样本不需人工标注，然后可以接大模型微调，或者用于训练reward models

发表于 01-19 13:55 •480次阅读

教您如何精调出自己的领域大模型

BERT和 GPT-3 等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解 LLM 架构、微调过程以及如何为 NLP 任务微调自己

发表于 01-19 10:25 •1126次阅读

商汤科技与库醇科技达成合作为垂域大模型构建高质量大规模的领域微调数据

数字化转型，为垂域大模型构建高质量大规模的领域微调数据。本次合作将基于商汤通用大模型进行二次开发，给模型注入领域知识，训练一个专门根据葡萄酒爱好者问题生成关键词的大

发表于 01-10 09:46 •703次阅读

四种微调大模型的方法介绍

全微调（Full Fine-tuning）：全微调是指对整个预训练模型进行微调，包括所有的模型参数。在这种方法中，预训练

发表于 01-03 10:57 •2.4w次阅读