RLAIF：一个不依赖人工的RLHF替代方案-德赢Vwin官网网

LLM可以标记人类偏好数据，用于强化学习吗？尽管之前有一些类似的研究，但从没有人系统地对比RLHF和RLAIF的性能。今天，我们为大家带来一项Google最新的研究，来看看LLM是否懂得人类的偏好。

基于人类反馈的强化学习(RLHF)通过收集人类反馈，以强化学习方法训练LLM，可以更好地理解人类偏好。然而，这个方法有一个很大的问题：收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢？

RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义，RLAIF是指使用LLM来代替人类标记偏好，基于这些标记数据训练奖励模型，然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。

如图所示，在RLAIF中，首先使用LLM来评估给定的文本和2个候选回复，然后，这些由LLM生成的偏好数据被用来训练一个奖励模型，这个奖励模型用于强化学习，以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图，遵循以下流程：

Preamble-描述任务介绍和说明

Few-shot exemplars(可选)

Sample to annotate

结束字符串

在这篇研究中，作者还探索了：

避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序，尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响，作者进行了双重推理和平均处理。

prompt改进: 还尝试了使用思维链（CoT）推理和self-consistency等方法促进LLM的评估。

实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

对于RLHF方法，奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。

对于RLAIF方法，使用PaLM 2 L生成AI标记的偏好

对于强化学习，使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现：

在性能方面：RLAIF与RLHF有相似的表现。

在人类评估上，与SFT策略相比，RLAIF被偏好71%的时间，而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF，但这个差异在统计上并不显著。

直接对比胜率：RLAIF与RLHF在被偏好的程度上是平等的，胜率都是50%。

与人工写的摘要比较：RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好，与参考摘要的差异也不具统计意义。

影响因素：RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要，这可能是质量提升的一个因素。

长度调整后表现：即使控制摘要的长度，RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。

对于prompt方式，使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性，甚至可能使它变得更糟。

Self-Consistency with CoT对性能的影响如下，用T=1采样会导致与人类偏好的一致性较低。

作者还对用于评估的LLM的参数大小进行了探索，发现与人类偏好的一致性随着LLM大小的增加而增加。

总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是，为了更好地了解这些发现是否能推广到其他NLP任务，还需要在更广泛的任务范围内进行实验。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3226

浏览量
48804
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11245
LLM

LLM

+关注

关注
0

文章
286

浏览量
327

原文标题：RLAIF：一个不依赖人工的RLHF替代方案

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

SILABS CP2103芯片是否不依赖于我错过的微/ picoblaze处理器？

/TechnicalDocs/CP2103.pdf几乎没有说明这个芯片的使用情况（除了告诉我RTS和CTS之外）活跃的低）。这个芯片的vhdl或verilog示例代码是否不依赖于我错过的微/ picoblaze处理器

发表于 07-23 13:00

一种不依赖于棋盘格等辅助标定物体实现像素级相机和激光雷达自动标定的方法

主要内容本文提出了一种不依赖于棋盘格等辅助标定物体，实现像素级相机和激光雷达自动标定的方法。方法直接从点云中提取3D边特征，一避免遮挡问题，并且使用了精确度更高的深度连续边。文中首先指出：以下四种

发表于 09-01 07:42

一个新的Ad hoc安全组密钥管理方案

本文基于可验证的门限秘密共享技术，提出一种分布式的可验证组密钥管理方案。该方案具有不依赖于网络拓扑结构的变化，在恶劣的网络攻击环境中仍能有效的更新组通信密钥。

发表于 05-25 13:49 •7次下载

据调查64％的人表示：日常生活中不依赖物联网设备

大多数人（64％）表示，他们不依赖连网设备来完成日常活动，这一比例是36％的人表示他们依靠设备来度过日常生活的两倍。领先的B2B研究、评级和评论公司Clutch一项新调查发现，67％拥有连网设备的人拥有智能家用电器，如智能冰箱、

发表于 10-27 10:13 •1843次阅读

量子技术革GPS的命：不依赖卫星就可以进行导航

导航卫星系统（GNSS），这类系统可以发送和接收来自绕地球运行的卫星的信号。量子加速度计是一个独立的系统，不依赖任何外部信号。这一点尤其重要，因为卫星信号可能因高层建筑物等阻碍因素而

发表于 11-19 16:22 •386次阅读

PHP简单实现不依赖于Unix系统Cron的定时任务程序资料说明

本文档的主要内容详细介绍的是PHP简单实现不依赖于Unix系统Cron的定时任务程序资料说明。

发表于 03-01 16:52 •2次下载

PHP简单实现<b class='flag-5'>不依赖</b>于Unix系统Cron的定时任务程序资料说明

INS是一种不依赖于外部信息的自主式导航系统

惯性导航系统（INS）也称作惯性参考系统，是一种不依赖于外部信息、也不向外部辐射能量（如无线电导航那样）的自主式导航系统。其工作环境不仅包括空中、地面，还可以在水下。惯性导航的基本工作原理是以牛顿

发表于 06-08 15:29 •2697次阅读

一个种不依赖昂贵检测设备的偏置电流测试方法

本篇介绍一个种不依赖昂贵检测设备的偏置电流测试方法，同时配合LTspice仿真增强理解。工程师可以在普通实验室环境中，根据该方法调整放大器局部电路实现偏置电流的准确测量。如图2.36为

发表于 09-30 16:08 •3065次阅读

<b class='flag-5'>一</b><b class='flag-5'>个</b>种<b class='flag-5'>不依赖</b>昂贵检测设备的偏置电流测试方法

以色列成立新研究中心，开发不依赖GPS的导航系统

以色列开发不依赖GPS的导航技术据C4ISR网站2021年3月18日报道，以色列国防部和以色列航空工业公司（IAI）成立了一个新的研究中心，开发不依赖于易中断的GPS的导航系统。全球

发表于 04-12 09:43 •2038次阅读

openharmony代码解析开源代码不依赖AOSP

OpenHarmony 2.0 Canary在代码托管平台gitee上上线开源，新增22个子系统，支持全面的OS能力和内存大于128M的带屏设备开发等。

发表于 06-22 11:15 •1634次阅读

智行者发布国内首款不依赖高精地图的高级别自动驾驶解决方案

与市场上其他高速领航系统不同，智行者的H-INP采用了“重感知轻地图”的技术方案，成为国内首款不依赖高精地图的高级别自动驾驶解决方案。

发表于 08-19 10:19 •2502次阅读

一个种不依赖昂贵检测设备的偏置电流测试方法

本篇介绍一个种不依赖昂贵检测设备的偏置电流测试方法，同时配合LTspice仿真增强理解。工程师可以在普通实验室环境中，根据该方法调整放大器局部电路实现偏置电流的准确测量。

发表于 02-22 14:17 •798次阅读

RLHF实践中的框架使用与一些坑 (TRL, LMFlow)

我们主要用一个具体的例子展示如何在两个框架下做RLHF，并且记录下训练过程中我们踩到的主要的坑。这个例子包括完整的SFT，奖励建模和 RLHF

发表于 06-20 14:36 •1924次阅读

原生鸿蒙系统正式发布，余承东宣布不依赖国外核心技术

’，标志着华为在移动操作系统领域迈出了坚实的一步。” 这款原生鸿蒙系统作为中国自主研发的移动操作系统，其最大的亮点在于不依赖于国外的编程语言和操作系统内核等核心技术，实现了真正的自主可控。这一突破对于提升我国在全球科技领域的竞争

发表于 10-23 10:08 •354次阅读

分享一个跨平台通用型GUI框架

AAGUI是一个不依赖特定硬件、操作系统的跨平台通用型GUI。

发表于 10-28 09:21 •362次阅读

搜索历史

RLAIF：一个不依赖人工的RLHF替代方案

评论

SILABS CP2103芯片是否不依赖于我错过的微/ picoblaze处理器？

一种不依赖于棋盘格等辅助标定物体实现像素级相机和激光雷达自动标定的方法

一个新的Ad hoc安全组密钥管理方案

据调查64％的人表示：日常生活中不依赖物联网设备

量子技术革GPS的命：不依赖卫星就可以进行导航

PHP简单实现不依赖于Unix系统Cron的定时任务程序资料说明

INS是一种不依赖于外部信息的自主式导航系统

一个种不依赖昂贵检测设备的偏置电流测试方法

以色列成立新研究中心，开发不依赖GPS的导航系统

openharmony代码解析开源代码不依赖AOSP

智行者发布国内首款不依赖高精地图的高级别自动驾驶解决方案

一个种不依赖昂贵检测设备的偏置电流测试方法

RLHF实践中的框架使用与一些坑 (TRL, LMFlow)

原生鸿蒙系统正式发布，余承东宣布不依赖国外核心技术

分享一个跨平台通用型GUI框架