用PopArt进行多任务深度强化学习-德赢Vwin官网网

多任务学习——即允许单个智能体学习如何完成多种不同的的任务——一直是人工智能研究的长期目标。近年来，这一领域出现了不少优秀进展，比如DQN只用同一种算法就能玩包含《打砖块》和《乓》在内的多种游戏。但事实上，这些算法的本质还是对于每个任务，训练单独的智能体。

随着人工智能研究开始向更复杂的现实任务靠拢，构建一个“多才多艺”的智能体——而不是多个“专家级”智能体——对学习执行多个任务将是至关重要的。很可惜，到目前为止，这已经被证明仍是一项重大挑战。

其中的一个原因是在不同任务中，强化学习智能体用来判断自己成功与否的奖励标准存在差异，这导致它们会陷入“唯奖励论”，专注于执行所有奖励更高的任务。举个例子，在雅达利游戏《乓》中，智能体每执行一个“动作”就可能获得如下奖励：-1、0或+1。相比之下，如果是同为街机游戏的《吃豆人小姐》，智能体可能走一步就能获得成百上千个积分。

即便我们把单个奖励设置成基本一致，随着智能体被训练地越来越好，由于奖励频率不同的存在，不同游戏间的奖励差异还是会变得越来越明显。

为了解决这些问题，DeepMind开发了PopArt，它可以调整每个游戏中的积分等级，因此无论不同游戏间的奖励差异有多大，智能体都会对它们“一视同仁”，判断它们带给自己的奖励相同。在他们最新的论文Multi-task Deep Reinforcement Learning with PopArt中，DeepMind把PopArt归一化用在当前最先进的强化学习智能体上，训练了一个只用一套权重的单一智能体。在一整套57种不同的Atari游戏上，这个智能体的表现可以达到人类中等水平以上。

从广义上讲，深度学习极度依赖神经网络权重的更新，使输出更接近需要的目标输出。这一点放在深度强化学习上也一样。

PopArt的工作机制基于估计这些目标的平均值和分布（例如游戏中的得分），在利用这些统计信息更新网络权重前，它会先对它们做归一化，目的是形成对奖励的规模和频率更稳健的学习经验。之后，为了获得更准确的估计——如预期的得分——它再继续把网络的输出重新转成原始范围。

如果单纯地这么做，那么每次更新统计数据都会改变非归一化的输出，包括非常理想的输出。这不是我们想要的。为了避免这一点，DeepMind提出的解决方案是，每次更新统计数据时，网络就会进行一次反向更新，这意味着我们既能实现网络的大规模更新，又能保持先前学习的输出不变。

出于这种原因，他们把这种方法命名为PopArt：Preserving Outputs Precisely while Adaptively Rescaling Targets（在自适应重新缩放目标的同时精确保留原有输出）。

用PopArt代替奖励剪枝

按照以往的做法，如果研究人员要用强化学习算法对奖励进行剪枝，以此克服奖励范围各不相同的问题，他们首先会把大的奖励设为+1，小的奖励为-1，然后对预期奖励做归一化处理。虽然这种做法易于学习，但它也改变了智能体的目标。

例如，《吃豆人小姐》的目标是吃豆子，每个豆子10分，吃鬼200-1600分。在训练强化学习智能体时，通过剪枝，智能体会认为自己吃豆子或吃鬼没有任何区别，再加上吃豆子更容易，研究人员会很容易训练出一个只会吃豆子、从不追逐鬼的智能体。

而如下面这个视频所示，用PopArt取代奖励剪枝后，这个智能体更“聪明”了，它会把追鬼纳入自己的吃豆路径，得分也更高：

用PopArt进行多任务深度强化学习

今年2月，DeepMind曾发布一个多任务集合DMLab-30，为了解决其中的问题，他们还开发了一个高度可扩展的、基于分布式架构的智能体IMPALA。这是目前世界上最先进的强化学习智能体之一，也是DeepMind最常用的深度强化学习智能体之一。

在实验中，他们把PopArt用于IMPALA，并和基线智能体做对比。结果如下图所示，PopArt大幅提高了智能体的性能。实验还对比了奖励剪枝和未剪枝的情况，可以发现，使用PopArt的智能体在游戏中的得分中位数高于人类玩家的中位数，这比基线表现好很多。而其中未剪枝的基线得分几乎为0，因为它无法从游戏中学习有意义的表征，所以也无法处理游戏奖励范围的巨大变化。

57个Atari上的表现中位数，每一行对应单个智能体的中值性能；实现为经过剪枝，虚线未剪枝

这也是DeepMind第一次在多任务环境中看到智能体有超人表现，这表明PopArt确实在奖励不平衡上有一定的协调作用。而当未来我们把AI系统用于更复杂的多模态环境时，像这种自适应规范化方法会变得越来越重要，因为智能体必须要学会在面对多个不同目标时，利用它们各自的奖励做总体权衡。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表德赢Vwin官网网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47182

浏览量
238195
智能体

智能体

+关注

关注
1

文章
144

浏览量
10575
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11245

原文标题：DeepMind：用PopArt进行多任务深度强化学习

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

发表于 04-11 14:57 •7132次阅读

使用Isaac Gym 来<b class='flag-5'>强化学习</b>mycobot 抓取<b class='flag-5'>任务</b>

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1434次阅读

什么是<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>?<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>算法应用分析

深度学习DeepLearning实战

测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度

发表于 01-09 17:01

深度强化学习实战

测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度

发表于 01-10 13:42

强化学习在RoboCup带球任务中的应用刘飞

强化学习在RoboCup带球任务中的应用_刘飞

发表于 03-14 08:00 •0次下载

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深

发表于 06-29 18:36 •2.8w次阅读

萨顿科普了强化学习、深度强化学习，并谈到了这项技术的潜力和发展方向

萨顿在专访中（再次）科普了强化学习、深度强化学习，并谈到了这项技术的潜力，以及接下来的发展方向：预测学习

发表于 12-27 09:07 •1.1w次阅读

深度强化学习的笔记资料免费下载

本文档的主要内容详细介绍的是深度强化学习的笔记资料免费下载。

发表于 03-10 08:00 •0次下载

深度强化学习到底是什么？它的工作原理是怎么样的

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度

发表于 06-13 11:39 •6052次阅读

强化学习在智能对话上的应用介绍

本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的

发表于 12-10 19:02 •1033次阅读

基于深度强化学习仿真集成的压边力控制模型

压边为改善板料拉深制造的成品质量，釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强

发表于 05-27 10:32 •0次下载

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

发表于 06-23 14:59 •46次下载

《自动化学报》—多Agent深度强化学习综述

多Agent 深度强化学习综述来源：《自动化学报》，作者梁星星等摘要近年来,深度强化学习(Deep reinforcement le

发表于 01-18 10:08 •1613次阅读

ESP32上的深度强化学习

德赢Vwin官网网站提供《ESP32上的深度强化学习.zip》资料免费下载

发表于 12-27 10:31 •0次下载

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

model 能否解决多任务强化学习问题呢？我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data

发表于 10-02 10:45 •834次阅读