深度强化学习模型的训练通常需要很高的计算成本,因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。 然而现有的生成小型模型的方法主要基于知识蒸馏,即通过迭代训练稠密网络,训练过程仍需要大量的计算资源。 另外,由于强化学习自举训练的复杂性,训练过程中全程进行稀疏训练在深度强化学习领域尚未得到充分的研究。 清华大学黄隆波团队提出了一种强化学习专用的动态稀疏训练框架,“Rigged Reinforcement Learning Lottery”(RLx2),可适用于多种离策略强化学习算法。 它采用基于梯度的拓扑演化原则,能够完全基于稀疏网络训练稀疏深度强化学习模型。RLx2 引入了一种延迟多步差分目标机制,配合动态容量的回放缓冲区,实现了在稀疏模型中的稳健值学习和高效拓扑探索。在多个 MuJoCo 基准任务中,RLx2 达到了最先进的稀疏训练性能,显示出 7.5 倍至 20 倍的模型压缩,而仅有不到 3% 的性能降低,并且在训练和推理中分别减少了高达 20 倍和 50 倍的浮点运算数。大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀疏训练框架,可以节省至多 95% 的训练开销。
- 论文主页:https://arxiv.org/abs/2205.15043
- 论文代码:https://github.com/tyq1024/RLx2
能否通过全程使用超稀疏网络从头训练出高效的深度强化学习 智能体?方法 清华大学黄隆波团队对这一问题给出了肯定的答案,并提出了一种强化学习专用的动态稀疏训练框架,“Rigged Reinforcement Learning Lottery”(RLx2),用于离策略强化学习(Off-policy RL)。这是第一个在深度强化学习领域以 90% 以上稀疏度进行全程稀疏训练,并且仅有微小性能损失的算法框架。RLx2 受到了在监督学习中基于梯度的拓扑演化的动态稀疏训练方法 RigL [Evci et al. 2020] 的启发。然而,直接应用 RigL 无法实现高稀疏度,因为稀疏的深度强化学习模型由于假设空间有限而导致价值估计不可靠,进而干扰了网络结构的拓扑演化。 因此,RLx2 引入了延迟多步差分目标(Delayed multi-step TD target)机制和动态容量回放缓冲区(Dynamic capacity buffer),以实现稳健的价值学习(Value learning)。这两个新组件解决了稀疏拓扑下的价值估计问题,并与基于 RigL 的拓扑演化准则一起实现了出色的稀疏训练性能。为了阐明设计 RLx2 的动机,作者以一个简单的 MuJoCo 控制任务 InvertedPendulum-v2 为例,对四种使用不同价值学习和网络拓扑更新方案的稀疏训练方法进行了比较。
原文标题:ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
- 物联网
+关注
关注
2893文章
42952浏览量
364607
原文标题:ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
发布评论请先登录
相关推荐
清华光芯片取得新突破,迈向AI光训练
德赢Vwin官网 网报道(文/吴子鹏)近日,
清华大学发布官方消息称,
清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径,首创了全前向智能光计算
训练架构,研制了“太极-II”光
训练
预训练和迁移学习的区别和联系
预
训练和迁移
学习是深度
学习和机器
学习领域中的两个重要概念,它们在提高模型性能、减少
训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定
如何理解机器学习中的训练集、验证集和测试集
理解机器
学习中的
训练集、验证集和测试集,是掌握机器
学习核心概念和流程的重要一步。这三者不仅构成了模型
学习与评估的基础
框架,还直接关系到模型性
PyTorch如何训练自己的数据集
PyTorch是一个广泛使用的深度
学习
框架,它以其灵活性、易用性和强大的动态图特性而闻名。在
训练深度
学习模型时,数据集是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据集
深度学习模型训练过程详解
深度
学习模型
训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。
训练一个深度
学习模型,本质上是通过优化算法调整模型参数,使模型能够更好地拟合数据,提高预测或分类的准
基于毫米波的人体跟踪和识别算法
。雷达已被提议作为粗粒度活动识别的替代模式,使用微多普勒频谱图捕捉环境信息的最小子集。然而,由于低成本毫米
波雷达系统产生
稀疏和不均匀的点云,
训练细粒度、准确的活动分类器是一个挑战。在本文中,我们
发表于05-14 18:40
名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践
和
强化学习展开,详细介绍各阶段使用的算法、数据、难点及实践经验。 预
训练阶段需要利用包含数千亿甚至数万亿单词的
训练数据,并借助由数千块高性能GPU 和高速网络组成的超级计算机,花费数十天完成深度神经网络
发表于03-11 15:16
星动纪元开源人形机器人训练框架Humanoid-Gym
星动纪元,这家专注于人形机器人技术的创新公司,近日宣布计划将其
训练
框架Humanoid-Gym进行开源。Humanoid-Gym是一个为人形机器人设计的
训练
框架,其开源将极大地推动人形
谷歌发布ASPIRE训练框架,提升AI选择性预测能力
该
框架分为三步骤:“特定任务调整”、“答案采样”以及“自我评估
学习”。首先,“特定任务调整”阶段针对基本
训练的大型语言模型进一步深化
训练,重点提高预测能力。其次,“答案采样”阶段模型会
如何使用Python进行图像识别的自动学习自动训练?
如何使用Python进行图像识别的自动
学习自动
训练? 使用Python进行图像识别的自动
学习和自动
训练需要掌握一些重要的概念和技术。在本文中,我们将介绍如何使用Python中的一些常用
深度学习如何训练出好的模型
算法工程、数据派THU深度
学习在近年来得到了广泛的应用,从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是,要
训练出一个高效准确的深度
学习模型并不容易。不仅需要有高质量的数据、合适的模型

NeurIPS2023| 扩散模型解决多任务强化学习问题
model 能否解决多任务
强化学习问题呢?我们最近
提出的一篇新工作——“Diffusion Model is an Effective Planner and Data

视觉深度学习迁移学习训练框架Torchvision介绍
Torchvision是基于Pytorch的视觉深度
学习迁移
学习
训练
框架,当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁移
学习

模拟矩阵在深度强化学习智能控制系统中的应用
。 在深度
强化学习智能控制系统中,讯维模拟矩阵可以用来做以下几方面的模拟和预测: 环境模拟:构建多种环境模型,包括不同参数的系统、不同干扰因素等,为深度
强化学习智能控制系统提供多样化的
训练和测试环境。 控制策略

评论