1 DeepMind发布强化学习库RLax-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind发布强化学习库RLax

电子设计 来源:电子设计 作者:电子设计 2020-12-10 18:43 次阅读
RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。
报道深度强化学习实验室
作者:DeepRL
来源:Github/DeepMind

RLax及背景

强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作,并会提供一个返回的环境状态(观察)状态(部分)和标量反馈信号(奖励)。智能体的行为以行为的概率分布为特征,该分布取决于对环境(策略)的过去观察。智能体寻求一种策略,该策略将从任何给定步骤中最大化从该点开始(返回)将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下,回报是一个随机变量,并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望(值)的策略。

RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。

安装与使用

可以使用以下命令从github直接使用pip安装RLax:

pip install git+git://github.com/deepmind/rlax.git.

然后可以使用JAX的jax.jit函数为不同的硬件(例如CPUGPU,TPU)及时编译所有RLax代码。

强化学习算法

增强学习算法包含三个原型系列:

  • 那些估计状态和动作的价值,并通过检查推断策略的行为(例如,通过选择估计值最高的动作)
  • 学习环境模型(能够预测观察结果和奖励),并通过计划推断策略。
  • 那些参数化可以直接执行的策略的参数,

无论如何,策略,价值或模型只是功能。在深度强化学习中,此类功能由神经网络表示。在这种情况下,通常将强化学习更新公式化为可区分的损失函数(类似于(非)监督学习)。在自动区分下,将恢复原始更新规则。

但是请注意,尤其是只有以正确的方式对输入数据进行采样时,更新才有效。例如,仅当输入轨迹是当前策略的无偏样本时,策略梯度损失才有效。即数据是符合政策的。该库无法检查或强制执行此类约束。但是,在函数的文档字符串中提供了指向描述如何使用每种操作的论文的链接。

命名约定和开发人员指南

我们为与单一经验流交互的代理定义功能和操作。JAX构造vmap可用于将这些相同的功能应用于批处理(例如,支持重放和并行数据生成)。

许多功能在连续的时间步中考虑策略,行动,奖励,价值,以便计算其输出。在这种情况下,qm_t和tm1通常用于说明每个输入是在哪个步骤上生成的,例如:

  • q_tm1:转换的源状态中的操作值。
  • a_tm1:在源状态下选择的操作。
  • r_t:在目标状态下收集的结果奖励。
  • discount_t:与转换关联的折扣。
  • q_t:目标状态下的操作值。

为每个功能提供了广泛的测试。当使用jax.jit编译为XLA以及使用jax.vmap执行批处理操作时,所有测试还应验证rlax函数的输出。

引用

@software{rlax2020github,
  author = {David Budden and Matteo Hessel and John Quan and Steven Kapturowski},
  title = {{RL}ax: {R}einforcement {L}earning in {JAX}},
  url = {http://github.com/deepmind/rlax},
  version = {0.0.1a0},
  year = {2020},
}

专注深度强化学习前沿技术干货,论文,框架,学习路线等,欢迎关注微信公众号。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11245
  • DeepMind
    +关注

    关注

    0

    文章

    130

    浏览量

    10843
收藏 人收藏

    评论

    相关推荐

    Google DeepMind发布Genie 2:打造交互式3D虚拟世界

    在OpenAI宣布即将发布新模型和新功能后,Google DeepMind也不甘落后,于近日推出了大型基础世界模型——Genie 2。这款模型能够生成各种可控制动作、可玩的3D环境,为用户带来全新
    的头像 发表于 12-05 14:16 396次阅读

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    近日,专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉,此次交易完成后,边塞科技将保持独立运营,而原投资人已全部退出。 与此同时,蚂蚁集团近期宣布成立强化学习实验室,旨在推动大模型强化学习
    的头像 发表于 11-22 11:14 560次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习
    的头像 发表于 11-05 17:34 277次阅读

    AI实火!诺贝尔又把化学奖颁给AI大模型

    的蛋白质结构预测大模型——AlphaFold系列。 今年5月9日,谷歌DeepMind重磅发布了AlphaFold-3,能够精准预测蛋白质-配体、蛋白质-核酸等在内的几乎所有PDB数据中存在的分子组合形式
    的头像 发表于 10-10 10:38 216次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 418次阅读

    深度学习常用的Python

    深度学习作为人工智能的一个重要分支,通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言,凭借其简洁的语法和丰富的支持,成为了深度学习研究和应用的首选工具。本文将深入探讨
    的头像 发表于 07-03 16:04 622次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 345次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    谷歌DeepMind发布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日发布了人工智能模型AlphaFold的最新版本——AlphaFold 3,这一革命性的工具将在药物发现和疾病治疗领域发挥巨大作用。
    的头像 发表于 05-10 11:26 583次阅读

    浅谈AI技术在SSD控制器中的应用

    当前AI技术蓬勃发展,深度学习强化学习等技术不断突破,使得AI在图像识别、语音识别、自然语言处理等领域取得了显著成果。
    的头像 发表于 04-20 10:02 870次阅读
    浅谈AI技术在SSD控制器中的应用

    锂电池储存和电化学储能电站应配置的消防设施包括哪些?

    锂电池储存和电化学储能电站应配置的消防设施包括哪些
    的头像 发表于 03-22 10:09 675次阅读
    锂电池储存<b class='flag-5'>库</b>和电<b class='flag-5'>化学</b>储能电站应配置的消防设施包括哪些?

    谷歌DeepMind推出SIMI通用AI智能体

    近日,谷歌的DeepMind团队发布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),这是一个通用人工智能智能体,能够在多种3D虚拟环境
    的头像 发表于 03-18 11:39 951次阅读

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布了AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 772次阅读

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的行为策略。
    发表于 02-20 09:55 1.4w次阅读
    一文详解Transformer神经网络模型

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌DeepMind的首席开发人员,自去年9月份以来,他是第4位离开谷歌Gemini
    的头像 发表于 02-04 10:02 783次阅读

    两种端到端的自动驾驶系统算法架构

    基于学习的自动驾驶是一个活跃的研究领域。采用了一些基于学习的驾驶方法,例如可供性和强化学习,取得了不错的性能,模仿方法也被用来回归人类演示的控制命令。
    发表于 01-18 09:33 1392次阅读
    两种端到端的自动驾驶系统算法架构