什么是深度强化学习?深度强化学习算法应用分析

如今，机器学习(Machine Learning，ML)和人工智能(Artificial Intelligence，AI)的相关算法越来越深度地融合到了我们的社会与生活中，并且在金融科技、医疗保健、以及交通运输等各个方面起到了关键性的驱动与促进作用。如果说20世纪下半叶，人类得益于以互联网为基础架构的计算力和连通性总体进步的话，那么人类在21世纪正在逐步走向由智能计算和智能机器的迭代。其中，以深度学习(Deep Learning，DL)为首的此类新型的计算范式通常属于“监督学习(supervised learning)”的范畴。其对应的应用--深度神经网络(Deep Neural Networks，DNN)，在疾病分类、图像分割、以及语音识别等高科技系统和应用方面，都取得了令人兴奋进步和惊人的成功。

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。几乎所有的AI专家都认为：仅仅增加基于深度神经网络系统的规模和速度，是永远不会产生真正的“类人(human-like)”AI系统的。因此，人们开始转向那些“监督学习”以外的ML和AI计算范式和算法，试图顺应人类的学习过程曲线。该领域研究的最广泛的当属--强化学习(Reinforcement Learning，RL)。在本文中，我们通过相关知识和算法的介绍，和您简要地讨论了如何将深度学习和强化学习融合在一起，产生所谓深度强化学习(Deep Reinforcement Learning，DRL)，这一强大的AI系统。

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务(如：做数学题、写诗、交谈)。而强化学习则旨在使用软、硬件之类的代理(具体含义请见下文)，通过明确的定义、合理的设计等相关算法，来模仿人类的此类行为。也就是说，这种学习范式的目标不是以简单的输入/输出方式(如：独立的深度学习系统)，来映射带有标签的示例，而是要建立一种策略，通过帮助智能化的代理，以某种顺序进行动作(具体含义请见下文)，从而实现某项最终目标。

图片来源：《机器学习有哪些类型》(请参见-- https://towardsdatascience.com/what-are-the-types-of-machine-learning-e2b9e5d1756f)

其实，强化学习是一些面向目标(goal-oriented)的算法，它们能够学习如何实现复杂的目标，或通过多个步骤沿着某个特定维度来实现目标的最大化。下面是强化学习在实际应用中的三种示例：

让一个棋盘游戏的获胜率最大化。

让财务vwin 某笔交易的最大收益。

在复杂的环境中，保障机器人在移动过程中的错误行径最小。

如下图所示，其基本想法是：代理通过传感器接收来自所处环境中的输入数据，使用强化学习的算法对其进行处理，然后采取相应的行动以达到预定的目标。可见，这与人类在日常生活中的行为非常相似。

资料来源：《强化学习的简介》(请参见--http://incompleteideas.net/book/bookdraft2017nov5.pdf) 深度强化学习中的基本定义我们在开展后续讨论之前，了解强化学习中所涉及和使用到的各种关键术语是非常实用的。其中包括：

代理(Agent)：一种软、硬件机制。它通过与周围环境的交互，来采取相应的措施。例如：一架正在送货的无人机，或是视频游戏中引导超级玛丽前进的程序。当然，算法本身也属于代理。

动作(Action)：代理可以采取的各种可能性动作。虽然动作本身具有一定的不言自明性(self-explanatory)，但是我们仍需要让代理能够从一系列离散的、且可能的动作中予以选择。

环境(Environment)：外界环境与代理之间存在着相互作用，以及做出响应的关系。环境将代理当前的状态和动作作为输入，并将代理的奖励(具体含义请见下文)和下一个状态作为输出。

状态(State)：状态是代理自行发现的、具体且直接的情况，包括：特定的地点、时刻、以及将代理与其他重要事物相关联的瞬时配置。例如：一个棋盘在某个特定时刻的棋子布局。

奖励(Reward)：奖励是一种反馈，我们可以据此衡量代理在给定状态下各种动作的成败。例如：在下棋游戏中，吃掉对手的象这一重要的动作会得到某种奖励，而赢得整个游戏则会获得更大的奖励。负奖励(Negative rewards)有着相反的含义，例如：下输了一盘棋。

折扣因子(Discount factor)：折扣因子是一个乘数。由代理发现的未来奖励乘以该因子，以减弱此类奖励针对代理当前动作选择的累积影响。这是强化学习的核心，也就是通过逐渐降低未来奖励的值，以便对最近的动作给予更多的权值。这对于基于“延迟动作(delayed action)”原理的范式而言，是至关重要的。

策略(Policy)：它是代理用来根据当前状态确定下一步动作的策略。它能够将不同的状态映射到各种动作上，以承诺最高的奖励。

值(Value)：它被定义为在特定的策略下，当前状态带有折扣的长期预期奖励(并非短期奖励)。

Q值(Q-value)或动作值(action-value)：与“值”的不同之处在于，Q值需要一个额外的参数，也就是当前的动作。它是指一个动作在特定的策略下，由当前状态产生的长期奖励。

常见的数学(算法)框架在解决强化学习的相关问题时，我们经常会用到如下的数学框架：马尔可夫决策过程(Markov Decision Process，MDP)：几乎所有的强化学习问题都可以被构造为MDP。MDP中的所有状态都具有“马尔可夫”属性，即：未来仅取决于当前状态，而非状态的历史，这一事实。 Bellman方程(Bellman Equations)：它是一组将值函数分解为即时奖励加上折扣未来值的方程。动态编程(Dynamic Programming，DP)：如果当系统模型(代理+环境)完全已知时，根据Bellman方程，我们就可以使用动态编程，来迭代评估值函数，并改进相应的策略。

值迭代(Value iteration)：这是一种算法，它通过迭代式地改进对于值的估计，以计算出具有最佳状态值的函数。该算法先将值函数初始化为任意随机值，然后重复更新Q值和值函数的各个值，直到它们收敛为止。

策略迭代(Policy iteration)：由于代理仅关注寻找最优的策略，而最优策略有时会在价值函数之前就已经收敛了。因此，策略迭代不应该重复地改进值函数的估算，而需要在每一步上重新定义策略，并根据新的策略去计算出值来，直到策略收敛为止。 Q学习(Q-learning)：作为一种无模型(model-free)学习算法的示例，它并不会假定代理对于状态的转换和奖励模型已经了如指掌，而是“认为”代理将通过反复的试验，来发现正确的动作。因此，Q学习的基本思想是：在代理与环境交互过程中，通过观察Q值函数的样本，以接近“状态-动作对(state-action pairs)”的Q函数。这种方法也被称为时分学习(Time-Difference Learning)。

上图是一个通过Q学习(即：尝试和错误观察)，来解决强化学习问题的示例(请参见-- https://gym.openai.com/envs/MountainCar-v0)。在示例所处环境中，动力学和模型，即运动的整体物理原理，都是未知的。 Q学习所存在的问题 Q学习是解决强化学习相关问题的一种简单而强大的方法。

从理论上讲，我们可以在不引入其他数学复杂性的情况下，将其延伸到各种大而复杂的问题上。其实，Q学习可以借助递归方程来完成，其中： Q(s，a)：Q值函数 s：状态 s'，s''：未来状态 a：动作 γ：折现率对于小的问题，我们可以从对所有的Q值(Q-values)做出任意假设开始，通过反复的试验，Q表(Q-table)不断得以更新，进而让政策逐渐趋于一致。由于更新和选择动作是随机执行的，因此最优的策略可能并不代表全局最优，但它可以被用于所有实际的目的。不过，随着问题规模的增加，针对某个大问题所构造并存储一组Q表，将很快成为一个计算性的难题。例如：在象棋或围棋之类的游戏中，可能的状态数(即移动的顺序)与玩家需要提前计算的步数，成指数式的增长。因此：

保存和更新该表所需的内存量，将随着状态数的增加而增多。

探索每个状态，进而创建Q表所需的时间，将变得无法预知。

针对上述问题，我们需要用到诸如深度Q学习(Deep-Q learning)之类的技术，并使用机器学习来试着解决。深度Q学习顾名思义，深度Q学习不再维护一张大型的Q值表，而是利用神经网络从给定的动作和状态输入中去接近Q值函数。在一些公式中，作为输入的状态已经被给出，而所有可能的动作Q值都作为输出被产生。此处的神经网络被称为Deep-Q–Network(DQN)，其基本思想如下图所示：

图片来源：在Python中使用OpenAI Gym进行深度Q学习的入门(请参见--https://www.analyticsvidhya.com/blog/2019/04/introduction-deep-q-learning-python/)

不过DQN在使用的时候有一定的难度。而在传统的深度学习算法中，由于我们对输入样本进行了随机化处理，因此输入的类别在各种训练批次之间，都是非常均衡且稳定的。在强化学习中，搜索会在探索阶段(exploration phase)不断被改进，进而不断地更改输入和动作的空间。此外，随着系统逐渐加深对于环境的了解，Q的目标值也会自动被更新。简而言之，对于简单的DQN系统而言，输入和输出都是经常变化的。

为了解决该问题，DQN引入了体验重播(experience replay)和目标网络(target network)的概念来减缓变化，进而以受控且稳定的方式逐步学习Q表。其中，体验重播在特定的缓冲区中存储一定量的状态动作奖励值(例如，最后有一百万个)。而对于Q函数的训练，它使用来自缓冲区的随机样本的小批量来完成。因此，训练样本不但是随机的，并且能够表现得更接近传统深度学习中监督学习的典型情况。这有点类似于系统具有高效的短期记忆，我们在探索未知环境时可以用到它。此外，DQN通常使用两个网络来存储Q值。

一个网络不断被更新，而另一个网络(即：目标网络)与第一个网络以固定的间隔进行同步。我们使用目标网络来检索Q值，以保证目标值的变化波动较小。深度强化学习的实际应用进行Atari游戏成立于2010年的DeepMind(请参见--https://deepmind.com/)是一家位于伦敦的初创公司。该公司于2014年被Google的母公司Alphabet所收购，并成功地将卷积神经网络(CNN)和Q学习结合起来用于训练。它为深度强化学习领域做出了开拓性贡献。例如：某个代理可以通过原始像素的输入(如某些感知信号)，来进行Atari游戏。欲知详情，请参见--https://deepmind.com/research/publications/playing-atari-deep-reinforcement-learning)

图片来源：DeepMind在arXiV上有关Atari的文章(2013年)(请参见--https://arxiv.org/pdf/1312.5602v1.pdf)。
Alpha Go和Alpha Go Zero 3000多年前起源于中国的围棋，凭借着其复杂性，被称为AI最具挑战性的经典游戏。标准的AI处理方法是：使用搜索树(search tree)来测试所有可能的移动和位置。但是，AI无法处理大量棋子的可能性移动，或评估每个可能性棋盘位置的强度。借助深度强化学习的技术和新颖的搜索算法，DeepMind开发了AlphaGo，这是第一个击败了人类职业围棋选手的计算机程序，第一个击败了围棋世界冠军的程序，也可以说是历史上最强的围棋选手。

Alpha Go的升级版本被称为Alpha Go Zero。该系统源于一个对围棋规则一无所知的神经网络。该神经网络通过与功能强大的搜索算法相结合，不断和自己下棋，与自己进行对抗。在重复进行游戏的过程中，神经网络会通过持续调整和更新，来预测下棋的步骤，并最终成为游戏的赢家。通过不断的迭代，升级后的神经网络与搜索算法重新组合，以提升系统的性能，并不断提高与自己对弈的水平。

图片来源：从零开始的Alpha Go Zero(请参见--https://deepmind.com/blog/article/alphago-zero-starting-scratch)
在石油和天然气行业中的应用荷兰皇家壳牌公司一直在其勘探和钻探工作中通过强化学习的部署，以降低高昂的天然气开采成本，并改善整个供应链中的多个环节。那些经过了历史钻探数据训练的深度学习算法，以及基于物理学的高级模拟技术，让天然气钻头在穿过地表后，能够智能地移动。深度强化学习技术还能够实时地利用来自钻头的机械数据(如：压力和钻头的温度)，以及地表下的地震勘测数据。自动驾驶虽然不是主流应用，但是深度强化学习在自动驾驶汽车的各种挑战性问题上，也发挥着巨大的潜力。其中包括：

车辆控制

坡道合并

个人驾驶风格的感知

针对安全超车的多目标强化学习

总结深度增强学习是真正可扩展的通用人工智能(Artificial general intelligence，AGI)，是AI系统的最终发展方向。在实际应用中，它催生了诸如Alpha Go之类的智能代理，实现了自行从零开始学习游戏规则(也就是人们常说的：外部世界的法则)，而无需进行明确的训练和基于规则的编程。我们乐观地认为，深度增强学习的未来和前景将是一片光明。

编辑：黄飞

阅读全文

神经网络(98386) 神经网络(98386)
机器学习(130423) 机器学习(130423)
深度强化学习(2269) 深度强化学习(2269)

一个使用传统DAS和深度强化学习融合的自动驾驶框架

本文提出了一个使用传统DAS和深度强化学习融合的自动驾驶框架。该框架在DAS功能（例如车道变换，巡航控制和车道保持等）下，以最大限度地提高平均速度和最少车道变化为规则，来确定超车次数。可行驶空间

2018-06-14 09:41:09

8521

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

2023-04-11 14:57:12

5344

Facebook推出ReAgent AI强化学习工具包

Facebook近日推出ReAgent强化学习（reinforcement learning）工具包，首次通过收集离线反馈（offline feedback）来实现策略评估（policy evaluation）。

2019-10-19 09:38:41

1347

深度学习DeepLearning实战

一：深度学习DeepLearning实战时间地点：1 月 15日— 1 月18 日二：深度强化学习核心技术实战时间地点： 1 月 27 日— 1 月30 日(第一天报到授课三天；提前环境部署电脑

2021-01-09 17:01:54

深度学习及无线通信热点问题介绍

利用ML构建无线环境地图及其在无线通信中的应用•使用深度学习的收发机设计和信道解码基于ML的混合学习方法，用于信道估计、建模、预测和压缩使用自动编码器等ML技术的端到端通信•无线电资源管理深度强化学习

2021-07-01 10:49:03

深度学习技术的开发与应用

时间安排大纲具体内容实操案例三天关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习-DQN算法系列9.

2022-04-21 14:57:39

深度强化学习实战

2021-01-10 13:42:26

人工智能深度学习发展迅速，智能科技公司都已经涉足人工智能产品的研发！

,Deep Learning—迁移学习5,Deep Learning—深度强化学习6，深度学习的常用模型或者方法深度学习交流大群： 372526178 （资料共享，加群备注杨春娇邀请）

2018-09-05 10:22:34

人工智能AI-深度学习C#&LabVIEW视觉控制演示效果

不断变化的，因此深度学习是人工智能AI的重要组成部分。可以说人脑视觉系统和神经网络。2、目标检测、目标跟踪、图像增强、强化学习、模型压缩、视频理解、人脸技术、三维视觉、SLAM、GAN、GNN等。

2020-11-27 11:54:42

介绍多智能体系统的解决方案以及应用

方向参考摘要强化学习算法已经存在了几十年，并被用于解决各种顺序决策问题。然而，这些算法在处理高维环境时却面临着巨大的挑战。深度学习的最新发展使RL方法能够为复杂和有能力的智能体驱动最佳策略，这可以在这

2021-07-12 08:44:43

反向强化学习的思路

强化学习的另一种策略（二）

2019-04-03 12:10:44

基于强化学习的飞行自动驾驶仪设计

针对强化学习在连续状态连续动作空间中的维度灾难问题，利用BP神经网络算法作为值函数逼近策略，设计了自动驾驶仪。并引入动作池机制，有效避免飞行仿真中危险动作的发生。首先

2013-06-25 16:27:22

强化学习在RoboCup带球任务中的应用刘飞

强化学习在RoboCup带球任务中的应用_刘飞

2017-03-14 08:00:00

将深度学习、强化学习和迁移学习有机结合的研究

界声誉卓著。在此前接受CSDN采访时，杨强介绍了他目前的主要工作致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么，这个技术框架对工业界的实际应用有什么用的实际意义？在本文中，CSDN结合杨强的另外一个身份国内人工智能创业

2017-10-09 18:23:18

深度强化学习分析研究

请订阅2016年《程序员》尽管监督式和非监督式学习的深度模型已经广泛被技术社区所采用，深度强化学习仍旧显得有些神秘。这篇文章将试图揭秘

2017-10-09 18:28:43

深度强化学习是什么？有什么优点？

与监督机器学习不同，在强化学习中，研究人员通过让一个代理与环境交互来训练模型。当代理的行为产生期望的结果时，它得到正反馈。例如，代理人获得一个点数或赢得一场比赛的奖励。简单地说，研究人员加强了代理人的良好行为。

2018-07-13 09:33:00

24321

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深度强化学习DRL非常值得研究。

2018-06-29 18:36:00

27596

萨顿科普了强化学习、深度强化学习，并谈到了这项技术的潜力和发展方向

萨顿在专访中（再次）科普了强化学习、深度强化学习，并谈到了这项技术的潜力，以及接下来的发展方向：预测学习

2017-12-27 09:07:15

10857

基于分层强化学习的多Agent路径规划

针对路径规划算法收敛速度慢及效率低的问题，提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先，将多Agent的运行环境虚拟为一个人工势能场，根据先验知识确定每点的势能值，它代表最优

2017-12-27 14:32:02

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人强化学习的规则，为强化学习系统

2018-01-09 14:43:49

强化学习的风储合作决策

在风储配置给定前提下，研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易，通过合作提升其市场竞争的能力。针对现有研究的不足，在具有过程化样本的前提下，引入强化学习算法

2018-01-27 10:20:50

如何深度强化学习人工智能和深度学习的进阶

传统上，强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。

2018-03-03 14:16:56

3924

简单随机搜索：无模型强化学习的高效途径

让我们在强化学习社区感兴趣的问题上应用随机搜索。深度强化学习领域一直把大量时间和精力用于由OpenAI维护的、基于MuJoCo模拟器的一套基准测试中。这里，最优控制问题指的是让一个有腿机器人

2018-04-01 09:35:00

4193

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价

2018-05-30 06:53:00

1234

Q Learning算法学习

Q Learning算法是由Watkins于1989年在其博士论文中提出，是强化学习发展的里程碑，也是目前应用最为广泛的强化学习算法。

2018-07-05 14:10:00

3368

强化学习在自动驾驶的应用

自动驾驶汽车首先是人工智能问题，而强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物。今天人工智能头条给大家介绍强化学习在自动驾驶的一个应用案例，无需3D地图也无需规则，让汽车从零开始在二十分钟内学会自动驾驶。

2018-07-10 09:00:29

4676

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动来学习。

2018-07-15 10:56:37

17106

OpenAI 把在模拟器中强化学习学到的方案迁移到机械手上

这些具有一定难度的任务 OpenAI 自己也在研究，他们认为这是深度强化学习发展到新时代之后可以作为新标杆的算法测试任务，而且也欢迎其它机构与学校的研究人员一同研究这些任务，把深度强化学习的表现推上新的台阶。

2018-08-03 14:27:26

4305

强化学习泡沫之后，人工智能的终极答案是什么？

结合 DL 与 RL 的深度强化学习（Deep Reinforcement Learning, DRL）迅速成为人工智能界的焦点。

2018-08-09 10:12:43

5789

探讨深度学习在自动驾驶中的应用

深度强化学习的理论、自动驾驶技术的现状以及问题、深度强化学习在自动驾驶技术当中的应用及基于深度强化学习的礼让自动驾驶研究。

2018-08-18 10:19:57

4854

强化学习环境研究，智能体玩游戏为什么厉害

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外，各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数，例如电子游戏中不断增加的“分数”。

2018-08-18 11:38:57

3363

强化学习和监督式学习, 非监督式学习的区别

而这时，强化学习会在没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，就这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

2018-08-21 09:18:25

19123

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人类职业玩家的Open AI Five。

2018-08-31 09:20:49

3498

Google强化学习框架，要满足哪三大特性

强化学习是一种非常重要 AI 技术，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度

2018-09-03 14:06:30

2653

深度强化学习将如何控制机械臂的灵活动作

直接的强化学习方法很有吸引力，它无需过多假设，而且能自动掌握很多技能。由于这种方法除了建立函数无需其他信息，所以很容易在改进后的环境中重新学习技能，例如更换了目标物体或机械手。

2018-09-05 08:54:15

9616

基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务

强化学习是一种训练主体最大化奖励的学习机制，对于目标条件下的强化学习来说可以将奖励函数设为当前状态与目标状态之间距离的反比函数，那么最大化奖励就对应着最小化与目标函数的距离。

2018-09-24 10:11:00

6779

用PopArt进行多任务深度强化学习

按照以往的做法，如果研究人员要用强化学习算法对奖励进行剪枝，以此克服奖励范围各不相同的问题，他们首先会把大的奖励设为+1，小的奖励为-1，然后对预期奖励做归一化处理。虽然这种做法易于学习，但它也改变了智能体的目标。

2018-09-16 09:32:03

5336

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

2018-11-02 16:18:15

21017

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

2018-11-12 14:47:39

4570

如何使用深度强化学习进行机械臂视觉抓取控制的优化方法概述

针对提高视觉图像特征与优化控制之间契合度的问题，本文提出一种基于深度强化学习的机械臂视觉抓取控制优化方法，可以自主地从与环境交互产生的视觉图像中不断学习特征提取，直接地将提取的特征应用于机械臂抓取

2018-12-19 15:23:59

量化深度强化学习算法的泛化能力

OpenAI 近期发布了一个新的训练环境 CoinRun，它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标，而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术。

2019-01-01 09:22:00

2122

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

2018-12-24 09:29:56

2949

深度强化学习能让机器人拥有人一样的意识

了一种人工智能系统，即通过深度强化学习来学习走路，简单来说，就是教“一个四足机器人来穿越熟悉和不熟悉的地形”。

2019-01-03 09:50:13

3286

使用加权密集连接卷积网络的深度强化学习方法说明

针对深度强化学习中卷积神经网络（CNN）层数过深导致的梯度消失问题，提出一种将密集连接卷积网络应用于强化学习的方法。首先，利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取；然后，在密集连接

2019-01-23 10:41:51

对NAS任务中强化学习的效率进行深入思考

在一些情况下，我们会用策略函数（policy，总得分，也就是搭建的网络在测试集上的精度（accuracy），通过强化学习（Reinforcement Learning）这种通用黑盒算法来优化。然而，因为强化学习本身具有数据利用率低的特点，这个优化的过程往往需要大量的计算资源。

2019-01-28 09:54:22

4705

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

2019-02-17 09:30:28

3036

多智体深度强化学习研究中首次将概率递归推理引入AI的学习过程

在传统的多智体学习过程当中，有研究者在对其他智能体建模 (也即“对手建模”, opponent modeling) 时使用了递归推理，但由于算法复杂和计算力所限，目前还尚未有人在多智体深度强化学习 (Multi-Agent Deep Reinforcement Learning) 的对手建模中使用递归推理。

2019-03-05 08:52:43

4556

深度强化学习已经达到了尽头？

不可否认，深度学习的热度已经大大下降，赞美深度学习作为AI终极算法的推文少得多了，而且论文正在变得不那么“革命”，现在大家换了个词，叫：进化。

2019-04-29 08:56:20

3218

深度强化学习是否已经到达尽头?

近日，Reddit一位网友根据近期OpenAI Five、AlphaStar的表现，提出“深度强化学习是否已经到达尽头”的问题。

2019-05-10 16:34:59

2313

DeepMind 综述深度强化学习智能体和人类相似度竟然如此高

近年来，深度强化学习（Deep reinforcement learning）方法在人工智能方面取得了瞩目的成就，从 Atari 游戏、到围棋、再到无限制扑克等领域，AI 的表现都大大超越了专业选手，这一进展引起了众多认知科学家的关注。

2019-05-30 17:29:35

2550

DeepMind 综述深度强化学习:智能体和人类相似度竟然如此高！

近年来，深度强化学习（Deep reinforcement learning）方法在人工智能方面取得了瞩目的成就

2019-06-03 14:36:05

2619

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

2019-06-22 11:17:08

3374

深度学习的起源与先行者

深度学习也增强了强化学习这一已存在的领域。

2019-07-11 16:06:46

1464

深度强化学习给推荐系统以及CTR预估工业界带来的最新进展

所以，Google这两篇强化学习应用于YouTube推荐论文的出现给大家带来了比较振奋人心的希望。首先，论文中宣称效果对比使用的Baseline就是YouTube推荐线上最新的深度学习模型；

2019-07-18 11:11:00

8388

强化学习应用中对话系统的用户模拟器

近几年来，强化学习在任务导向型对话系统中得到了广泛的应用，对话系统通常被统计建模成为一个马尔科夫决策过程（Markov Decision Process）模型，通过随机优化的方法来学习对话策略。

2019-08-06 14:16:29

1836

关于深度强化学习的概念以及它的工作原理

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。

2020-01-30 09:53:00

5546

深度强化学习你知道是什么吗

强化学习非常适合实现自主决策，相比之下监督学习与无监督学习技术则无法独立完成此项工作。

2019-12-10 14:34:57

1092

人工智能之深度强化学习DRL的解析

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。

2020-01-24 10:46:00

4734

懒惰强化学习算法在发电调控REG框架的应用

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习(Lazy reinforcement learning, LRL) 算法。

2020-01-16 17:40:00

745

深度强化学习的笔记资料免费下载

本文档的主要内容详细介绍的是深度强化学习的笔记资料免费下载。

2020-03-10 08:00:00

人工智能的强化学习要点

强化学习（RL）是现代人工智能领域中最热门的研究主题之一，其普及度还在不断增长。让我们看一下开始学习RL需要了解的5件事。

2020-05-04 18:14:00

3117

深度强化学习的概念和工作原理的详细资料说明

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。强化学习RL是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习是机器学习中一种快速、高效且不可替代的学习算法。

2020-05-16 09:20:40

3150

深度强化学习到底是什么？它的工作原理是怎么样的

2020-06-13 11:39:40

5529

复杂应用中运用人工智能核心强化学习

近期，有不少报道强化学习算法在 GO、Dota 2 和 Starcraft 2 等一系列游戏中打败了专业玩家的新闻。强化学习是一种机器学习类型，能够在电子游戏、机器人、自动驾驶等复杂应用中运用人工智能。

2020-07-27 08:50:15

715

基于PPO强化学习算法的AI应用案例

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此，他决定利用强化学习AI算法来帮他完成未通关的遗憾。

2020-07-29 09:30:16

2429

AI能在单台计算机训练深度强化学习对处理尤为苛刻

训练最新 AI 系统需要惊人的计算资源，这意味着囊中羞涩的学术界实验室很难赶上富有的科技公司。但一种新的方法可以让科学家在单台计算机上训练先机的 AI。2018 年 OpenAI 报告每 3.4 个月训练最强大 AI 所需的处理能力会翻一番，其中深度强化学习对处理尤为苛刻。

2020-07-29 09:45:38

581

什么是深度强化学习?

不过，深度神经网络系统往往需要大量的训练数据，以及已知答案的带标签样本，才能正常地工作。并且，它们目前尚无法完全模仿人类学习和运用智慧的方式。

2020-08-28 14:21:06

5744

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

2020-11-06 15:33:49

1552

83篇文献、万字总结强化学习之路

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了...

2020-12-10 18:32:50

374

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

2020-12-10 18:43:23

499

强化学习在智能对话上的应用介绍

本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上来源：腾讯技术工程微信号

2020-12-10 19:02:45

781

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行交互来学习，最终将累积收益最大化。常用的强化学习算法分为

2021-04-08 11:41:58

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型

2021-04-12 11:01:52

当机器人遇见强化学习，会碰出怎样的火花？

当机器人遇见强化学习，会碰出怎样的火花？一名叫 Cassie 的机器人，给出了生动演绎。最近，24 岁的中国南昌小伙李钟毓和其所在团队，用强化学习教 Cassie 走路，目前它已学会蹲伏走路

2021-04-13 09:35:09

2164

强化学习的双权重最小二乘Sarsa算法

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时，传统的最小二乘法作为一类特殊的函数逼近学习方法，具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法

2021-04-23 15:03:03

基于深度强化学习的路口单交叉信号控制

利用深度强化学习技术实现路口信号控制是智能交通领域的硏究热点。现有硏究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题，但这些研究往往忽略了信号灯状态对动作选择的影响以及

2021-04-23 15:30:53

基于强化学习的伪装攻击检测算法

在移动雾计算中，雾节点与移动终端用户之间的通信容易受到伪装攻击，从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略，提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装

2021-05-11 11:48:39

基于强化学习的壮语词标注方法

树库符号构建标注词典，通过依存句法分析融合语义特征，并以长短期记忆网络为策略网络，利用循环记忆完善部分观测信息。在此基础上，引入强化学习框架，将目标词性作为环境反馈，通过特征学习不断逼近目标真实值。实验结果表明

2021-05-14 11:29:35

基于深度强化学习仿真集成的压边力控制模型

压边力控制策略的学习优化。基于深度强化学习的压边力优化算法，利用深度神经网络处理巨大的状态空间，避免了系统动力学的拟合，并且使用一种新的网络结构来构建策略网络，将压边力策略划分为全局与局部两部分，提高了压边

2021-05-27 10:32:39

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

2021-06-23 10:42:47

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

2021-06-23 14:59:10

基于强化学习的虚拟场景角色乒乓球训练

基于强化学习的虚拟场景角色乒乓球训练

2021-06-27 11:34:33

使用Matlab进行强化学习电子版资源下载

使用Matlab进行强化学习电子版资源下载

2021-07-16 11:17:09

《自动化学报》—多Agent深度强化学习综述

多Agent 深度强化学习综述来源：《自动化学报》，作者梁星星等摘要近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大

2022-01-18 10:08:01

1226

Oneflow 实现强化学习玩 Flappy Bird 小游戏

本文主要内容是如何用Oenflow去复现强化学习玩 Flappy Bird 小游戏这篇论文的算法关键部分，还有记录复现过程中一些踩过的坑。

2022-01-26 18:19:34

强化学习的基础知识和6种基本算法解释

来源：DeepHub IMBA 强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL) ：关注在给

2022-12-20 14:00:02

828

ESP32上的深度强化学习

德赢Vwin官网网站提供《ESP32上的深度强化学习.zip》资料免费下载

2022-12-27 10:31:45

7个流行的强化学习算法及代码实现

作者：Siddhartha Pramanik 来源：DeepHub IMBA 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法

2023-02-03 20:15:06

747

强化学习与智能驾驶决策规划

本文介绍了强化学习与智能驾驶决策规划。智能驾驶中的决策规划模块负责将感知模块所得到的环境信息转化成具体的驾驶策略，从而指引车辆安全、稳定的行驶。真实的驾驶场景往往具有高度的复杂性及不确定性。如何制定

2023-02-08 14:05:16

1441

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

，可以节省至多 95% 的训练开销。深度强化学习模型的训练通常需要很高的计算成本，因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。然而现有的生成小型模型的方法主要基于知识蒸馏，即通过迭

2023-06-11 21:40:02

356

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

2023-06-12 11:25:22

1221

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL)：关注在给定标记训练数据

2023-01-05 14:54:05

419

7个流行的强化学习算法及代码实现

作者：SiddharthaPramanik来源：DeepHubIMBA目前流行的强化学习算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。这些算法已被用于在游戏

2023-02-06 15:06:38

665

人工智能强化学习开源分享

德赢Vwin官网网站提供《人工智能强化学习开源分享.zip》资料免费下载

2023-06-20 09:27:28

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

2023-07-19 14:35:02

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，深度学习已经在很多领域得到了广泛的应用，其能够不断地从数据中提取最基本的特征，从而对大量的信息进行机器学习

2023-08-17 16:02:56

6010

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑神经元的计算模型。深度学习是机器学习的一种变体，主要通过变换各种架构来对大量数据进行学习以及分类处理

2023-08-17 16:03:04

1305

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

2023-09-04 14:26:36

296

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1051

已全部加载完成

搜索历史

什么是深度强化学习?深度强化学习算法应用分析

评论