《自动化学报》—多Agent深度强化学习综述

多Agent 深度强化学习综述

来源：《自动化学报》，作者梁星星等

摘要近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多Agent 系统的研究与应用中,仍存在诸多困难和挑战,以StarCraft II 为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q 网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时,从多Agent 深度强化学习中通信过程的角度对现有的多Agent 深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3 种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent 深度强化学习中的一些关键问题,并分析了多Agent 深度强化学习的研究热点和发展前景.

关键词多Agent 系统,深度学习,深度强化学习,通用人工智能

强化学习(Reinforcement learning,RL) 是机器学习的一个子领域,学习如何将场景(环境状态)映射到动作的策略,以获取能够反映任务目标的最大数值型奖赏信号,即在给定的环境状态下,决策选择何种动作去改变环境,使得获得的收益最大[1].同监督式的机器学习过程不同,在强化学习过程中Agent1不被告知应该采用哪个动作,而是通过不断与环境交互,从而试错学习到当前任务最优或较优的策略.这一学习范式能够有效地解决在自然科学、社会科学以及工程应用等领域中存在的序贯决策问题.在强化学习的发展历史中,强化学习和神经网络的结合已有较长的历史[2],但是在复杂序列决策问题中始终没有显著的突破.然而,随着深度学习(Deep learning,DL) 在复杂数据驱动任务中展现出的卓越性能[3-4],一种融合了深度学习强大的特征表示能力和强化学习高效策略搜索能力的学习范式-深度强化学习(Deep reinforcement learning,DRL) 逐渐引起学者的广泛关注,DRL 是将DL 引入到RL,将深度神经网络引入到RL 的值函数、策略函数或者环境模型的参数估计中.DRL 在游戏、机器人、自然语言处理等问题中,取得了令人瞩目的成果[5-12].AlphaGo 的主要贡献者David Silver 更是将现代人工智能定义为RL+DL[13],即DRL 才是人工智能的理想范式[14].赵冬斌等[7] 认为人工智能将会是各国竞相争夺的下一科技高地.

伴随着DRL 在一些复杂单Agent 任务中的有效应用,人们又将DRL 的研究成果转移到了多Agent 系统(Multi-agent system,MAS) 的应用中,以期获得同样的突破.MAS 由一组利用传感器感知共享环境的自治、交互的Agent 组成,每个Agent独立地感知环境,根据个人目标采取行动,进而改变环境[15].在现实世界中,存在许多MAS 的实例,例如资源调度管理[16]、拥塞处理[17-19]、通信传输[20]、自动驾驶[21]、集群规划[22-25] 等.

多Agent DRL (Multi-agent DRL,MADRL)是DRL 在MAS 中应用的研究分支,理论基础源于DRL.虽然将DRL 应用于MAS 中有着许多研究,但据我们所知,尚没有关于多Agent DRL 研究的综述性报告,赵冬斌等[7] 对DRL 以及围棋的发展进行了综述,但其出发点、综述角度以及内容安排与本文有较大不同,如表1 所示.本文在对近些年国内外的研究现状进行分析与研究后,从MADRL 设计与实践的角度出发,对这一领域进行归纳总结.

本文首先对DRL 进行基本的介绍,从策略表现的角度对当前DRL 的两个主要方向,即深度Q 网络和深度策略梯度的发展进行了描述.在第2 节,我们首先分析了DRL 与MAS 的关系,描述了DRL与MAS 结合的优势与挑战; 同时我们利用部分可观测的马尔科夫决策过程对MADRL 问题进行了模型设计,用以表达MAS 的数学过程; 之后,根据当前DRL 的实现结构以及多Agent 在DRL 实现中通信过程的发生阶段,将现有MADRL 划分为全通信集中决策、全通信自主决策以及欠通信自主决策等三类,对每类决策架构的当前研究现状进行讨论分析,对面向多Agent 学习的开放训练平台进行介绍; 在第3 节,针对现有MADRL 仍面临的一些关键问题,从MADRL 的学习训练框架、样本增强、鲁棒性研究以及对手建模等方面进行研究,提出了当前MADRL 可能发展的方向; 在第4 节,对全文进行总结.

1 深度强化学习简介

深度强化学习的学习框架是20 世纪90 年代提出的强化学习,由强化学习与深度学习结合发展而来,是机器学习的重要分支.在这一学习范式中,Agent 通过与环境的交互,不断调整策略,进而实现最大化累计奖赏值的目标.强化学习利用马尔科夫决策过程(Markov decision process,MDP) 对序贯决策问题进行数学定义.

定义1 (马尔科夫决策过程). MDP 由一个五元组〈S,A,R,T,γ〉定义,其中,S 表示由有限状态集合组成的环境;A 表示可采取的一组有限动作集;状态转移函数T :S×A →Δ(S) 表示将某一状态-动作对映射到可能的后继状态的概率分布,Δ(S) 表示状态全集的概率分布,对于状态s,s′∈S 以及a∈A,函数T 确定了采取动作a 后,环境由状态s 转移到状态s′ 的概率; 奖赏函数R(s,a,s′) 定义了状态转移获得的立即奖赏;γ 是折扣因子,代表长期奖赏与立即奖赏之间的权衡.

表1 与已发表相关论文的研究异同
Table 1 Research′s similarities and differences

与一般的MDP 不同,面向强化学习的MDP中包含感知函数Z :s →z,如图1 所示.在完全观测环境下,Agent 获取完全真实的环境状态,即z=s (在对单Agent 讨论时,真实观测和真实状态通常不予区分).在学习过程中,RL 中的Agent在多个离散时间步同环境进行交互,在时间步t,Agent 从环境中接收状态空间S 中的状态st,根据策略π(at|st),从可选动作空间A 中选择动作at执行,作用于环境,环境根据自身动态性(奖赏函数R(s,a,s′) 和状态转移函数T=P(st+1|st,at)),转移到下一状态st+1,并返回一个标量的奖赏值rt+1(奖赏值是针对下一时刻的奖赏,因而下标是t+1).当环境所处的状态为终止状态或交互达到最大时间步,一次试验结束,进入下一次试验.返回值Rt=

是一个带折扣γ ∈(0,1]的累计奖赏值.Agent 的目标是最大化每个状态值的累积奖赏期望值,即

图1 MDP 示意图
Fig.1 Diagram of MDP

经典的强化学习策略学习方法包括了表格法(Tabular solution methods) 和近似法(Approximate solution methods).当求解问题的状态空间和动作空间规模较小时,往往采用基于表格法的强化学习.表格法将全部的状态值V(s) 或者状态-动作值Q(s,a) 存入到一个带索引的表格中,决策时按指定索引查询状态或状态-动作值,并根据贪婪原则选择动作.在更新过程中,依据一次试验的结果,按索引对参与的状态/状态-动作值以及相关的状态-动作值进行更新.在现实世界中,我们以期解决的问题的状态/动作空间是连续且庞大的[1].在这种情况下,表格法由于容量有限,很难对所有值进行存储,因而在实际操作中应用范围较窄,难以进行扩展.为了降低计算资源和存储资源的开销以及提高决策效率,我们需要通过近似的方法对状态/状态-动作值进行估计.这类算法的应用场景更为广泛,是当前强化学习研究的主要趋势.在近似法强化学习中,根据学习目的以及选择动作的依据,即是否利用状态值/状态-动作值函数的策略贪婪地选择动作,分为两类:函数近似方法和策略梯度方法.在文献[7] 中的第2 节中,对上述方法进行了概述,本文不再赘述.

与基本的强化学习方法相比,DRL 将深度神经网络作为函数近似和策略梯度的近似函数.虽然使用深度神经网络解决强化学习问题缺乏较好的理论保证,但深度神经网络的强大表现力使得DRL 的结果远超预期.在DRL 中,DL 同函数近似结合发展成为了深度Q 学习,而策略梯度则发展为深度策略梯度.

1.1 深度Q 学习及其发展

在深度Q 网络(Deep Q-network,DQN)[6,26]提出之前,强化学习与神经网络(Neural network,NN) 的结合遭受着不稳定和发散等问题的困扰.DQN 做了3 处改进,使用经历重放和目标网络稳定基于DL 的近似动作值函数; 使用端到端方法,利用卷积神经网络(Convolutional neural network,CNN) 将原始图片和游戏得分作为输入,使模型仅需较少的领域知识; 训练了可变的网络,其结果在多个任务中表现良好,超越人类专业玩家[14],如图2所示,利用最近的4 帧视频图片作为状态的描述,通过两层卷积层,一层全连接层输出Agent 可选动作的值估计,采用ε 贪婪选择执行动作.DQN 的网络参数更新方式为

其中,Q(st,at;θt) 表示t 时刻,状态-动作值估计;

rt+1+γmaxaQ(st+1,a;θ-) 是作为临时的目标Q 值,用于稳定神经网络的学习,θ- 表示目标网络的参数,γ 表示奖赏的折扣率;θt 表示正在同环境交互的网络的参数,α 表示神经网络的学习率.

标准Q 学习利用max 操作符使得目标值过高估计,Van Hasselt 等[27] 提出了Double DQN 用于平衡值估计.在利用时序差分(Temporal difference，TD) 算法对目标Q 值进行更新时,后继状态的动作选择来自于当前网络Q,而评估则来自于目标网络

将式(1) 中的

替换为

图2 DQN 架构
Fig.2 Framework of DQN

为了消除强化学习转移样本间的相关性,DQN使用经历重放机制,即在线存储和均匀采样早期交互的经历对神经网络进行训练.然而均匀采样方法忽略了经历的重要性,Schaul 等[28] 提出了优先经历重放,利用TD error 对经历的重要性进行衡量,对重要性靠前的经历重放多次,进而提高学习效率.

此外,在DQN 的模型结构方面,也有着较大的改进.Wang 等[29] 设计了竞争网络结构(Dueling network),在Q 网络输出层的前一隐藏层输出两个部分,一部分估计了状态值函数V(s),另一部分估计了相关动作的优势函数A(s,a),在输出层将二者相加进而估计动作值函数Q(s,a)=V(s)+A(s,a).这一结构使得Agent 在策略评估过程中能够更快地做出正确的动作.Hausknecht 等[30] 将循环神经网络(Recurrent neural network,RNN) 引入DQN中,提出了深度循环Q 网络(Deep recurrent Qnetwork，DRQN) 模型,在部分可观测的强化学习任务中,性能超越了标准DQN.Sorokin 等[31] 提出了基于软硬注意力机制的DQN,使用深度注意力RNN 对同任务相关的单元进行了重点关注.Hessel等[32] 对现有DRL 中的6 种扩展DQN 算法进行了比较,根据各改进对性能提升的贡献,提出了集成多种最优改进的组合版Rainbow 算法.Srouji 等[33]提出结构控制网络(Structured control net,SCN),将深度神经网络分解成为两部分:线性控制模块和非线性控制模块,然后分别对获得的编码进行处理,并将结果进行加和,非线性控制模块进行全局控制而线性模块对其进行补充.

1.2 深度策略梯度及其发展

策略是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射.DQN 算法主要应用于离散动作的空间任务,面对连续动作空间的任务,基于策略梯度的DRL 算法能获得更好的决策效果.

连续动作空间的策略梯度算法分为随机策略梯度算法(Stochastic policy gradient,SPG)[1] 和深度确定策略梯度算法(Deep deterministic policy gradient,DDPG)[34-35] .

SPG 假设在连续控制问题研究中,策略选择具有随机性,服从某种分布(如高斯分布),在策略执行过程中依概率进行动作选择.SPG 计算式为πθ(a|s)=P[a|s,θ],表示在状态为s 时,动作符合参数为θ 的概率分布,如高斯分布πθ(a|s)=

表示Agent 采取的动作服从均值为μ(s,θ)、方差为σ(s,θ)2 的正态分布.在SPG 算法中,即使在相同的状态,每次所采取的动作也可能是不同的.该算法的梯度计算为

其中,τ 表示试验过程,τ={s0,a0,r1,s1,a1,r2,···,sT-1,aT-1,rT,sT} 表示一次试验过程中每个时间步经历的状态、采取的动作以及获得的奖赏;R(τ)=

为试验过程中初始状态的累积奖赏.

DDPG 算法则假设策略生成的动作是确定的,策略梯度的求解不需要在动作空间采样积分.与SPG 的策略表现度量η(θ)=E[Rt] 不同,DDPG的策略表现度量为η(θ)=Q(s,a),如果策略是最优的,则状态-动作值是最大的.DDPG 计算式为a=μθ(s),表示在状态s 下动作的取值.在相同策略(即函数参数相同) 的情况下,同一状态下动作的选择是唯一的.DDPG 算法的梯度计算式为

通过Q 函数直接对策略进行调整,向着梯度上升的方向对策略进行更新.

广义上,DDPG 算法是SPG 的特例,当SPG算法中的方差σ →0 时,SPG 将会收敛到DDPG.SPG 算法的输入需要状态和动作,而DDPG 算法的输入仅依靠状态空间,且当动作空间维度较高时,DDPG 算法的学习效率优于SPG 算法.

与DQN 采用的经历重放机制不同,深度策略梯度采用异步优势Actor-critic (AC) 框架(Asynchronous advantage actor-critic,A3C)[36],如图3所示.利用CPU 多线程的功能异步执行多个仿真过程,这一并行训练方法打破了训练样本间的相关性.相比于传统AC 算法,基于多线程并行训练的A3C 算法,结合优势函数训练神经网络,大幅度提升AC 算法的学习效率.此外,A3C 使用经过tmax步的多步奖赏信号更新值函数网络-Critic 网络,并利用优势函数对Actor 网络进行更新,降低了值函数估计和策略梯度的方差.在A3C 的结构基础上,Babaeizadeh 等[37] 提出了CPU 和GPU 混合架构的GPU-A3C (GA3C),引入了队列系统和动态调度策略,有效利用了GPU 的计算能力,大幅提升了A3C 的训练速度.Jaderberg 等[38] 提出了无监督强化辅助学习(Unsupervised reinforcement and auxiliary learning,UNREAL) 算法,在训练A3C的过程中,兼顾训练两类辅助任务来对算法进行改进,一类是包括像素控制和隐藏层激活控制的控制任务,另一类是回馈预测任务.Wang 等[39] 结合长短时记忆网络(Long short-term memory,LSTM),提出了在不同任务间具有良好的泛化能力的堆栈LSTM-A3C 算法.

图3 A3C 框架
Fig.3 Framework of A3C

在非线性优化问题中,梯度的求解相对容易,但合适的优化步长困扰着函数优化的速率.早期强化学习研究设置步长退火因子,随着迭代次数的增加,逐步减小步长.在强化学习任务中,大多数的策略梯度算法难以选择合适的梯度更新步长,使得NN 训练处于振荡不稳定的状态.Schulman等[40] 提出了可信域策略优化(Trust region policy optimization,TRPO) 处理随机策略的训练过程,在训练中定义了新策略与旧策略的KL 散度,要求状态空间中的每个点的KL 散度有界限,即

KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理优化目标

利用非线性约束极值方法将代理优化目标转化为

进而保证策略优化过程稳定提升,同时证明了期望奖赏呈单调性增长.在此基础上,该团队继续提出了基于优势函数加权估计的广义优势估计方法(Generalized advantage estimation,GAE),用以减少策略梯度估计方差[18].ACKTR[41] 以Actorcritic 框架为基础,引入TRPO 使算法稳定性得到保证,然后加上Kronecker 因子分解以提升样本的利用效率并使模型的可扩展性得到加强,相比于TRPO 在数据利用率和训练鲁棒性上都有所提升,训练效率更高.Wang 等[42] 汲取其他DRL 算法的优势,提出了基于经验回放的Actor-critic 算法(Actor-critic with experience replay,ACER),采用n-step 的TD 估计,利用偏差修正的截断重要度权重,以及后验TRPO 对网络参数更新,提升了算法性能.TRPO 算法使用二阶优化算法获得海塞矩阵,计算较为复杂,Schulman 等[43] 进一步提出了仅使用一阶优化的近端策略优化(Proximal policy optimization,PPO) 算法,对代理目标函数简单限定了约束,简化了实现和调参过程,性能上优于现阶段其他策略梯度算法,表现出了同TRPO 算法相当的稳定性和可靠性.

2 MADRL 研究

本节首先对DRL 同MAS 间的关系进行讨论,分析DRL 与MAS 结合带来的优势以及挑战.之后,考虑到单Agent 强化学习算法中环境的马尔科夫属性在MAS 中并不适用,标准的强化学习模型及算法无法刻画出环境的动态性,我们对多Agent 的环境动态性以及学习过程进行描述与定义.在这一模型的描述基础上,我们根据DRL 中的神经网络内部各Agent 的信息交互发生阶段(对外则表现为决策架构形式),对当下的MADRL 进行分类,对每一个类型的现有研究进行分析.最后,为方便相关学者的研究,给出了现有公开可用的多Agent 实验平台介绍.

2.1 DRL 与MAS 的关系

多Agent 任务的复杂性使得预置的Agent 策略难以适应多变的环境,Agent 必须依靠自身学习去寻找解决方案,逐步提升Agent 或者整个多Agent系统的性能.RL 算法便于理解,操作简单,为Agent在线学习提供了一种便于接受的范式.在DRL 之前,将RL 应用于MAS 系统已有诸多研究综述.早在2005 年,Panait 等[44] 就对协作多Agent 学习算法进行了广泛的分析,并将其分为两类:单个学习者(团体学习) 和多个学习者(并发学习).Shoham等[45] 对多Agent 学习进行了一般性综述,提出了一些有趣的基础问题,并指出了该领域发展的5 个分支.Tuyls 等[46] 呈现了关于人工智能(Artificial intelligence,AI) 问题的多Agent 学习鸟瞰图,描述了领域内所取得的里程碑成就,并给出了当时的开放挑战.Matignon 等[47] 侧重于协作随机博弈的独立强化学习算法的发展.Bu¸soniu 等[48] 对多Agent强化学习进行了全面的调查,他们提出了多Agent强化学习的算法分类和相关属性.Crandall 等[49] 对两人重复博弈的算法进行了概述,指出了多Agent问题的3 个属性:安全性、合作性和折衷性,他们认为这些属性在各种不同的游戏中扮演着非常重要角色.M¨uller 等[50] 提出了一个面向应用的多Agent概述,重点研究了使用或基于MAS 的应用程序.Weiss[51] 在其关于多Agent 系统专著的第10 章对多Agent 学习算法进行了描述,并对这些算法进行了分类.Bloembergen 等[52] 对演化博弈论的相关研究进行了概述,分析了多Agent 学习与演化博弈论间的关系.Hernandez-Leal 等[53] 从处理MAS 非平稳性问题的角度出发,将现有方法分为忽略、遗忘、响应目标对手、学习对手模型以及心智理论等5类.但是这些研究难以处理高维连续状态空间与连续动作空间的环境,必须对环境特征进行抽取与人为定义,多个模块的联合进一步提升了MAS 的求解难度.而且上述综述都是从多Agent 研究的某一角度出发,研究较早,关注点停留在DRL 兴起前的研究算法,没有对DRL 崛起后的多Agent 系统进行研究.DRL 提供了一种端到端(End to end) 的学习方式,这一学习方式结合了深度神经网络的高容量特性,RL 决策高维连续空间的能力以及现有的硬件计算能力,克服了早期MAS 将任务分解的学习方式,降低了任务的求解复杂度,大幅提高了决策的稳定性,为解决MAS 提供了一种新的思路.

此外,DRL 和MAS 的特性在一些方面可以优势互补.DRL 训练往往需要大量样本进行训练,而MAS 系统的天生并发性,使得多个Agent 可以并发产生大量样本,大大提升了样本数量,加速学习过程以及达到更好的学习效果; MAS 的这一并发性,又使得多Agent 在分散架构下能够充分使用并行计算,提升了DRL 的学习效率; 在MAS 中,新来的Agent 能够接替早些时候的Agent,这使得MADRL 相对于single-agent DRL 具有更强的鲁棒性.现有的MAS 难以处理高维连续的环境,而DRL 能够处理高维度的输入,学习控制复杂的动作;神经网络的内部结构,又可以解决MAS 中的通信问题,克服人为定义通信方式的不足问题.MAS 同DRL 的结合,在带来上述好处的同时,也遭受着自身的以及结合带来的问题:随着Agent 数量的增加,决策输出的动作维度越来越大,动作空间呈现指数增长的趋势; 相对于单个Agent,多Agent 任务更加难以制定学习目标,单个Agent 学习的结果受全体Agent 的影响; 多Agent 的同步学习,使得环境产生了非平稳性,打破了DRL 学习的基本前提; 多Agent 中的探索,更容易使得策略的学习陷入恶性循环,难以获得良好的策略.

2.2 多Agent 学习模型

多Agent 集中决策过程获取全局观测并输出全局联合动作的方式满足MDP 属性,同单Agent 的强化学习方法决策过程类似,可以应用面向强化学习的MDP 对其进行建模,在本节对这一数学过程进行了描述,但这一方式在MAS 中应用有许多缺点,在第2.6 节中将进行讨论.多Agent 自主决策过程可以使用随机博弈理论进行描述,正则形式的博弈是MDP 在多Agent 的环境中的泛化形式,定义如下.

定义2 (正则形式的博弈,Normalform game). 有限参与者的正则形式的博弈由三元组〈N,A,u〉组成,其中N 表示I 个Agent 的有限集合,i 表示Agent 的索引;A=A1×···×AI,其中,Ai 表示单个Agent 的有限动作集合,向量a=(a1,···,aI)∈A 表示所有Agent 的一次动作集合;u=(u1,···,uI),ui :

表示单个Agent 的真实效用或者收益函数.

正则形式的博弈描述了多Agent 的一次决策过程,但没有对环境状态进行明确定义,不能够描述多Agent 的环境特征以及动态变化特性,如StarCraft II,自动驾驶,多Agent 对抗等非平稳的、不完全的、部分可观测的环境特性.在现有强化学习以及随机博弈理论的启发下,自主决策的多Agent 决策过程可以建模为部分可观测的MDP,定义如下(过程如图4 所示).

定义3 (部分可观测马尔科夫决策过程,Partially observable MDP,POMDP). 面向多Agent 的POMDP 可由八元组G=〈N,S,A,R,T,γ,Z,O〉定义.在POMDPG 中,N 表示参与决策Agent 的集合,i ∈N ≡{1,···,n} 表示单个Agent;s ∈S 表示环境的真实状态;aaa ∈AAA ≡An 表示参与决策的Agent 的动作集合,ai∈Ai 表示单个Agent 执行的动作;T :S×A×S →[0,1] 表示环境状态转移函数,在状态s 下,执行联合动作a,转移到状态s′ 的概率,即P(s′|s,a); 多Agent 奖赏函数R:S×A×S →R,在状态s 下,执行联合动作a,转移到状态s′ 获得的立即奖赏r(s,a,s′);z ∈Z≡Zn 表示Agent 对环境的部分带噪声(不完全信息) 观测,zi∈Zi 是单个Agent 对环境的观测;O :S × N →Z 表示环境状态s 下,单个Agent 的观测状态函数O(s,i)=zi;γ 是折扣因子,代表长期奖赏与立即奖赏之间的权衡.

在多Agent 环境中,Agent 利用自身的动作-观测历史τi∈Ti=(Zi×Ai)* 以及当前时间步的观测zi,决策Agent 采取动作ai 的概率πi(ai|τi,zi) :Ti×Ui→[0,1],执行后将该动作-观测添加到历史存储中τi←τi×(zi,ai).

在POMDP 中,单个Agent 的状态-动作值函数Q(zi,ai) 的贝尔曼方程表示为

a-i 表示状态s 下,除Agenti 外的Agent 动作集合;p(s|zi) 表示Agent 当前局部观测对应的全局状态的映射关系;π-i(a-i|τ-i,z-i))) 表示对手Agent 在该全局状态下的联合动作概率;P(s′|s,a)表示全局状态和联合动作到下一状态的转移函数;r(s,a,s′) 表示该全局转移下获得的全局奖赏;

表示该后继状态下对手Agent 的联合观测概率;

表示该后继状态与对手联合观测下,Agent 局部观测状态的概率.

图4 面向多Agent 的POMDP Fig.4 Multi-agent-oriented POMDP

2.3 MADRL 分类

针对目前DRL 在多Agent 学习的最新研究进展,根据DRL 中的神经网络内部各Agent 的信息交互发生阶段,本文将现有MADRL 算法分为以下3 类:

1) 全通信集中决策架构.该决策架构中,多Agent 间的通信过程发生在神经网络内部,多Agent通过自我学习通信协议,决策单元接收各Agent 处理后的局部观测信息,对观测信息进行融合,获得全局信息表征,进而集中决策产生联合动作,以通信的方式指导单Agent 的动作,如图5(a) 所示.全通信集中决策架构通过信息融合,感知全局信息,降低了环境噪声带来的信息损失,此外,通过集中决策方式,有力地对单Agent 的动作进行了协调,使得多Agent 能够按照一致的目标开展行动.但这一架构对系统的时效性要求较高,并对通信系统有很大的依赖,适用于通信时效性要求较低的强化学习场景或一台PC 对多个Agent 控制的任务.

2) 全通信自主决策架构.该决策架构中,多Agent 间的通信过程发生在神经网络之前,单个Agent 利用自组网通信拓扑,接收对手2 Agent 的局部观测信息以及历史动作,采用嵌入式的方法对接收信息进行融合,并结合自身的观测信息(以及对对手的推断信息) 自主决策,进而协作的完成任务,如图5(b) 所示.全通信自主决策架构中各Agent 通过通信获得环境的全局信息,结合对对手行为的推断,自我学习协作的动作,涌现出协同能力.该架构对Agent 间通信时效性要求相对较低,适用于具备通信条件的RL 任务.相对于全通信集中决策架构,全通信自主决策架构在现实中应用更加广泛.

3) 欠通信自主决策架构.在该决策架构中,多采用循环神经网络进行学习,代表Agent 策略的神经网络之间没有信息交互,单Agent 依靠自我观测的能力,获得部分(不完全) 环境信息,结合对对手的观测与推断,进行自主决策,确定采取的行动,以期涌现出协同的联合行为,协调一致的完成任务要求,如图5(c) 所示.欠通信自主决策架构仅依靠自我观测能力,通过观测与推断对手行为,进行自主决策,进而涌现出协同能力.欠通信自主决策架构不依赖通信,适用任一多Agent 环境.由于缺乏通信,欠通信自主决策架构相对上述全通信决策结构,对环境的观测是部分的、不完全的.这种部分观测不仅包含观测的信息有限,也包含观测带来的环境噪声,受环境不确定因素的影响更大.此外,该结构也面临着对手策略变化带来的环境非平稳性问题.

2.4 全通信集中决策架构

图5 多Agent 决策示意图
Fig.5 Diagram of multi-agent decision-making

早期的多Agent 集中决策架构是关于多Agent的动作和观测的联合模型,将多Agent 的联合观测映射到联合行动,训练过程同单Agent 强化学习任务一致,如图6(a) 所示.这一决策架构将多Agent问题转换为单Agent 问题,有效解决了Agent 数量少且固定、动作空间小等MAS 任务中的多Agent间的协同问题.但是对于Agent 数量较多、动作空间巨大的强化学习任务,这一架构将导致联合观测空间s ∈S=|O1|×|O2|×···×|On| 和联合动作空间a ∈A=|A1|×|A2|×···×|An| 随Agent 数量增加呈指数级增长.此外,该架构限定了任务中的Agent 的数量,不能在交互过程中扩展Agent 的数量,即便是同样的环境,不同数量的Agent 也需要单独训练模型,泛化能力弱.

图6 集中决策架构输出动作分类
Fig.6 Output action classification of centralized decision architecture

在现有的多Agent DRL 研究问题中,人们通常将联合动作空间分解,联合动作可以看作是每个Agent 动作的组合,联合策略可以视作多个子策略的组合,这意味着神经网络的输出是单个Agent的动作分布,而不是联合动作分布,如图6(b) 所示.这一改变使得动作空间的大小由

降为

同样,采样类似的方式可以对观测空间进行分解.

在全通信集中决策架构中,现有研究方法主要集中在隐藏层信息池化共享通信和双向RNN 通信等两种手段,通过神经网络的隐藏层间信息传递保证全通信条件下Agent 间的协商.

在基于隐藏层信息池化共享的决策架构中,各Agent 通过内部隐藏层的交互,在决策过程中进行协商,进而输出协同的联合动作.Sukhbaatar 等[54]提出自主学习Agent 间通信协议的方法,采用包含模块fi 的多层架构,利用当前步的隐藏层输出h 和计算获得的通信输出c 迭代地获得下一决策所需的网络输入hK,并根据最终的网络输出q(hK) 选择执行动作.如图7 所示,sj 表示Agentj 的环境状态观测,将所有Agent 的联合观测sss={s1,···,sJ}的相关状态表征作为决策的输入,输出针对单个Agent 的联合动作的结果a={a1,···,aJ}.在中间的隐藏层中,设计出自身隐藏层信息和交互隐藏层信息融合的模块fi,每个Agent 的模块fi 接收两个输入向量:上一阶段传来的隐藏状态

以及通信向量

并输出下一隐藏层信息

其中通信信息为

隐藏层信息为

输出的隐藏层信息为

σ 为非线性的激活函数.该算法采用平均池化

可以克服Agent 数量不定,解决MAS 中算法难以扩展Agent 数量的问题.

图7 基于隐藏层信息池化共享的集中决策架构
Fig.7 Centralized decision architecture based on shared pooling of hidden layers information

基于隐藏层信息池化共享通信的决策架构人为设定通信协议,利用池化方法对信息进行整合,虽然解决了Agent 间的通信问题以及扩展问题,但针对缺乏先验知识的任务,难以设计有效的通信协议.基于双向RNN 通信的集中决策架构利用双向RNN 结构的信息存储特征,自学习Agent 间的通信协议,克服了通信协议设计对任务先验知识的刚性需求.Peng 等[55] 提出了基于AC 的多Agent 双向协作网络(Bidirectionally-coordinated network,BiCNet),Actor 和critic 网络均使用双向LSTM 架构将Agent 串联,在训练过程中,双向LSTM 自行学习通信协议,在输入端利用Attention 机制从全局态势信息中抽取每个Agent 的观测输入,输出行动集合,同样采用基于Attention 机制的双向LSTM对动作集合进行评价.

通信协议的自我学习解决了Agent 间的信息传递规则,但不合适的奖赏会带来虚假奖赏和产生懒惰Agent 等问题,Sunehag 等[56] 提出了全局奖赏下的值分解网络,采用DQN 网络结构,对每个Agent设立独立Q 值,进而求和获得联合行动的Q 值.他们尝试了RNN、Dueling Network 等多种组合,考虑了Agent 间多种通信程度,分别对全通信自主决策架构、全通信集中决策架构以及欠通信分自主决策架构进行了学习框架设计,如图8 所示.

Kong 等[57] 提出一种将集中决策同自主决策相结合的主-从多Agent RNN 学习架构,采用主-从架构,由中心Agent 指导多个真实执行的Agent,充分利用自主决策和集中决策的优势,其中主Agent融合分Agent 的观测信息并总结出指导信息,分Agent 根据指导信息并结合自身局部观测信息做出最终动作选择,类似于足球比赛中教练与球员间的关系.

2.5 全通信自主决策架构

全通信集中决策架构利用神经网络的隐藏层将各Agent 的信息进行融合,使得其必须将部分观测信息在单一的决策主体中进行融合,集中地进行决策,而全通信自主决策架构只需在输入端进行通信,将信息进行本地融合,自主的完成决策过程.

Foerster 等[58] 针对预定义通信协议在部分环境中不可用的问题,提出了自适应的端到端的通信协议学习算法,将通信定义为一组动作,Agent 利用自身观测以及对手Agent 传递的通信动作,采用时序RNN 架构输出通信和决策动作,从而达到协同行动的目的.根据通信动作的连续性,将决策网络的梯度更新方式分为增强和可微两类,如图9 所示,图9(a) 表示增强更新的应用架构,Agent 1 接受来自上一阶段Agent 2 的通信动作

并结合自身的观测

经过Action select 模块,产生传递给Agent 2 的通信动作

和对环境的动作

利用增强算法的梯度传播的思想对动作进行更新; 图9(b) 表示可微更新动作的应用框架,通信动作的产生不再通过动作选择模块,而是直接将神经网络的通信结果经过离散正规化单元(discretise/regularise unit,DRU) 后不经选择地传递给下一Agent,保证通信动作具有可微性,进而对决策网络进行更新.

通信动作的学习虽然有一定的研究意义,但通信动作的定义大多需要相关的领域知识,人们更关注在既定通信协议下或自学习通信协议下,通过本地的态势融合感知获得决策的结果.在既定通信协议下,Usunier 等[59] 定义了一种短期、低层次的微操强化学习任务,各Agent 将以通信的方式获得的局部观测进行联合编码,利用用于推断的贪婪MDP,通过多阶段的对手行动推理,自主产生协同行动,并利用零阶梯度估计的后向传播策略对行动策略进行更新.Mao 等[60] 提出了一般性的协作Actor-critic网络(Actor-coordinate-critic net,ACCNet),在部分观测的环境中从零学习Agent 间的通信协议,根据协作所处的阶段,提出了AC-Cnet 架构,如图10(b)所示.针对全通信的自主决策结构,他们设计了ACCNet 架构,对局部状态进行嵌入编码,之后利用预定义/自学习通信协议对所有局部状态编码进行联合编码,与待决策Agent 的局部状态结合一同作为决策输入,产生动作.

图8 多种架构下的值分解网络
Fig.8 Value decomposition network for multiple architecture

图9 通信流示意图
Fig.9 Diagram of communication flow

此外,针对个体奖赏带来的“囚徒困境”,自主决策也可采用联合动作评估方法,对行动网络进行更新.在策略执行过程中,Agent 依靠Actor 网络做出行动选择,因而在训练阶段采用联合动作的Critic函数对Actor 网络进行学习更新,不会破坏执行过程中的自主决策架构.Mao 等[60] 利用全局动作奖赏对策略进行评估,有效克服了个体奖赏带来的问题.Yang 等[61] 提出平均场强化学习,利用总体或邻近Agent 间的平均相互作用近似Agent 间的相互作用,个体的最优策略取决于全体动态,而全局动态则根据个体策略集合改变,设计了面向多Agent 的平均场Q 学习和平均场Actor-critic 算法,并分析了解的收敛性.

2.6 欠通信自主决策架构

图10 决策-协同-评估网络架构
Fig.10 Actor-coordinator-critic net framework

同单Agent 的强化学习不同,多Agent 自主决策强化学习任务面临着环境非平稳性的问题.对单个Agent 而言,对手Agent 策略的变化使得环境的状态转移函数随时间变化而变化,即

环境转移函数可表示为

其中o-i,a-i 表示Agenti 的对手联合观测和联合行动.在环境转移函数中,转移

ai,a-i) 是平稳的,不随时间改变; 然而,其他Agent 的策略学习,使得联合策略π(a-i|o-i) 发生变化,导致单个Agent 面临的环境转移

是非平稳的.针对欠通信自主决策面临的环境非平稳,Hernandez-Leal 等[53] 将早期强化学习中处理环境非平稳问题的方法分为忽略、遗忘、响应目标对手、学习对手模型以及心智理论等五类,在此不再赘述.本文结合当前DRL 的发展特性,从经历重放、协作中的“囚徒困境” 以及参数共享等方面对欠通信自主决策的MAS 进行研究.

Tampuu 等[62] 开展了将DRL 应用到多Agent环境中的开拓性研究,但没有考虑环境的非平稳性,通过设计不同的全局奖赏函数,采用两个独立自主的DQN 网络对合作、竞争和合竞等多Agent 强化学习任务进行训练,取得了较好的效果.由于环境的非平稳性,在自主Q 学习强化学习任务中,经历重放机制所存储的经历不能反映当前环境的动态性.Omidshafiei 等[63] 忽略环境非平稳问题,依旧利用经历重放机制,采用分散滞后深度RNN 的Q 网络(Dec-HDRQNs) 架构,克服环境非平稳带来的值估计偏差.他们根据单Agent 的TD error 有选择得对策略进行更新

当TD error 非负时,采用正常学习率α 更新,否则使用较小的学习率进行更新.此外,为了使得策略具有较好的泛化能力,他们采用多任务(Multi-task)对Dec-HDRQNs 的策略进行过滤.Palmer 等[64] 则将Lenient 应用到MADRL 中,随访问次数的增加而增大接受负TD error 的概率,并认为在实验中先进行普通Q 学习,再进行Double Q 学习的混合Q学习有更好的学习效果.Foerster 等[65] 则针对环境非平稳性的来源,提出了离环境下的重要性采用方法,对内存中的经历进行了重用,并使用指纹法记录环境中其余Agent 的动态变化信息,使得经历重放机制在多Agent 环境中依然适用,离环境下的重要度采样损失函数定义为

其中,

表示除Agenti 外,其他Agent 在当前策略下的联合动作产生概率;

表示除Agenti 外,其他Agent 联合动作在离环境下的产生概率;yl 采用Q 学习的方式获得.

受非全局奖赏的影响,多Agent 合作存在“囚徒困境” 的问题,Mao 等[60] 提出了A-CCNet 架构,如图10(a) 所示,针对欠通信的自主决策架构,设计了不依赖通信的A-CCNet 架构,各Agent 依据局部状态做出动作选择,将局部的状态-动作同对手Agent 的决策结果相结合,进行整体评价.Leibo等[66] 利用纯粹的自主Q 学习方法,为每个Agent单独训练一套参数,重点解决了社会困境中的“囚徒困境” 难题,揭示了社会困境如何影响Agent 间的合作.Facebook AI 研究室[67-68] 在DRL 中利用过往回报来调节自身行为,进而获得较好的合作策略.Menda 等[69] 提出事件驱动的MADRL 方法,将Agent 的动作分为宏观和一般两类动作,宏观动作由事件驱动,而一般动作则是自主决策,利用改进的GAE 算法对策略进行求解,允许Agent 在决策中异步执行,克服了固定时间步混淆事件发生顺序而带来的不利影响.Lowe 等[70] 将DDPG 方法扩展到多Agent 学习,通过观测对手过往行为对对手进行建模,同时构建全局Critic 函数对全局状态-自主动作进行评估,并训练一组Agent 策略提高算法的鲁棒性.

全局Critic 函数虽然克服了“囚徒困境” 问题,但对单个Agent 的Actor 网络改进指导不足,不能衡量单个Agent 策略对全局Q 值的影响程度,即信用分配问题.Foerster 等[71] 提出了基于Actorcritic 的反事实多Agent (Counterfactual multiagent,COMA) 策略梯度方法,采用集中的Critic函数对联合动作进行评估,各Agent 利用独自的Actor 策略网络进行决策.通过固定其他Agent 的行动,使用边际法确定反事实的基线,进而确定每个Agent 的信用分配

利用获得优势函数

(z,(ai,a-i) 对策略网络进行增强更新,获得的最好的实验效果超越了集中决策模型.

共享信息已被证明可以加速强化学习任务的优化[72],尤其是多Agent 强化学习任务.如果Agent是同质的,则可以利用参数共享(Parameter sharing,PS) 的方式,即多个Agent 共用一套网络参数.在PS 机制下,Agent 在训练中可以使用全体Agent 的仿真经历.此外,同样的策略网络,由于不同的Agent 接收不同的观测状态(也可以用相关的序号区分即便同观测的Agent),因而Agent 间可以产生不同的动作.Ellowitz[72] 用强化学习方法,vwin 多Agent 优化同一任务的系统,研究了不同Agent 密度和策略共享的影响,发现PS 策略减少了达到渐近行为的时间,使得渐近行为获得较好改善.Gupta 等[73] 将策略梯度、TD error 以及AC等3 种深度强化学学习算法应用到部分可观测的协作多Agent 环境中,在一系列离散和连续的动作空间任务中,使用基于TRPO 的PS 并发训练模式加速了学习过程,并且验证了循环网络的效果优于前馈网络.Chu 等[74] 针对MADDPG 算法[73] 扩展性较差的问题,提出了参数共享的MADDPG 算法(PS-MADDPG),并针对不同的应用环境,提出了Actor-critic 网络均共享、Actor 网络共享而Critic网络不共享、Actor 共享而critic 部分共享(共享的部分为公有特征抽取网络,如CNN 层) 等3 种Actor-critic 共享组合架构.

2.7 多Agent 实验平台

强化学习过程需要不断同环境进行交互,环境对强化学习至关重要,相关单位与个人针对多Agent 强化学习研究开发了多种训练平台.

DeepMind 和暴雪公司合作,开发了一个基于星际争霸II 游戏的强化学习平台(StarCraft II learning environment,SC2LE)[75],描述了星际争霸II 中的观察、行动和奖励规范,并提供了一个基于Python 的开源的接口来与游戏引擎进行通信.除了主要的游戏地图之外,该平台还提供了一套专注于“星际争霸II” 游戏的不同元素的迷你游戏.对于主要的游戏地图,还提供了来自人类专业玩家的游戏数据的训练数据集.另外,还给出了从这个数据训练的神经网络的初始基线结果,以预测游戏结果和玩家动作(https://github.com/deepmind/pysc2).当前针对星际争霸游戏的DRL 研究主要集中在单元控制的微操(Micro-management) 层面,多采用状态间双方血线变化作为奖赏.不同的训练结构对状态有不同的表示方法,可分为单元附近状态的局部观测与所有单元的全局观测.Usunier 等[59] 利用全通信自主决策架构,通过参数共享的方式训练单个网络对多个同类Agent 进行控制,使用无梯度估计对策略网络进行更新,相对其他算法,该方法最多可以控制15 个单元.Peng 等[55] 利用双向LSTM 网络,搭建了全通信集中决策架构,集中的网络决策输出每个Agent 的动作,在不同尺度上具有较好的效果,学习的动作部分具有较好的可解释性.Kong等[57] 结合了集中决策和自主决策的优势,采用主-从架构的全通信集中决策架构,在十个以上单位的对抗中,超越了之前的所有算法.Foerster 等[65] 通过指纹法和重要性权重的方法,重用历史经历,采用欠通信的自主决策架构在较小的战斗场景中取得了不错的成绩.在之后的研究中,Foerster 等[71] 使用了集中的Critic 和分散的Actor 架构的Actorcritic 算法,采用反事实的基线获得动作优势函数,解决了多Agent 问题中的信用分配,在欠通信自主决策架构中取得了最好的效果,而且能够控制十个以上的单元.

上海交通大学开发了一种支持多Agent 强化学习研究和发展的MAgent 平台[76],该平台聚焦含成千上万Agent 的任务和应用.在Agent 间的相互作用中,该平台不仅能够开展Agent 最优策略学习的算法研究,而且能够观察和理解AI 社会中出现的个体行为和社会现象,包括沟通语言、领导力、利他主义.同时,MAgent 具有高度的可扩展性,可以在单个GPU 服务器上托管多达一百万个代理,还为AI 研究人员提供灵活的配置,以设计他们的定制环境和Agent,该平台给出了基于欠通信自主决策的独立Q 学习和A2C 的基线算法(https://github.com/geek-ai/MAgent).在MAgent 平台中,Yang 等[61] 构建了混合合作-竞争的战斗游戏,两支包含64 个Agent 的队伍进行对抗,每个Agent 的状态观测来自于全局状态观测,Q 值对自身动作和周围邻居平均动作的组合进行评估,有效的将多体问题转换为二体问题,并使用了平均场Q 学习和平均场AC 同平台的独立Q 学习和A2C 基线算法进行了对比,平均场算法在胜率和累积奖赏值中远超基线算法.Khan 等[77] 在MAgent 平台中构建了合作、竞争以及合竞等3 种多Agent 环境,采用全通信的自主决策架构的分布式多Agent 策略梯度算法,环境中的每个Agent 可以获得其他Agent 的相对位置与速度、静态障碍物的位置,在所有实验中使用包含100 个隐藏单元的两层全连接层对值网络和策略网络进行估计.所有算法同全通信集中决策的A3C 和TRPO 的基线算法进行比较,3 种环境下收敛速度明显优于基线算法.Chen 等[78] 提出了一种全通信自主决策下的多Agent 分散Q 学习架构,将全局观测与联合动作进行分解,利用分解的Agent 的值函数和剩余Agent 的联合值函数获得当前状态的值函数,采用Duling 架构的设计思想,采用分解Agent 的Q 值函数与当前状态值函数获得当前联合动作Q 值函数.在MAgent 平台下的战斗场景中,同基线算法以及平均场Q 学习算法进行了对比,从杀敌数量、单Agent 单步平均奖赏和全体累积奖赏等方面进行分析,该算法架构取得了很好的效果.

Brodeur 等[79] 提出了一个面向人工Agent 的家庭多模态环境(Household multimodal environment,HoME),在逼真的环境下,从视觉、音频、语义、物理以及与对象和其他Agent 的交互等方面进行学习.HoME 基于SUNCG 数据集,集合了超过45 000 种不同的3D 房屋布局,这个尺度可以促进学习,泛化和迁移.该环境是一个开放源代码,与OpenAI Gym 平台兼容,可扩展到强化学习、基于声音的导航、机器人以及多Agent 学习等任务(https://github.com/HoMEPlatform/home-platform).HoME 侧重于室内3D环境下的图像研究,利用该平台进行多Agent 研究的学者较少,但随着图像技术的发展,室内异质多Agent 协同也将是通用人工智能的热点之一.

此外,Facebook AI 研究室提出一个面向即时战略游戏(Real-time strategy game,RTS) 的广泛的、轻量级的和灵活得多的Agent 强化学习平台ELF (Extensive,lightweight and flexible research platform)[80],实现了具有3 种游戏环境(Mini-RTS、夺旗和塔防) 的高度可定制的RTS 引擎.该平台在Environment-agent 通信拓扑,强化学习方法选择游戏参数变化等方面灵活多样,并且可以托管现有基于C/C++的游戏环境,如ALF(Arcade learning environment).同样开发了相应的Python 接口,利用Python 接口可以返回经历样本,方便进行强化学习训练(https://github.com/facebookresearch/ELF).ELF 提供的为两人对抗的视频游戏场景,同Starcraft 相比,Agent 数量较少,不是多Agent 研究的主流,多为对抗游戏的测试环境.

3 MADRL 中的关键问题及其展望

MADRL 决策架构研究对当前MAS 的强化学习决策结构进行了分析与讨论,但MADRL 仍面临着多Agent 训练要素的研究,即构建何种训练结构可以使得Agent 能够不依赖人类知识而由弱到强的进行学习,如何构建合适的模型能够更加准确的描述MAS,针对特定的MAS 采用何种决策架构等;此外,PS 机制虽然使得单个Agent 拥有足量的训练样本,但当前MAS 系统仿真难度大,总体样本数量依然有限,数据效率低,因而,需要利用已有样本对整体样本进行增强,满足训练的样本量需求以及如何提高数据效率; 同时,DRL 训练通常面临着对环境过拟合的问题,而MADRL 则面临着对对手和环境的双重过拟合问题,需要采用对抗机制提高MADRL 算法的鲁棒性; 在自主决策架构中,受限于不完全环境信息,需要充分考虑对手模型,学习对手行为,进而产生协同行为; 另外,当前多Agent 逆强化学习的研究仍是一片空白.本节针对这些实用技术展开分析与研究.

3.1 多Agent 训练要素研究

单个Agent 的DRL 任务,只需要一个环境和部分环境参数,经过一定时间的训练就可以获得“令人满意” 的Agent.多Agent 任务相比单Agent 任务复杂许多,往往包含较多的因素,并且构建复杂的多Agent 环境往往是不切实际的,而真实环境又难以获得DRL 训练所需的大样本.

AlphaGo Zero[7-8] 利用自博弈的学习方式,不依赖人类知识,从零开始,训练出强大的围棋Agent.虽然AlphaGo Zero 是面向单Agent 的强化学习,但从训练过程分析,其采用了竞争环境的多Agent共享参数训练框架,自博弈的双方Agent 共用一套网络参数,增加了训练的样本量,并通过对抗式的训练架构,在19×19 的简单环境中获得了远远超越环境复杂度的强大Agent.在多Agent 学习中,可以使用类似的训练过程.Bansal 等[81] 针对Agent的行为容量受限于环境容量问题,即环境的复杂度限制了训练Agent 的复杂度上限,提出了一种同AlphaGo Zero 相似的对抗式的训练架构,该架构是无模型的强化学习方法,通过从零开始的课程学习,使得带自博弈的对抗多Agent 环境可以训练出远比环境本身更复杂的行为.尽管这种对抗训练方式在单个独立Agent 环境中取得很大成功,在多Agent也取得一些进展,但并没有类似AlphaGo Zero 的重大的突破.

除了对抗学习架构,博弈论方法为多Agent 研究提供了另外一种思路.Lanctot 等[82] 提出了基于近似最优响应的广义MARL 算法,该算法利用联合策略相关性评估策略的泛化能力,将DRL 策略和实证博弈论分析进行混合,计算策略选择的元策略,对自主强化学习、迭代最优响应、Double Oracle 以及虚构对抗等工作进行了泛化研究.

除了训练架构的研究外,对如何构建MADRL的模型也存在一定的讨论.在对序贯决策的任务建模中,MDP 是当前强化学习算法的主要模型,POMDP 则是多Agent 任务中的一种常见模型.但这一模型不是绝对的.演化博弈论同样可以针对MADRL 进行有效建模.在将博弈理论引入MAS的早期研究中,已经建立了一般强化学习和演化博弈论核心的模仿者动态(Replicator dynamics) 间的形式化联系,在Bloembergen 的综述[52] 中,他们对这一关系进行了讨论,采用无限学习率的极限,研究了由此产生的动力学系统,并深入了解了多Agent 系统的行为,如收敛性、稳定性和鲁棒性,对每个均衡的关注点和产生的回报给予额外的关注,同时对预期的联合交互结果进行评估.

在多Agent 任务的3 种决策架构中,集中决策利用集中方法对多Agent 进行协同,具有无法比拟的优势,在实际的问题研究中,业界人士多采用这种架构[16-19,22].但从理论研究上,研究者们更加关注多Agent 自主决策,希望通过学习、设定目标,使得Agent 在执行任务时能够自发形成期望的协同动作.即便在未能预先知晓对手的任务中,训练出自治的Agent 也能够有效、鲁棒的进行协作,对其他对手提供协同辅助.针对这种“点对点” 的协作已开展了部分研究[83-86],但仍留有很大的研究空间,而且在DRL 领域中还没展开该“点对点” 的协作模式.

3.2 样本增强技术研究

在真实系统上应用强化学习,数据采样速度有限,导致强化学习训练样本不足.Huang 等[87] 提出了增强生成对抗网络(Enhanced GAN,EGAN)初始化强化学习Agent,EGAN 利用状态-行为与后继状态-奖赏之间的关系提高由GAN 生成的样本的质量,以实现更快的学习.Kumar 等[88]为更好理解在线商务中顾客与产品间的关系,利用GAN 生成仿真交易订单,针对在线商务交易的特点,对在线订单构建了密集的低维表示,训练出ecGAN (e-Commerce GAN) 验证框架的合理性,并结合条件GAN 生成指定商品的订单.该方法对多Agent 环境中的数据样本生成提供了行之有效的架构.Andersen[89] 在其硕士毕业论文中研究了用于强化学习的人工训练样本生成模型,利用胶囊网络[90],结合条件GAN 对环境中的图片类状态进行了生成,展示了生成数据对DQN 训练的好处.Corneil 等[91] 介绍了变分状态表(Variational state tabulation,VaST),能够将具有高维状态空间(例如视觉输入空间) 的环境映射到抽象表格环境,使用高效的优先扫描规划方法更新状态操作值.Nishio等[92] 提出了结合神经情景控制(Neural episodic control)[93] 的NEC2DQN 架构,在学习的初始阶段,加速了样本匮乏任务的学习速度.这些方法使用现有的GAN 技术对样本进行生成,并不依赖环境的真实动态性,适用于经历重放机制下的强化学习算法.

上述方法关注于样本的真伪,虽然也有考虑生成样本间的相关性,但并没有考虑环境本身的转移关系.在DRL 研究中,无模型方法数据利用低效,仅仅使用了转移中的奖赏信号,忽视了样本的转移过程; 基于模型的方法有较高的数据效率,但所获得的策略往往不是最优解.Ha 等[94] 将无模型和基于模型的方法进行结合-“世界模型”,利用少数转移样本,通过混合高斯分布的RNN 学习了虚拟环境模型,在虚拟环境中利用进化算法求解策略取得很好的效果.在此基础上,相关学者[95-97] 将“世界模型” 概念推广到更广阔的环境中进行验证,这种梦境下的学习弥补了Agent 同环境的多频次交互.这一学习方式,为克服多Agent 环境中样本不足提供了一种解决思路,但是如何对多Agent 环境中的非平稳性进行刻画,还留有相当大的研究空间.

3.3 鲁棒性研究

在MAS 中,仿真环境同现实环境的差距巨大,这一困境导致在仿真环境中的策略学习的结果难以迁移; 另外,即使策略的学习样本来自于现实环境,学习数据的不足也使得强化学习难以收敛.Pinto等[98] 利用存在对抗对手的环境,对Agent 进行对抗训练操作,对手的对抗性随Agent 能力增强而增强以此提高Agent 的鲁棒性.Pattanaik 等[99] 发现即便很简单的干扰,都会使得DRL 算法性能大幅衰退,针对该问题他们提出了对抗攻击的强化学习算法,设计了简单扰动和基于梯度扰动的两种扰动方式,并对DQN 和DDPG 情况下的扰动以及对抗训练进行了研究,提高算法在参数不确定环境中的鲁棒性.Mhamdi 等[100] 认为在仿真中可能产生的中断是学习过程的一部分,Agent 要有能力在安全的中断中进行学习,并将这些影响它们奖励的干扰与特定的状态联系起来,从而有效避免中断,在联合行动学习者和自主学习者两个学习框架中研究这个概念,并对动态安全可中断性进行了定义,实验证明如果Agent 可以检测到中断,那么即使对于自主学习者,也可以修剪状态以确保动态安全中断.上述研究通过建立带有扰动的环境提高Agent 的鲁棒性.现有研究认为在有限的时间内,DRL 总能在单Agent 任务中寻找到较优的策略,这一学习过程的本质是对训练环境的过拟合,因而在DL 用于克服过拟合的方法在单Agent 的DRL 任务中仍旧适用.而在多Agent 研究中的过拟合问题更加严重,不仅存在对环境的过拟合,同样也存在着对对手的过拟合.双重过拟合问题是MADRL 中的一大难点,决定着MAS 能不能进行可靠的应用.

另外,从迁移学习派生出来的信息也可以推广到多Agent 情景来克服MADRL 的弱鲁棒性,如课程学习.迁移学习算法利用学习中获得的经历来对模型进行泛化,以改善Agent 在不同但相关的任务中的学习效果.迁移泛化能力在非平稳环境中的表现尤为重要,特别是多Agent 中对抗对手模型变化带来的环境的不可预知的变化(协同Agent 的策略变化处于一种可获知的变化).例如,如果对手经常发生变化,已有的先验信息(以模型、规则或策略等形式)将有助于快速制定Agent 的策略.在现有的多Agent 学习中,重复使用对手过去的策略也有体现,是当前克服模型过拟合的一种通用手段[63,81,101].现有技术适用于单个独立的Agent,重用迁移不同Agent 的信息仍是一个有待解决的问题,向Agent提供建议也是一个待发展的方向.

此外,在MAS 中,环境中的Agent 在交互中产生和消亡也是可能的(例如,星际争霸游戏中己方Agent 死亡),这将影响环境以及其他Agent 的策略.针对这类场景,是将每个可能消失/产生的Agent 单独建模,或者利用参数共享,搭建可扩展的训练架构[55,59-60,71,102-103].同时,在大多数多Agent 学习算法中通常假定Agent 间的交互在所有的Agent间同时发生.然而,在现实世界的情况下,情况并非总是如此,这种通信交互往往是异步的,而不同的Agent 具有不同的响应时间.目前的学习算法能否在这些条件下工作仍然是一个悬而未决的问题.

与数量较大的Agent 进行交互往往带来很大的问题,因而现有的大多数算法在环境中仅设置了较少的Agent 进行算法验证.然而,将这些算法应用到大规模Agent 环境中,往往面临着无法适应的问题.为了获得高效和可扩展的算法,人们需要牺牲某些细节,更加关注Agent 对整体最佳响应,而不是个体Agent 的最佳响应.想要克服这一问题,可以通过确定Agent 间交互的程度,考虑Agent 是否应该同某一Agent 进行交互、还是仅将其当作环境的一部分而不进行交互[63,104].

3.4 对手建模研究

在多Agent 任务中,存在着动作探索的风险.当多Agent 同时进行探索时,各Agent 都要面临这种噪声,往往造成全盘皆输的局面.同样的问题也出现在多Agent 深度强化学习设置中[59],在不能进行通信协调的任务中,该问题显得更加复杂.而且在MAS 中,Agent 是多种多样的,在多Agent 系统中可能包含着各种各样的Agent,它们的目标、感知以及奖赏都有可能是不同的.这种混杂的多Agent任务为最优行动的学习带来了极大的挑战.在多Agent 决策中,需要考虑对队友与对抗对手的理解.在全通信中,Agent 通过通信完成了对己方协同Agent 的行为推断,但对对抗Agent 仍需要进行观察与学习; 在欠通信中,Agent 不仅要对协同Agent的行为进行分析与判断,同时也要考虑对抗Agent的行为,对其进行分析与预测.Lowe 等[105] 利用对手的历史行为对对手的策略进行推断,通过最大化对手Agent 的动作概率来近似对手策略,定义损失函数为

其中oj 和aj 表示待近似的Agentj 的观测和实际执行动作,

表示对于决策Agenti 而言的对手Agent j 的近似策略,H 表示策略分布的熵.Rabinowitz等[106] 提出了一种使得机器可以学习他人心理状态的心智理论神经网络(Theory of mind network,ToMnet),通过观察Agent 的行为,使用元学习对它们进行建模,得到一个对Agent 行为具备强大先验知识的模型,该模型能够利用少量的行为观测,对Agent 特征和心理状态进行更丰富的预测.如图11所示,特征网络从POMDP 集合中解析Agent 过去的轨迹,从而形成嵌入表示echar.心理状态表示网络的心智网络解析当前片段中Agent 的轨迹,形成心理状态嵌入emental.然后,这些嵌入被输入至预测网络Prediction net,结合当前状态对Agent 未来行为进行预测,如下一步动作概率

、特定对象被消耗的概率

和预测后继者表示

图11 心智网络
Fig.11 Mind theory neural network

上述对手建模研究聚焦于建立概率模型和参数化策略,He 等[107] 提出了同步学习对手策略和模型的神经网络模型,将对手观测嵌入编码输入DQN中,而不是显式地预测对手动作.使用混合专家架构,无需额外的监督信息即可发现多种策略,并利用估计权重对多个策略Q 值进行加权求和,进而获得最优的行动.Foerster 等[108] 针对合作-竞争的多Agent 学习环境,提出与对手-学习意识(Learning with opponent-learning awareness,LOLA)的学习方法,该模型考虑对手策略的策略更新方式,推理其他Agent 的预期学习,通过对状态值V 1(θ1,θ2 +Δθ2)≈V 1(θ1,θ2)+(Δθ2)T∇θ2V 1(θ1,θ2) 进行一阶泰勒展开,获得决策Agent 的值函数梯度,针对合作对手和竞争对手采用两种不同的更新方式.Hong等[109] 根据预测对手动作的网络,从隐藏层中提取对手的行动意图作为决策依据,设计适应性的损失函数调整训练的关注点,并将RNN 架构引入Q网络的训练中,提出了深度循环策略推断Q 网络(Deep recurrent policy inference Q-network,DRPIQN).Raileanu 等[110] 提出自主对手建模(Self other-modeling,SOM),通过观测对手行动,根据已有的行动意图集以及单独的神经网络在线构建对手模型,判断对手的意图,最终结合当前状态以及自我意图进行决策.

在上述学习算法中往往假设知晓对手的相关域知识,如可正确描述对手观测的属性和特征,然而现实世界中,总有许多事情是不可预知的,总有些实体是不期而遇的.在这种情况下,可以构建一组已知的不确定对手特征表示,通过特定的概率分布来推断正确的对手行为.同样也可以采用多任务学习,构建多个可能的环境和对手对Agent 进行训练.然而在执行中,仍会存在一些之前没有遇到过的对手,不可能构建一个包含全体要素的环境,但现实的世界却有着种种不可预知的要素,如何克服这种不确定性为系统带来的风险,也是值得研究的一个方向.

4 结论

尽管DRL 在一些单Agent 复杂序列决策任务中取得了卓越的效果,但多Agent 环境下的学习任务中任然面临诸多挑战,另一方面,人类社会中很多问题都可以抽象为复杂MAS 问题,所以,在这个领域需要进一步地深入探索.现有多Agent 学习综述多同博弈论关联,但伴随着DRL 的产生与发展,国内外尚没有一份关于MADRL 的综述.我们通过总结近些年深度强化学习以及多Agent 深度强化学习方面的论文,从训练架构以及实现技巧方面着手,撰写此文.MADRL 是DRL 在多Agent 领域的扩展.本文首先对强化学习的基本方法以及DRL 的主要方法进行了介绍与分析; 在此基础上,从通信和决策架构方面对MADRL 进行分类,抽象为全通信集中决策、全通信自主决策、欠通信自主决策三类,并对一些开放的多Agent 训练环境进行了简要介绍; 然后,对多Agent 深度强化学习中需要用到的实用技术进行了分析与讨论,包含多Agent 训练框架、样本增强、鲁棒性以及对手建模等一些关键问题,并根据对这些关键问题的认识,给出MADRL 领域的发展展望,对仍待研究的问题进行了探讨.

随着深度强化学习的继续发展,在MAS 中的应用以及研究也将越来越广泛,但其训练和执行方式也将属于这3 种形式之一.我们的研究旨在对当前的MADRL 研究现状进行整理与归纳,为希望将DRL 应用于MAS 的学者或机构提供一份可供参考的概览.

审核编辑：符乾江

阅读全文

机器学习(130422) 机器学习(130422)
大数据(136504) 大数据(136504)
深度学习(119795) 深度学习(119795)

Zebra Aurora深度学习OCR算法荣获CAIMRS颁发的自动化创新奖

在第二十二届中国自动化及数字化年度评选活动中，Zebra Aurora深度学习OCR算法获得了由中国自动化及数字化产业年会(简称CAIMRS)颁发的自动化创新奖。

2024-03-20 16:35:15

155

什么是电化学电容器？电化学超级电容器有什么特点？

什么是电化学电容器？电化学超级电容器有什么特点？电化学电容器是一种储能装置，它利用电化学反应将电能转化为化学能，进而存储电荷。与传统的电容器相比，电化学电容器具有更大的能量储存能力和更高的功率密度

2024-03-05 16:30:07

155

Sora与世界模型：为何它未能成为全面代表？

当AI领域中讲到世界/world、环境/environment 这个词的时候，通常是为了与智能体/agent 加以区分。研究智能体最多的领域，一个是强化学习，一个是机器人领域。

2024-02-29 12:37:07

423

OLED材料厂商九目化学开启上市辅导

近日，烟台九目化学股份有限公司（以下简称“九目化学”）已在山东证监局进行了辅导备案，正式开启IPO之路。

2024-02-26 14:24:12

267

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的行为策略。

2024-02-20 09:55:35

344

碳化硅晶片的化学机械抛光技术研究

材料去除的影响。重点综述了传统化学机械抛光技术中的游离磨料和固结磨料工艺以及化学机械抛光的辅助增效工艺。同时从工艺条件、加工效果、加工特点及去除机理 4 个方面归纳了不同形式的化学机械抛光技术，最后对碳化硅的化学机械抛光技术的未来发展方向进行了展望，并对今后研究的侧重点提出了相关思路。

2024-01-24 09:16:36

431

两种端到端的自动驾驶系统算法架构

基于学习的自动驾驶是一个活跃的研究领域。采用了一些基于学习的驾驶方法，例如可供性和强化学习，取得了不错的性能，模仿方法也被用来回归人类演示的控制命令。

2024-01-18 09:33:39

306

CASAIM与LG化学越南工厂达成全自动化智能测量技术合作，助力汽车锂电池相关零部件全自动化测量及质量管控

近日，CASAIM与LG化学越南工厂达成全自动化智能测量技术合作，CASAIM将为LG化学越南工厂提供最新一代的CASAIM-IS全自动化测量系统解决方案，助力LG化学越南工厂实现汽车锂电池相关

2024-01-16 15:47:43

深度解析ADuCM355+LTC6078 电化学测量系统

为了使电化学传感器工作，需要搭建的电路系统被称为恒电位电路。以三端式电化学气体传感器为例，如图所示。需要搭建的电路包括偏置电压源、电位保持、电流转电压、滤波、模数转换等，再送入MCU中进行数据处理。

2024-01-06 10:34:25

902

RL究竟是如何与LLM做结合的？

强化学习（Reinforcement Learning, RL）的核心概念可简单概括为：一个机器人（Agent）在看到了一些信息（Observation）后，自己做出一个决策（Action），随即根据采取决策后得到的反馈（Reward）来进行自我学习（Learning）的过程。

2024-01-03 16:34:07

668

电化学阻抗谱在燃料电池不同尺度上的应用

随着电信号采集和分析技术的发展成熟，电化学阻抗谱（Electrochemical impedance spectroscopy，EIS）测量技术在燃料电池领域得到了广泛的应用。EIS是一种用于表征

2023-12-25 17:14:39

271

揭秘pcb是什么物质：你不知道的“化学战士”

2023-12-14 10:27:30

302

LabVIEW开发新型电化学性能测试设备

。LabVIEW使用户能够灵活地设计和执行实验测试，提高了测试过程的自动化和精确度。硬件设计：微控制器单元（MCU）：使用Arduino DUE，采用32位ARM架构。数字模拟转换器（DAC）和模拟数字

2023-12-10 21:00:05

cmp工艺是什么？化学机械研磨工艺操作的基本介绍

化学机械研磨工艺操作的基本介绍以及其比单纯物理研磨的优势介绍。

2023-11-29 10:05:09

348

Neuro-T：零代码自动深度学习训练平台

友思特 Neuro-T为传统的深度学习视觉检测方案提供了“自动深度学习”的解决方案，结合自动标注功能，一键生成高性能视觉检测模型，无需AI领域专业知识即可创建深度学习视觉检测模型。

2023-11-24 17:58:33

242

微流控纺丝化学综述与展望

微流控技术是一项能够对微通道中的流体进行精确和系统操纵的先进技术。该技术能够在微平台上灵活组合多功能组件，在微流控芯片内实现微流控纺丝化学反应，与传统纺丝方法相比，此纺丝过程不再是一种物理牵伸的过程，而是一个纺

2023-11-19 16:05:19

549

深度学习技术与边缘学习技术的不同之处

如今，AI技术的广泛应用已经成为推动制造和物流领域自动化的核心驱动力。康耐视所推出的深度学习和边缘学习技术，这两种基于AI的技术，在工业自动化领域有着广泛的应用前景。然而，由于这两种技术在研发

2023-11-17 10:44:29

242

电化学传感器的设计

德赢Vwin官网网站提供《电化学传感器的设计.pdf》资料免费下载

2023-11-16 16:13:14

自动化图像测量仪

中图仪器VX8000自动化图像测量仪改变了影像仪采用光栅尺测量的定律，采用远心成像技术+高像素工业相机结合，并采用智能算法，从而达到快速测量的效果。VX8000自动化图像测量仪具有操作简单、测试

2023-11-10 13:35:07

机器人和自动化学习机会

Hine Automation和ROOTS Education在合作创造主题更加相关、更易获得的机器人和自动化学习机会。此次合作是一项积极举措，旨在确保半导体行业拥有所需的训练有素的劳动力，以解决技能短缺问题并在未来几年蓬勃发展。

2023-11-07 16:08:42

150

中科慧眼荣获2023中国自动化学会技术发明奖二等奖

近日，中科慧眼核心团队以“智能汽车双目感知系统”项目荣获2023中国自动化学会（CAA）技术发明奖二等奖。

2023-11-01 18:27:51

457

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1042

分享一款能连arduino仿真的电化学软件

分享一款能连arduino仿真的电化学软件，能模拟多种检测方法，适合仿真环境文件如下：

2023-10-10 06:52:48

深度学习的由来深度学习的经典算法有哪些

深度学习作为机器学习的一个分支，其学习方法可以分为监督学习和无监督学习。两种方法都具有其独特的学习模型：多层感知机、卷积神经网络等属于监督学习；深度置信网、自动编码器、去噪自动编码器、稀疏编码等属于无监督学习。

2023-10-09 10:23:42

301

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

2023-10-02 10:45:02

401

基于一种增强型光谱电化学装置

光谱电化学（SEC）测量在分析化学中起着至关重要的作用，利用透明或半透明电极对电化学过程进行光学分析。电化学读数提供了有关电极状态的信息，而透射光谱的变化有助于识别电化学反应的产物。据麦姆斯咨询

2023-09-26 09:11:38

645

耐化学试剂试验

服务内容广电计量是国内盐雾试验能力较完善的权威检测认证服务机构之一，为您提供专业的耐化学试剂试验和产品评价。服务范围本商品可提供针对汽车零部件、电动工具、家用电器、信息技术设备、医疗设备、电源设备

2023-09-21 16:55:57

化学机械抛光(CMP) 技术的发展应用及存在问题

性能和速度上同时满足了圆片图形加工的要求。CMP 技术是机械削磨和化学腐蚀的组合技术 , 它借助超微粒子的研磨作用以及浆料的化学腐蚀作用在被研磨的介质表面上形成光洁平坦表面[2、3] 。CMP 技术对于

2023-09-19 07:23:03

能连arduino仿真的电化学软件

德赢Vwin官网网站提供《能连arduino仿真的电化学软件.zip》资料免费下载

2023-09-18 09:25:26

化学品酸碱输送供应管道为什么要选择华林科纳PFA管？

很多半导体、光伏行业的制造企业在选择化学品酸碱输送供应管道时，都喜欢选择华林科纳的高纯PFA管，选择华林科纳生产的高纯PFA管作为化学品酸碱输送供应管道有以下几个重要原因： 1、优异的化学稳定性

2023-09-13 17:29:48

266

琅菱涂料自动化产线的优势

涂料指的是能够包裹在被涂覆材料的表面，形成保护、装饰等作用的连续薄膜，它的成分通常含有油脂、树脂等内容，还会选择是否添加辅助剂、颜料等合成类化学元素。涂料自动化产线是集乳化、分散研磨、细化冷却、过滤

2023-09-06 18:04:24

319

一文详解机器学习和深度学习的区别

深度学习这几年特别火，就像5年前的大数据一样，不过深度学习其主要还是属于机器学习的范畴领域内，所以这篇文章里面我们来唠一唠机器学习和深度学习的算法流程区别。

2023-09-06 12:48:40

1174

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

2023-09-04 14:26:36

294

半导体工艺里的湿法化学腐蚀

湿法腐蚀在半导体工艺里面占有很重要的一块。不懂化学的芯片工程师是做不好芯片工艺的。

2023-08-30 10:09:04

1705

九目化学拟分拆上市拓宽OLED材料产业融资渠道

“九目化学主要从事OLED升华前材料及其他功能性材料业务，近年来九目化学的相关业务持续发展，目前九目化学为业内领先的OLED升华前材料企业。”万润股份介绍，为深入贯彻落实国务院国有资产监督管理委员会关于提高央企控股上市公司质量的有关要求

2023-08-22 15:05:16

455

研发电化学和电化学发光双模式适配体传感器！

传感新品【石河子大学：研发电化学和电化学发光双模式适配体传感器！】研究内容交链孢酚(AOH)是丝状真菌产生的次生代谢产物，常见于水果、蔬菜和粮食作物中。它是一种不可避免的食品污染物，对植

2023-08-21 17:18:04

845

机器学习和深度学习的区别

机器学习和深度学习的区别随着人工智能技术的不断发展，机器学习和深度学习已经成为大家熟知的两个术语。虽然它们都属于人工智能技术的研究领域，但它们之间有很大的差异。本文将详细介绍机器学习和深度学习

2023-08-17 16:11:40

2718

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么随着人工智能的飞速发展，越来越多的人开始投身于深度学习领域。但是，随着深度学习的算法越来越复杂，需要更大的计算能力才能运行

2023-08-17 16:11:29

489

深度学习框架和深度学习算法教程

深度学习框架和深度学习算法教程深度学习是机器学习领域中的一个重要分支，多年来深度学习一直在各个领域的应用中发挥着极其重要的作用，成为了人工智能技术的重要组成部分。许多深度学习算法和框架提供

2023-08-17 16:11:26

637

深度学习框架对照表

的深度学习框架，并对它们进行对比。 1. TensorFlow TensorFlow是由Google Brain团队开发的一款深度学习框架，目前是深度学习领域中最常用的框架之一。 TensorFlow 主要的优势是其可扩展性和丰富的社区支持，拥有非常强大的计算图优化、自动微分

2023-08-17 16:11:13

456

深度学习框架的作用是什么

深度学习框架的作用是什么深度学习是一种计算机技术，它利用人工神经网络来模拟人类的学习过程。由于其高度的精确性和精度，深度学习已成为现代计算机科学领域的重要工具。然而，要在深度学习中实现高度复杂

2023-08-17 16:10:57

1070

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速地构建和训练深度神经网络模型。与手动编写代码相比，深度学习框架可以大大减少开发和调试的时间和精力，并提

2023-08-17 16:03:09

1585

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑神经元的计算模型。深度学习是机器学习的一种变体，主要通过变换各种架构来对大量数据进行学习以及分类处理

2023-08-17 16:03:04

1299

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动学习技术，可以从数据中学习高层次的抽象模型，以进行推断和预测。深度学习广泛应用于计算机视觉、语音识别、自然语言处理

2023-08-17 16:02:59

984

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习算法简介深度学习算法是什么?深度学习算法有哪些? 作为一种现代化、前沿化的技术，深度学习已经在很多领域得到了广泛的应用，其能够不断地从数据中提取最基本的特征，从而对大量的信息进行机器学习

2023-08-17 16:02:56

5989

深度学习的七种策略

深度学习的七种策略深度学习已经成为了人工智能领域的热门话题，它能够帮助人们更好地理解和处理自然语言、图形图像、语音等各种数据。然而，要想获得最好的效果，只是使用深度学习技术不够。要获得最好的结果

2023-08-17 16:02:53

1166

深度学习基本概念

深度学习基本概念深度学习是人工智能（AI）领域的一个重要分支，它模仿人类神经系统的工作方式，使用大量数据训练神经网络，从而实现自动化的模式识别和决策。在科技发展的今天，深度学习已经成为了计算机

2023-08-17 16:02:49

979

GA-ASI自主作战无人机生态系统介绍

基于深度强化学习的签名管理技能由GA-ASI开发。技能开发利用了GA-ASI新颖的强化学习（Reinforcement Learning，RL）架构，该架构使用了敏捷软件方法和行业标准工具（例如Docker和Kubernetes）。

2023-08-17 11:34:29

440

AI、机器学习和深度学习的区别及应用

深度学习和神经网络的区别在于隐藏层的深度。一般来说，神经网络的隐藏层要比实现深度学习的系统浅得多，而深度学习的在隐藏层可以有很多层。

2023-07-28 10:44:27

296

基于模型的自动驾驶汽车端到端深度强化学习概述

真实驾驶场景中，通过观察和互动，使智能驾驶汽车能够积累知识并应对不可预测的情况。我们将智驾汽车的这种对世界运作方式称为“常规认知”，它使智能汽车能够找到自己的方向。

2023-07-25 16:18:22

218

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智能

2023-07-24 16:55:02

295

什么是深度强化学习？深度强化学习在自动驾驶领域的应用

最近，人工智能领域最火的莫过于大模型了。

2023-07-24 10:37:41

1005

基于深度学习的点云分割的方法介绍

　　摘要：点云分割是点云数据理解中的一个关键技术，但传统算法无法进行实时语义分割。近年来深度学习被应用在点云分割上并取得了重要进展。综述了近四年来基于深度学习的点云分割的最新工作，按基本思想分为

2023-07-20 15:23:59

48.5 5 强化学习（AlphaGo下） #硬声创作季

机器学习

充八万发布于 2023-07-20 03:48:44

基于强化学习的目标检测算法案例

强化学习的目标检测算法。首先，深度强化学习agent根据初始候选区域所提取的信息决定相应搜索行动，根据行动选择下一个逼近真实目标的候选区域；然后，重复上述过程，直至agent能确定当前区域为目标区域时终止搜索过程；最后，

2023-07-19 14:35:02

强化学习 - 无模型设定(3)#人工智能

人工智能

未来加油dz发布于 2023-07-18 23:00:40

强化学习 - 无模型设定(2)#人工智能

人工智能

未来加油dz发布于 2023-07-18 23:00:17

强化学习 - 无模型设定(1)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:59:54

基于模型的强化学习(2)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:56:51

基于模型的强化学习(1)#人工智能

人工智能

未来加油dz发布于 2023-07-18 22:56:20

陶氏化学工厂爆炸牵动半导体关键耗材生产

陶氏化学公司是粘合剂，辅助剂等在内的多种材料提供的高纯度化学产品生产线的半导体核心化学材料的主要供应商，也供应全球重要的CMP材料包括抛光垫、抛光液等。

2023-07-18 09:59:07

613

深度学习工业应用:关于缺陷检测机器自动化方面

随着机器学习，深度学习的发展，很多人眼很难去直接量化的特征，深度学习可以搞定，这就是深度学习带给我们的优点和前所未有的吸引力。

2023-07-17 12:55:43

280

48. 5 5 强化学习（AlphaGo下） #硬声创作季

机器学习

充八万发布于 2023-07-07 01:59:56

47. 5 4 强化学习（AlphaGo上） #硬声创作季

机器学习

充八万发布于 2023-07-07 01:58:46

46. 5 3 强化学习policygradient和actor critic #硬声创作季

机器学习

充八万发布于 2023-07-07 01:57:36

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万发布于 2023-07-07 01:56:26

深度学习低光图像增强综述（译）

较差的环境中捕获的图像的感知或可解释性。该领域的最新进展以基于深度学习的解决方案为主，其中采用了许多学习策略、网络结构、损失函数、训练数据等。在本文中，

2023-07-03 14:43:46

1972

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

2023-07-01 10:29:50

1000

电化学研究领域巨人锂离子电池之父、诺贝尔化学奖得主约翰·B·古迪纳夫逝世

电化学研究领域巨人锂离子电池之父、诺贝尔化学奖得主约翰·B·古迪纳夫逝世 2023年6月26日，电化学研究领域巨人锂离子电池之父、诺贝尔化学奖得主约翰·古迪纳夫逝世；哀默！在1997年，75

2023-06-27 12:00:58

735

人工智能强化学习开源分享

德赢Vwin官网网站提供《人工智能强化学习开源分享.zip》资料免费下载

2023-06-20 09:27:28

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

2023-06-19 10:49:27

357

氧气传感器在化学工业中的应用

化学工业（chemical industry）又称化学加工工业，泛指生产过程中化学方法占主要地位的过程工业。化学工业是从19世纪初开始形成，并发展较快的一个工业部门。化学工业在许多国家的国民经济

2023-06-16 10:28:14

255

深度Q学习网络：弥合从虚拟游戏到实际应用的差距

人工智能（AI）和机器学习（ML）对从医疗保健和金融到能源和运输的广泛行业产生了深远的影响。在各种人工智能技术中，强化学习（RL）——一种机器学习，代理通过与环境交互来学习做出决策——已成为

2023-06-15 09:45:34

200

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

2023-06-12 11:25:22

1214

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

，可以节省至多 95% 的训练开销。深度强化学习模型的训练通常需要很高的计算成本，因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。然而现有的生成小型模型的方法主要基于知识蒸馏，即通过迭

2023-06-11 21:40:02

356

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

Python怎么实现自动驾驶

一、安装环境 gym是用于开发和比较强化学习算法的工具包，在python中安装gym库和其中子场景都较为简便。安装gym： pip install gym 安装自动驾驶模块，这里使用Edouard Leurent发布在github上的包highway-en

2023-06-07 14:35:06

化学粉料自动包装机自动包装秤定量包装 #自动包装机

自动化

安丘博阳机械发布于 2023-06-06 16:32:35

Python实现自动驾驶

今天来一个好玩一点的，汽车已经能够自动驾驶了，Python怎么能没有呢？这不，必须安排上。一、安装环境 gym是用于开发和比较强化学习算法的工具包，在python中安装gym库和其中子场景都较为

2023-06-06 10:43:21

电化学传感器原理及应用全面了解电化学与化学传感器

电化学传感器是通过电化学反应过程的电信号（一般包括电位、电流、阻抗等）对待测对象进行检测的一种化学分析技术。电化学传感器因其对特殊靶标例如血糖、尿酸、乳酸等代谢物、血气、农药残留、重金属离子

2023-05-31 08:39:00

2350

机器学习笔记之优化-拉格朗日乘子法和对偶分解

优化是机器学习中的关键步骤。在这个机器学习系列中，我们将简要介绍优化问题，然后探讨两种特定的优化方法，即拉格朗日乘子和对偶分解。这两种方法在机器学习、强化学习和图模型中非常流行。

2023-05-30 16:47:17

1333

固定电势在电化学反应中的应用

在电化学界面反应过程中，由于电化学反应界面通常与恒定电极电势的外电极相连，为确保电子的化学势与外电极的电势达到平衡

2023-05-26 09:44:43

1080

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

2023-05-18 16:46:43

2444

深度学习边缘计算综述论文阅读笔记

这是一篇关于深度学习和边缘计算基础知识的综述，包含了深度学习DL的几种网络模型的介绍，边缘计算的基础知识的介绍，以及二者的结合，如何利用DL来发展边缘计算，如何用边缘计算发展DL,怎么在边缘计算

2023-05-18 14:36:25

机器视觉和深度学习在自动检查领域的应用

人工智能最终将改变游戏规则，几乎在每个领域中都有无数的应用程序。现在，它正在进入生产和制造领域，从而可以利用深度学习的力量，并在此过程中提供更快，更便宜，更优越的自动化。

2023-05-06 16:22:56

341

智造之眼丨深度学习应用

智造之眼®科学设计深度学习各应用流程，在尽量简化前期准备工作的基础上为客户提供稳定且准确的深度学习解决方案。

2023-05-04 16:55:52

424

机器学习算法：监督学习和强化学习

垃圾邮件识别需使计算机“学会”识别某个邮件是否为垃圾邮件。为实现计算机识别垃圾邮件，开发人员需搜集较多的垃圾邮件和非垃圾邮件，并“告诉”计算机各个邮件分属于垃圾邮件或非垃圾邮件。

2023-04-24 12:49:02

606

模拟前端设计增强电化学传感性能

德赢Vwin官网网报道（文/李宁远）目前应用的传感器里以半导体技术、电化学技术和光学技术为主。电化学技术是利用待测物的电化学性质，将待测物化学量转变成电学量进行传感检测的一项技术。电化学传感很早之前

2023-04-24 01:17:00

1152

化学金沉积过程的研究综述

化学镀镍和铜工艺的应用对导体和绝缘体的金属化技术产生了深远的影响。印刷电路工业实际上是建立在无电镀铜以不均匀的金属厚度覆盖绝缘体和导体的能力上的；同时，化学镀镍不仅广泛用于涂覆复杂几何形状的物品，而且用于赋予由各种其他金属和合金制成的部件硬度和耐磨性的工程特性。

2023-04-21 10:08:59

445

酸性化学品供应控制系统

[技术领域] 本实用新型涉及半导体制造技术领域，具体地说是一种酸性化学品供应控制系统。由于半导体行业中芯片生产线的工作对象是硅晶片，而能在硅晶片上蚀刻图形以及清洗硅晶片上的杂质、微粒子的化学

2023-04-20 13:57:00

悉尼大学最新综述：深度学习图像抠图

自深度学习出现之后，研究者设计出了多种多样的基于卷积神经网络的解决方案。和传统方法一样，早期的深度学习方法依然需要依赖一定量的人工辅助信息，例如三分图（trimap），涂抹（scribble），背景图像等等

2023-04-20 09:31:43

399

自动化编程要学多久自动化编程的就业方向

学习自动化编程的时间取决于多方面的因素，例如个人的学习能力、基础知识掌握程度、学习的深度和广度等。一般而言，如果你要学习自动化编程，建议进行以下几个步骤：　　1. 学习相关基础知识

2023-04-19 15:52:42

3033

自动化技术学什么自动化技术员工作内容

自动化专业是学电路知识、数字电子技术、自动控制原理、计算机技术和软件技术等。　　自动化专业需要学习的基本知识：自动化控制理论、电路原理、电力电子技术、数字电子技术、信号与系统分析、传感器技术、网络与通信技术、高级语言程序设计以及化学工程、力学和管理学等方面的知识。

2023-04-19 15:37:29

1930

利用有机电化学晶体管放大微弱的生物化学信号

人体内的生物化学信号通常非常微弱，很难直接进行检测和分析。据麦姆斯咨询报道，美国西北大学（Northwestern University）的研究人员基于有机电化学晶体管开发了一种新方法

2023-04-15 09:38:24

1267

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

2023-04-11 14:57:12

5334

基于多智能体强化学习的自主移动机器人实时订单调度

订单调度，提出了一种使用多agent强化学习的方法，其中AMRagent根据各自的观察学习对订单进行投标。在机器人仿真环境中研究了该方法。结果表明，与常用的调度规则相比，该算法的订单分配效率更高。

2023-04-11 10:59:24

华为MatePad 11英寸 2023款首销：突破性柔光屏解决大学生无纸化学习痛点

综合来看，华为MatePad 11英寸 2023款柔光版基于一系列的屏幕技术创新和场景实验调试，成功打造出防眩光无反射、纸感读写的柔光屏，让无纸化学习有如神助……

2023-03-31 17:24:04

688

哪些因素能影响应用的电池化学选择呢？

　　许多嵌入式电路和设备依靠电池供电，其中许多设备使用可能需要更换的原电池。其他嵌入式设备是可充电的，并使用二次电池来保持供电。　　为给定电路或应用选择电池类型、化学成分或封装并不困难。优缺点以及

2023-03-29 15:47:44

看好“化学发光+微流控技术”，IDG加持科瑞达生物

旗下CORESTAR-100系列产品，运用微流控技术实现化学发光免疫分析流程芯片化，达成单芯片解决“样本处理+检验分析”全流程闭环，方寸之间，满足临床检验“样本进，结果出”的自动化检验需求，且具有结果精准、检验快速、操作简单、成本同类最低等优势。

2023-03-27 13:52:53

765

基于机器学习的水体化学需氧量高光谱反演模型对比研究

引言化学需氧量(COD)是以化学方法测量水样中需要被氧化的还原性物质的量。水样在一定条件下的COD以氧化1升水样中还原性物质缩小化的氧化剂的量为指标，折算成每升水样全部被氧化后，需要的氧的毫克

2023-03-23 09:58:43

733

已全部加载完成

搜索历史

《自动化学报》—多Agent深度强化学习综述

评论