(文章来源:教育新闻网)
Facebook AI研究人员的一个团队最近开发了一种算法,即“其他游戏(OP)”,该算法构建的策略可以使未经其他代理商训练的代理商获得高回报(零镜头协调的一种形式)。如果要求不高,这项工作可以大大提高自动驾驶汽车的性能,自动驾驶汽车利用零击协调在道路上的障碍物和驾驶员周围导航。
研究人员研究了马尔可夫游戏,即仅依赖于以一种或另一种方式总结游戏历史的变量的游戏。(例如,变量可以是重复游戏中的当前游戏,也可以是最近游戏序列的任何解释。)游戏是部分可观察的,并且其玩家(由AI驱动的特工)共享以联合奖励为条件的奖励他们采取的行动和游戏状态。因此,目标是使期望收益最大化。
在实验中,该团队将OP(它使用问题描述来协调代理人而不是动作标签)应用于一种杠杆游戏,其中要求代理人从10个杠杆中选择一个来与未知的陌生人进行协调。他们说,在训练阶段和测试时间,OP代理与其他OP代理配对时都执行零击协调。相比之下,互相竞争以发现策略的自我扮演代理在训练阶段获得了较高的回报,但未能与其他独立训练的自我扮演代理进行协调。
接下来,研究人员将OP应用于合作式纸牌游戏Hanabi。在哈纳比(Hanabi),从总共有五张牌的一手牌中发给玩家。每回合,他们必须(1)在另一位玩家的手上露出纸牌的花色或号码,(2)丢弃纸牌,或(3)玩一张尚未打过的花色为“ 1”的纸牌或下一顺序号的西装是已被播放。我们的目标是通过每套打出的最高张牌的价值来获得最高分-这项任务比听起来要更具挑战性。公开有关卡的信息消耗了八个可用信息令牌之一,只能通过丢弃或成功打出“ 5”的任何西装来补充。同时,打牌失败会消耗三种可用之一融合令牌。
根据研究人员的说法,OP改善了交叉游戏,从而消除了自游戏中出现的“不人道”惯例,这对于人类来说通常是很难(或不可能)理解的。(例如,在没有OP的情况下,自打特工可能会提示某种颜色,以表示它丢弃了一张牌,而其伙伴则将此解释为在玩另一张牌。)
(责任编辑:fqj)
-
AI
+关注
关注
87文章
30728浏览量
268886 -
Facebook
+关注
关注
3文章
1429浏览量
54720
发布评论请先 登录
相关推荐
评论