多智能体(MARL)强化进修与博弈论_体系_智能
一些博弈论困境,若有名的布雷斯悖论,对多智能体强化学习有着深刻的影响。
纵不雅观历史,人类已经建立了许多既须要自主行动又须要参与者之间折衷互动的系统。交通网络、智能电网或股票市场便是这些系统的例子,它们已经成为我们社会的基本支柱。这些系统的基本特色是,它们哀求参与者实行自治任务,这些任务的影响是在与其他参与者共享的环境中看到的。在人工智能(AI)代理中重现这种动态是极具寻衅性的。个中一个寻衅便是如何平衡AI代理的个人利益与全体群体的利益。人工智能办理方案公司SecondMind最近的一篇论文详细先容了履行多智能体人工智能系统的勉励模型。
Prowler的研究集中于一种深度学习学科,称为多智能体强化学习(MARL),它已成为实现自主、多智能体、自学习系统的最前辈技能。
分散的MARL在深度学习生态系统中,多智能体强化学习(MARL)是专注于实现具有多个智能体的自主、自学习系统的领域。从观点上讲,多智能体强化学习(MARL)是一种深度学习学科,专注于包括多个智能体的模型,这些智能体通过与环境动态交互进行学习。在单代理强化学习场景中,环境状态的改变仅仅是由于一个代理的行为,而在MARL场景中,环境受到所有代理的行为的影响。从这个角度来看,我们认为MARL环境是一个元组{X1-A1,X2-A2....Xn-An},个中Xm是任意给定的代理,Am是任意给定的动作,那么环境的新状态是由A1xA2x....An定义的连接动作集的结果。换句话说,MARL场景的繁芜性随着环境中代理的数量的增加而增加。
虽然MARL系统实质上是分布式的,但我们仍旧可以确定两种紧张的架构类型:集中式和分散式。集中式MARL模型依赖于一个掌握威信来管理每个代理的褒奖。这种类型的体系构造实现起来更大略,在跨不同代理折衷目标方面也相对大略,但它会导致大规模操作的打算代价很高,最主要的是,它阻碍了自治。末了,如果一个代理人的报酬是由一个中心集权机构掌握的我们不能说代理人是自治的,对吧?集中式MARL模型的局限性与勉励代理自主行动的系统产生了直接的抵牾。想想股票市场,交易员受到个人收益的驱动,但仍旧须要把稳交易对手风险。这种类型的体系构造更适宜分散的MARL模型,在这种模型中,代理可以自主地行动,折衷是基于勉励发生的。
在过去的几个月里,随着OpenAI等人工智能巨子创造了能够打败Dota2的系统,DeepMind也在《雷神之锤3》中创造了同样的系统,MARL场景也得到了成功。然而,在这两种场景中,MARL环境只涉及少量代理。到目前为止,MARL方法在运用于涉及大量代理的场景时一贯很困难。随着MARL系统中代理数量的增加,它们之间折衷的繁芜性也随之增加。从这个角度来看,为大规模MARL系统建立一个勉励模型仍旧是实现这些新架构的最大寻衅之一。
布雷斯悖论与纳什均衡德国数学家Dietrich Braes在1968年提出的一个悖论可以阐明MARL系统勉励建模的寻衅。作为拥堵交通网络的一个例子,Braes阐明说,与直觉相反,在道路网络中增加一条路可能会阻碍它的流动(例如每个司机的行驶韶光);同样地,封闭道路可能会改进通畅韶光。官方对这一悖论的阐明如下:
“对付路网的每个点,给定从它出发的汽车数量和汽车的目的地的情形下,人们希望估计交通流的分布。一条街道是否比另一条街道更好,不仅取决于道路的质量,还取决于人流的密度。如果每个驾驶者都选择了对它们最有利的路径,那么终极的运行韶光肯定不是最小的。此外,通过一个例子表明,道路网络的扩展可能导致交通的重新分配,从而导致更长的个人通畅韶光。”
布雷斯悖论彷佛在寻衅多主体系统的黄金标准:纳什均衡。还记得2001年的电影《俏丽心灵》(A Beautiful Mind)吗?在这部电影中,罗素·克劳(Russell Crowe)用一个生动的例子阐明了纳什均衡的根本。
如果我们都去追金发女郎,相互影响并且没人能追到她。然后我们去找她的朋友,但他们都不理我们,由于没人乐意当第二选择。但如果我们都不喜好金发女郎呢?我们不会妨碍彼此也不会侮辱其他女孩。这是得胜的唯一路子。——《俏丽心灵》
如果我们再加上一个俊秀的金发女郎会怎么样。理论上,这该当是一个优化,由于现在小组有更多的选择。然而,如果第二个金发女郎比第一个更有吸引力,这可能会导致所有参与者更加激烈地相互竞争,导致进一步的延迟(无论在这个场景中这意味着什么)。这是教科书上关于Braes悖论的一个例子由于纳什均衡发生在各主体对彼此作出最佳反应的时候而在现实天下的多主体系统中并不总是这样。
Braes悖论与MARL架构非常干系,由于神经网络的任何优化都会影响智能代理对其作出反应的办法。从这个角度来看,MARL系统该当依赖于那些勉励的眇小变革可以转化为不成比例的积极结果的州。
智能的勉励Prowler用一种将问题分成两部分的新方法办理了MARL体系构造中勉励优化的问题。个中一部分是根据一组给定的褒奖函数打算个体的最佳相应策略。另一部分是在代理的联合反应下找到对褒奖函数(或勉励)的最佳修正集。这种方法以分散打算的办法分解问题,由于代理自己打算它们的最佳相应策略。在仿照环境中,多智能体强化学习打算纳什均衡,贝叶斯优化打算最优勉励。
在Prowler架构中,在非常聪明的集成中利用MARL和贝叶斯优化来优化代理网络中的勉励机制。
MARL用来仿照代理的行为,并通过元代理对给定参数的选择产生代理的纳什均衡行为。
贝叶斯优化是用来选择能得到更空想结果的博弈参数。贝叶斯优化基于随机性找到与系统动态匹配的最佳模型。
Prowler的聪明勉励模型依赖于勉励设计师在仿照游戏中选择褒奖功能,即由代理扮演,仿照代理的联合行为。勉励设计者的目标是修正代理褒奖函数的凑集,用于勾引使系统性能最大化的行为的子博弈。利用仿照子博弈的反馈来相应代理报酬函数的变革,勉励设计者可以精确地皮算出对代理报酬的修正,从而在现实天下的博弈中自利代理之间产生空想的均衡。仿照环境避免了从现实环境中获取反馈数据的昂贵需求,同时确保天生的代理行为与现实结果同等。
智能的勉励方法Prowler将其智能勉励技能运用于几个迷人的MARL问题。在一个场景中,MARL模型试图分布2000个自利益代理,每个代理都试图在某个韶光范围内将自己定位于空间中的空想点。一个区域的可取性随韶光而变革,并随着位于该区域内的代理的数量而减少。例如,考虑这样一个场景:代理是车队中的出租车司机,然后每个司机(及其同事)可能会聚拢在足球场周围,由于他们知道比赛即将结束,球迷须要搭便车回家。虽然这种行为可能有利于个别司机,但它有利于交通拥堵,并将离开城市的其他点没有准确的交通覆盖。
采取智能勉励模型,勉励设计者引入褒奖改动器,勉励代理商采取期望分布。结果是,2000名司机以最优办法分配自己,最大限度地扩大了领土覆盖范围。
MARL系统是深度学习空间中最吸引人的研究领域之一。随着这些架构朝着去中央化的方向发展,健壮的勉励模型的需求将变得更加干系。像《Prowler》的聪明勉励机制便是朝着精确方向迈出的一步。
论文地址:arxiv:1901.10923
原文作者:Jesus Rodriguez
本文系作者个人观点,不代表本站立场,转载请注明出处!