王者光彩：绝悟AI的事理浅析_数据_豪杰

2024-12-11 06:15:26 智能助手

相信大家这几年或多或少都听过深度学习这个观点。
绝悟AI正是深度学习的产物，更确切说绝悟AI的核心是深度强化学习(Deep Reinforcement Learning)。
本人粗略阅读腾讯AI lab 叶德珩博士一作的论文<Mastering Complex Control in MOBA Games with Deep Reinforcement Learning>[1](链接在文末参考文献中)，此文揭橥的人工智能的顶会2020 AAAI上面(虽然这个会议的水平个人觉得最近有些低落)。
下面本人结合论文和一些资料，对绝悟的内部事理细节做进行阐述。

王者光彩：绝悟AI的事理浅析_数据_豪杰智能助手

首先是背景，相信大家该当都听过围棋AI-AlphaGo。
之前的阿尔法狗一战成名让强化学习名声大噪。
之后便有各种游戏AI，例如DeepMind的星际争霸的AI与OpenAI的Dota2的AI，这两个比较早，因该是两三年之前。
之前便取得不错的成绩，由于本人是刀塔玩家，以是当时TI比赛期间见过AI 5v5 明星寻衅赛。
下面将绝悟与go做个比拟：

上面紧张先容绝悟AI在1v1的环境下，比较于Go的打算繁芜度上面，以Action space(直译动作空间)为例王者光彩的每一帧的操作可以分解为100+个离散的动作(比如位移，点击技能，点击攻击按键等)，这里的9000帧每局游戏该当是考虑到人类的反应韶光而设置的帧数。
以是我们可以看到，游戏AI的繁芜度是很高的。

下面还须要提出两个观点，智能体(agent)和游戏单元(game unit)，智能体可以大略理解为英雄，游戏单元包括小兵，野怪，防御塔之类。
由于1v1难以获取高效的数据(叶博士说1v1练英雄比较多)，以是采取无监督学习的办法，采取自对弈的办法(即我演习我自己)。
下面正式进入绝悟的细节：首先是系统架构方面，也是便是绝悟AI的整体到底是个什么东东。

首先要解释的是，上述各个模块是独立的，下面我将逐一先容。

1)AI server with Game Env部分：这便是AI打AI(我打我自己)的地方，并且与游戏环境做交互，这里设计到游戏的内核部分。

2)Dispatch部分：这个部分紧张便是网络游戏数据，传输给下一个部分

3)Memory Pool部分：个中进行存储前一部分传输过来的数据，并且对数据进行处理，以方便喂给我们的学习器。

4)RL learner部分：顾名思义，便是演习强化学习的模型的地方，并且将输出的数据再传输给我们的第1)部分(这里的输出大略理解该当便是我们英雄所实行的各种动作)，这样AI就可以与AI博弈。
(腾讯果真财大气粗，这里光显卡用了1000+，该当是英伟达专业级的神经网络显卡)

看完上述的描述，大家该当创造，RL learner才是AI的核心，没错下面我将详细先容RL learner部分，照例我们先看框图：

看不懂没紧要，由于这个东西确实不是专业的确实很丢脸懂，我会只管即便用浅近的措辞对其进行解读。
由于内部机制过于繁芜，我会只管即便用浅近的措辞进行描述。
下面从左往右进行剖析：

1)Encoded observations部分：这个部分有三个输入，首先Unit输入部分，这里包括我方英雄，地方英雄，英雄的移动，防御塔等。
其次Image部分，我个人理解该当是，自身英雄周围的一个区域的图像。
末了Game state Info部分，包括比如经济，人头，血量之类的数据。
图像经由卷积网络得到一个向量(大家就大略理解为图像识别就可以)，Unit的数据和Game state Info的数据则经由FC(全连接网络)得到不同的向量(这里大家理解为，便是把这些游戏里的数据，转换成为其余一种形式，捐躯点严谨性来说，便是转换成一串数字)。
之后把这三部分转后的数字，我们拼接起来，变成更大的一长串数字，这便是我们从当前环境中提取的信息。

2)第二部分便是核心部分了，(这部分不想看可以跳过去)。
这部分包括LSTM(是非时影象网络)和Attention(把稳力)机制，将之前的一大串输出输入到这个LSTM网络当中，经由FC变换之后，得到初步的输出。
Attention部分用了RL探索的剪枝(y1s1，我不是搞强化学习的，这个地方我也不是很懂)，反正浸染便是，我面前很多东西，比如野怪，小兵，它，敌方英雄，我该干谁呢，就由这个决定就完事了。
详细的细节有能力有兴趣的坛友可以去看论文。

3)第三部分模型的输出部分，当然这个部分呢，还是须要再上一步做些调度和变革的。
细心的朋友已经创造了，上面这几个输出不是独立的，详细什么意思呢。

这里列举了最大略的移动按钮为例(便是移动轮盘)。
首先是button按钮，其次的四个是我该怎么拖动这个按钮(便是我拖动技能，方向和间隔)，这个大家都很熟习，一定能秒懂我什么意思。
末了一个是Target部分，便是目标，便是我该瞄准谁呢？小兵、塔、敌方英雄等。
技能按钮以此类推。

(论文中提到，虽然这些输出有依赖，但是通过一些手段，可以使其独立，便是这几个没什么关系。
这里面便是这篇文章比较有新意的地方，叫Dual-clip PPO，反正这些东西不影响我们对AI的理解)

以上便是系统框架内容，通过不断的演习优化这个模型(这里涉及到网络的演习问题，很繁芜，还要看工程师的“炼丹”能力如何)，AI英雄会越来强，没错便是越来越强，不要问为什么(深度学习的可阐明性是个很大的难题)，事实摆在面前。
上面内容是不是有点繁芜，确实我也这么以为，如果你都看懂了，解释你很有“炼丹“的天赋(手动狗头)。

下面我们说点轻松的:为了测试AI的性能，AI团队还约请了几位职业选手进行1v1对抗，以下是论文截图，结果表明，AI可以达到职业水准(没错，便是这么牛x)。

这里还有一个细节，AI的反应韶光是133ms，论文中说133ms是顶级业余选手的反应韶光，以是被绝悟揍是很正常的。
下面是职业怎么挨打的数据，大家看看就好。

然后AI又去找***玩家PK，数据如下

可以创造，大部分都是绝悟赢，输的几场，用官方的阐明来说呢，可能是由于HanXin(二一横扫)，SunWukong(吉吉国王)，HouYi(真正的射手)比较依赖暴击，由于暴击是一个不愿定成分，以是对付AI来说有些影响。

再来个泥潭之前的日常话题ELO：

这是论文里，演习狄仁杰的效果图，我们瞥见官方内部给出的玩家水平评价指标便是ELO。
模型演习大约7小时，已经可以干掉游戏自带的AI了，12小时达到星耀水平，30小时达到王者水平，60小时达到光彩王者水平，70小时已经靠近职业水平(为了防止杠精，怎么职业和光彩差不多，我不做阐明，这是论文给出的数据)。

末了我给出一个论文中其余一个故意思的点，也可能是整篇文章对付我们最有帮助的部分。

这是AI的褒奖机制，从上到下依次是，英雄生命、塔生命(这里该当是敌方的塔)、钱、蓝量、去世亡次数、击杀数、履历与补刀。
阁下的数字代表这些行为的权重，也便是权重越高，AI对这些东西越重视(推塔游戏名不虚传，游戏AI教我玩游戏系列)。