(人工智能)深入理解强化进修:2、强化进修工作办法_梯度_策略
#人工智能#强化学习事情办法:
幸运的是,这便是强化学习。因此,框架和强化学习与监督学习框架惊人地相似。因此,我们仍旧有一个输入框架,我们通过神经网络模型运行它,网络产生输出动作,无论是向上还是向下。但现在我们不知道目标标签,以是我们不知道在任何情形下我们该当上升还是低落,由于我们没有可以演习的数据集。策略网络是强化学习中的网络,它将输入帧转换为输出动作。一种被称为策略梯度的策略现在是演习策略网络的最大略方法之一。在策略梯度中,策略是从一个完备随机的网络开始。你从游戏引擎向该网络供应一个帧。它会天生一个随机的向上和向下的活动。返回到游戏引擎并实行该操作循环连续,同时游戏引擎天生下一帧,在本例中,网络可能是一个完备连接的网络。
然而,你也可以在那里利用卷积,你的网络输涌如今将由两个数字组成:上升的概率和低落的概率。在演习时,你将从分布中取样,这样你就不会总是重复相同的确切活动。这将帮助你的代理人更随机地探索天下,希望能创造更大的回报,更主要的是,能创造更好的行为。由于我们希望我们的经纪人能够完备自主学习,以是我们给它的唯一反馈便是游戏的记分牌。因此,每当我们的代理进球时,它都会收到+1的褒奖,如果对手进球,我们的代理就会收到-1的惩罚,而代理的紧张目的是优化其策略,以网络尽可能多的褒奖。因此,为了演习我们的策略网络,我们要做的第一件事便是网络大量数据。只需在网络上运行一些游戏帧,选择随机动作,并将其反馈到引擎中,即可天生一系列随机乒乓球游戏。显然,由于我们的经纪人还没有学到任何有代价的东西,以是它会输掉大部分比赛,但关键是,我们的经纪人可能会运气好,随机选择一系列真正能进球的动作。在这种情形下,我们的代理人将得到褒奖,主要的是要记住,对付每一集,无论我们希望得到积极还是悲观的褒奖,我们都已经可以打算出梯度,这将使我们的代理人在未来更有可能采纳行动。这一点至关主要,由于当我们得到积极褒奖时,策略梯度将采取正常梯度来提高未来每一次发生这些行为的概率。当我们得到一个负数时,我们会运用相同的梯度,但我们会将其乘以负1,这个负号将确保我们在一个特殊恐怖的事宜中所做的所有行动在未来都不太可能发生。因此,在演习我们的策略网络时,导致负面褒奖的行为将逐渐被过滤掉,而导致良好褒奖的行为的可能性将越来越大,因此在某种程度上,我们的代理人正在学习打乒乓球。
策略梯度的缺陷:
因此,我们可以利用策略梯度来演习神经网络来打乒乓球。但采取这种策略也有一些本色性的缺陷,一如既往。让我们再次回到乒乓球。想象一下,你的经纪人已经练习了一段韶光,实际上非常善于打乒乓球,来回弹跳,但在这一集结束时却犯了一个缺点。它许可球通过并受到处罚。策略梯度的问题是,他们认为,由于我们失落去了这一事宜,我们在那里做出的所有行为都一定很糟糕,这将减少未来重复这些行为的可能性。
信用分配困境:
但请记住,在那一集的大部分韶光里,我们都表现得非常好,以是我们不想减少这些行为的机会,这便是强化学习中的学分分配困境。这种情形下,如果你在剧集结束时得到褒奖,那么是什么特定的行为导致了特定的褒奖,而这个问题完备是由于我们的褒奖设置很少。因此,我们不是每一个动作都会得到褒奖,而是只在一个完全的情节之后才得到褒奖,我们的代理人必须弄清楚它的动作序列中的哪个元素导致了它终极得到的褒奖,就像朋克的例子一样。例如,我们的经纪人该当明白,只有在球撞击之前的活动才是真正至关主要的;球飞走后的其他统统都与终极的回报无关。由于这种稀疏的褒奖设置,强化学习算法的采样效率每每很低,这意味着你必须给他们很多演习韶光,他们才能学到任何有代价的东西。
本文系作者个人观点,不代表本站立场,转载请注明出处!