强化进修vs遗传算法-人工智能在模拟领域的应用_算法_庞杂
强化学习(RL)
强化学习是演习机器学习模型以做出一系列决策。它被布局为与环境交互的代理。
在强化学习中,人工智能 (AI) 面临类似游戏的情形(即仿照)。人工智能通过反复试验来提出问题的办理方案。智能体缓慢而稳定地学习在不愿定的、潜在繁芜的环境中实现目标,但我们不能指望智能体盲目地有时创造完美的办理方案。这是交互发挥浸染的地方,为代理供应了环境状态,这成为代理采纳行动的输入/根本。一个动作首先向代理供应褒奖(把稳,根据问题的适应度函数,褒奖可以是正的也可以是负的),基于此褒奖,代理内部的策略(ML 模型)适应/学习其次,它会影响环境并改变它的状态,这意味着下一个循环的输入会发生变革。
这个循环一贯持续到创建一个最佳代理。这个循环试图复制我们在自然界中看到的生物体在其生命周期中的学习循环。在大多数情形下,环境会在一定数量的循环后或有条件地重置。把稳,可以同时运行多个代理以更快地得到办理方案,但所有代理都是独立运行的。
遗传算法(GA)
遗传算法是一种搜索元启示式算法,其灵感来自查尔斯达尔文的自然进化理论。该算法反响了自然选择的过程,即选择最适宜的个体进行繁殖以产生下一代的后代。
遗传算法周期有6个紧张阶段。
天生初始种群:一组“个体”被称为群体,个中每个个体的特色是一组以二进制表示的基因(即 0 或 1)。由字符串/序列表示的一组基因称为染色体。我们开始的人口称为初始人口。
评估:适应度函数是一个别系,它确定一个人的康健程度(一个人与其他人竞争的能力)。它为每个人供应了一个适应度分数,这有助于量化表现。该函数在总体表现上实行,以量化和比较个体的表现。
选择:挑选“最适宜的”(基于评估阶段天生的适应度分数)个体以产生下一代(即下一个评估和繁殖周期的新种群)的过程。没有基于适应度分数的严格截止,但选择更多地基于概率(适应度分数越高,当选中的概率越高),并为下一阶段选择一对。
交叉:稠浊选择的一对个体的基因以产生一对新个体的过程称为交叉或遗传操作。这个过程连续创造一个新的人口。交叉可以用不同的方法进行,例如:单点交叉、两点交叉、顺序交叉、部分映射交叉 、循环交叉
突变:在某些新个体中,他们的一些基因可能会以低随机概率发生突变。这意味着染色体(位序列)中的某些基因(位)可以改变(翻转)。突变有助于保持种群内的多样性并防止过早收敛。终止:当种群收敛时,算法终止。这里的收敛表示个体的遗传构造不再有显著差异。终止也可能在一定数量的循环后发生,这常日会导致多个收敛点。
如何进行比较?事情事理
根据定义,遗传算法是一种跨生命的算法,这意味着该方法须要个体“去世亡”才能提高。RL旨在成为一种生命内学习算法,最近开拓的许多方法都针对持续学习和“安全RL”的问题。
从根本上讲,这两种方法的操作原则是不同的。RL利用马尔可夫决策过程,而遗传算法紧张基于启示式。RL中的值函数更新是基于梯度的更新,而GAs常日不该用这种梯度。
他们适宜的问题
RL是一种机器学习,它关注的是一种特定类型的优化问题,即探求最大化回报的策略(策略),代理以韶光步骤与环境进行交互。GAs是一种自学习算法,可以运用于任何优化问题,个中你可以编码办理方案,定义一个适应度函数来比较办理方案,你可以随机地改变这些办理方案。从实质上讲,GAs可以运用于险些任何优化问题。原则上,您可以利用GAs来查找策略,只要您能够将它们与适应度函数进行比较。
这并不虞味着GA更好,这只是意味着如果没有更好的办理方案,GA将是你的选择。而RL对付须要在环境中进行顺序决策的问题是一个强有力的方案。
缺陷
遗传算法:须要较少的关于问题的信息,但设计适应度函数并得到精确的表示和操作可能是非常繁芜和困难的。它在打算上也很昂贵。
强化学习:过多的强化学习会导致状态过载,从而降落结果。这种算法不适用于大略问题的求解。该算法须要大量的数据和大量的打算。维数的谩骂限定了对真实物理系统的强化学习。
怎么利用正如我们已经谈论过的,除了根本的差异之外,这两种方法都有各自的用场和缺陷。虽然GA的用场更广泛,但是定义一个适宜问题的适应度函数以及精确的表示和操作类型是非常困难的。而RL最适宜办理须要连续决策的问题,但须要更多的数据,当问题的维度较高时就不是很好。基于学习的早期阶段,RL模型也方向于变得狭隘。
考虑到这一点,
由于明显的缘故原由,当没有其他办理方案适宜这种模式时,GA是最受欢迎的。对付更大略的问题,大多数时候,RL是有效的,但常日比遗传算法更耗时,而且遗传算法的适应度函数和表示更随意马虎编写,以是RL或遗传算法都可以根据问题事情。当我们有中等程度的繁芜性和高可用数据时,RL是首选。对付具有更高繁芜性的问题,GA和RL都须要花费大量韶光,须要繁芜的表示,或者受到须要处理的维数的限定。在这种情形下,两者的结合比任何单独的都更可取。
二者结合是的,结合遗传算法和强化学习是可能的,由于这两种方法不是相互排斥的。就像它们源于自然的两个原则一样,这些方法也可以共存。
强化学习使代理能够基于褒奖功能做出决策。然而,在学习过程中,学习算法参数值的选择会显著影响全体学习过程。利用遗传算法找到学习算法中利用的参数值,比如深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)结合后见履历回放(Hindsight Experience Replay, HER),以帮助加快学习代理。导致性能更好,比原来的算法更快。
另一种方法是采取强化学习的部分,如Agent-Environment关系,并运行多个可以交叉和变异的代理,类似于遗传算法。
作者:Neelarghya
本文系作者个人观点,不代表本站立场,转载请注明出处!