车是怎么学会自动驾驶的?人工智能_人工智能_速度
这些所有的褒奖都以数字的办法表示,数值则表示该动作的好坏,沿着赛道提高的速率越快数值就越高。反之如果赛车停滞不动数值将会降落到0。每次新的考试测验人工智能都会探索赛道并从中网络数据。神经网络会根据这些数据来逐步的调度,从而得到更多褒奖动作的数值。
每次演习的人工智能都是基于以前的数据,以是人工智能可以根据每次学习到的新知识来更新自己的决策从而选择最优的方法。经由反复的循环实验人工智能将逐渐自行主动学习,直到能够节制所有的数据并以最快的速率通过赛道为止。现在我们就可以让人工智能和人为掌握的赛车进行比赛。
在全体比赛的过程中我们创造人工智能的表现并不好,它总会掌握赛车全力的加速会造成多次碰钉子的征象,从而整体上减慢了赛车的提高速率。这是由于人工智能在演习的过程中,短期的褒奖会让它得到满组感,以是才会每次都加速提高涌现多次的碰钉子。
短期褒奖和长期褒奖是神经网络学习的常见问题。长期褒奖是指目标实现一长串动作后才能得到褒奖。就以人工智能掌握的赛车为例,如果它能不碰钉子而且以最快的速率通过赛道,它就会得到更大的褒奖其目的是演习最优路径。在大量的演习完成后可以再次与人为掌握的赛车比赛。我们会创造这次人工智能掌握的赛车险些不会涌现碰钉子的征象,而且整体的速率要高于人为掌握的汽车。
这便是人工智能为什么会如此的聪明。
本文系作者个人观点,不代表本站立场,转载请注明出处!