该团队认为,通用人工智能可以通过一种被称为回报函数的勉励机制形成。
在强化学习中,软件代理通过反复试验来学习。
当它采纳得当的行动时,将得到褒奖。
随着韶光的推移,代理司帐算出如何实行任务以优化其褒奖。
这项技能可以运用于多个领域,从掌握自动驾驶汽车到提高能源效率,但最著名的便是在游戏天下。

人工智能若何强化进修奖励机制行得通吗?_人工智能_被称为 智能问答

2016年3月,这项技能迎来一个里程碑式的时候。
DeepMind系统“AlphaGo”击败职业棋手李世石,成为第一个在围棋比赛中击败天下冠军的打算机程序。
据宣布,超过2亿人不雅观看这场胜利。
在比赛中,人工智能采纳了非常规的动作,让对手李世石感到困惑。

DeepMind首席实行官表示,AlphaGo的终极版本不该用任何规则。
相反,它通过与不同版本的自身进行数千次对弈,来从头开始学习游戏,通过一个被称为强化学习的反复试验逐步学习。
这意味着它可以自由地为自己学习,不受正统思想的约束。

褒奖是动物常见的学习动力。
例如,一只松鼠在探求坚果的过程中发展出智力。
与此同时,一个孩子可能会由于整理房间而得到一块巧克力,或者由于不良行为而被打屁股。

在人工智能系统中,褒奖和惩罚是通过数学打算出来的。
例如,一个自动驾驶系统在模型撞到墙的时候可以得到-1分,安全地超过另一辆车则得到+1分。
然后,该算法通过反复试验来学习,使褒奖最大化,终极以最空想的办法完成任务。

值得一提的是,强化学习代理努力在繁芜环境中实现褒奖最大化,并评估其行动的长期影响。
对此,“褒奖就足够了”的支持者认为,算法的适应性可以为通用人工智能铺平道路。