本课程将聚焦于强化学习(RL),这是人工智能目前非常生动的一个分支领域,并将有选择性地谈论一些基于近似动态方案(DP)方法的算法主题。

MIT科学家Dimitri P. Bertsekas最新《强化进修与最优控制》课程_办法_算法 AI快讯

逼近值和策略空间,近似策略迭代,推出(策略迭代的一种一次性形式),模型预测掌握,多智能体方法,寻衅组合优化问题的运用,利用仿照和神经网络架构的实现,策略梯度方法,聚合,以及工程和人工智能运用,比如AlphaZero和TD-Gammon程序的高调成功,这两个程序分别会下国际象棋和泰西双陆棋。

地址:http://web.mit.edu/dimitrib/www/RLbook.html

我们的紧张目标之一是为RL和近似DP提出和开拓一个新的观点框架。

这个框架环绕着两种算法,它们在很大程度上独立设计,并通过牛顿方法的强大机制协同运行。
我们称之为离线演习和在线游戏算法;这些名字是借用了一些RL的紧张成功游戏,如AlphaZero和TD-Gammon。

在这些程序的背景下,离线演习算法是用来教程序如何评估位置和在任何给定的位置产生好的移动的方法,而在线比赛算法是用来实时对抗人或打算机对手的方法。

我们的紧张目标之一是,通过牛顿方法的算法思想和抽象DP的统一原则,表明AlphaZero和TD-Gammon方法的值空间逼近和铺展非常广泛地运用于确定性和随机最优掌握问题,包括离散和连续搜索空间,以及有限和无限视界。

此外,我们将展示我们的观点框架可以有效地与其他主要的方法集成,如模型预测和自适应掌握、多智能体系统和分散掌握、离散和贝叶斯优化,以及离散优化的启示式算法。
本课程的紧张重点是鼓励研究生通过定向阅读和与西席的互动来加强学习。

作者Dimitri P. Bertsekas教授,1942年出生于希腊雅典,美国工程院院士,麻省理工大学电子工程及打算机科学教授。

Bertsekas教授因其在算法优化与掌握方面以及运用概率论方面编写了多达16本专著而有名于世。
他也是CiteSeer搜索引擎学术数据库中被引用率最高的100位打算机科学作者之一。

Bertsekas教授还是Athena Scientific出版社的联合创始人。

《强化学习与最优掌握》书本

本书的目的是考虑大型和具有寻衅性的多阶段决策问题,这些问题可以通过动态方案和最优掌握从原则上办理,但它们的精确解在打算上是难以办理的。

我们谈论了依赖近似来产生性能良好的次优策略(suboptimal policies)的求解方法。
这些方法统称为强化学习(reinforcement learning),也包括近似动态方案(approximate dynamic programming)和神经动态方案( neuro-dynamic programming)等替代名称。

我们的学科从最优掌握和人工智能的思想相互浸染中获益良多。
本专著的目的之一是探索这两个领域之间的共同边界,并形成一个可以在任一领域具有背景的职员都可以访问的桥梁。

这本书的数学风格与作者的动态方案书和神经动态方案专著略有不同。
我们更多地依赖于直不雅观的阐明,而不是基于证据的洞察力。

在附录中,我们还对有限和无限视野动态方案理论和一些基本的近似方法作了严格的简要先容。
为此,我们须要一个适度的数学背景:微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的,最近在国际象棋和围棋中取得的惊人造诣便是一个很好的证明。

然而,在广泛的问题中,它们的性能可能不太可靠。
这反响了该领域的技能现状:没有任何方法能够担保对所有乃至大多数问题都有效,但有足够的方法来考试测验某个具有寻衅性的问题,并有合理的机会使个中一个或多个问题终极得到成功。

因此,我们的目标是供应一系列基于合理原则的方法,并为其属性供应直觉,纵然这些属性不包括可靠的性能担保。
希望通过对这些方法及其变体的充分探索,读者将能够充分办理他/她自己的问题。

课程讲义