ICLR-2021强化进修的最新研究与应用_模子_智能
周刊采取社区协作的模式产生,欢迎感兴趣的朋友们参与我们的事情,一起来推动强化学习社群的分享、学习和互换活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明,刘青,陈斌
本文来源:聪慧社源
论文推举
强化学习近年来取得了令人瞩目的造诣,其运用于各个领域的研究也取得较大的进步。人工智能顶会ICLR-2021对强化学习取得了一系列瞩目的进展进行了发布,比如循环元强化学习、进化强化学习干系的理论及其最新运用等。
本次推举了11篇ICLR-2021强化学习领域的干系论文,紧张涉及运用深度强化学习进行博弈策略求解、循环元强化学习内部机制、基于谱强化学习的渐进式褒奖、进化强化学习、非动态强化学习、嵌入式自预测强化学习、不稳定的环境中的意外最小化强化学习等。
标题:Iterative Empirical Game Solving via Single Policy Best Response(基于单策略最佳相应的迭代履历博弈求解)
论文地址:https://www.aminer.cn/pub/600831cd9e795ed227f530cf?f=toutiao
简介:策略空间相应预言机 (PSRO) 是一种通用算法框架,用于通过将履历博弈剖析与深度强化学习 (Deep RL)交叉运用于多智能体系统中的策略学习。在每次迭代中,都会调用深度强化学习来演习对稠浊策略的最佳相应。当希望将此算法运用于更繁芜的领域时,深度强化学习的重复运用会带来昂贵的打算包袱。故本文先容了 PSRO 的两种变体,旨在减少深度强化学习演习期间所需的仿照量。两种算法都根据对单个对手策略的学习相应来修正 PSRO 如何向履历游戏添加新策略。第一种是稠浊预言机,其从深度强化学习的先前迭代中转移知识,只须要针对对手的最新策略进行演习。第二种是稠浊对手,其通过稠浊现有策略的动作代价估计,而不是根据自身的策略来构建纯策略对手。针对单一策略的学习缓解了由未不雅观察到的对手分布引起的状态结果的差异。研究表明,这些算法大大减少了 PSRO 所需的演习过程中的仿照量,同时为博弈供应了同等或更优的办理方案。
标题:What is Going on Inside Recurrent Meta Reinforcement Learning Agents?(循环元强化学习智能体的内部事情机制)
论文地址:https://www.aminer.cn/pub/608fc12d91e01142b70f24aa?f=toutiao
简介:循环元强化学习 (meta-RL) 智能体是运用循环神经网络“学习一种学习算法” (RNN) 的智能体。在预先指定的任务分布上进行演习后,可以说智能体的 RNN 的学习权重通过其活动动态实现了一种有效的学习算法,该算法许可agent快速求解从同一分布中采样的新任务。然而,由于这些智能体的黑盒性子,它们的事情办法尚未完备理解。本文通过利用部分可不雅观察马尔可夫决策过程 (POMDP) 框架重新制订元强化学习问题,阐明了这些代理的内部事情机制。本文假设学习到的活动动态可以作为此类智能体的信念状态。基于解释性实验研究表明,该假设是精确的,并且循环元强化学习智能体可以被视为学习在由多个干系任务组成的部分可不雅观察环境中采纳最佳行动的智能体。这种不雅观点有助于理解干系失落败案例和文献中报告的一些有趣的基于模型的结果。
标题:Adapting to Reward Progressivity via Spectral Reinforcement Learning(基于谱强化学习适应褒奖渐进性)
论文地址:https://www.aminer.cn/pub/600833a69e795ed227f531a8?f=toutiao
简介:本文考虑了具有渐进褒奖的强化学习任务;即褒奖每每会随着韶光的推移而增加的任务。其假设对付基于代价的深度强化学习代理来说,这个属性可能是有问题的,特殊是如果代理必须首先在任务中相对无褒奖的区域取获胜利,才能到达更多有褒奖的区域。为理解决这个问题,本文提出了 Spectral DQN,它将褒奖分解为频率,使得高频仅在创造大褒奖时激活。并且其许可平衡演习丢失,以便在大小褒奖区域之间供应更均匀的权重。在具有极度褒奖渐进性的两个领域中,基于代价的标准方法存在显著问题,而Spectral DQN 能够取得更进一步的进展。此外,当在一组不明显支持该方法的标准 Atari 游戏上进行评估时,Spectral DQN 仍旧具有较强竞争力:虽然它在一场游戏中的表现低于基准之一,但在三场游戏中却轻松地超过了基准。这些结果表明该方法并没有对其目标问题过度拟合,并且表明 了Spectral DQN 可能具有办理褒奖渐进性之外的上风。
标题:What Matters In On-Policy Reinforcement Learning?A Large-Scale Empirical Study(在策略强化学习中什么是主要的?大规模的实证研究)
论文地址:https://www.aminer.cn/pub/5ee3526a91e011cb3bff746e?f=toutiao
简介:近年来,关于策略强化学习的研究取得了成功,适用于许多不同的连续掌握任务。只管RL算法常日在观点上很大略,但其最前辈的实现须要做出大量的低级和高等设计决策,这些决策严重影响终极智能体的性能。这些选择常日不会在文献中广泛谈论,导致已发布的算法描述与实在现之间存在差异。这使得很难将进度归因于RL,并减慢了总体进度。作为补充这一差距的一步,文章在统一的策略RL框架中履行了超过50个这样的“选择”,使其能够在大规模实证研究中调查它们的影响。文章在五个不同繁芜性的连续掌握环境中培训了超过25万名之智能体,并为RL智能体的策略培训供应了见地和实用建议。
标题:Parrot: Data-Driven Behavioral Priors for Reinforcement Learning/Parrot(强化学习的数据驱动行为先验)
论文地址:https://www.aminer.cn/pub/5fb7a07091e01122f29d6a4d?f=toutiao
简介:强化学习为灵巧的决策和掌握供应了一个通用框架,但须要为智能体学习的每个新任务网络大量数据。在其他机器学习领域,如自然措辞处理或打算机视觉,在之前网络的大型数据集上进行预演习,以勾引新任务的学习,已经成为一种强大的范例,可以在学习新任务时减少数据需求。在本文中,提出以下问题:如何为RL智能体供应类似有用的预演习?文章提出了一种预演习行为先验的方法,该方法可以从大量以前看到的任务中捕获成功试验中不雅观察到的繁芜输入-输出关系,并且我们展示了如何在不妨碍RL智能体考试测验新行为的能力的情形下,将所学先验用于快速学习新任务。该文证明了其方法在寻衅涉及图像不雅观察和稀疏褒奖函数的机器人操作领域的有效性,个中本文的方法比以前的事情有很大的上风。其他资料可访问项目网站:https://sites.google.com/view/parrot-rl。
标题:Evolving Reinforcement Learning Algorithms(进化强化学习算法)
论文地址:https://www.aminer.cn/pub/600833a89e795ed227f531aa?f=toutiao
简介:文章提出了一种元学习强化学习算法,算法在打算图空间中搜索,打算基于值的无模型RL智能体的丢失函数以进行优化。所学习的算法是领域不可知的,并且可以推广到演习期间未看到的新环境。该方法既可以从头开始学习,也可以从已知的现有算法(如DQN)中勾引,从而实现可阐明的修正,从而提高性能。该方法从头开始学习大略的经典掌握和网格天下任务,重新创造了韶光差分(TD)算法。从DQN勾引,文章重点先容了两种学习算法,它们比其他经典掌握任务、gridworld类型任务和Atari游戏得到了良好的泛化性能。对学习算法行为的剖析表明,它们与最近提出的RL算法类似,办理了基于值方法中的高估问题。
标题:Off-Dynamics Reinforcement Learning: Training for Transfer with Domain Classifiers (非动态强化学习: 带域分类的迁移演习方法)
论文地址:https://www.aminer.cn/pub/5ef476b991e01165a63bbd0d?f=toutiao
简介:本文提出了一种大略,实用和直不雅观的方法来进行强化学习中的领域适应。文中的方法源于这样的想法,即智能体在源域中的履历应类似于其在目标域中的履历。基于RL的概率视图,我们正式可以通过修正褒奖函数来补偿动态差异终极实现此目标。通过学习将源域转换与目标域转换区分开的赞助分类器,可以轻松估算此修正后的褒奖函数。从直不雅观上看,修正后的褒奖功能对探员访问源和在源域中采纳在目标域中不可能实行的动作的行为进行了惩罚。另一方面,智能体会由于那些表明智能体正在与源域而不是目标域互动的过渡而受随处分。我们的方法适用于具有连续状态和行动的领域,不须要学习明确的动力学模型。在离散和连续的掌握任务上,我们阐明了此方法的机制,并证明了它在高维任务上的可扩展性。
标题:UPDET: UNIVERSAL MULTI-AGENT REINFORCEMENT LEARNING VIA POLICY DECOUPLING WITH TRANSFORMERS (用Transformer策略解耦的通用多智体策略学习)
论文地址:https://www.aminer.cn/pub/60094a1e91e011721878d7e6?f=toutiao
简介:最近在多智能体强化学习方面的进展紧张限于为每个新任务从头开始演习一个模型。这种限定是由于固定的输入和输出维度有关的模型构造的限定,这阻碍了履历的积累和所学到的代理在不同难度的任务中的转移。我们首次考试测验探索一个通用的多智能体强化学习算法,设计一个单一的架构以适应不同不雅观察和行动配置哀求的任务。不同于以前基于RNN的模型,我们利用一个基于Transformer的模型来产生一个灵巧的策略,通过将策略分布与相互交织的输入不雅观察解耦,在利用自把稳力机制的帮助下确定的主要性权重。所提出的模型,这里命名为通用策略解耦转化器(UPDeT),进一步放宽了行动限定,使多智能体任务的决策过程更随意马虎阐明。可以嵌入到任何多智能体强化学习方案中,基于UPDeT的多智能体强化学习相对付SOTA方法取得了显著的改进。
标题:Contrastive Explanations for Reinforcement Learning via Embedded Self Predictions( 通过嵌入自预测强化学习的比拟阐明)
论文地址:https://www.aminer.cn/pub/5f8581a591e011ff3280972d?f=toutiao
简介:本文研究了一种深度强化学习(RL)架构,它支持阐明为什么学习的智能体更喜好一个动作而不是另一个动作。关键思想是学习动作-代价,通过人类可理解的预期未来属性直接表示。这是通过嵌入式自我预测(ESP)模型实现的,该模型根据人类供应的特色学习所述属性。然后可以通过比拟为每个动作预测的未来属性来阐明动作偏好。为理解决存在大量特色的情形,本文开拓了一种从ESP中计算最小充分阐明的新方法。本文通过在三个领域的案例研究(包括一个繁芜的策略游戏)表明,ESP模型可以被有效地学习,并支持有洞察力的阐明。
标题:Learning Invariant Representations for Reinforcement Learning without Reconstruction(无需重构的强化学习的学习不变表示)
论文地址:https://www.aminer.cn/pub/5eede0b791e0116a23aafede?f=toutiao
简介:本文研究了表征学习如何在不依赖领域知识或像素重修的情形下,从丰富的不雅观测(例如图像)中加速强化学习。本文的目标是学习供应有效的下贱掌握和对任务无关细节的不变性的表示。双仿照度量量化了连续 MDP 中状态之间的行为相似性,文章建议利用它来学习稳健的潜在表示,这些潜在表示仅对来自不雅观察的任务干系信息进行编码。本文的方法演习编码器,使得潜在空间中的间隔即是状态空间中的仿照间隔。本文利用修正后的视觉 MuJoCo 任务证明了此方法在忽略与任务无关信息方面的有效性,个中背景被移动的滋扰物和自然***代替,同时实现了 SOTA 性能。本文还测试了第一人称高速公路驾驶任务,个中此方法学习了对云、景象和一天中的韶光的不变性。末了,本文供应了从互仿照度量的属性中得出的泛化结果,并与因果推理联系起来。
标题:SMiRL: Surprise Minimizing Reinforcement Learning in Unstable Environments(SMiRL:不稳定的环境中的意外最小化强化学习)
论文地址:https://www.aminer.cn/pub/600833a09e795ed227f531a3?f=toutiao
简介:每个生物体都在与毁坏性的环境力量作斗争,以开拓和坚持一个有序的生态位。本文提出,这种实现和掩护秩序的斗争可能为人工智能中有用行为的涌现供应一个原则。本文将这个想法形式化为一种无监督的强化学习方法,称为意外最小化强化学习(SMiRL)。SMiRL 在学习密度模型以评估刺激的意外性和改进策略以寻求更可预测的刺激之间切换。该策略寻求稳定和可重复的情形,以抵消环境的紧张熵源。这可能包括避免其他敌对智能体,或为双足机器人在面对滋扰力时找到稳定、平衡的姿势。本文证明,意外最小化智能体能够在没有任何特界说务褒奖监督的情形下成功玩俄罗斯方块、毁灭战士、掌握人形机器人避免跌倒、在迷宫中导航逃离仇敌。本文进一步证明SMiRL可以与标准任务褒奖一起利用,以加速褒奖驱动学习。
综述
医学影像中的深度强化学习:
论文地址:https://www.aminer.cn/pub/604892f891e0115491a5cac8?f=toutiao
简介:深度强化学习 (DRL) 增强了强化学习框架,该框架利用深度神经网络的代表性力量来学习最大化预期褒奖的一系列动作。最近的事情证明了 DRL 在医学和医疗保健方面的巨大潜力。本文先容了医学影像中 DRL 的文献综述。从 DRL 的综合教程开始,包括最新的无模型和基于模型的算法。然后,先容了现有的医学成像 DRL 运用,它们大致分为三个紧张种别:(i)参数医学图像剖析任务,包括界标检测、工具/病变检测、配准和视图平面定位;(ii) 办理优化任务,包括超参数调度、选择增强策略和神经架构搜索;(iii) 其他运用,包括手术手势分割、个性化移动康健干预和打算模型个性化。本文末了谈论了未来的前景。
新工具
基于Actor-Learner蒸馏的强化学习中的高效Transformers
论文地址:https://www.aminer.cn/pub/600831839e795ed227f530bc?f=toutiao
简介:许多实际的运用,如机器人技能,在功率和打算方面供应了严格的限定,从而限定了强化学习(RL)代理的可行模型繁芜性。类似地,在许多分布式RL环境中,动作是在未加速的硬件(例如 CPU)上完成的,其同样限定了模型大小,以防止难以处理的实验运行韶光。这些“actor-latency”约束设置对模型繁芜性的扩展构成了紧张障碍,而模型繁芜性最近在监督学习中非常成功。为了能够利用大容量模型,同时在演出过程中仍在系统施加的约束范围内运行,本文开拓了一个“Actor-Learner蒸馏”(ALD)程序,其利用连续蒸馏形式,将学习进度从大容量学习者模型转移到小容量参与者模型。作为案例研究,本文在部分可不雅观测环境的背景下开拓了该程序,个中转换器模型最近比LSTM有了很大的改进,但打算繁芜度显著提高。以Transformer模型作为学习器,LSTM作为Actor,本文在几个具有寻衅性的影象环境中证明,利用Actor-Learner Distillation蒸馏可以使规复 Transformer Actor模型清晰样本的效率增加,同时保持LSTM- Actor模型的快速推理和减少 LSTM 的总演习韶光。
AI赋能的科技情报挖掘系统(AMiner - AI赋能科技情报挖掘)
AMiner是一个科技情报剖析与挖掘平台,利用AI为用户高效获取和理解科研情报,内容席卷论文、学者、专利、报告、会议、专题集等多种形式,涵盖打算机科学、医学、通信、地学、物理等40个学科,通过智能推举引擎、搜索引擎、关注订阅等获取想要的知识。
本文系作者个人观点,不代表本站立场,转载请注明出处!