人类从婴幼儿期间就学会模拟别人来得到许多新技能,这种行为被称为模拟学习。
我们古代中国就有很多形容人们模拟学习中针言,有如“邯郸学步”、“画虎成狗”、“鹦鹉学语”等都是形容模拟不到位的情形,又如“惟妙惟肖”、“维妙维肖”、“有模有样”等模拟极佳的状态。
因此,智能体如何通过模拟学习避免涌现那些尴尬的状态,而达到完美的状态,也是亟待研究的课题。

学术分享丨机械人操作进修系列分享:模仿进修_算法_机械人 智能助手

目前模拟学习也成为许多研究领域的主要课题,包括生理学、神经科学、人工智能和机器人学。
模拟学习是机器学习诸多领域的交叉点。
它对应于一个繁芜的优化问题,可以用不同的办法形式化,例如构造化输出预测问题或半监督学习问题。
模拟学习还与强化学习、在线主动学习、多智能体学习、特色建构等有着密切的关系。

从机器学习的角度来看,模拟学习是一种办理掌握和顺序决策问题的学习方法。
在模拟学习社区内,机器人得到专家的示例数据紧张包括运动示教、遥操作、动作捕捉,视觉实例等等。
最近,干系研究领域可分为以下子领域:行为克隆,褒奖推断,从不雅观察中学习,纠正交互。

1、行为克隆(Behavioral Cloning)

行为克隆是模拟学习中最大略方法,采取直接模拟的办法。
在这种情形下,从所供应的例子归纳问题常日被简化为一个有监督的学习问题,而不必对西席的意图作出假设。
基于监督学习从示教数据学习机器人的策略,通过以任意一条专家示教轨迹的任意一个时候的状态 s 作为算法的输入, 与 s 对应的动作 a 设置为算法的输出,就可以运用传统的监督学习算法来办理这个模拟学习的问题。
比如,通过掌握一个机器臂的七个枢纽关头的角度来实行一个指定的动作,可以设计神经网络的输出为这七个枢纽关头的角度值或者这七个枢纽关头角度的概率分布来办理这个问题。
如果采取高斯分布的话,可以设计神经网络输出对应角度的均值和方差。
直接采取上述监督学习的思路来办理模拟学习问题的方法,虽然然很大略,但是在某些领域却拥有着很不错的表现。
在空想想情形下所学的策略能够在新场景中重现所示例的行为。

2、褒奖推断 (Reward Inference)

褒奖推断旨在提取专家的运动/操作意图,而不是动作本身的低级细节。
此类方法常日包括逆强化学习(IRL)、学徒学习(apprenticeshiplearning)或逆最优掌握(inverseoptimal control)。
该类方法通过假设专家最大化某个褒奖函数来实现操作动作,学习者的目标是找到阐明专家行为的褒奖函数。
推断得到的褒奖函数可进一步通过RL算法来学习任务的策略。
IRL范式(IRL paradigm)有以下几个优点: 1) 如果褒奖函数是天下上物体或特色的函数,可自然地从人移植到机器人,而不存在碰着对应问题。
2) 褒奖函数常日是稀疏的,因此供应了一种自然的方法,从少量的演习数据进行归纳,纵然在非常大的状态空间中也是如此。
3) 人类的行为可能会编码有关任务的大量背景信息,这种信息很随意马虎在褒奖函数中进行编码,但在策略中编码起来较繁芜,并且可以在往后的高下文中重新利用。

最值得把稳的是,从根本上IRL问题是不适定的(ill-posed)-存在无限多个褒奖函数,且它们会导致相同的最优策略。
因此,许多IRL算法之间的差异在于如何肃清歧义或显示对某些褒奖函数偏好的指标。
最大熵(Maximum Entropy)IRL通过利用概率框架(probabilistic framework)和最大熵原则肃清了可能的褒奖函数的歧义,较好地办理了示例者次优性和不适定的问题。
详细来说,在给定褒奖函数下,给所有会得到同等回报的轨迹分配相同的概率,然后利用这种分布以更好地匹配示例的特色计数,同时避免具有除数据指示偏好之外的任何其他偏好。

目前,IRL算法常采取高斯过程或神经网络来建立具有状态特色的非线性褒奖函数。
这种表示法须要仔细的正则化以避免过度拟合。
这对付履历网络昂贵的机器人技能来说尤其成问题。
一些最近的IRL方法已经显示出可以在实际的机器人领域中事情,它通过交替褒奖优化和策略优化步骤或将IRL框架转化为实行特色匹配的更直接的策略搜索问题来规避此障碍。
如果有条件的话,可以通过将IRL问题转换为纯监督问题,利用分级演示来摆脱推理韶光策略优化或MDP求解的须要。
其余,主动学习技能已被用来降落IRL的打算繁芜度,以及对示例者的信息性做出non-I.I.D假设的策略。

3、从不雅观察中学习 (Learning from Observation)

模拟学习是一个agent考试测验利用另一个实行该任务的agent(常日是expert)天生的信息来学习如何实行特界说务的过程。
按照老例,模拟者可以访问由专家天生的状态和动作信息。
但是,动作信息很难直接得到,而且哀求动作信息会阻挡从大量现有的宝贵学习资源(例如,在线***)中进行模拟学习。
例如,机器人可以不雅观察人类正在实行的任务,但只能访问原始像素数据,而不能访问天下的真实根本状态,也不能访问人类采纳的行动。
这个问题被称为“从不雅观察中学习”(LfO),近年来的LfO引起了极大的关注,个中,模拟者只能访问专家天生的状态信息(例如,***帧)。
在LfO的极度情形中,agent被期望从单帧目标状态图像而不是完全的不雅观测轨迹中进行学习。
图 1 先容了当前LfO算法的分类。

图 1. LfO掌握算法的分类的图形表示。
这些算法可以分为两组:(1)基于模型的算法,个中算法可以利用前向动力学模型或逆动力学模型。
(2)无模型算法,其本身可以归类为对抗性方法和褒奖工程。

对抗性演习技能在打算机视觉领域取得了一些最新的令人愉快的进展。
个中一个这样的进展是在姿势估计领域,该领域能够通过关键点检测来检测杂波***中工具的位置和方向,这样的关键点信息在LfO中也可能被证明是有用的。
虽然有少量努力将这些进展纳入LfO,但仍有许多事情须要研究。
实际上,当前LfO算法很少在物理机器人上成功测试过。
也便是说,大多数谈论结果仅在仿照域中进行。
例如,只管对抗性方法当前为许多基线实验LfO问题供应了最新的性能,但是这些方法显示出很高的样本繁芜性,因此仅被运用于相对大略的仿照任务。
因此,LfO中的一个开放问题是找到方法来适应这些技能,以便可以将它们用于像机器人运用一样禁止高样本繁芜性的场景。

4、纠正交互 (Corrective Interactions)

与其从完全的批量示例中学习,不如常常要求(可能是部分的)纠正示例或其他形式的反馈来学习策略,这常日是有利的。
例如,一个人可以在倒水时进行干预,并且调度杯子的角度和机器人倒水时的角度。
这为在最须要数据的情形下网络数据供应了一种自然的机制——例如,正在发生缺点的情形,或者机器人非常不愿定该做什么的情形。
模拟者主动哀求用户在可信度低或风险较高的状态空间区域进行额外示例,而其他方法则依赖人工用户来识别何时发生了缺点。
更高层次的信息也可以用来进行更稳健的校正,比如更正的基于预测的注释和高等有限状态机中的动作建议。
TAMER框架没有利用纠正性的示例,而是利用有关机器人性能的实时数字人工反馈来纠正和塑造行为。
机器人还可以在须要的时候主动寻求帮助,例如,通过自然措辞。

本文由CAAI认知系统与信息处理专委会供稿