1. 问题描述

分享 | 基于模仿进修和强化进修的机械臂运动技能获取_机械人_技巧 绘影字幕

随着当前对机器人智能化和通用性需求的不断提高,越来越多的须要机器人能够快速方便的获取生产、生活技能,并在动态不愿定环境下结合履历影象获取新技能。
制约机器人在更多领域和场景发展的成分紧张表示在以下几个方面:1)对环境和任务的适应性差,机器人技能泛化能力弱;2)学习技能须要大量样本数据,演习韶光长,新任务每每须要重新学习;3)不能回顾和利用所学知识和履历。
故须要研究使机器臂具有人类学习的技巧的方法,在不愿定条件下,无人为干预,结合履历以优化办法产生主动行为完成任务。

2、研究方法

此文结合模拟学习和强化学习,对机器人在自主学习节制新运动技能这一科学问题开展探索研究。
首先,基于 RGB-D 图像能够映射三维空间信息的属性,提出了一种与 RGB-D 图像交互的机器臂示教方法,其结合智能交互思想并面向任务级示教。
Kinect V2 作为视觉传感器实现物体识别和定位,基于 MoveIt!运动方案软件实现高层动作方案。
将 RGB-D 图像作为示教平台,在图像中与一个物体交互并选择一个高阶动作,勾引机器臂在实际事情空间操为难刁难应的物体,多步的交互组成了一项运动技能的示教轨迹。

图1 RGB-D图像交互示教

然后,开展了从示教中学习技能的研究。
根据人类技能获取行为和 RGBD-ID 方法每一步与一个物体和一个动作交互的特点,提出一种由目标物推理网络(Objects list network, OLN)和策略学习网络(Policy learning network, PLN)组成的模拟学习架构OPLN。
OLN和 PLN 均由 LSTM 神经网络构建,个中OLN 学习了物体的操作顺序关系,PLN 学习了物体的状态属性,从而机器人能够在较高的认知水平上实现自主推理和技能获取。
在无人为干预的情形下完成从示教中学习到策略。

再次,进行了基于强化学习的机器臂运动技能获取研究,通过与环境交互自主学习策略。
针对机器人操作任务,提出一种基于物体构形匹配(Objects configurationmatching)的通用的奖赏函数设计方法,根据向量相似性度量方法打算物体目标构形和当前构形的相似性,构建即时奖赏为关于该相似性的函数。
以 Actor-Critic 算法为主体构造搭建了机器臂强化学习模型,结合设计的奖赏函数学习优化技能策略。

图2 强化学习部分演习过程

末了,针对上述方法搭建了相应的实验平台。
实验平台的硬件系统包括 UR5 机器臂、气动二指手抓、Kinect V2 深度摄像头等;软件系统由ROS 机器人操作系统、MoveIt!运动方案库、Matlab、pytorch神经网络框架等组成。
设置了堆叠积木任务和 Pick and Place任务,验证了本文RGBD-ID 方法、模拟学习模型和强化学习模型用于机器臂获取运动技能的有效性和可行性。

图3 机器人堆积木模拟学习过程

3、研究结论

针对机器人智能化的需求,进行了基于模拟学习和强化学习的机器臂运动技能获取的研究。
提出了一种人-图像交互式示教方法,一种基于 LSTM 神经网络的模拟学习框架,开展了机器臂强化学习获取技能的事情。
针对事情过程中涌现的问题,不断递进的提出办理方案。
终极,通过堆叠积木任务和 Pick and Place 任务验证了方法的有效性,提高了机器臂的学习能力。

CAAI认知系统与信息处理专委会供稿