(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110449963.X
(22)申请日 2021.04.25
(65)同一申请的已公布的文献号
申请公布号 CN 113076615 A
(43)申请公布日 2021.07.0 6
(73)专利权人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
(72)发明人 王贺升 韩兴耀 吴文华 周韵朗
王光明
(74)专利代理 机构 上海段和段律师事务所
31334
专利代理师 李佳俊 郭国中
(51)Int.Cl.
G06F 30/17(2020.01)
G06F 30/27(2020.01)G06T 7/00(2017.01)
G06T 7/73(2017.01)
G06T 7/80(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 110909644 A,2020.0 3.24
CN 111046948 A,2020.04.21
CN 111515961 A,2020.08.1 1
CN 112605983 A,2021.04.0 6
CN 110450153 A,2019.1 1.15
CN 112313044 A,2021.02.02
刘雪峰. 《基 于深度强化学习的机 械臂智能
抓取技术研究》 . 《中国优秀硕士学位 论文全文数
据库 信息科技 辑》 .2020,
审查员 赵盼
(54)发明名称
基于对抗式深度强化学习的高鲁棒性机械
臂操作方法及系统
(57)摘要
本发明提供了一种基于对抗式深度强化学
习的高鲁棒性机械臂操作方法及系统, 包括: 工
业相机对机械臂操作环境进行拍摄, 获取机械臂
操作环境的RGB图像信息和深度信息; 传感器对
工业相机的位姿进行感应, 获取相机的位姿信
息, 得到相机的外参矩阵T; 基于获取的环境的
RGB图像信息和深度信息, 根据相机的外参矩阵
和内参矩阵计算得到环境点云; 环 境点云通过最
远距离采样得到三维点云分域张量, 将三维点云
分域张量输入点云特征提取网络提取环境的点
云特征; 构建由物理引擎搭建的仿真物理环境,
设定机械臂具体任务的对抗式深度强化学习模
型; 利用机械臂与环境交互获取的经验数据训练
对抗式深度强化学习框架直至收敛, 得到训练后
的对抗式深度强化学习框架。
权利要求书7页 说明书19页 附图4页
CN 113076615 B
2022.07.15
CN 113076615 B
1.一种基于对抗式深度强化学习的高鲁棒 性机械臂操作方法, 其特 征在于, 包括:
步骤S1: 工业相机对机械臂操作环境进行拍摄, 获取机械臂操作环境的RGB图像信息和
深度信息;
步骤S2: 传感器对机械臂及工业相机的位姿进行感应, 获取相机的位姿信息, 得到相机
的外参矩阵T;
步骤S3: 基于获取的环境的RGB图像信息和 深度信息, 根据相机的外参矩阵和内参矩阵
计算得到环境 点云;
步骤S4: 环境点云通过最远距离采样得到三维点云分域张量, 将三维点云分域张量输
入点云特征提取网络提取环境的点云特征, 将环境的点云特征通过多层感知器进行聚合,
得到点云的状态特 征;
步骤S5: 构建由物理引擎搭建的仿真物理环境, 根据点云的状态特征设定机械臂具体
任务的对抗式深度强化学习模型;
步骤S6: 利用机械臂与环境交互获取的经验数据训练对抗式深度强化学习模型直至收
敛, 得到训练后的对抗式深度强化学习模型;
步骤S7: 使用训练后的对抗式深度强化学习模型使机 械臂能够完成具体任务;
所述对抗式深度强化学习模型通过施加深度强化学习的对抗模型进行成长性的干扰,
在训练的各个阶段增 加困难经验数据的采样率, 从而达 到提升目标模型鲁棒 性的效果;
所述步骤S4包括:
步骤S4.1: 对获取的有效环境点云使用最远距离采样选取点云 中的
个关键点; 根据
个关键点选取每个关键点周围预设半径内球形区域内的的
个点作为一个划分, 得到一个
维度为
的三维点云 分域张量;
步骤S4.2: 将点云分域张量输入特征提取网络, 点云分域张量通过T ‑Net转换网络进行
对齐, 得到对齐后的三维点云 分域张量;
步骤S4.3: 将对齐后的三维点云分域张量通过多层感知器对每一区域点云数据进行初
步特征提取, 得到局部特 征提取张量;
步骤S4.4: 局部特征提取张量通过在特征的各个维度上执行最大池化操作 得到每个区
域以关键 点为中心的局部特征, 表示为
的局部特征提 取张量, 局部特征提 取张量对应的维
度为
;
步骤S4.5: 对获取的局部特征使用最远距离采样选取点云中的
个关键点; 根据
个关
键点选取每个关键点周围预设半径内球形区域内的的
个点作为一个划分, 得到一个 维度
为
的三维点云分域张量, 重复执行步骤S4.2至步骤S4.4, 得到全部点云的特征,
表示为一维向量
;
步骤S4.6: 将得到的全部点云特 征通过多层感知器进行聚合, 得到点云的状态特 征;
所述步骤S5包括:
步骤S5.1: 由物理引擎搭建机械臂具体任务的仿真物理环境, 所述物理环境包括机械
臂P和机械臂A;
步骤S5.2: 机械臂P的状态空间为点云状态特征及具体任务所需的传感器信息; 机械臂权 利 要 求 书 1/7 页
2
CN 113076615 B
2P的动作空间为具体任务要求的末端 执行器从当前位姿移动到预估位姿 所需的坐标位移和
角位移; 机械臂A的状态空间为点云状态特征及具体任务所需的传感器信息; 机械臂A的动
作空间为具体任务要求的末端执行器从当前位姿移动到预估位姿所需的坐标位移和角位
移;
步骤S5.3: 机械臂具体任务的奖励函数
: 对于机械臂P来说, 根据具体任务设定的奖励
函数为
; 那么对于 机械臂A来说, 奖励函数计算公式如下:
(5)
其中,
表示机械臂A所采用的奖励函数, 且机械臂A和机械臂P的关系是一种对偶的关
系;
步骤S5.4: 深度强化学习算法为DDPG算法, 对于机械臂P和机械臂A, 每个机械臂的深度
神经网络结构包括:
决策网络
、
目标网络
、
价值网络
和
目标
网络
;
所述
决策网络
和
目标网络
包括状态
输入层, 两个全连接层,
决策网络 输出层, 各个层之间的激活函数为
函数;
所述
价值网络
和
目标网络
包括状态
和动作
输入层,
价值网
络层, 值输出层, 各个层之间的激活函数为
函数;
所述步骤S6中机械臂与环境交互获取的经验数据包括: 机械臂P和机械臂A不断与仿真
物理环境进行交 互, 然后把与环境交 互获得的数据分别存放在经验回放池
和
中;
在交互过程中, 不断获取机械臂P的状态
, 在
决策网络基于当前状态
得到动作
, 执行动作
, 得到新状态
、 奖励
和是否终止
, 将
这个
五元组存 入经验回放池
;
在交互过程中, 不断获取机械臂A的状态
, 在
决策网络基于当前状态
得到动作
, 执行动作
, 得到新状态
、 奖励
和是否终止
, 将
这个
五元组存 入经验回放池
;
所述步骤S6包括:
步骤S6.1: 随机从经验回放池
中采样一批样本
;
步骤S6.2: 根据机 械臂P的
目标网络, 计算
, 公式如下:
(6)
步骤S6.3: 根据机 械臂P的
目标网络, 计算目标
, 公式为:
(7)
其中,
表示时间衰减因子, 是调和的权值;
步骤S6.4: 计算当前的
, 公式为:权 利 要 求 书 2/7 页
3
CN 113076615 B
3
专利 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:22:59上传分享