专利 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110449963.X (22)申请日 2021.04.25 (65)同一申请的已公布的文献号申请公布号 CN 113076615 A (43)申请公布日 2021.07.0 6 (73)专利权人上海交通大学地址 200240 上海市闵行区东川路80 0号 (72)发明人王贺升　韩兴耀　吴文华　周韵朗　王光明　 (74)专利代理机构上海段和段律师事务所 31334 专利代理师李佳俊　郭国中 (51)Int.Cl. G06F 30/17(2020.01) G06F 30/27(2020.01)G06T 7/00(2017.01) G06T 7/73(2017.01) G06T 7/80(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110909644 A,2020.0 3.24 CN 111046948 A,2020.04.21 CN 111515961 A,2020.08.1 1 CN 112605983 A,2021.04.0 6 CN 110450153 A,2019.1 1.15 CN 112313044 A,2021.02.02 刘雪峰. 《基于深度强化学习的机械臂智能抓取技术研究》 . 《中国优秀硕士学位论文全文数据库信息科技辑》 .2020, 审查员赵盼 (54)发明名称基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统 (57)摘要本发明提供了一种基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统，包括：工业相机对机械臂操作环境进行拍摄，获取机械臂操作环境的RGB图像信息和深度信息；传感器对工业相机的位姿进行感应，获取相机的位姿信息，得到相机的外参矩阵T；基于获取的环境的 RGB图像信息和深度信息，根据相机的外参矩阵和内参矩阵计算得到环境点云；环境点云通过最远距离采样得到三维点云分域张量，将三维点云分域张量输入点云特征提取网络提取环境的点云特征；构建由物理引擎搭建的仿真物理环境，设定机械臂具体任务的对抗式深度强化学习模型；利用机械臂与环境交互获取的经验数据训练对抗式深度强化学习框架直至收敛，得到训练后的对抗式深度强化学习框架。权利要求书7页说明书19页附图4页 CN 113076615 B 2022.07.15 CN 113076615 B 1.一种基于对抗式深度强化学习的高鲁棒性机械臂操作方法，其特征在于，包括：步骤S1：工业相机对机械臂操作环境进行拍摄，获取机械臂操作环境的RGB图像信息和深度信息；步骤S2：传感器对机械臂及工业相机的位姿进行感应，获取相机的位姿信息，得到相机的外参矩阵T；步骤S3：基于获取的环境的RGB图像信息和深度信息，根据相机的外参矩阵和内参矩阵计算得到环境点云；步骤S4：环境点云通过最远距离采样得到三维点云分域张量，将三维点云分域张量输入点云特征提取网络提取环境的点云特征，将环境的点云特征通过多层感知器进行聚合，得到点云的状态特征；步骤S5：构建由物理引擎搭建的仿真物理环境，根据点云的状态特征设定机械臂具体任务的对抗式深度强化学习模型；步骤S6：利用机械臂与环境交互获取的经验数据训练对抗式深度强化学习模型直至收敛，得到训练后的对抗式深度强化学习模型；步骤S7：使用训练后的对抗式深度强化学习模型使机械臂能够完成具体任务；所述对抗式深度强化学习模型通过施加深度强化学习的对抗模型进行成长性的干扰，在训练的各个阶段增加困难经验数据的采样率，从而达到提升目标模型鲁棒性的效果；所述步骤S4包括：步骤S4.1：对获取的有效环境点云使用最远距离采样选取点云中的个关键点；根据个关键点选取每个关键点周围预设半径内球形区域内的的个点作为一个划分，得到一个维度为的三维点云分域张量；步骤S4.2：将点云分域张量输入特征提取网络，点云分域张量通过T ‑Net转换网络进行对齐，得到对齐后的三维点云分域张量；步骤S4.3：将对齐后的三维点云分域张量通过多层感知器对每一区域点云数据进行初步特征提取，得到局部特征提取张量；步骤S4.4：局部特征提取张量通过在特征的各个维度上执行最大池化操作得到每个区域以关键点为中心的局部特征，表示为的局部特征提取张量，局部特征提取张量对应的维度为；步骤S4.5：对获取的局部特征使用最远距离采样选取点云中的个关键点；根据个关键点选取每个关键点周围预设半径内球形区域内的的个点作为一个划分，得到一个维度为的三维点云分域张量，重复执行步骤S4.2至步骤S4.4，得到全部点云的特征，表示为一维向量；步骤S4.6：将得到的全部点云特征通过多层感知器进行聚合，得到点云的状态特征；所述步骤S5包括：步骤S5.1：由物理引擎搭建机械臂具体任务的仿真物理环境，所述物理环境包括机械臂P和机械臂A；步骤S5.2：机械臂P的状态空间为点云状态特征及具体任务所需的传感器信息；机械臂权　利　要　求　书 1/7 页 2 CN 113076615 B 2P的动作空间为具体任务要求的末端执行器从当前位姿移动到预估位姿所需的坐标位移和角位移；机械臂A的状态空间为点云状态特征及具体任务所需的传感器信息；机械臂A的动作空间为具体任务要求的末端执行器从当前位姿移动到预估位姿所需的坐标位移和角位移；步骤S5.3：机械臂具体任务的奖励函数：对于机械臂P来说，根据具体任务设定的奖励函数为；那么对于机械臂A来说，奖励函数计算公式如下：（5）其中，表示机械臂A所采用的奖励函数，且机械臂A和机械臂P的关系是一种对偶的关系；步骤S5.4：深度强化学习算法为DDPG算法，对于机械臂P和机械臂A，每个机械臂的深度神经网络结构包括：决策网络、目标网络、价值网络和目标网络；所述决策网络和目标网络包括状态输入层，两个全连接层，决策网络输出层，各个层之间的激活函数为函数；所述价值网络和目标网络包括状态和动作输入层，价值网络层，值输出层，各个层之间的激活函数为函数；所述步骤S6中机械臂与环境交互获取的经验数据包括：机械臂P和机械臂A不断与仿真物理环境进行交互，然后把与环境交互获得的数据分别存放在经验回放池和中；在交互过程中，不断获取机械臂P的状态，在决策网络基于当前状态得到动作，执行动作，得到新状态、奖励和是否终止，将这个五元组存入经验回放池；在交互过程中，不断获取机械臂A的状态，在决策网络基于当前状态得到动作，执行动作，得到新状态、奖励和是否终止，将这个五元组存入经验回放池；所述步骤S6包括：步骤S6.1：随机从经验回放池中采样一批样本；步骤S6.2：根据机械臂P的目标网络，计算，公式如下：（6）步骤S6.3：根据机械臂P的目标网络，计算目标，公式为：（7）其中，表示时间衰减因子，是调和的权值；步骤S6.4：计算当前的，公式为：权　利　要　求　书 2/7 页 3 CN 113076615 B 3

专利 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统

专利基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统