专利强化学习网络训练方法、装置、电子设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111270024.5 (22)申请日 2021.10.2 9 (71)申请人上海商汤临港智能科技有限公司地址 200232 上海市浦东新区中国（上海）自由贸易试验区临港新片区泥城镇秋山路1775弄29、 30号2楼01室 (72)发明人邵昊　陈若冰　刘宇　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 代理人袁忠林 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 30/27(2020.01) G06V 20/56(2022.01)G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称强化学习网络训练方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种强化学习网络训练方法、装置、电子设备及存储介质，该方法包括：获取样本图像的图像特征数据、虚拟车辆的方向盘角度信息、和虚拟车辆对应的导航命令；利用待训练的强化学习网络基于图像特征数据、方向盘角度信息和导航命令，生成对虚拟车辆进行控制的控制信息；基于控制信息和虚拟车辆对应的前一时刻的历史行驶信息，确定虚拟车辆的当前行驶信息；基于当前行驶信息和虚拟车辆对应的当前环境信息，确定待训练强化学习网络的奖励信息；基于奖励信息和控制信息，对待训练强化学习网络进行训练，直至训练后的强化学习网络收敛，得到至少一个训练阶段的目标强化学习网络。权利要求书3页说明书15页附图3页 CN 114004355 A 2022.02.01 CN 114004355 A 1.一种强化学习网络训练方法，其特征在于，包括：获取样本图像的图像特征数据、虚拟车辆的方向盘角度信息、和所述虚拟车辆对应的导航命令；其中，所述样本图像为虚拟车辆上设置的前置摄像头采集的；利用待训练的强化学习网络基于所述图像特征数据、所述方向盘角度信息和所述导航命令，生成对所述虚拟车辆进行控制的控制信息；所述控制信息用于控制所述虚拟车辆在一个车道上行驶和/或变换车道行驶；基于所述控制信息和所述虚拟车辆前一时刻的历史行驶信息，确定所述虚拟车辆的当前行驶信息；基于所述当前行驶信息和所述虚拟车辆对应的当前环境信息，确定所述待训练强化学习网络的奖励信息；其中，所述奖励信息用于表征所述当前行驶信息与所述当前环境信息之间的匹配程度；基于所述奖励信息和所述控制信息，对所述待训练强化学习网络进行训练，直至训练后的强化学习网络收敛，得到至少一个训练阶段的目标强化学习网络，其中，不同训练阶段的目标强化学习网络的训练次数不同。 2.根据权利要求1所述的方法，其特征在于，所述样本图像的图像特征数据为基于训练后的图像编码器提取得到的；所述图像编码器采用以下步骤训练得到：获取样本数据，所述样本数据包括样本车辆上设置的前置摄像头采集的中间样本图像、和中间样本图像对应的标注信息，所述标注信息包括以下至少一种：中间样本图像对应的语义分割图像、样本车辆的行驶速度、样本车辆的样本位置、样本车辆与车道中心线之间的第一样本距离、样本车辆的行驶方向与车道方向之间的样本夹角、样本车辆与行驶方向上距离最近的路口之间的第二样本距离、样本车辆对应的行驶方向上距离最近的路口的交通灯信息；基于所述中间样本图像和待训练图像编码器，生成所述中间样本图像对应的预测信息；其中，所述预测信息为与所述标注信息匹配的信息；基于所述标注信息和所述预测信息，对所述待训练图像编码器进行训练，直至训练后的图像编码器收敛。 3.根据权利要求1或2所述的方法，其特征在于，基于所述当前行驶信息和所述虚拟车辆对应的当前环境信息，确定所述待训练强化学习网络的奖励信息，包括：基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息；基于所述指导行驶信息和所述当前行驶信息，确定所述待训练强化学习网络的奖励信息，其中，所述指导行驶信息与所述当前行驶信息之间的偏差、与所述奖励信息负相关。 4.根据权利要求3所述的方法，其特征在于，在所述当前行驶信息包括当前行驶速度的情况下，所述指导行驶信息为指导行驶速度，所述指导行驶速度用于表征所述虚拟车辆能够在当前道路上行驶的最大速度。 5.根据权利要求3或4所述的方法，其特征在于，在所述当前行驶信息包括当前行驶方向的情况下，所述指导行驶信息为指导行驶方向；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，包括：在所述导航命令指示所述虚拟车辆沿着当前道路行驶、且不需要变道的情况下，确定所述虚拟车辆对应的指导行驶方向为当前道路中心线的方向。权　利　要　求　书 1/3 页 2 CN 114004355 A 26.根据权利要求3或4所述的方法，其特征在于，在所述当前行驶信息包括当前行驶方向的情况下，所述指导行驶信息为指导行驶方向；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，还包括：在所述导航命令指示所述虚拟车辆沿着当前道路行驶、且需要变道的情况下，确定所述虚拟车辆对应的指导行驶方向为从当前车道的第一位置指向变换后车道的第二位置的方向。 7.根据权利要求3或4所述的方法，其特征在于，在所述当前行驶信息包括当前行驶方向的情况下，所述指导行驶信息为指导行驶方向；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，还包括：在所述导航命令指示所述虚拟车辆需要拐弯的情况下，确定拐弯后的行驶车道上导航点的辅助圆形区域，并将虚拟车辆的当前行驶位置至所述辅助圆形区域的切线方向，确定为所述虚拟车辆对应的指导行驶方向，其中，所述拐弯包括左拐或右拐。 8.根据权利要求3～7任一所述的方法，其特征在于，在所述当前行驶信息包括当前行驶位置的情况下，所述指导行驶信息为行驶中心线；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，包括：在所述导航命令指示所述虚拟车辆沿着当前道路行驶、且不需要变道的情况下，确定所述虚拟车辆对应的行驶中心线为当前行驶的车道的中心线。 9.根据权利要求3～7任一所述的方法，其特征在于，在所述当前行驶信息包括当前行驶位置的情况下，所述指导行驶信息为行驶中心线；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，还包括：在所述导航命令指示所述虚拟车辆沿着当前道路行驶、且需要变道的情况下，确定所述虚拟车辆对应的行驶中心线为连接当前车道的第一位置和变换后车道的第二位置的指导线。 10.根据权利要求3～7任一所述的方法，其特征在于，在所述当前行驶信息包括当前行驶位置的情况下，所述指导行驶信息为行驶中心线；所述基于所述当前环境信息，确定所述虚拟车辆对应的指导行驶信息，还包括：在所述导航命令指示所述虚拟车辆需要拐弯的情况下，确定拐弯后的行驶车道上导航点的辅助圆形区域，并将虚拟车辆的当前行驶位置至所述辅助圆形区域的切线，确定为所述虚拟车辆对应的行驶中心线，其中，所述拐弯包括左拐或右拐。 11.根据权利要求1～10任一所述的方法，其特征在于，在训练得到多个训练阶段的目标强化学习网络的情况下，所述方法还包括：获取测试图像；利用所述测试图像，对每个所述目标强化学习网络进行测试，得到测试结果；将多个所述测试结果取平均，得到目标测试结果；在所述目标测试结果不满足目标要求的情况下，重新对待训练强化学习网络进行训练。 12.根据权利要求1～11任一所述的方法，其特征在于，在训练得到多个训练阶段的目标强化学习网络的情况下，所述方法还包括：获取实体车辆的行驶图像；权　利　要　求　书 2/3 页 3 CN 114004355 A 3

专利 强化学习网络训练方法、装置、电子设备及存储介质

专利强化学习网络训练方法、装置、电子设备及存储介质