全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111270024.5 (22)申请日 2021.10.2 9 (71)申请人 上海商汤临港智能科技有限公司 地址 200232 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区泥城镇秋 山路1775弄29、 30号2楼01室 (72)发明人 邵昊 陈若冰 刘宇  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 30/27(2020.01) G06V 20/56(2022.01)G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称 强化学习网络训练方法、 装置、 电子设备及 存储介质 (57)摘要 本公开提供了一种强化学习网络训练方法、 装置、 电子设备及存储介质, 该方法包括: 获取样 本图像的图像特征数据、 虚拟车辆的方向盘角度 信息、 和虚拟车辆对应的导航命令; 利用待训练 的强化学习网络基于图像特征数据、 方向盘角度 信息和导航命令, 生成对虚拟车辆进行控制的控 制信息; 基于控制信息和虚拟车辆对应的前一时 刻的历史行驶信息, 确定虚拟车辆的当前行驶信 息; 基于当前行驶信息和虚拟车辆对应的当前环 境信息, 确定待训练强化学习网络的奖励信息; 基于奖励信息和控制信息, 对待训练强化学习网 络进行训练, 直至训练后的强化学习网络收敛, 得到至少一个训练阶段的目标强化学习网络 。 权利要求书3页 说明书15页 附图3页 CN 114004355 A 2022.02.01 CN 114004355 A 1.一种强化学习网络训练方法, 其特 征在于, 包括: 获取样本 图像的图像特征数据、 虚拟车辆的方向盘角度信息、 和所述虚拟车辆对应的 导航命令; 其中, 所述样本图像为虚拟车辆上设置的前置摄 像头采集的; 利用待训练的强化学习网络基于所述图像特征数据、 所述方向盘角度信 息和所述导航 命令, 生成对所述虚拟车辆进行控制的控制信息; 所述控制信息用于控制所述虚拟车辆在 一个车道上 行驶和/或变换 车道行驶; 基于所述控制信 息和所述虚拟车辆前一 时刻的历史行驶信 息, 确定所述虚拟车辆的当 前行驶信息; 基于所述当前行驶信 息和所述虚拟车辆对应的当前环境信 息, 确定所述待训练强化学 习网络的奖励信息; 其中, 所述奖励信息用于表征所述当前行驶信息与所述当前环境信息 之间的匹配程度; 基于所述奖励信息和所述控制信息, 对所述待训练强化学习 网络进行训练, 直至训练 后的强化学习网络收敛, 得到至少一个训练阶段的目标强化学习网络, 其中, 不同训练阶段 的目标强化学习网络的训练次数不同。 2.根据权利要求1所述的方法, 其特征在于, 所述样本图像的图像特征数据为基于训练 后的图像编码器提取 得到的; 所述图像编码器采用以下步骤训练得到: 获取样本数据, 所述样本数据包括样本车辆上设置的前置摄像头采集的中间样本图 像、 和中间样本图像对应的标注信息, 所述标注信息包括以下至少一种: 中间样本图像对应 的语义分割图像、 样本车辆的行驶速度、 样本车辆的样本位置、 样本车辆与车道中心线之间 的第一样本距离、 样本车辆的行驶方向与车道方向之间的样本夹角、 样本车辆与行驶方向 上距离最近的路口之间的第二样本距离、 样本车辆对应的行驶方向上距离最近的路口的交 通灯信息; 基于所述中间样本图像和待训练图像编码器, 生成所述中间样本图像对应的预测信 息; 其中, 所述预测信息为与所述标注信息匹配的信息; 基于所述标注信息和所述预测信息, 对所述待训练图像编码器进行训练, 直至训练后 的图像编码器收敛。 3.根据权利要求1或2所述的方法, 其特征在于, 基于所述当前行驶信息和所述虚拟车 辆对应的当前环境信息, 确定所述待训练强化学习网络的奖励信息, 包括: 基于所述当前环境信息, 确定所述虚拟车辆对应的指导行驶信息; 基于所述指导行驶信 息和所述当前行驶信 息, 确定所述待训练强化学习网络的奖励信 息, 其中, 所述指导行驶信息与所述当前 行驶信息之间的偏差、 与所述奖励信息负相关。 4.根据权利要求3所述的方法, 其特征在于, 在所述当前行驶信 息包括当前行驶速度的 情况下, 所述指导行驶信息为指导行驶速度, 所述指导行驶速度用于表征所述虚拟车辆能 够在当前道路上 行驶的最大速度。 5.根据权利要求3或4所述的方法, 其特征在于, 在所述当前行驶信息包括当前行驶方 向的情况下, 所述指导行驶信息为指导行驶方向; 所述基于所述当前环境信息, 确定所述虚 拟车辆对应的指导行驶信息, 包括: 在所述导航命令指示所述虚拟车辆沿着当前道路行驶、 且不需要变道的情况下, 确定 所述虚拟车辆对应的指导行驶方向为当前道路中心线的方向。权 利 要 求 书 1/3 页 2 CN 114004355 A 26.根据权利要求3或4所述的方法, 其特征在于, 在所述当前行驶信息包括当前行驶方 向的情况下, 所述指导行驶信息为指导行驶方向; 所述基于所述当前环境信息, 确定所述虚 拟车辆对应的指导行驶信息, 还 包括: 在所述导航命令指示所述虚拟车辆沿着当前道路行驶、 且需要变道的情况下, 确定所 述虚拟车辆对应的指导行驶方向为从当前车道的第一位置指向变换后车道的第二位置的 方向。 7.根据权利要求3或4所述的方法, 其特征在于, 在所述当前行驶信息包括当前行驶方 向的情况下, 所述指导行驶信息为指导行驶方向; 所述基于所述当前环境信息, 确定所述虚 拟车辆对应的指导行驶信息, 还 包括: 在所述导航命令指示所述虚拟车辆需要拐弯的情况下, 确定拐弯后的行驶车道上导航 点的辅助圆形区域, 并将虚拟车辆的当前行驶位置至所述辅助圆形区域的切线方向, 确定 为所述虚拟车辆对应的指导行驶方向, 其中, 所述拐弯包括左 拐或右拐。 8.根据权利要求3~7任一所述的方法, 其特征在于, 在所述当前行驶信息包括当前行 驶位置的情况下, 所述指导行驶信息为行驶中心线; 所述基于所述当前环境信息, 确定所述 虚拟车辆对应的指导行驶信息, 包括: 在所述导航命令指示所述虚拟车辆沿着当前道路行驶、 且不需要变道的情况下, 确定 所述虚拟车辆对应的行驶中心线为当前 行驶的车道的中心线。 9.根据权利要求3~7任一所述的方法, 其特征在于, 在所述当前行驶信息包括当前行 驶位置的情况下, 所述指导行驶信息为行驶中心线; 所述基于所述当前环境信息, 确定所述 虚拟车辆对应的指导行驶信息, 还 包括: 在所述导航命令指示所述虚拟车辆沿着当前道路行驶、 且需要变道的情况下, 确定所 述虚拟车辆对应的行驶中心线为连接当前车道的第一位置和变换后车道的第二位置的指 导线。 10.根据权利要求3~7任一所述的方法, 其特征在于, 在所述当前行驶信 息包括当前行 驶位置的情况下, 所述指导行驶信息为行驶中心线; 所述基于所述当前环境信息, 确定所述 虚拟车辆对应的指导行驶信息, 还 包括: 在所述导航命令指示所述虚拟车辆需要拐弯的情况下, 确定拐弯后的行驶车道上导航 点的辅助圆形区域, 并将虚拟车辆的当前行驶位置至所述辅助圆形区域的切线, 确定为所 述虚拟车辆对应的行驶中心线, 其中, 所述拐弯包括左 拐或右拐。 11.根据权利要求1~10任一所述的方法, 其特征在于, 在训练得到多个训练阶段的目 标强化学习网络的情况 下, 所述方法还 包括: 获取测试图像; 利用所述测试图像, 对每 个所述目标强化学习网络进行测试, 得到测试 结果; 将多个所述测试 结果取平均, 得到目标测试 结果; 在所述目标测试结果不满足目标要求的情况下, 重新对待训练强化学习网络进行训 练。 12.根据权利要求1~11任一所述的方法, 其特征在于, 在训练得到多个训练阶段的目 标强化学习网络的情况 下, 所述方法还 包括: 获取实体车辆的行驶图像;权 利 要 求 书 2/3 页 3 CN 114004355 A 3

.PDF文档 专利 强化学习网络训练方法、装置、电子设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 强化学习网络训练方法、装置、电子设备及存储介质 第 1 页 专利 强化学习网络训练方法、装置、电子设备及存储介质 第 2 页 专利 强化学习网络训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:45:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。