全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111182564.8 (22)申请日 2021.10.1 1 (71)申请人 长安大学 地址 710000 陕西省西安市雁塔区南 二环 路中段 (72)发明人 王驰恒 康凯 朱彤 魏田正  (74)专利代理 机构 北京同辉知识产权代理事务 所(普通合伙) 11357 代理人 梁语嫣 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种跟驰状态下基于深度强化学习的驾驶 避撞优化方法 (57)摘要 本发明涉及自动驾驶技术领域, 具体涉及一 种跟驰状态下基于深度强化学习的驾驶避撞优 化方法。 本发明利用 深度强化学习构建模型, 通 过设置一套独立的评价指标体系来评价自动驾 驶, 而不是通过对比模型与人类驾驶员的差异来 评价, 可以更加智能的对驾驶避险行为进行学 习。 提供了一种驾驶避撞的策略, 不仅可以对 NGSIM实证数据进行训练, 还可以对驾驶仿真数 据等进行训练, 得到的结果具有通用性。 本发明 虽是一种跟驰场景下的驾驶避撞策略, 但设置新 的场景进行模 型的训练进行的改动并不大, 依然 保有很强的可行性。 本发明采用了较为复杂的奖 励函数, 对于得分的评价更加客观和准确。 权利要求书2页 说明书6页 附图6页 CN 113901718 A 2022.01.07 CN 113901718 A 1.一种跟驰状态下基于深度强化学习的驾驶避撞优化方法, 其特征在于, 所述优化方 法的步骤如下: S1: 采集下一代仿真(NGSIM)项目的车辆轨迹数据, 作为历史驾驶数据储存在数据库 中, 使用的数据为I ‑80公路在45 分钟内的数据, 数据内容为每辆车提供精确的位置信息, 采 样率为10Hz, 即每一时间步长为0.1s, 采集的数据中70%用作训练, 3 0%用于验证; S2: 使用深度确定性策略梯度(D DPG)深度强化学习方法, 构建最优驾驶避撞模型; S2.1: 构建仿真环境以使强化学习(Reinforcement  Learning, RL)智能体通过一系列 状态、 行动和奖励值与环境交 互; S2.2: 选择神经网络体系结构, 演员和评论家分别由一个神经网络来代 表, S2.3: 选取评价指标, 设置奖励函数, 选取三种指标来评价驾驶避撞策略的好坏, 分别 是安全指标、 效率指标和舒 适性指标; S2.4: 设置神经网络更新策略和超参数, 在每个学习步骤中, 利用随机梯度下降算法更 新评论家网络的权系数, 以使损失函数最小 演员网络参数更新 如下: 演员网络挑选的动作结果传递给评论家, 接下来梯度 表示如何更新操作以 增加Q值, 然后将这些梯度传递给演员, 并根据梯度 来更新演员网络的参数θμ, 根据前人研究及测试随机采样的训练数据集确定超参数的值; S2.5: 设置行动探测噪声, 通过在原始参与者策略中添加一个噪声过程来构建勘探策 略, 推荐参数采用 θ=0.15和σ =0.2的Omstein ‑Uhlenbeck过程, 该过程会产生以零为中心 的时间相关值, 从而能够 在物理环境中进行良好的探索; S3: 设置避碰策略, 使用了将强化学习与用于安全检查的碰撞避险策略结合起来的方 法来解决可能导 致碰撞的不 安全行为; S4: 训练模型, 在抽取的1341个跟驰车辆事件中, 70%(938组)用于训练, 30%用于测 试, 在训练阶段, 强化学习智能体依次模拟训练数据中随机打乱的车辆跟驰事件, 即当一个 跟车事件结束时, 从938 个训练事件中随机选择一个新的事件, 用新事件的经验 数据初始 化 智能体的状态, 该项训练重复3 000集; S5: 测试模型, 基于上一步骤确定的验证数据对训练后的模型进行验证, 验证学习出来 的最优驾驶避撞策略在三种指标及其得分上与实证数据的优势之处, 进一步明确得到的驾 驶避撞策略; 2.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法, 其 特征在于, 所述构建仿真环境具体方法为: 将前车数据作为外部输入, 后车速度、 相对距离 和相对速度用经验数据初始化, 由强化学习智能体计算加速度, 根据强化学习定义的状态 更新规则迭代生 成后车的未来状态, 通过设置评价指标设置奖励函数, 计算奖励值, 当仿真 车辆跟随事 件在其最大时间步骤终止时, 状态用经验数据集重新初始化。 3.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法, 其 特征在于, 所述演员和评论家的神经网络分别为演员网络的输入是在时间步长t 时的状态 量, 即初始状态量st=(Vn(t), ΔVn‑1, n(t), Sn‑1, n(t)), 它的输出 是后车的加速度an(t); 评论家网络输入的是一个状态 ‑动作对也就是(st, at), 它输出的一个标量Q值即Q(st,权 利 要 求 书 1/2 页 2 CN 113901718 A 2at), 它们都由三层组成, 分别是输入层、 输出层和包含30个神经元的隐藏层, 演员网络是基 于概率选择出一个行为a, 输送给评论家网络, 评论家对行为收益进行判断。 4.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法, 其 特征在于, 所述神经网络的三种评价指标 具体内容如下: 采用被广泛使用的碰撞时间(TTC)作为安全指标, 它表示两车相撞前的剩余时间, 计算 公式为: Sn‑1, n表示前车和后车之间的相对距离, ΔVn‑1, n表示前车和后车的相对速度; 以车头时距作为评价效率的指标, 以车头时距对数正态分布的概率密度值构造车头时 距特征: 采用加加速度(JERK)即加速度的时间变化率, 来作为评价舒适性的指标, JERK的计算 公式为: 5.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法, 其 特征在于, 所述设置避碰策略的不安全行为确定方法如下: 判断两车之间的距离与安全距 离阈值dsafe的大小, 公式如下: 在该式中, RT为后车的反应时间(本发明设定为1s), amax为假设的后车最大减速度(3m/ s2), 在DDPG模型的训练和 测试阶段, 将避碰算法与强化学习算法结合如下: 权 利 要 求 书 2/2 页 3 CN 113901718 A 3

.PDF文档 专利 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 第 1 页 专利 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 第 2 页 专利 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:43:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。