专利一种跟驰状态下基于深度强化学习的驾驶避撞优化方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111182564.8 (22)申请日 2021.10.1 1 (71)申请人长安大学地址 710000 陕西省西安市雁塔区南二环路中段 (72)发明人王驰恒　康凯　朱彤　魏田正　 (74)专利代理机构北京同辉知识产权代理事务所(普通合伙) 11357 代理人梁语嫣 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 (57)摘要本发明涉及自动驾驶技术领域，具体涉及一种跟驰状态下基于深度强化学习的驾驶避撞优化方法。本发明利用深度强化学习构建模型，通过设置一套独立的评价指标体系来评价自动驾驶，而不是通过对比模型与人类驾驶员的差异来评价，可以更加智能的对驾驶避险行为进行学习。提供了一种驾驶避撞的策略，不仅可以对 NGSIM实证数据进行训练，还可以对驾驶仿真数据等进行训练，得到的结果具有通用性。本发明虽是一种跟驰场景下的驾驶避撞策略，但设置新的场景进行模型的训练进行的改动并不大，依然保有很强的可行性。本发明采用了较为复杂的奖励函数，对于得分的评价更加客观和准确。权利要求书2页说明书6页附图6页 CN 113901718 A 2022.01.07 CN 113901718 A 1.一种跟驰状态下基于深度强化学习的驾驶避撞优化方法，其特征在于，所述优化方法的步骤如下： S1：采集下一代仿真(NGSIM)项目的车辆轨迹数据，作为历史驾驶数据储存在数据库中，使用的数据为I ‑80公路在45 分钟内的数据，数据内容为每辆车提供精确的位置信息，采样率为10Hz，即每一时间步长为0.1s，采集的数据中70％用作训练， 3 0％用于验证； S2：使用深度确定性策略梯度(D DPG)深度强化学习方法，构建最优驾驶避撞模型； S2.1：构建仿真环境以使强化学习(Reinforcement Learning， RL)智能体通过一系列状态、行动和奖励值与环境交互； S2.2：选择神经网络体系结构，演员和评论家分别由一个神经网络来代表， S2.3：选取评价指标，设置奖励函数，选取三种指标来评价驾驶避撞策略的好坏，分别是安全指标、效率指标和舒适性指标； S2.4：设置神经网络更新策略和超参数，在每个学习步骤中，利用随机梯度下降算法更新评论家网络的权系数，以使损失函数最小演员网络参数更新如下：演员网络挑选的动作结果传递给评论家，接下来梯度表示如何更新操作以增加Q值，然后将这些梯度传递给演员，并根据梯度来更新演员网络的参数θμ，根据前人研究及测试随机采样的训练数据集确定超参数的值； S2.5：设置行动探测噪声，通过在原始参与者策略中添加一个噪声过程来构建勘探策略，推荐参数采用 θ＝0.15和σ ＝0.2的Omstein ‑Uhlenbeck过程，该过程会产生以零为中心的时间相关值，从而能够在物理环境中进行良好的探索； S3：设置避碰策略，使用了将强化学习与用于安全检查的碰撞避险策略结合起来的方法来解决可能导致碰撞的不安全行为； S4：训练模型，在抽取的1341个跟驰车辆事件中， 70％(938组)用于训练， 30％用于测试，在训练阶段，强化学习智能体依次模拟训练数据中随机打乱的车辆跟驰事件，即当一个跟车事件结束时，从938 个训练事件中随机选择一个新的事件，用新事件的经验数据初始化智能体的状态，该项训练重复3 000集； S5：测试模型，基于上一步骤确定的验证数据对训练后的模型进行验证，验证学习出来的最优驾驶避撞策略在三种指标及其得分上与实证数据的优势之处，进一步明确得到的驾驶避撞策略； 2.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法，其特征在于，所述构建仿真环境具体方法为：将前车数据作为外部输入，后车速度、相对距离和相对速度用经验数据初始化，由强化学习智能体计算加速度，根据强化学习定义的状态更新规则迭代生成后车的未来状态，通过设置评价指标设置奖励函数，计算奖励值，当仿真车辆跟随事件在其最大时间步骤终止时，状态用经验数据集重新初始化。 3.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法，其特征在于，所述演员和评论家的神经网络分别为演员网络的输入是在时间步长t 时的状态量，即初始状态量st＝(Vn(t)， ΔVn‑1， n(t)， Sn‑1， n(t))，它的输出是后车的加速度an(t)；评论家网络输入的是一个状态 ‑动作对也就是(st， at)，它输出的一个标量Q值即Q(st，权　利　要　求　书 1/2 页 2 CN 113901718 A 2at)，它们都由三层组成，分别是输入层、输出层和包含30个神经元的隐藏层，演员网络是基于概率选择出一个行为a，输送给评论家网络，评论家对行为收益进行判断。 4.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法，其特征在于，所述神经网络的三种评价指标具体内容如下：采用被广泛使用的碰撞时间(TTC)作为安全指标，它表示两车相撞前的剩余时间，计算公式为： Sn‑1， n表示前车和后车之间的相对距离， ΔVn‑1， n表示前车和后车的相对速度；以车头时距作为评价效率的指标，以车头时距对数正态分布的概率密度值构造车头时距特征：采用加加速度(JERK)即加速度的时间变化率，来作为评价舒适性的指标， JERK的计算公式为： 5.根据权利要求1所述的一种跟驰状态下基于深度强化学习的驾驶避撞优化方法，其特征在于，所述设置避碰策略的不安全行为确定方法如下：判断两车之间的距离与安全距离阈值dsafe的大小，公式如下：在该式中， RT为后车的反应时间(本发明设定为1s)， amax为假设的后车最大减速度(3m/ s2)，在DDPG模型的训练和测试阶段，将避碰算法与强化学习算法结合如下：权　利　要　求　书 2/2 页 3 CN 113901718 A 3

专利 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法

专利一种跟驰状态下基于深度强化学习的驾驶避撞优化方法