说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211498003.3 (22)申请日 2022.11.28 (71)申请人 湖南工商大 学 地址 410000 湖南省长 沙市岳麓区岳麓 大 道569号 (72)发明人 陈荣元 邓乔木 周鲜成 申立智  李甜霞 何志雄 陈浪  (74)专利代理 机构 湖南正则奇美专利代理事务 所(普通合伙) 4310 5 专利代理师 张继纲 (51)Int.Cl. G06Q 10/04(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 10/08(2012.01) (54)发明名称 综合深度神经网络与强化学习的车辆路径 问题求解方法 (57)摘要 本发明公开了综合深度神经网络与强化学 习的车辆路径问题求解方法, 涉及强化学习技术 领域, 利用Strut c2Vec图结构对实际路网进行特 征提取, 并更新不同状态下路径图的特征信息; 构建Actor ‑Critic网络与Critic网络, 由LSTM网 络组成编码器与解码器的神经元, 将特征信息导 入Actor‑Critic网络进行编码与解码; 利用随机 策略梯度下降算法对Actor ‑Critic网络进行参 数训练, 将ActorNet的实际奖励值与CriticNet 的预估奖励值进行均方误差计算, 同时对Actor 指针网络进行修正计算损失函数生成车辆下一 个将要访问的客户点; 降低了求解时间, 且获得 更优质配送路径方案 。 权利要求书2页 说明书10页 附图1页 CN 115545350 A 2022.12.30 CN 115545350 A 1.综合深度神经网络与强化学习的车辆路径问题求解方法, 其特征在于, 包括以下步 骤: 步骤一: 将车辆路径抽象为一个无向图的形式; 将无向图标记为G; 其中, 无向图中的每 个节点分别代 表具有货物需求的收货点; 无向图的每条边代 表每个收货点之间的路径; 步骤二: 利用St rutc2Vec根据对应的无向图G的结构递归提取节点的特 征; 步骤三: 构建Actor ‑Critic网络; 包括使用编码器将图信息、 节点状态以及包括起始点 的初始无向图作为输入, 生成图形结构和节点特征 的编码; 以及使用解码器整合编码器的 上下文信息、 自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重 最大的元 素作为下一个旅行的节点; 步骤四: 训练Actor ‑Critic网络; 包括定义奖励函数, 并使用随机策略梯度下降方法训 练指针网络ActorNet; 以及根据指针网络ActorNet输出的策略, 使用随机梯度下降对每个 策略产生的价值进行预测的方式训练价值网络CriticNet; 再将指针网络ActorNet产生的 实际奖励值与价值网络CriticNet产生的预估奖励值求得均方误差作为优化目标, 采用随 机梯度下降的方式进行训练Actor ‑Critic网络; 步骤五: 使用训练好的Actor ‑Critic网络求 解车辆路径问题。 2.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, Strutc2Vec提取节 点特征的方式为对节 点的属性和边的属性用不同的参数Θ进 行非线性映射到神经网络中, 经过r 次迭代后得到每个节点点及其与邻点边的特征信息; r 为预先设置的迭代次数参数; 参数Θ根据每条边的距离以及来往时间按照一定比例通过指 针网络训练而得; Strutc2Vec将算例中的每一个点嵌入一个初始化为0的P维特征; 其中, P 代表每个节点的属性的数量; 然后对所有的嵌入特 征进行同步更新。 3.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 所述编码器将图信息、 节点状态以及包括起始点的初始无向图经过LSTM网络转 换为P维的特征信息, 并经过LSTM处理后的原始数据作为解码 器的初始输入; 先将起始节 点 的信息输入指针网络, 然后将其他节点的信息随机进行输入, 最后, 根据所有节点生成 的P维的特征信息, 编码 器生成图形结构和节点特征的编 码, 并将其作为初始单元内存状态 输入编码器。 4.根据权利要求3所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 节点的信息包括: 距离、 类型、 油耗以及货物需求 容量。 5.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 采用LSTM s单元构建PTRNET解码器的递归神经网络模 型, 解码器也是将原始数据 转换成隐藏层状态, 只是将其中的上下文信息由编 码器中的上下文信息替代维解码 器中的 上下文信息; 解码器整合编码器的上下文信息、 自身当前 的上下文信息以及遍历过 的部分 旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点; 在每一步中根据 注 意力机制, 这个权重最大的元素相当于指 针网络的指 针, 作为最 终的输出; 注 意力机制的定 义如下公式表示:权 利 要 求 书 1/2 页 2 CN 115545350 A 2其中, k代表来往各个节点 之间的运输车;  是概率策略, 即每要访问下一个节点, 都会 产生一个概率 , 即是指产生的概率 的个数要小于节点个数 ; 是注 意力向量, ,  是注意力矩阵, 是注意力函数, 是在给定所有节点都 嵌入的情况下, 编码器产生图结构和节点特征的编码, 同时也是节点的记忆单元; 其中 代表编码器中的节点的注意力矩阵, 代表解码器中的注意力矩阵; 是S动态状态下k车经历过的点 的集合; softmax是归一函数; 分别 为节点i 、 j的记忆单元; 指针网络 输出的选择 下个客户 点的概率定义为: 其中, 表示的S状态选择 下一个访问节点 i的概率函数。 6.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 指针网络Act orNet通过将节 点信息输入编码 器与解码 器生成下一个将要访问节 点的概率, 并且计算初步的奖励。 7.根据权利要求6所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 计算奖励的方式为: 在给定的环境状态下, 指针网络输出智能体每一步的动作概率向量, 根据该概率向量 以采样选择方式输出联合策略; 每一个策略与环境进行交互, 在条件约束下完成客户的需 求就会生成奖励值; 如果违反约束或未完成客户需求, 就会得到一定的惩罚值; 最 终的累积 奖励是所有策略与环境交 互产生的奖励值减去惩罚值; 奖励函数就是累计奖励。 8.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法, 其 特征在于, 所述价值网络Cr iticNet由若干LSTM网络组成, LSTM网络处理由编码器隐藏层输 入的信息, 最后由两个全连接的ReLU层进行解码。权 利 要 求 书 2/2 页 3 CN 115545350 A 3

PDF文档 专利 综合深度神经网络与强化学习的车辆路径问题求解方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 综合深度神经网络与强化学习的车辆路径问题求解方法 第 1 页 专利 综合深度神经网络与强化学习的车辆路径问题求解方法 第 2 页 专利 综合深度神经网络与强化学习的车辆路径问题求解方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。