专利一种基于Q学习的高速列车运行调整方法与系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110884976.X (22)申请日 2021.08.0 3 (65)同一申请的已公布的文献号申请公布号 CN 113415322 A (43)申请公布日 2021.09.21 (73)专利权人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号专利权人中国铁道科学研究院集团有限公司通信信号研究所 (72)发明人代学武　程丽娟　俞胜平　崔东亮　袁志明　闫璐　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师梁焱(51)Int.Cl. B61L 27/14(2022.01) G06F 30/27(2020.01) G06F 111/04(2020.01) (56)对比文件 CN 110341763 A,2019.10.18 CN 109740839 A,2019.0 5.10 CN 10419 2177 A,2014.12.10 CN 112776858 A,2021.0 5.11 CN 112232552 A,2021.01.15 CN 113128774 A,2021.07.16 JP 2006228154 A,20 06.08.31 张淼等.基于 Q 学习算法的高速铁路列车节能优化研究. 《环保与能耗铁道运输与经济》 .2019,第41卷(第12期),第1 11-117页. 审查员赵辉 (54)发明名称一种基于Q学习的高速列车运行调整方法与系统 (57)摘要本发明公开了一种基于Q学习的高速列车运行调整方法与系统，涉及高铁动态调度技术领域。不仅准确描述列车运行调整过程的状态、动作和策略以及以满足列车晚点时间最小为目标函数的奖励函数，通过交互学习方式得到突发事件下晚点列车动态调整方案辅助调度员做决策，而且从高铁路网资源的时空供给和约束两个角度，设计并搭建了支持机 ‑机交互的路网运行仿真模块，不仅可以仿真正常运营及典型突发事件引起的晚点的运行场景，而且可以快速地接收调度方案自动生成的调度指令模拟列车运行，刻画了高铁路网的动态变化过程，校验调度方案的可行性。最后输入真实的运行场景数据得到调度方案，验证该方法与系统的有效性，为列车动态运行调整方法提供了新的解决思路。权利要求书5页说明书13页附图3页 CN 113415322 B 2022.08.30 CN 113415322 B 1.一种基于Q学习的高速列车运行调整方法，其特征在于，包括以下步骤：步骤1：获取列车调度场景中的相关数据；所述相关数据包括： (1)铁路基础设施初始化参数：编号为的M个车站，每个车站j对应的股道数量Cj和车站的里程lj；编号为的B个区间；道岔；信号灯； (2)列车的静态数据：编号为的N辆列车，高速列车的计划到发时刻表、经停方案、列车的最大运行速度、区间最小运行时间Tj,j'、以及列车的最小停站时间Ai,j、列车到发和发到最小间隔时间hj、相邻列车到站/发车最小间隔时间gj、列车启动附加时间τ起、列车停车附加时间τ停；步骤2：建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件；步骤3：实时监测晚点事件信息，当监测到晚点信息时，根据当前时刻的铁路基础设施的状态变化和列车运行过程相关数据，利用Q学习算法对晚点列车进行调整得到最优的列车运行调整策略，并更新离散事件表；所述列车运行过程相关数据，包括列车的位置和速度信息、列车实际到达车站的时间、实际从车站发车的时间和列车晚点时间；步骤4：根据最优的列车调整策略得到调整后的列车实际运行图；所述保证列车安全运行的约束条件包括： 1)车站容量约束：其中， xi,j,t表示列车i对车站j在t时刻是否占用，当xi,j,t＝1表示车站j被列车i占用， xi,j,t＝0表示车站j未被列车i占用，且在任意时刻t，占用车站j的列车的总数不能超过该车站的最大容量Cj； 2)列车最小停站时间约束：其中， Fi,j表示列车i实际从车站j发车的时刻； Di,j表示列车i实际到达车站j的时刻； ai,j表示列车i在车站j上实际停站时间； Ai,j表示列车i在车站j的最小停站时间； 3)区间最小运行时间约束：其中， Di,j'表示列车i实际到达车站j'的时刻； ti,j表示列车i在资源j上实际运行时间； Ti,j表示列车i在资源j上区间最小运行时间； 4)发车时间约束： 5)相邻列车到站或者发车间隔时间约束权　利　要　求　书 1/5 页 2 CN 113415322 B 2其中， Di',j表示列车i'实际到达车站j的时刻； Fi',j表示列车i'实际从车站j发车的时刻； gj表示列车i和相邻列车i'到站或者发车最小间隔时间，即相邻列车的到站或者发车时间间隔应不小于gj； 6)相邻列车的到发和发到间隔时间约束：其中， Di',j表示列车i'实际到达车站j的时刻； hj表示列车i和相邻列车i'到发和发到最小间隔时间，即相邻列车的到发和发到时间间隔应不小于 hj；所述步骤3包括如下步骤：步骤3.1：将二维Q(S,A)表初始化为0，并设定最大迭代次数、学习率α、折扣因子γ、 δ 值、常数C；步骤3.2：获取初始状态向量S0；当监测到晚点信息时，获取当前时刻下列车运行位置和路网的区间、股道占用情况的数据，得到初始状态向量S0；为了便于描述Q学习算法的基本要素，对铁路基础设施中的车站区间统一称为资源，设共有R＝B+M个资源，编号为从理论上可以将调度时间范围[t1,t2]进行离散化处理得到集合根据步骤1中获取到的列车调度场景中的相关数据，定义 Q学习算法中的状态向量St如式(12)所示：其中， t表示当前事件触发的时刻； ki,t∈R为列车i在时刻t所在的资源编号即列车的相对位置； k1,t表示列车1在t时刻停留/运行的资源编号； k2,t表示列车2在t时刻停留/运行的资源编号； kn,t表示列车n在 t时刻停留/运行的资源编号；表示当前时刻t所有列车占用资源的集合；表示当前时刻t每辆列车前进方向上的下一个资源的集合；表示调度时间范围的集合； c1,t为当前列车1在时刻t所在的资源的临近资源编号； ci,t为当前列车i在时刻t 所在的资源的临近资源编号； cn,t为当前列车n在时刻 t所在的资源的临近资源编号；代表在时刻t资源c1,t的拥挤程度；代表在时刻t资源ci,t的拥挤程度；代表在时刻t资源cn,t的拥挤程度；其中资源状态rk,t，用来表达资源k的拥挤程度，定义为当前时刻t 下占用当前资源k的列车数量Tnum与资源容量Ck的比值，从0到100％划分成m个等级，因此对于 rk∈{0,1,…m}，其中m为用户自定义的定值常量；步骤3.3：根据当前状态St，利用 ε‑greedy策略从预先设置的动作集A(St)中选择一个可行的动作；根据当前状态St，采用公式(13)所示的ε ‑greedy策略从预先设置的动作集A(St)中选择可行的动作at∈A(St)，具体内容为：首先产生一个随机数rand∈(0,1)，如果该随机数小于 ε，从可行的动作集中随机选择一个动作，反之选择Q(St,A(St))最大的那个动作；权　利　要　求　书 2/5 页 3 CN 113415322 B 3

专利 一种基于Q学习的高速列车运行调整方法与系统

专利一种基于Q学习的高速列车运行调整方法与系统