(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110884976.X
(22)申请日 2021.08.0 3
(65)同一申请的已公布的文献号
申请公布号 CN 113415322 A
(43)申请公布日 2021.09.21
(73)专利权人 东北大学
地址 110819 辽宁省沈阳市和平区文化路3
号巷11号
专利权人 中国铁道科 学研究院集团有限公
司通信信号研究所
(72)发明人 代学武 程丽娟 俞胜平 崔东亮
袁志明 闫璐
(74)专利代理 机构 沈阳东大知识产权代理有限
公司 21109
专利代理师 梁焱(51)Int.Cl.
B61L 27/14(2022.01)
G06F 30/27(2020.01)
G06F 111/04(2020.01)
(56)对比文件
CN 110341763 A,2019.10.18
CN 109740839 A,2019.0 5.10
CN 10419 2177 A,2014.12.10
CN 112776858 A,2021.0 5.11
CN 112232552 A,2021.01.15
CN 113128774 A,2021.07.16
JP 2006228154 A,20 06.08.31
张淼 等.基 于 Q 学习算法的高速 铁路列车
节能优化研究. 《环保与能耗铁道运输与经济》
.2019,第41卷(第12期),第1 11-117页.
审查员 赵辉
(54)发明名称
一种基于Q学习的高速列车运行调整 方法与
系统
(57)摘要
本发明公开了一种基于Q学习的高速列车运
行调整方法与系统, 涉及高铁动态调度技术领
域。 不仅准确描述列车运行调整过程的状态、 动
作和策略以及以满足列车晚点时间最小为目标
函数的奖励函数, 通过交互学习方式得到突发事
件下晚点列车动态调整 方案辅助调度员做决策,
而且从高铁路网资源的时空供给和约束两个角
度, 设计并搭建了支持机 ‑机交互的路网运行仿
真模块, 不仅可以仿真正常运营及典型突发事件
引起的晚点的运行场景, 而且可以快速地接收调
度方案自动生成的调度指令模拟列车运行, 刻画
了高铁路网的动态变化过程, 校验调度方案的可
行性。 最后输入真实的运行场景数据得到调度方
案, 验证该方法与系统的有效性, 为列车动态运
行调整方法提供了新的解决思路。
权利要求书5页 说明书13页 附图3页
CN 113415322 B
2022.08.30
CN 113415322 B
1.一种基于Q学习的高速列车运行调整方法, 其特 征在于, 包括以下步骤:
步骤1: 获取列车调度场景中的相关数据;
所述相关数据包括: (1)铁路基础设施初始化参数: 编号为
的M个车
站, 每个车站j对应的股道数量Cj和车站的里程lj; 编号为
的B个区间; 道
岔; 信号灯; (2)列车的静态数据: 编号为
的N辆列车, 高速列车的计划到
发时刻表、 经停方案、 列车的最大运行速度、 区间最小运行时间Tj,j'、 以及列车的最小停站
时间Ai,j、 列车到发和发到最小间隔时间hj、 相邻列车到站/发车最小间隔时间gj、 列车启动
附加时间τ起、 列车停车附加时间τ停;
步骤2: 建立列车运行调整的调度优化目标函数及保证列车安全运行的约束条件;
步骤3: 实时监测晚点事件信息, 当监测到晚点信息时, 根据当前时刻的铁路基础设施
的状态变化和列车运行过程相关数据, 利用Q学习算法对晚点列车进行调整得到最优的列
车运行调整策略, 并更新离 散事件表;
所述列车运行过程相关数据, 包括列车的位置和速度信 息、 列车实际到达车站的时间、
实际从车站发车的时间和列车晚点时间;
步骤4: 根据最优的列车调整策略得到调整后的列车实际运行图;
所述保证列车安全运行的约束条件 包括:
1)车站容 量约束:
其中, xi,j,t表示列车i对车站j在t时刻是否占用, 当xi,j,t=1表示车站j被列车i占用,
xi,j,t=0表示车站j未被列车i占用, 且在任意时刻t, 占用车站j的列车的总数不能超过该车
站的最大容 量Cj;
2)列车最小停 站时间约束:
其中, Fi,j表示列车i实际从车站j发车的时刻; Di,j表示列车i实际到达车站j的时刻;
ai,j表示列车i在车站j上实际停 站时间; Ai,j表示列车i在车站j的最小停 站时间;
3)区间最小运行时间约束:
其中, Di,j'表示列车i实际到达车站j'的时刻; ti,j表示列车i在资源j上实际运行时间;
Ti,j表示列车i在资源j上区间最小运行时间;
4)发车时间约束:
5)相邻列车到站或者发车间隔时间约束
权 利 要 求 书 1/5 页
2
CN 113415322 B
2其中, Di',j表示列车i'实际到达车站j的时刻; Fi',j表示列车i'实际从车站j发车的时
刻; gj表示列车i和相邻列车i'到站或者发车最小间隔时间, 即相邻列车的到站或者发车时
间间隔应不小于gj;
6)相邻列车的到发和发到间隔时间约束:
其中, Di',j表示列车i'实际到达车站j的时刻; hj表示列车i和相邻列车i'到发和发到最
小间隔时间, 即相邻列车的到发和发到时间 间隔应不小于 hj;
所述步骤3包括如下步骤:
步骤3.1: 将二维Q(S,A)表初始化为0, 并设定最大迭代次数、 学习率α、 折扣因子γ、 δ
值、 常数C;
步骤3.2: 获取初始状态向量S0;
当监测到晚点信息时, 获取当前时刻下列车运行位置和路网的区间、 股道占用情况的
数据, 得到初始状态向量S0;
为了便于描述Q学习算法的基本要素, 对铁路基础设施中的车站
区间
统一称为资
源, 设共有R=B+M个资源, 编号为
从理论上可以将调度时间
范围[t1,t2]进行离散化处理得到集合
根据步骤1中
获取到的列车调度场景中的相关数据, 定义 Q学习算法中的状态向量St如式(12)所示:
其中, t表示当前事件触发的时刻; ki,t∈R为列车i在时刻t所在的资源编号即列车的相
对位置; k1,t表示列车1在t时刻停留/运行的资源编号; k2,t表示列车2在t时刻停留/运行的
资源编号; kn,t表示列车n在 t时刻停留/运行的资源编号;
表示当前时刻t所有列车占用资
源的集合;
表示当前时刻t每辆列车前进方向上的下一个资源的集合;
表示调度时间范
围的集合; c1,t为当前列车1在时刻t所在的资源的临近资源编号; ci,t为当前列车i在时刻t
所在的资源的临近资源编号; cn,t为当前列车n在时刻 t所在的资源的临近资源编号;
代
表在时刻t资源c1,t的拥挤程度;
代表在时刻t资源ci,t的拥挤程度;
代表在时刻t资
源cn,t的拥挤程度; 其中资源状态rk,t,
用来表达资源k的拥挤程度, 定义为当前时刻t
下占用当前资源k的列车数量Tnum与资源容量Ck的比值, 从0到100%划分成m个等级, 因此对
于
rk∈{0,1,…m}, 其中m为用户自定义的定值常量;
步骤3.3: 根据当前状态St, 利用 ε‑greedy策略从预先设置的动作集A(St)中选择一个可
行的动作;
根据当前状态St, 采用公式(13)所示的ε ‑greedy策略从预先设置的动作集A(St)中选择
可行的动作at∈A(St), 具体内容为: 首先产生一个随机数rand∈(0,1), 如果该随机数小于
ε, 从可行的动作集中随机 选择一个动作, 反 之选择Q(St,A(St))最大的那个动作;权 利 要 求 书 2/5 页
3
CN 113415322 B
3
专利 一种基于Q学习的高速列车运行调整方法与系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:53:28上传分享