当前位置:
X-MOL 学术
›
Transp. Res. Part B Methodol.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Adaptive rescheduling of rail transit services with short-turnings under disruptions via a multi-agent deep reinforcement learning approach
Transportation Research Part B: Methodological ( IF 5.8 ) Pub Date : 2024-09-04 , DOI: 10.1016/j.trb.2024.103067 Chengshuo Ying , Andy H.F. Chow , Yimo Yan , Yong-Hong Kuo , Shouyang Wang
Transportation Research Part B: Methodological ( IF 5.8 ) Pub Date : 2024-09-04 , DOI: 10.1016/j.trb.2024.103067 Chengshuo Ying , Andy H.F. Chow , Yimo Yan , Yong-Hong Kuo , Shouyang Wang
This paper presents a novel multi-agent deep reinforcement learning (MADRL) approach for real-time rescheduling of rail transit services with short-turnings during a complete track blockage on a double-track service corridor. The optimization problem is modeled as a Markov decision process with multiple control agents rescheduling train services on each directional line for system recovery. To ensure computational efficacy, we employ a multi-agent policy optimization solution framework in which each control agent employs a decentralized policy function for deriving local decisions and a centralized value function approximation (VFA) estimating global system state values. Both the policy functions and VFAs are represented by multi-layer artificial neural networks (ANNs). A multi-agent proximal policy optimization gradient algorithm is developed for training the policies and VFAs through iterative simulated system transitions. The proposed framework is implemented and tested with real-world scenarios with data collected from London Underground, UK. Computational results demonstrate the superiority of the developed framework in computational effectiveness compared with previous distributed control algorithms and conventional metaheuristic methods. We also provide managerial implications for train rescheduling during disruptions with different durations, locations, and passenger behaviors. Additional experiments show the scalability of the proposed MADRL framework in managing disruptions with uncertain durations with a generalized model. This study contributes to real-time rail transit management with innovative control and optimization techniques.
中文翻译:
通过多智能体深度强化学习方法,在中断情况下对轨道交通服务进行短途自适应重新调度
本文提出了一种新颖的多智能体深度强化学习(MADRL)方法,用于在双轨服务走廊完全堵塞期间实时重新安排短转弯的轨道交通服务。优化问题被建模为马尔可夫决策过程,其中多个控制代理重新调度每条定向线路上的列车服务以进行系统恢复。为了确保计算效率,我们采用了多代理策略优化解决方案框架,其中每个控制代理都采用分散的策略函数来导出本地决策,并使用集中的价值函数近似(VFA)来估计全局系统状态值。策略函数和 VFA 均由多层人工神经网络 (ANN) 表示。开发了一种多智能体近端策略优化梯度算法,用于通过迭代模拟系统转换来训练策略和 VFA。所提出的框架是在现实场景中使用从英国伦敦地铁收集的数据进行实施和测试的。计算结果表明,与之前的分布式控制算法和传统的元启发式方法相比,所开发的框架在计算效率方面具有优越性。我们还为不同持续时间、地点和乘客行为的列车中断期间的列车重新安排提供管理建议。其他实验表明,所提出的 MADRL 框架在使用通用模型管理不确定持续时间的中断方面具有可扩展性。这项研究通过创新的控制和优化技术为实时轨道交通管理做出了贡献。
更新日期:2024-09-04
中文翻译:
通过多智能体深度强化学习方法,在中断情况下对轨道交通服务进行短途自适应重新调度
本文提出了一种新颖的多智能体深度强化学习(MADRL)方法,用于在双轨服务走廊完全堵塞期间实时重新安排短转弯的轨道交通服务。优化问题被建模为马尔可夫决策过程,其中多个控制代理重新调度每条定向线路上的列车服务以进行系统恢复。为了确保计算效率,我们采用了多代理策略优化解决方案框架,其中每个控制代理都采用分散的策略函数来导出本地决策,并使用集中的价值函数近似(VFA)来估计全局系统状态值。策略函数和 VFA 均由多层人工神经网络 (ANN) 表示。开发了一种多智能体近端策略优化梯度算法,用于通过迭代模拟系统转换来训练策略和 VFA。所提出的框架是在现实场景中使用从英国伦敦地铁收集的数据进行实施和测试的。计算结果表明,与之前的分布式控制算法和传统的元启发式方法相比,所开发的框架在计算效率方面具有优越性。我们还为不同持续时间、地点和乘客行为的列车中断期间的列车重新安排提供管理建议。其他实验表明,所提出的 MADRL 框架在使用通用模型管理不确定持续时间的中断方面具有可扩展性。这项研究通过创新的控制和优化技术为实时轨道交通管理做出了贡献。