近日,课题组张苏男、李珂和夏钿钰同学在IEEE Transactions on Transportation Electrification上发表了题为“Integration of planning and deep reinforcement learning in speed and lane change decision-making for highway autonomous driving”的研究论文,IEEE Transactions on Transportation Electrification是国际上工业控制领域的顶级期刊,SCI期刊中科院分区1区TOP期刊,影响因子7。该论文第一完成单位为重庆理工大学车辆工程学院,张苏男同学为第一作者,胡博老师为第一通讯作者(DOI: 10.1109/TTE.2024.3393293)。
在自动驾驶系统中,与其他道路使用者的复杂互动和交通环境的多样性构成了一个具有挑战性的决策任务。尽管离线学习解决方案以其高执行效率和在整个状态空间内近似最优策略的能力而著称,但在遇到未训练的状态时,这些解决方案往往不安全且脆弱。相反,在线规划方法能够在线彻底评估当前决策如何影响未来结果,因此具有更好的泛化能力。然而,这些方法在执行效率方面面临困难,并且容易陷入局部最优解。在这种背景下,本文提出了一种基于强化学习框架的集成规划与学习(IPL)算法,用于高速公路上的速度和车道变更决策,如图1所示。具体来说,该方法在每一个决策时间步骤中,利用离线学习的模型指导一个在线蒙特卡洛树搜索(MCTS)算法进行启发式搜索,旨在制定一个前瞻性政策。实验结果显示,IPL算法在面对未知情景时表现出更好的泛化性能,其渐进性能优于其他基准算法。此外,与基于MCTS的在线规划方法相比,IPL算法提高了执行效率,并更接近于实现全局最优。
图1 IPL算法的规划过程。(a) IPL算法使用MCTS和已学习的模型进行规划。(b) 规划过程包括𝐵次搜索,每次搜索分为三个阶段:选择、扩展和备份。