当前位置:
X-MOL 学术
›
IEEE Trans. Cybern.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Policy Iteration-Based Learning Design for Linear Continuous-Time Systems Under Initial Stabilizing OPFB Policy
IEEE Transactions on Cybernetics ( IF 9.4 ) Pub Date : 7-22-2024 , DOI: 10.1109/tcyb.2024.3418190 Chengye Zhang 1 , Ci Chen 2 , Frank L. Lewis 3 , Shengli Xie 4
IEEE Transactions on Cybernetics ( IF 9.4 ) Pub Date : 7-22-2024 , DOI: 10.1109/tcyb.2024.3418190 Chengye Zhang 1 , Ci Chen 2 , Frank L. Lewis 3 , Shengli Xie 4
Affiliation
Policy iteration (PI), an iterative method in reinforcement learning, has the merit of interactions with a little-known environment to learn a decision law through policy evaluation and improvement. However, the existing PI-based results for output-feedback (OPFB) continuous-time systems relied heavily on an initial stabilizing full state-feedback (FSFB) policy. It thus raises the question of violating the OPFB principle. This article addresses such a question and establishes the PI under an initial stabilizing OPFB policy. We prove that an off-policy Bellman equation can transform any OPFB policy into an FSFB policy. Based on this transformation property, we revise the traditional PI by appending an additional iteration, which turns out to be efficient in approximating the optimal control under the initial OPFB policy. We show the effectiveness of the proposed learning methods through theoretical analysis and a case study.
中文翻译:
初始稳定 OPFB 策略下线性连续时间系统基于策略迭代的学习设计
策略迭代 (PI) 是强化学习中的一种迭代方法,其优点是与鲜为人知的环境交互,通过策略评估和改进来学习决策规律。然而,现有的基于 PI 的输出反馈 (OPFB) 连续时间系统的结果在很大程度上依赖于初始稳定全状态反馈 (FSFB) 策略。因此,它提出了违反 OPFB 原则的问题。本文解决了这个问题,并在初始稳定 OPFB 政策下建立了 PI。我们证明了非策略 Bellman 方程可以将任何 OPFB 策略转换为 FSFB 策略。基于这个转换属性,我们通过附加额外的迭代来修改传统的 PI,事实证明,这在初始 OPFB 策略下可以有效地近似最优控制。我们通过理论分析和案例研究来展示所提出的学习方法的有效性。
更新日期:2024-08-22
中文翻译:
初始稳定 OPFB 策略下线性连续时间系统基于策略迭代的学习设计
策略迭代 (PI) 是强化学习中的一种迭代方法,其优点是与鲜为人知的环境交互,通过策略评估和改进来学习决策规律。然而,现有的基于 PI 的输出反馈 (OPFB) 连续时间系统的结果在很大程度上依赖于初始稳定全状态反馈 (FSFB) 策略。因此,它提出了违反 OPFB 原则的问题。本文解决了这个问题,并在初始稳定 OPFB 政策下建立了 PI。我们证明了非策略 Bellman 方程可以将任何 OPFB 策略转换为 FSFB 策略。基于这个转换属性,我们通过附加额外的迭代来修改传统的 PI,事实证明,这在初始 OPFB 策略下可以有效地近似最优控制。我们通过理论分析和案例研究来展示所提出的学习方法的有效性。