期刊: Control Theory and Technology
标题: Learning-based adaptive optimal output regulation of linear and nonlinear systems: an overview
DOI: 10.1007/s11768-022-00081-3
微信原文: 点击阅读微信原文
本期编辑荐读为大家带来Control Theory and Technology(CTT)期刊精选论文。本文综述了基于学习的自适应最优输出调节的最新进展,旨在解决具有干扰抑制的自适应和最优渐近跟踪问题。该框架旨在将输出调节和自适应动态规划这两个独立的主题结合起来,这两个主题由于在现代控制工程中的众多应用而受到广泛研究。在这个框架下,人们能以数据驱动的方式解决线性、部分线性、非线性和多智能体系统的最优输出调节问题。欢迎感兴趣的读者阅读原文。
输出调节问题涉及为动态系统设计控制器,以实现带有干扰抑制的渐近跟踪,其中干扰和参考信号均由一类定义为外系统的自治系统产生。它是一个通用的数学公式,适用于工程、生物学和其他学科产生的许多控制问题。
调节理论的发展过程可以概括为三个阶段。在第一阶段,伺服机构的理论得到了积极发展,以解决输出调节问题,其基础是可追溯到20世纪40年代的频域经典控制理论。Kalman引入状态空间表示法后,Davison、Francis和Wonham等自动控制领域的先驱广泛研究了多输入多输出的线性输出调节问题。通过对外系统和对象一些中度的假设,线性输出调节问题的可解性被简化为一类称为调节器方程的Sylvester方程的可解性。解决输出调节问题有两种主要策略:反馈-前馈和内模原理。利用内模原理,可以将输出调节问题转化为由被控对象和内模动态补偿器组成的增广系统镇定问题。基于内部模型控制方案的另一个显著特点是:它们在允许对象参数不确定性的同时,保证了跟踪误差的渐近衰减。作为传统内模原理的延伸,自适应内模的概念是通过考虑完全未知的外系统而提出的。此外,在过去十年,线性多智能体系统的合作输出调节问题引起了相当大的关注,其中包括作为特例的领导者-追随者一致问题。
在第二阶段,由于几乎所有现实世界的控制系统都是非线性的,而且其中许多系统都是强非线性的,因此控制界将注意力转向了非线性输出调节理论的发展。非线性输出调节问题最初是针对外部信号恒定的特殊情况进行研究的。由于Isidori和Byrnes的开创性工作,非线性输出调节问题的可解性与一组非线性偏微分方程的可解性相联系,称为非线性调节器方程。非线性调节器方程的解有助于获得可行的前馈控制输入。根据中心流形理论,可以设计相应的反馈-前馈控制策略来实现非线性输出调节。由于非线性调节器方程包含一组偏微分方程,因此不可忽略的是获得这些方程的解析解通常是困难的。考虑到上述障碍,Huang和Rugh通过幂级数方法提供了非线性调节器方程的近似解。与线性输出调节类似,针对非线性输出调节问题也提出了基于内部模型的自适应解决方案。在最优下实现渐近跟踪和干扰抑制是输出调节理论的另一个主要任务。据我们所知,Krener首先开启了非线性最优输出调节的大门。他的解决方案从求解非线性调节器方程开始,然后通过求解Hamilton–Jacobi–Bellman方程得到反馈控制器。利用LaSalle不变性原理可以保证跟踪误差的渐近收敛性。
第一和第二阶段开发的大多数解决方案都是基于模型的。由于为物理系统开发数学模型通常成本高、耗时长且涉及不确定性,第三阶段致力于集成数据驱动和基于学习的输出调节器设计技术。在过去几年中,媒体广泛报道的数据科学、人工智能AI和机器学习领域的激动人心的发展促进了这一阶段的转变。例如,深度神经网络和强化学习技术已经建立了桥梁,使得智能体在不确定且复杂的环境下,能够有效地学习最优控制策略。受深度强化学习理论的启发,谷歌DeepMind团队发明了自己的Go游戏AI玩家,名为AlphaGo和AlphaGo Zero,它们显示出了对抗人类玩家的优势。在输出调节领域,黄捷等学者提出了基于神经网络的方法来近似求解非线性调节器方程。为了获得中心流形并解决非线性输出调节问题,提出了一种基于逐次逼近的数值方法,这是机器学习中的一个重要工具。然而,推广现有的解决方案来解决基于学习的自适应最优输出调节问题是一个长期的挑战,其目的是在未知系统模型下实现输出调节并优化闭环系统性能。
本文旨在概述最近在基于学习的输出调节方面的工作,这些工作的目标是从控制系统轨迹上收集的输入和状态或输出数据中来学习自适应和最优输出调节器。包括我们在基于学习的自适应最优输出调节方面的工作。提出的基于学习的框架不同于传统输出调节方法,后者主要基于模型。由于自适应动态规划同时考虑了控制系统中的非消失干扰、时变参考和动态不确定性,因此提高了自适应动态规划的实用性。我们已经证明,该框架可以用于求解不同模型下动态系统的自适应最优输出调节,这证明了它的广泛适用性。未来研究方向包括:动态不确定性非线性系统基于学习的鲁棒最优输出调节、不可测噪声下基于学习的随机自适应最优输出调节,以及恶意网络攻击下基于学习的弹性输出调节。
高伟男 Weinan Gao
美国佛罗里达理工学院机械与土木工程系助理教授,于2011年获得东北大学自动化学士学位,2013年获得东北大学控制理论与控制工程硕士学位,2017年获得美国纽约大学电气工程博士学位。他曾于2017-2020年担任美国南佐治亚大学Allen E. Paulson工程与计算学院的助理教授,2018年担任美国马萨诸塞州三菱电机研究实验室(MERL)客座教授。现任IEEE/CAA Journal of Automatica Sinica、Neurocomputing和Neural Computing and Applications等期刊的编委,Control Engineering Practice青年顾问委员会成员,IEEE Control Systems Society on Nonlinear Systems and Control以及IFAC TC 1.2 Adaptive and Learning Systems技术委员会成员。曾获2018年IEEE实时计算与机器人国际会议(RCAR)最佳论文奖、2019年纽约大学David Goodman研究奖。研究方向包括强化学习、自适应动态规划、最优控制、协同自适应巡航控制(CACC)、智能交通系统、采样控制系统和输出调节理论。
姜钟平 Zhong-Ping Jiang
美国纽约大学坦顿工程学院电气和计算机工程系教授,于1989年获得了法国University of Paris XI统计学硕士学位,1993年获得法国巴黎高科矿业学院自动控制和数学博士学位。曾获得澳大利亚研究理事会伊丽莎白女王Fellowship Award,美国国家科学基金会Career Award,日本学术振兴会Invitation Fellowship,国家自然科学基金委杰出海外华人学者奖,以及多项最佳论文奖。于2021年被选为欧洲科学院院士。姜钟平教授是IEEE和IFAC Fellow,入选科睿唯安全球高被引科学家名单,担任多家期刊副主编、高级编辑和编委。主要研究方向包括稳定性理论、鲁棒/自适应/分布式非线性控制、鲁棒自适应动态规划、强化学习及其在信息、机械和生物系统中的应用。
Control Theory and Technology (CTT), 创刊于2003年。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。已被ESCI、EI、Scopus、INSPEC、Google Scholar、ACM 等众多数据库收录。
© 2022 Springer, part of Springer Nature.
All Rights Reserved.
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!