具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx

上传人：太**

文档编号：86391172

上传时间：2023-04-14

格式：DOCX

页数：15

大小：317.29KB

( 4.5 )

《具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx》由会员分享，可在线阅读，更多相关《具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx（15页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制抽象本文基于自适应动态规划（ADP）提出了一种基于状态约束和不确定扰动的鲁棒轨迹跟踪控制方法。首先，增强系统由跟踪误差和参考轨迹组成，将不确定扰动的跟踪控制问题描述为鲁棒控制调整问题。此外，考虑增强系统的标称系统，利用标称系统中的折价系数，将保证本钱跟踪控制问题转化为最优控制问题。通过将本钱函数与控制屏障函数（CBF）相结合，提出了一种新的平安Hamilton-Jacobi-Bellman （HJB）方程，因此违反系统状态平安法规的行为将受到惩罚。为了求解新的平安HJB方程, 使用批评者神经网络（NN）来近似平安HJB方程的解

2、。根据李雅普诺夫稳定性理论，在状态约束和不确定扰动的情况下，保证批评神经网络的系统状态和参数是均匀的最终有界（UUB）。本文最后通过仿真算例验证了所提方法的可行性。关犍字:自适应动态规划;强大的跟踪控制;控制屏障功能;状态约束1.引言随着自动驾驶技术1, 2和智能机器人技术3, 4的不断应用，平安关键系统的作用引起了广泛的关注。在设计控制器的过程中，与其他性能相比，平安性是首要考虑因素。对于平安要求严格的控制系统，将CBF作为工具应用于控制系统，以到达状态约束的目的。强化学习（RL）可以看作是战略学习和评估学习的技术。在实际的工程应用中，虽然动态规划中存在维度诅咒的现象，但RL可以很好

3、地处理它，我们也称之为自适应动态规划（ADP） 5, 6, 7o自适应动态规划是一种智能控制方法，也是处理最优控制问题的近似工具。然而，哈密尔顿-雅可比-贝尔曼（HJB）方程的解析解通常很难获得;因此，自适应动态规划（ADP）可以通过神经网络（NN）近似方法在线学习HJB方程的解8, 9, 10o目前，研究人员提出了多种基于ADP的控制方法，以解决轨迹跟踪和优化控制的问题11, 12, 13, 14, 15, 16o自适应动态规划使复杂非线性系统能够实现所需的跟踪控制目标17, 18, 19, 20o在参考文献17中，通过考虑输入约束的影响，分析了连续时间非线性系统的跟踪性能。由于实际

4、情况的影响，经常考虑一系列不确定的干扰因素。因此，鲁棒性最优跟踪控制成为研究热点。在参考文献18中，求解具有不确定性的复杂非线性系统的跟踪问题可能更加困难，采用自适应批评技术求解了具有随机扰动的非线性系统的鲁棒跟踪控制问题。考虑具有连续时间匹配不确定性的非线性系统，采用一种有效的鲁棒跟踪控制方法，在参考文献中为标称增强误差系统选取了折射系数19, 20o考虑到系统存在干扰，Hs跟踪控制用于有干扰的控制系统21。为了降低设计本钱和资源浪费，调整控制系统的精度，提出了一种基于事件触发的跟踪控制方法22。考虑到最优调节问题，在参考文献中提出了一种新的非二次折扣性能函数23。在参考文献24中，针

5、对非线性系统的不确定性，提出了一种改进的自适应鲁棒跟踪方法，并成功扩展到质量弹簧-阻尼器系统。上述跟踪控制方法使控制策略具有可行性，使系统能够实现预定的控制目标。然而，上面提出的跟踪控制方法都没有考虑状态约束问题。在参考文献25, 26, 27, 28中，提出了不同的基于ADP的方法来解决各种工程问题。在某些特定环境中，控制系统通常需要具有可靠的平安性。设计平安系统的目的是通过符合系统物理约束规定的平安规范来找到其控制策略29。使用CBF方法解决要求严格的系统的平安约束已引起广泛关注30, 31, 32, 33o让系统显示的状态收敛到所需的平衡点;提出一种求解安全边界控制优化问题的近

6、似平差方法，将违反平安约束的本钱直接嵌入到值函数中34。在参考文献35中，介绍了 CBF的应用，总结了平安关键控制系统背景下的验证方法和实施平安性的特点。参考文献36描述了离散时间状态约束问题，并利用神经网络的近似性质求解了带有CBF的HJB方程。本文提出了一种具有状态约束和不确定扰动的保证本钱鲁棒跟踪方法。该方法可以保证在不确定扰动和状态约束条件下系统误差的收敛性。为具有跟踪误差的标称增强系统选择贴现系数。此外，在系统中加入CBF,解决系统状态的约束问题。最后, 采用批评家NN的近似性质来处理HJB方程。本文的贡献如下：批评家NN的向量14/以正常数为界,胡 WWm,激活函数WS)及其

7、衍生舜!我0)，批评家NN错误叱及其衍生阳0妗、有界且满足/ cjx, /惊6)/张酊 /s) 初 Ves) ).李雅普诺夫函数候选J：L(S)在假设4中所示，我们取加5个作为指标函数并将其定义为7T(s,uA)=Ojf Jt工(s)(F(s)+G(s)A)Oj1,Ckc.(39)我们选择WA以最小化平方残差E二(2/2)丁&然后我们得到HJB近似误差的最小值&我们以梯度下降法作为批评向量平差优化规律W人.二-伏-Y(s)+BS)+pd2M(s)+B27TSA)V(teJi(s)+B(K 珀 T-K2)+A(s)WAj(40) 哪里 q =:/(2+4丁1)2,。二;/(工+:丁1),心=

8、WATV行一aWATSTQTS,Y(S)二一(1/4)W人TVg(V丁/和庆。)=(2/4)附8(对川4%。/(1+1啕)丁和6。是一种学习速率，它决定了批评者NN的收敛速度。和/2是两个调整参数。从上面的描述中可以推断出，权重估计误差为/三-优一(城丁+13)-80)-827?区今碓-/(/珀丁-/2)认3)(-/)(41) 哪里 y(S)=-(2/4) WTV(te( tW,.定理2.考虑标称系统S3),修改值函数S5)和调谐定律(46 0只有当上述所有假设1-5成立时,批评家NN错误、系统状态x和控制输入保证是UUB。证明。分析下面描述的李雅普诺夫候选函数推导方程(43)的结果显示为

9、第一学期是哪里，和.第二学期可通过以下方式获得(41)哪里，.此外，我们可以获得取项的总和和，我们得到假设，那么我们可以得到哪里(42) 定义(43)让调优参数，和被选中，以便，我们得到哪里.综上所述，李雅普诺夫导数为负数，如果根据李雅普诺夫定理39,只要选择适当的调整参数，和使公式(32)成立，在状态约束和不确定干扰的情况下，批评者NN 权重误差、系统状态x和控制输入保证为UUB,非线性系统(1)在存在状态约束和不确定扰动的情况下保证闭环稳定。证明完成。口5.模拟我们考虑具有非线性性质的弹簧质量阻尼系统22,弹簧质量阻尼器的系统动力学如下24(56) 哪里和非线性条件，和分别是位置和速度，

10、。是施加在物体上的力。例是物体的质量。K是弹簧的刚度常数，C是阻尼。以.匕系统动力学参数为1公斤和N-s/m.不匹配的干扰可能导致系统不稳定。考虑到系统在扰动下仍具有稳定的性能，选择与系统匹配的不确定扰动，不确定扰动项，我们假设和.在仿真过程中，考虑到不需要初始允许控制定律，为了使系统的跟踪误差收敛到零，选择逐渐趋向于零的参考轨迹，并遵循以下参考轨迹被赋予(57)初始条件为，我们将增强状态向量设置为，然后将(56)与(57)相结合，可以推导出增强系统的动力学(58)哪里跟.为了在增强系统动力学(58)中约束系统的状态，所使用的控制屏障函数如下系统的状态约束给出为和和参数.为了完成鲁棒轨迹

11、跟踪控制的设计，修改后的值函数(14)可以指定为此外，我们选择学习率作为和贴现系数=分别。为了处理(58)的标称增强局部的近似最优控制，我们选择二和，/表示具有适当维度的单位矩阵。在此例如中，critic NN的激活函数选择为二.此外，批评家NN的权重表示为=.状态的初始值给出为，并且很容易根据，因此增强系统的初始状态为.为了满足激励的持续性条件，勘探噪声在神经网络训练期间添加。critic参数的收敛性如图1所示，30 s后的critic参数收敛于.图2显示了系统的控制输入。图3显示了跟踪误差的轨迹和没有状态约束的系统。图4显示了系统在状态约束下的跟踪误差。图5和图6显示，系统在没有状态

12、约束的情况下跟踪参考轨迹，我们可以看到系统状态违反了约束。图7和图8显示，系统在状态约束下跟踪期望轨迹，在状态约束和不确定扰动的条件下，系统仍保持良好的性能。本文所述的方法可以保证闭环系统的稳定性。综上所述，仿真结果验证了所提方法的有效性。Parameters of the critic NN350203010405060Time (s)图1.批评家NN的参数收敛。图2.系统的控制输入。0 50.4030.20.10-0 10203Time (s)图3.无状态约束的系统跟踪误差.Time (s)图4.具有状态约束的系统跟踪误差.图5.系统状态轨迹无状态约束.图6.系统状态轨迹无状态约束.图

13、7.系统状态轨迹具有状态约束.System state x2 and reference trajectory x2d0.56.结论本文提出了一种基于自适应动态规划的具有状态约束和不确定扰动的非线性系统的鲁棒轨迹跟踪方法。首先，将系统误差与参考轨迹相结合，构建增强系统，同时考虑增强系统的标称系统。为了克服增强系统的不确定扰动，将折扣系数引入标称系统中，并将CBF与折扣系数一起添加到标称系统中，以约束系统的状态。此外，通过设计有保证的本钱自适应批评家NN学习框架，学习了本钱函数和控制策略。最后，仿真结果说明，所述方法能够将系统误差收敛于状态约束内。在下一个工作中，我们将尝试将状态约束方法

14、扩展到离散时间跟踪控制系统和多智能体系统针对鲁棒性跟踪控制问题，将CBF应用于具有不确定扰动的跟踪控制系统，使系统在状态约束的情况下仍能具有良好的跟踪性能；将传统的自适应控制方法与CBF相结合，将CBF直接扩展到原有系统，并将CBF作为惩罚功能来惩罚不平安行为; 提出一种基于状态约束和不确定扰动的保证本钱鲁棒自适应跟踪方法，通过批评NN学习框架求解平安HJB方程，并保证批评NN参数在状态约束和不确定扰动的影响下最终有界(UUB)。本文其他局部的安排如下：第2节陈述了控制屏障功能的初步知识并介绍了相关内容。第3节描述了为名义增强系统选择折扣值函数，并介绍了添加障碍函数后新本钱函数的形式。第

15、4节介绍了具有状态约束和不确定扰动的批评家神经网络的学习方法。在第5节中，通过仿真实例验证了所提方法的有效性。最后，第6节总结了一些结论。2.预赛.问题陈述考虑以下不确定的非线性平安系统x(t)=f (x (t) ) +g (x (t) ) u (t) +(x (t),(1)哪里X (t) cOuR八是状态变量，u (t) wUuRm是对照向量，。表示平安可行状态集，U表示所有可接受的输入集, f(乂 (2)尺八和g(x (七)尺小是具有f(O)二。和(t)wR八是未知的扰动项Afa?)二。.在这里，让初始状态x (O) =x。；我们假设存在一个常数gM它满足OO是折扣系数，并且双问e尺八

16、、八和R米x米是对称的正定矩阵。在状态约束和不确定扰动的条件下，处理保证本钱跟踪问题的目的是找到控制输入二xd(t)和正实数M *；然后是跟踪错误收敛到零。同时，(11)中描述的本钱函数满足M-V*,应该指出的是，V*称为保证本钱函数，控制u称为保证本钱控制输入。注1.折扣期限(11)中给出的主要用于保证本钱函数为V-)ysT(Ty)TS(T)-hb(T(Ty)R,b(Tyi3r(S(Ty)y)d(Ty)J(14) 哪里Qr=d我g问，。八x“,p二入f?的最大特征值可以表示为入mx(R)双向 R八x八和R R米x米是增强系统的加权对称正定矩阵，以及口。是折扣系数。根据贝尔曼的最优控制理论原

17、理38,给出了标称系统(13)的修正值函数(14)的哈密顿量的最小值U, Ms)=pd2M(S)+STQTS+TR-a/(S)+BS)+V-S(F (s) +G (s) u).(15) 哪里Ms二HM/a和本钱函数M* (s (t)可视为V* (s (t)二最小值 (s (t) ) ) o(16)对于具有控制势垒值函数(14)的系统(13),自下式HH(S, u*,/*s)/aa*=。保持，我们可以获得最优的控制输入a*从(15)* 二-二 2R-iGt(s)M*Sj(17) 哪里M*S=AM* (s) /和/*(s)表示最正确值M(s).32状态约束分析在设计鲁棒性跟踪控制器的过程中，CBF

18、作为约束工具，使系统的状态在指定的约束范围内演化，系统可以在设定的安全约束内保持良好的性能。CBF为平安关键型系统提供了一个约束工具，以优化其他控制目标的性能，并清楚地解释了与其他性能指标相比，平安性的优先级。为了进一步描述CBF是有界的，下面描述了 CBF的有界性是通过改变控制器的顺序来证明的。引理1.考虑可接受的反应控制策略MU U 一个;有以下时间不变的正定函数Z,它满足ZUN工avra倍(F (S) +G (S) 2M(S)+STQTS+TlR1-aV(S)+3r (s)=。、(18) (19)其中y是系统对所有值的值函数tep)吟,并且以下公式成立(20)证明。假设/(5火工)

19、。存在并且是连续可微分的;然后，我们有V(tYu-V(O,iA=fioV,(T)JL(d(T)=jiodVd(F-i-GiAd(Ty(21)考虑到(21),也有2(6(亡)/1)-2(5。3)二手。(5(工)4(22)明6里 P(Sj)=pd2M(S)+STQTS+TR-aM(S)+Br(S).我们可以从(21)和(22)推导出来)Z(s(t),i)-M(s(t)g)=/b(-aMas(F+Gi)-P(s(ai)d(T)+Z(soMi)-M(soi).(23)结合(18) , (21)和(23),我们可以得到Z(S(切工)-V(S(t)Q)乎O(P(S(T)以工)-P(S(T)卬)d(Y)。(

20、24)因此，我们可以获得Z(S二M(S/工).(25)这样就完成了证明。口引理2.我们考虑一系列正定值函数Y(s)t认AN(st从斗、和v(s3G),相应的缩写是/172、和Yk,这与允许的控制输入有关认Ms4)M2(S,垃、和lAk(S,垃G Ua.然后,(15)中定义的哈密顿值满足以下条件(26)和CBF候选人Bkr有界范围工(k4i.证明。假设对于任何/和k都满足，并且条件Hw认时持有;因此，一个人有Vj-Vk-Vo,(27)哪里V。=根据(17) , *可以重写为考虑至iT(s)=pd2M(s)+stQts+Bs)CXM(S).根据(27),可以得到Hkw可二 Hm/八 k+WTo(F

21、+G*k)-(*ToR*o).根据上述描述，由于Hm时-Hm认k+(*ToRa*o)20,我们可以得到avo(s)阖比2。.因为林j。o4(s(t)二。，那么获得以下结果Vo0)V(s上,IA1)V(S文乂孙V(s丈)哈从上面的引理1和2,我们可以得到k) Z(S 2)月kO.证明。通过上面引理1和2的介绍，性能函数Z(s,ak)和候选函数在控制输入(17)更改后的每个时刻都有界。从假设1和2开始，在约束范围的边界处，障碍函数的值Bkr将到达无穷大;换句话说，CBF剩余物随时都有界，这确保了系统的状态永远不会到达平安边界。口在上面的介绍中，CBF直接添加到本钱函数中，这使得系统的状态受到限制。

22、该方法适用于无初始容许控制的情况下保证本钱稳健的轨迹跟踪控制。传统的跟踪控制器通常需要初始可接受的控制法。虽然找到了适当的初始可受理控制法，但适当的初始可受理控制法可能不满足国家约束的条件。由于折扣条款的存在0-政6,)在等式(11)中，为保证闭环系统在跟踪参考轨迹过程中的稳定性，设计了一个有保证的本钱自适应批评家NN学习框架。在继续下一步之前，我们做出以下假设。假设4.让Jig)成为李雅普诺夫函数的候选者并满足和连续可微分,其中力工=HJMS)/%.假设存在一个对称的正定矩阵八和表达式的条件WMs)t(F(s)+G下八山工保必4.保证本钱自适应批评家NN学习框架的设计在本节中，利用批评家NN的近似性质近似解析平安HJB方程(15),提出一个有保证本钱自适应的批评家NN学习框架，通过在线学习方案更新批评家NN的权重，最后保证批评家NN的所有向量都是UUB。考虑到(16)中描述的本钱函数，我们设计了一个批评家NN来近似本钱函数M*(S(t)及其偏导数V*(s)=Wt(|(s)+v(s)j(29) W*(s)二(颂S)TW+Ves),(30) 其中iveRf是批评家神经网络的理想向量，批评家NN的激活函数可以表示为a6)二4/-。/丁 RL /是隐臧层神经元的数量，对在)表示为的导数很S),那么批评家NN的近似误差表示为s)和我S)是的导数6(s).假设5.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 具有状态约束不确定扰动连续时间非线性系统轨迹跟踪控制

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx
链接地址：https://www.taowenge.com/p-86391172.html