具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx





《具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx》由会员分享,可在线阅读,更多相关《具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、具有状态约束和不确定扰动的连续时间非线性系统的鲁棒轨迹跟踪控制抽象本文基于自适应动态规划(ADP)提出了一种基于状态约束和不确定扰动的鲁棒轨迹跟踪控制方法。首先,增强系统由跟踪误 差和参考轨迹组成,将不确定扰动的跟踪控制问题描述为鲁棒控制调整问题。此外,考虑增强系统的标称系统,利用标称系统 中的折价系数,将保证本钱跟踪控制问题转化为最优控制问题。通过将本钱函数与控制屏障函数(CBF)相结合,提出了一种 新的平安Hamilton-Jacobi-Bellman (HJB)方程,因此违反系统状态平安法规的行为将受到惩罚。为了求解新的平安HJB方程, 使用批评者神经网络(NN)来近似平安HJB方程的解
2、。根据李雅普诺夫稳定性理论,在状态约束和不确定扰动的情况下,保证 批评神经网络的系统状态和参数是均匀的最终有界(UUB)。本文最后通过仿真算例验证了所提方法的可行性。关犍字:自适应动态规划;强大的跟踪控制;控制屏障功能;状态约束1.引言随着自动驾驶技术1, 2和智能机器人技术3, 4的不断应用,平安关键系统的作用引起了广泛的关注。在设计控制器的 过程中,与其他性能相比,平安性是首要考虑因素。对于平安要求严格的控制系统,将CBF作为工具应用于控制系统,以到达 状态约束的目的。强化学习(RL)可以看作是战略学习和评估学习的技术。在实际的工程应用中,虽然动态规划中存在维度诅咒的现象, 但RL可以很好
3、地处理它,我们也称之为自适应动态规划(ADP) 5, 6, 7o自适应动态规划是一种智能控制方法,也是处理 最优控制问题的近似工具。然而,哈密尔顿-雅可比-贝尔曼(HJB)方程的解析解通常很难获得;因此,自适应动态规划(ADP) 可以通过神经网络(NN)近似方法在线学习HJB方程的解8, 9, 10o目前,研究人员提出了多种基于ADP的控制方法,以 解决轨迹跟踪和优化控制的问题11, 12, 13, 14, 15, 16o自适应动态规划使复杂非线性系统能够实现所需的跟踪控制目标17, 18, 19, 20o在参考文献17中,通过考虑输入约 束的影响,分析了连续时间非线性系统的跟踪性能。由于实际
4、情况的影响,经常考虑一系列不确定的干扰因素。因此,鲁棒性 最优跟踪控制成为研究热点。在参考文献18中,求解具有不确定性的复杂非线性系统的跟踪问题可能更加困难,采用自适应批 评技术求解了具有随机扰动的非线性系统的鲁棒跟踪控制问题。考虑具有连续时间匹配不确定性的非线性系统,采用一种有效的鲁棒跟踪控制方法,在参考文献中为标称增强误差系统选取了折射系数19, 20o考虑到系统存在干扰,Hs跟踪控制用于有干扰的控制系统21。为了降低设计本钱和资源浪费,调整控制系统的精度,提出了一种基于事件触发的跟踪控制方法22。考 虑到最优调节问题,在参考文献中提出了一种新的非二次折扣性能函数23。在参考文献24中,针
5、对非线性系统的不确定性, 提出了一种改进的自适应鲁棒跟踪方法,并成功扩展到质量弹簧-阻尼器系统。上述跟踪控制方法使控制策略具有可行性,使系 统能够实现预定的控制目标。然而,上面提出的跟踪控制方法都没有考虑状态约束问题。在参考文献25, 26, 27, 28中,提出了不同的基于ADP的方法来解决各种工程问题。在某些特定环境中,控制系统通 常需要具有可靠的平安性。设计平安系统的目的是通过符合系统物理约束规定的平安规范来找到其控制策略29。使用CBF方 法解决要求严格的系统的平安约束已引起广泛关注30, 31, 32, 33o让系统显示的状态收敛到所需的平衡点;提出一种求解安 全边界控制优化问题的近
6、似平差方法,将违反平安约束的本钱直接嵌入到值函数中34。在参考文献35中,介绍了 CBF的应用, 总结了平安关键控制系统背景下的验证方法和实施平安性的特点。参考文献36描述了离散时间状态约束问题,并利用神经网络 的近似性质求解了带有CBF的HJB方程。本文提出了一种具有状态约束和不确定扰动的保证本钱鲁棒跟踪方法。该方法可以保证在不确定扰动和状态约束条件下系 统误差的收敛性。为具有跟踪误差的标称增强系统选择贴现系数。此外,在系统中加入CBF,解决系统状态的约束问题。最后, 采用批评家NN的近似性质来处理HJB方程。本文的贡献如下:批评家NN的向量14/以正常数为界,胡 WWm,激活函数WS)及其
7、衍生舜!我0),批评家NN错误叱及其衍生阳0妗、有界且满足/ cjx, /惊6)/张酊 /s) 初 Ves) ).李雅普诺夫函数候选J:L(S)在假设4中所示,我们取加5个作为指标函数并将其定 义为7T(s,uA)=Ojf Jt工(s)(F(s)+G(s)A)Oj1,Ckc.(39)我们选择WA以最小化平方残差E二(2/2)丁&然后我们得到HJB近似误差的最小值&我们以梯度下降法作为批评 向量平差优化规律W人.二-伏-Y(s)+BS)+pd2M(s)+B27TSA)V(teJi(s)+B(K 珀 T-K2)+A(s)WAj(40) 哪里 q =:/(2+4丁1)2,。二;/(工+:丁1),心=
8、WATV行一aWATSTQTS,Y(S)二一(1/4)W人TVg(V丁/和庆。)=(2/4)附8(对川4%。/(1+1啕)丁和6。是一种学习速率,它决定了批评者NN的收敛速度。和/2是 两个调整参数。从上面的描述中可以推断出,权重估计误差为/三-优一(城丁+13)-80)-827?区今碓-/(/珀丁-/2)认3)(-/)(41) 哪里 y(S)=-(2/4) WTV(te( tW,.定理2.考虑标称系统S3),修改值函数S5)和调谐定律(46 0只有当上述所有假设1-5成立时,批评家NN错误、系 统状态x和控制输入保证是UUB。证明。分析下面描述的李雅普诺夫候选函数推导方程(43)的结果显示为
9、第一学期是哪里,和.第二学期可通过以下方式获得(41)哪里,.此外,我们可以获得取项的总和和,我们得到假设,那么我们可以得到哪里(42) 定义(43)让调优参数,和被选中,以便,我们得到哪里.综上所述,李雅普诺夫导数为负数,如果根据李雅普诺夫定理39,只要选择适当的调整参数,和使公式(32)成立,在状态约束和不确定干扰的情况下,批评者NN 权重误差、系统状态x和控制输入保证为UUB,非线性系统(1)在存在状态约束和不确定扰动的情况下保证闭环稳定。证 明完成。口5.模拟我们考虑具有非线性性质的弹簧质量阻尼系统22,弹簧质量阻尼器的系统动力学如下24(56) 哪里和非线性条件,和分别是位置和速度,
10、。是施加在物体上的力。例是物体的质量。K是弹簧的刚度常数,C是阻尼。以.匕系 统动力学参数为1公斤和N-s/m.不匹配的干扰可能导致系统不稳定。考虑到系统在扰动下仍具有稳定的性能,选择与系统匹配 的不确定扰动,不确定扰动项,我们假设和.在仿真过程中,考虑到不需要初始允许控制定律,为了使系统的跟踪误差收敛到零,选择逐渐趋向于零的参考轨迹,并遵 循以下参考轨迹被赋予(57)初始条件为,我们将增强状态向量设置为,然后将(56)与(57)相结合,可以推导出增强系统的动力学(58)哪里跟.为了在增强系统动力学(58)中约束系统的状态,所使用的控制屏障函数如下系统的状态约束给出为和和参数.为了完成鲁棒轨迹
11、跟踪控制的设计,修改后的值函数(14)可以指定为此外,我们选择学习率作为和贴现系数=分别。为了处理(58)的标称增强局部的近似最优控制,我们选择二和,/表 示具有适当维度的单位矩阵。在此例如中,critic NN的激活函数选择为二.此外,批评家NN的权重表示为=.状态的初始值给 出为,并且很容易根据,因此增强系统的初始状态为.为了满足激励的持续性条件,勘探噪声在神经网络训练期间添加。critic参数的收敛性如图1所示,30 s后的critic参数收敛于.图2显示了系统的控制输入。图3显示了跟踪误差的轨迹 和没有状态约束的系统。图4显示了系统在状态约束下的跟踪误差。图5和图6显示,系统在没有状态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 具有 状态 约束 不确定 扰动 连续 时间 非线性 系统 轨迹 跟踪 控制

限制150内