最优控制的基本理论及应用.pptx
6.1 引言 最优控制理论是现代控制理论的核心。数学观点:最优控制研究的问题是求解一类带有约束条件的泛函极值问题,本质上是一个变分学问题。经典变分理论:容许控制属于开集实际上:容许控制为闭集的更多。第1页/共144页 针对经典变分法的局限性美国学者贝尔曼在19531957年间创立了“动态规划”,解决了控制有闭集约束的变分问题;前苏联学者庞特里亚金等则在19561958年间创立了极小值原理,也发展了经典变分原理,成为处理控制有闭集约束的变分问题的强有力工具。本章在介绍解决最优控制问题3种基本方法(变分法、极小值原理和动态规划)的基础上,阐述两类典型最优反馈系统的设计,即线性二次型最优控制和最小时间控制。第2页/共144页6.2 6.2 最优控制问题的提出及数学描述 最优控制问题实例 1.最速升降问题 第3页/共144页设有一物体M,假定在M内部装有一个控制器,它可以产生一个作用力u(t),其中k是常数。设已知M在 时,离地面的高度为 ,图6-1 最速升降问题示意图 问题是寻找作用力u(t)的变化规律,使M最快到达地面,并使其到达地面时的速度为零。垂直运动的速度为 ,第4页/共144页 令物体M的质量为m,用x(t)表示M离地面的高度,其方向规定为地面上x(t)为正,令 表示物体的高度,表示物体的升降速度,则上式可写成状态方程 第5页/共144页 现需寻找一个能使物体以最短时间从初态 到达终态(0,0)的控制u(t)。定义系统的性能指标为 式中,为起始时刻,为终止时刻。要求时间最短,即使性能指标J最小,这样求得的控制即为最优控制 。第6页/共144页2.搅拌槽问题 设有一盛放液体的连续搅拌槽,如图6-2所示。槽内装有不停转动着的搅拌器S,使液体经常处于完全混合状态,槽中原放 的液体。现需将其温度升高,为此在入口处送进一定量的液体,其温度为u(t),出口处流出等量的液体,以保持槽内液图6-2 搅拌槽问题示意图 面恒定。试寻找u(t)的变化规律,使槽中液体温度经1小时后上升到 ,并要求散失的热量最小。第7页/共144页 因假定槽中液体处于完全混合状态,故可用x(t)表示其温度。由热力学知,槽中液体温度的变化率与温差 成正比,为简便计算,令比例系数为1,于是有,在1小时内散失的热量为 式中,q和r都是正的常数,。因此该最优控制问题是:寻找u(t)的变化规律,使槽中液体经1小时后从 上升到 ,并要求散失的热量最小,即J(u)取最小值。第8页/共144页最优控制问题的数学描述最优控制问题的数学描述 构成最优控制问题必须具备以下几个基本条件:1.被控系统的数学模型,即动态系统的状态方程 状态方程在最优控制中为等式约束条件。2.控制变量的约束条件(容许控制)任何实际物理系统,控制变量总是受约束的,一般可写成 (6-3)式中,U表示一个封闭的点集合,称为控制域。此时称u(t)为容许控制。第9页/共144页3.状态方程的边界条件(初始状态和终值状态)在最优控制问题中,时的初态通常是已知的,即(6-4)而终值状态可以是状态空间中一个确定的点,也可以是状态空间中某一个点集(目标集)中的任一点。到达终端的时间 和终值状态 因问题而异。就终端时间 来说,它可以是固定的,也可以是变动的或自由的。最通常的终值边界条件是 (6-5)第10页/共144页 但有时并不这样简单,如用导弹攻击运动的目标,终值是可能运动轨迹上的一个点,此时终值状态是受运动轨迹约束的,一般地约束可表示为,(6-6)4.性能指标,也称性能泛函或目标函数 性能指标是衡量系统在任一容许控制作用下性能好坏的尺度,在最优控制中其代替了传统的设计指标(如超调、调节时间、幅值裕度和相角裕度等)。第11页/共144页 1)积分型性能泛函(6-7)2)终值型性能泛函 (6-8)3)复合型性能泛函(6-9)第12页/共144页 最优控制问题,就是从可供选择的容许控制集U中,寻求一个控制向量u(t),使被控系统在时间域 内,从初态 转移到终态 或目标集 时,性能泛函J取最小(大)值。第13页/共144页6.3 6.3 变分法 变分法的基本概念 用变分法求解无约束条件的泛函极值问题 有约束条件的泛函极值问题 第14页/共144页 变分法的基本概念 1.泛函 如果对于某一类函数集合 中的每一个函数x(t),因变量J都有一个确定的值与之对应,则称因变量J为这个宗量函数x(t)的泛函数,简称泛函,记作 。泛函可理解为“函数的函数”,其值由宗量函数的选取而定。第15页/共144页 与多元函数的宗量(自变量)多于一个相类似,多元泛函的宗量函数则多于一个,这些宗量函数可以表示为一个向量。例如,在控制系统中,n维状态向量x(t)为时间t的函数,若取如下形式的积分型性能指标(6-11)则J的数值取决于n维向量函数x(t),故式(6-11)为(多元)泛函。第16页/共144页 2.泛函的连续与线性泛函 (1)若对任给的 ,存在 ,使得当 时,就有(6-12)则称泛函 在函数 处是连续的。第17页/共144页 (2)连续泛函 若满足以下条件(6-13)(6-14)则称 是线性泛函。式中k是实数,为函数空间中的函数。第18页/共144页 3.泛函的变分 宗量函数变分的定义 设 为连续泛函,则宗量函数x(t)的变分为属于同一函数类中两个函数x(t),之差,即(6-17)泛函变分的定义 设 为n维线性赋范空间 上的连续泛函,若其增量可表示为 第19页/共144页(6-18)式中,为宗量函数x(t)的变分,是 的线性连续泛函,是关于 的高阶无穷小,则定义泛函增量的线性主部(6-19)为泛函 的变分,记作 。若泛函有变分,则称该泛函可微。第20页/共144页 与函数的微分等于函数的导数与自变量的微分之乘积相对应,泛函变分也可利用求导的方法来计算,即(6-20)【例6-1】求泛函 的变分,其中,x(t)为标量函数。解 由式(6-20)得 第21页/共144页 4.泛函的极值与泛函极值的必要条件 如果泛函 在任何一条与 接近的曲线上所取的值不小于 ,即(6-21)则称泛函 在曲线 上达到极小值。反之,若(6-22)则称泛函 在曲线 上达到极大值。第22页/共144页 定理6-1(泛函极值定理)若可微泛函 在 上达到极值,则 在 上的变分等于零,即 (6-23)定理6-1表明,泛函一次变分为零,是泛函达到极值的必要条件。综上可见,变分在泛函研究中的作用,相当于微分在函数研究中的作用。事实上,求泛函极大(小)值问题称为变分问题,求泛函极值的方法称为变分法 第23页/共144页用变分法求解无约束条件的泛函极值问题用变分法求解无约束条件的泛函极值问题 设积分型性能泛函为(6-24)在区间 上,被积函数 二次连续可微,轨线x(t)有连续的二阶导数,,对x(t)没有任何约束。要求确定极值轨迹 ,使泛函J为极值。第24页/共144页 1.始端时刻和终端时刻固定时的泛函极值问题 首先讨论不仅初始时刻 、终端时刻 固定,而且初始状态 、终端状态 固定这一最简单情况下无约束条件的泛函极值问题(最优控制的基本问题)。第25页/共144页 定理6-2 设初始时刻 和初始状态 固定,且终端时刻 和终端状态 固定,则使性能泛函式(6-24)取极值的必要条件是:x(t)为二阶微分方程(欧拉方程)(6-25)(横截条件)(6-26)的解。其中在区间 上,二次连续可微,x(t)有连续的二阶导数,,对x(t)没有任何约束。第26页/共144页 证明 设 是使J取极小值 的最佳轨迹曲线,现在 邻近作一微小摄动 ,并令 (6-27)式中,是一个很小的参数,为任意选定的连续可微n维向量函数且满足(6-28)将 和 代入式(6-24)可得 第27页/共144页取泛函增量 将上式在 的邻域内展开成泰勒(Taylor)级数,则(6-29)式中,R表示泰勒(Taylor)级数展开式中的高阶项。第28页/共144页 如果定义x(t)和 的一阶变分为 (6-30)由泛函变分的定义,泛函的一阶变分为 (6-31)对上式积分中第二项作分部积分后可得(6-32)由定理6-1,泛函取极值的必要条件为其一次变分 为零,故令 ,并考虑到式(6-32)中 是任意的,即可证得定理6-2的结论式(6-25)和式(6-26)。第29页/共144页 在 、均固定的情况横截条件式(6-26)退化为已知的两点边界值即求解欧拉方程的边界条件为 ,。(欧拉方程)(6-25)(横截条件)(6-26)第30页/共144页讨论自由端点问题 若 、均固定但有一个端点 或 或两个端点自由时,例如,若 、均固定,终端 自由,(6-35)式(6-35)和已知的始点边界值 合起来构成该情况下的边界条件。第31页/共144页 【例6-2】设泛函为 边界条件为 ,求J为极值时的曲线 。解 本例泛函为二元泛函,即 ,被积函数为 则 ,第32页/共144页代入欧拉方程 得 展开并联立方程组为 其通解为 第33页/共144页 代入已知的两点边界值,求出,,故极值曲线为 第34页/共144页 2.终端时刻未给定的泛函极值问题(可变端点问题)若始端时刻 给定,始端状态 固定或沿规定的边界曲线移动,而终端时刻 自由,终端状态 自由或沿规定的边界曲线移动,则这类最优控制问题称之为未给定终端时刻的泛函极值问题。第35页/共144页 定理6-3 设轨线x(t)从固定始端 到达给定终端曲线 上,使性能泛函 (6-36)取极值的必要条件是:轨迹x(t)满足下列方程 (欧拉方程)(6-37)(终端横截条件)(6-38)式中,x(t)应具有连续的二阶导数,L至少应二次连续可微,C(t)应具有连续的一阶导数。第36页/共144页 关于定理6-3的说明:(1)定理6-3适用于始端时刻 、始端状态 给定,终端时刻 自由但终态 应落在端点约束曲线C(t)上(即终端约束方程为 )的情况,这时仅已知始点 ,而终点未知,因此,求解欧拉方程所欠缺的边界条件应由终端横截条件式(6-38)补足。式(6-38)确立了在终端处 和 之间的关系,并影响着 和终端约束曲线C(t)在 时刻的交点。第37页/共144页 (2)可将定理6-3对x(t)是标量函数时所得到的公式推广到x(t)、C(t)是n维向量函数的情况,即可得向量形式的泛函极值必要条件(欧拉方程)(6-39)(终端横截条件)(6-40)第38页/共144页有约束条件的泛函极值问题有约束条件的泛函极值问题 求泛函在等式约束下的极值,称为条件泛函极值问题。应用拉格朗日乘子法,可将这类条件泛函极值问题转化为无约束条件的泛函极值问题。第39页/共144页 最优控制问题中的性能泛函为(6-41)式中,泛函J所依赖的宗量函数x(t)、u(t)受被控系统的状态方程约束,即 (6-42)式中,是x(t)、u(t)和t的n维连续向量函数。最优控制问题是寻求最优控制 及最优状态轨迹 ,使系统式(6-42)从初始状态 转移到终端状态 ,并使J取极值。第40页/共144页 若初始时刻 及始端状态 给定,按照终端状态边界条件,讨论以下几种情况。给定,终端 自由 给定,终端 约束 自由,终端 约束 第41页/共144页 1.给定,终端 自由 将状态方程式(6-42)写成约束方程形式 (6-43)仿照求函数条件极值的拉格朗日乘子法,将等式约束式(6-43)和原有的指标泛函结合成增广泛函(6-44)式中,,为待定拉格朗日乘子向量函数。显然,不论 取何种函数,只要x(t)、u(t)满足等式约束(6-43),即满足系统的状态方程式(6-42),则 与J总是等价的。第42页/共144页 定义标量函数 (6-45)为哈密顿(Hamilton)函数,则增广泛函式(6-44)可写为(6-46)对式(4-46)右边最后一项进行分部积分,即 (6-47)故增广泛函式(6-44)可写为 第43页/共144页(6-48)设x(t),u(t)相对于最优值 ,的变分分别为 和 ,且注意到 ,则 ,故式(6-48)所示 的一阶变分为(6-49)第44页/共144页 令 ,因为 、及 任意,则得增广泛函 取极值的必要条件,再由约束方程式(6-43)及定义的哈密顿函数式(6-45),得在 及始端状态 给定、给定、终端 自由情况下,满足状态方程式(6-42)的泛函式(6-41)取极值的必要条件为同时满足 (状态方程)(6-50)(协态方程)(6-51)第45页/共144页 (控制方程)(6-52)(横截条件)(6-53)(始端边界条件)(6-54)式(6-50)、式(6-51)和式(6-52)相当于前面的欧拉方程,式(6-53)为横截条件。式(6-50)为系统状态方程,其与式(6-51)的右端均为哈密顿函数的适当偏导数,故式(6-50)和 式(6-51)合称为哈密顿正则方程,简称为正则方程。式(6-51)则称为伴随方程或协态方程,相应的拉格朗日乘子向量 又称为伴随向量或协态向量。式(6-52)表明,最优控制 使哈密顿函数取驻值,故式(6-52)称为控制方程。第46页/共144页 2.给定,终端 约束 设终端状态应满足如下目标集等式约束条件 (6-55)式中,,即终端状态 沿规定的边界曲线移动。现在存在状态方程约束式(6-43)和终端边界约束式(6-55)这两种类型的等式约束,为此除了引入待定的n维拉格朗日乘子向量函数 ,再引入一个待定的乘子向量 ,且 ,构造增广泛函 第47页/共144页(6-56)式中,哈密顿函数 仍由式(6-45)定义。同样,设x(t),u(t)相对于最优值 ,的变分分别为 和 ,且注意到 ,故式(6-56)所示 的一阶变分为(6-57)第48页/共144页 令 ,并由式(6-42)、式(6-55)及式(6-45),得当 及始端状态 给定、给定、终端状态 受目标集等式约束式(6-55)情况下,满足状态方程式(6-42)的泛函式(6-41)取极值的必要条件为同时满足 正则方程 (6-58)控制方程 (6-59)边界条件与横截条件 (6-60)(6-61),第49页/共144页 3.自由,终端 约束 在这一类问题中,终端时刻 为待求的变量,且终端状态又受式(6-55)所示的目标集等式约束。显然,终端时刻 自由时所讨论的问题,除了 自由之外,其余与终端时刻给定时所讨论的内容相同。和 给定时终端状态受约束的最优控制问题一样,引入待定的拉格朗日乘子向量 和 ,构造增广泛函(参见式(6-56)第50页/共144页式中,哈密顿函数 仍按式(6-45)定义。但与 给定情况不同的是,现在 也是需要进行最优选择的变量。设x(t)、u(t)、相对于其最优值 、的变分分别为 、,即 (6-62)且有如下近似关系式 (6-63)考虑到 ,则由 、产生的增广泛函 的一次变分为 第51页/共144页(6-64)令 ,因为 、及 任意,则得增广泛函 取极值的必要条件,并由式(6-42)、式(6-55)及式(6-45),得当 及始端状态 给定、自由、终端状态 受式(6-55)约束情况下,满足式(6-42)的泛函式(6-41)取极值的必要条件为同时满足 正则方程 (6-65)第52页/共144页控制方程 (6-66)边界条件与横截条件 ,(6-67)(6-68)(6-69)式中,为哈密顿函数H在最优轨迹终端处的值。第53页/共144页 【例6-3】设被控系统的状态方程为 设初始状态为 ,终端状态约束曲线为 ,求使目标函数 取极小时的最优控制 和最优轨迹 。解 构造哈密顿函数 第54页/共144页正则方程为 (协态方程)(状态方程)控制方程 它们的通解为 第55页/共144页边界条件与横截条件,代入通解,得 ,,则最优控制 最优轨迹 ,第56页/共144页6.4 极小值原理 在用经典变分法求解最优控制问题时,假定控制变量u(t)不受任何限制,即容许控制集合可以看成整个r维控制空间开集,控制变分 是任意的,同时还要求哈密顿函数H对u连续可微,在这种情况下,应用变分法求解最优控制问题是行之有效的。但是在大多数情况下,控制量的大小总是受限制的,即 (6-70)这时容许控制u(t)的集合是一个r维有界闭集。一般总可用如下不等式表示容许控制u(t)的闭集约束条件,即 第57页/共144页 (6-71)当容许控制集合u(t)属于有界闭集时,控制变分在容许控制集合边界上不能任意,最优控制的必要条件 亦不满足,则不能用经典变分法处理。第58页/共144页 针对经典变分法应用条件过严的局限性,前苏联学者庞特里亚金等发展了经典变分原理,在19561958年间创立了极小值原理。极小值原理由变分法引伸而来,它的结论与经典变分法的结论有许多相似之处,这一方法当控制变量u(t)受闭集约束时是行之有效的,并且不要求哈密顿函数H对u(t)连续可微,是控制变量u(t)受限制时求解最优控制问题的有力工具,而且极小值原理也可用于解决控制不受约束的最优控制问题,因此其是解决最优控制问题的更一般的方法。第59页/共144页 定理6-4(极小值原理)设系统状态方程为 (6-73)初始条件为 固定,固定 (6-74)控制约束为 ,(6-75)终端约束为 ,自由 (6-76)式中,x(t)为n维状态向量;控制u(t)属于r维空间中的有界闭集U,受不等式(6-75)约束;g为l维连续可微向量函数,;N为q维连续可微向量函数,。性能泛函为 (6-77)第60页/共144页式中,和L为连续可微的标量函数;为待定的最优终端时刻。取哈密顿函数为 (6-78)式中,为待定的n维伴随向量函数(拉格朗日乘子向量)。则实现最优控制的必要条件为:最优控制 、最优轨迹 和最优伴随向量 必须满足下列一组方程 (1)正则方程 (6-79)第61页/共144页(6-80)式中,是与时间t无关的l维拉格朗日乘子向量(维数与g相同)。若g中不包含x,则有 (6-81)(2)横截条件及边界条件 (6-82)第62页/共144页 (6-83)(6-84)(6-85)式中,为待定的拉格朗日乘子向量。(3)在最优轨迹 上,与最优控制 相对应的哈密顿函数H取绝对极小值,即(6-86)且沿最优轨迹,有 第63页/共144页 (6-87)关于定理6-4的几点说明:(1)定理给出的正则方程(式(6-79)式(6-81)及极小值条件式(6-86)对各类最优控制问题普遍适用,且与边界条件形式或终端时刻是否自由无关。式(6-82)给出终端状态受约束时最优伴随向量终值 应满足的条件;式(6-84)给出始点边界条件;式(6-85)则给出终端状态约束条件,这3组方程正是确定正则方程的2n个积分常数和q维待定的拉格朗日乘子向量 所必需的。条件式(6-83)则用于 自由时确定最优终端时刻 。第64页/共144页 (2)极小值条件式(6-86)表明,最优控制 使哈密顿函数H取全局最小,极小值原理因此而得名。当满足经典变分法应用条件时,其控制方程 是式(6-87)的一种特别容易计算的情况,即用控制方程 求解控制向量无界时的泛函极值问题只是极 小值原理应用的一个特例。(3)极小值原理只给出了最优控制的必要条件,并非充分条件。第65页/共144页 【例 6-4】设系统的状态方程为,控制约束为 ,求使目标函数 为最小的最优控制 及最优轨线 ,并求泛函J的最小值。解 (1)构造哈密顿函数 (2)由哈密顿函数及控制约束条件建立极值条件 应用极小值条件式(6-86),即 第66页/共144页根据极小值原理,求H极小等效于求泛函极小。故应选取 使H极小,这只要使 为极小即可。u的上界为1,下界为1/2,因此,当 时,应取(上界);当 时,应取 (下界)。(3)由哈密顿函数建立正则方程 (状态方程)(协态方程)第67页/共144页 (4)解方程 先解协态方程,得通解为 由终端横截条件,得 ,代入上式确定积分常数 ,所以 由极值条件知,当 时 切换,为切换时间。故令 ,则最优控制为 当 ,对应 ,当 ,对应 ,第68页/共144页 将最优控制 代入状态方程,即:当时,有 ,通解为 ,由x(0)=5确定 ,故 ;当 时,有 ,通解为 ,考虑第一段的终值 为第二段初值,由此确定 ,故 。第69页/共144页 (5)求 本例所求最优解曲线如图6-3所示。图6-3 例6-4的最优解 第70页/共144页6.5 6.5 动态规划法 动态规划是美国数学家贝尔曼于20世纪50年代末为研究多级决策提出的,又称为贝尔曼规划。动态规划法是一种分段(步)最优化方法,其中心思想是将一个多级决策问题化为多个一级决策问题,使求解简化,它既可用来求解约束条件下的函数极值问题,也可用于求解约束条件下的泛函极值问题。与极小值原理一样,动态规划法是控制变量限制在一定闭集内求解最优控制问题的有效数学方法。第71页/共144页 最优性原理最优性原理 动态规划是解决多段决策过程优化问题的一种强有力的工具。所谓多段决策过程,是指把一个过程按时间或空间顺序分为若干段(步),然后给每一段(步)做出“决策”,以使整个过程取得最优的效果。【例6-5】一辆汽车从A城出发到B城,途中有3条河流,每条河上各有两座桥Pi,Qi,(i=1,2,3),如图6-4所示,各段路程的距离相应标在图上(单位为km),求从A城到B城的最短路线。第72页/共144页图6-4 随机路线问题 解 这是一个4步决策问题。解决该问题的最简单办法就是穷举法,即将所有可能的行车路线都计算出来,然后再进行比较。本例中共有8条可能路线,列表计算见表6-1 第73页/共144页路 线距 离/km路 线距 离/kmA P1P2P3 B4+6+1+4=15AP1P2Q3B4+6+1+3=14API Q2P3B4+6+2+4=16A P1Q2Q3B4+6+2+3=15AQl Q2Q3B5+7+2+3=17AQ1Q2P3B5+7+2+4=18AQ1P2 P3B5+4+1+4=14AQ1P2Q3B5+4+1+3=13 表6-1 随机路线问题的列表计算 从表6-1的计算结果中进行比较可得,从A城到B城的最短路线为 AQ1P2Q3B,距离为 13km,但采用穷举法需要进行的加法运算次数较多。第74页/共144页 应用动态规划法可显著降低计算量。采用动态规划法求解最短路线问题的思路是从终点开始,按行程最短为目标,逐段向前逆推,依次计算出各站至终点的行程最短值,并据此决策出每一站的最优路线。如在图6-4中,从终点B开始逆推,即先从最后一段(第四段)开始,分别计算P3和Q3到B的最短里程。在图6-4上,从P3 出发到B的路线只有这一条,里程为4 km,故从P3 出发到B的最优决策为P3B,最短里程为 同理 第75页/共144页 接着向前逆推至倒数第2段,分别计算P2和Q2到B的最短里程。从P2到B有两种决策:其一,经P3到B,即路线为 ,里程为 ;其二,经Q3到B,即路线为 ,里程为 可见,从P2出发到B的最优决策为 ,最短里程为 同理,从Q2出发到B的最短里程为 最优决策为 。第76页/共144页 接着向前逆推至倒数第三段,分别计算P1和Q1到B的最短里程。为计算P1到B的最短里程,只需比较以下两种路线:其一,里程为 其二,里程为 可见,从P1出发到B的最优决策为 ,最短里程为 为计算Q1到B的最短里程,只需比较以下两种路线:其一,里程为 其二,里程为 可见,从Q1出发到B的最优决策为 ,最短里程为 第77页/共144页 最后,向前逆推至第一段,计算起点A到终点B的最短里程,为此,只需比较以下两种路线:其一,里程为 其二,里程为 第78页/共144页 因此,从A城到B城的最短路线为 ,最短里程为13km,其结果与穷举法一致。但本例,穷举法要做24次加法和7次比较,而采用动态规划法仅需做10次加法和6次比较。以上采用动态规划法求最优路线的实质在于将一个四级决策问题简化成四个相同的单级决策问题,从而简化了问题的求解。第79页/共144页 离散系统的动态规划离散系统的动态规划 设离散系统的状态方程为(6-88)式中,为n维状态向量,为r维控制空间中容许控制域内的控制向量,是n维向量函数。设系统的初始状态为 ,控制约束为 ,系统的性能泛函为(6-89)式中,J的下标N表示由u(0)到u(N-1)控制N步。现在的问题是寻求一个最优控制序列使泛函式(6-89)最小。,第80页/共144页 由式(6-89),并逐次使用式(6-88)可以看出,JN只依赖于 。若已求出最优控制序列 ,则JN的最小值minJN只与初始状态x(0)有关,并将其记为 。对于一个N级最优决策过程,不论第一级控制向量u(0)怎样选取,余下的控制序列 ,对于由x(0)和u(0)所形成的状态 来说,一定是N-1级最优控制序列,并以 表示这一以x(1)为初始状态的N-1级决策过程问题的最优性能指标。那么,对初始状态为x(0)的N级最优决策过程的最优性能泛函 ,则应满足动态规划基本方程 第81页/共144页(6-90)式中,式(6-90)给出了 与 之间的递推关系。事实上,可将任何一级的状态看成从该级开始的一个多级过程的初始状态,则由式(6-90)依次类推,可得更一般的动态规划递推方程(6-91)式中,(6-92)第82页/共144页 连续系统的动态规划连续系统的动态规划 设连续系统状态方程为(6-93)式中,x(t)是n维状态向量,是n维连续向量函数,u(t)是r维控制向量且受到限制,即 ,U为r维空间中的一个闭子集。设初始状态为 ,求最优控制 ,使性能泛函(6-94)为最小。第83页/共144页 应用动态规划的最优性原理,可推导出使式(6-94)所示泛函J为极小的条件为(6-102)式(6-102)称为连续系统动态规划基本方程或贝尔曼方程,其是哈密顿-雅可比方程的一种形式,解此方程可求得使式(6-94)所示泛函J为极小的最优控制 ,其边界条件可由式(6-94)求出,即(6-103)第84页/共144页 若构造哈密顿函数(6-104)式中 (6-105)则式(6-102)可写为(6-106)当控制向量u不受限制时,如果 是最优控制,则由式(6-106)得(6-107)第85页/共144页6.6 6.6 线性二次型最优调节器 如果系统是线性的,性能泛函是状态变量和(或)控制变量的二次型函数的积分,则这样的最优控制问题称为线性二次型最优控制问题。第86页/共144页 线性二次型最优控制问题的提法 设线性系统的状态空间描述为,(6-108)式中,,A(t)、B(t)和C(t)分别是 、和 维矩阵。第87页/共144页 定义二次型性能指标为(6-109)式中,和 均为 半正定(或正定)对称矩阵,R(t)是 维正定对称矩阵。第88页/共144页 二次型指标式(6-109)最小的物理意义是:在整个时间区间 内,综合考虑过程中偏差、控制消耗的能量和终值误差三个方面总的结果要最小。二次型最优控制问题就是:对于系统式(6-(6-108),108),确定最优控制规律 ,使二次型指标式(6-109)为最小。第89页/共144页 有限时间的线性最优调节器有限时间的线性最优调节器 设系统的状态方程为式(6-108),目标函数为(6-112)式中,第90页/共144页 有限时间状态调节器问题:在满足状态方程(6-108)约束条件下,在限定时间 内,使系统由初始状态 转移到终端状态 (在平衡状态 附近),设u(t)无限制,求最优控制 使二次型指标式(6-112)取极小。可见这是一个 、固定,终端状态 自由的条件泛函极值问题。变分法、极小值原理和动态规划均可求解该最优控制问题,这里应用极小值原理求解。第91页/共144页 (1)列写哈密顿函数(6-113)(2)建立极值条件 由于控制量u(t)不受限制,故满足控制方程 (6-114)由于R(t)0,保证了 的存在,从而可得 (6-115)第92页/共144页 (3)建立正则方程(6-116)(6-117)设 (6-118)式中,P(t)为 实对称半正定矩阵,待定。将式(6-118)代入式(6-115),得 第93页/共144页(6-119)式中,(6-120)将式(6-118)两端对t求导,得(6-121)将式(6-118)、(6-121)代入正则方程组,消去 及 ,得 (6-122)(6-123)将式(6-123)代入式(6-122),并整理后,得 第94页/共144页(6-124)式(6-124)称为黎卡提(Riccati)矩阵微分方程。(4)边界条件 据式(6-53),终端横截条件为(6-125)第95页/共144页 而当 时,式(6-118)为 (6-126)由式(6-125)、式(6-126)得 时P(t)的边界条件为 (6-127)当矩阵A(t)、B(t)、Q(t)和R(t)的各元素在时间区间 上都是t的连续函数时,黎卡提矩阵微分方程在 上满足边界条件的解是存在且惟一的。在解得P(t)后,即可按式(6-119)构成状态反馈的最优控制。结构图如图6-5所示。第96页/共144页图6-5 有限时间时变最优反馈系统 (5)求最优轨迹 因为 (6-128)将式(6-119)代入式(6-128),得 解式(6-129)并由始点边界条件 ,求解得最优轨迹 。(6-129)第97页/共144页 定常线性最优调节器定常线性最优调节器 设线性定常系统 (6-133)能控,性能指标为(6-134)第98页/共144页式中,;,无限制;A、B分别是 、常值矩阵;Q,R为常值对称矩阵,并且 ,。则存在唯一最优控制(6-135)式中,P是 维正定对称常数矩阵,满足下列黎卡提矩阵代数方程 (6-136)第99页/共144页 将式(6-135)代入式(6-133),可得闭环最优系统的状态方程(6-137)解线性定常齐次方程式(6-137),可得最优轨线 。性能泛函的最小值为 (6-138)第100页/共144页 【例 6-7】已知被控系统及二次型指标为 求使泛函J达极小值的最优控制 。系统能控,存在。解 第101页/共144页 已知 设 ,则Q正定。最优控制为 第102页/共144页即 式中,P是下列黎卡提矩阵代数方程的正定对称解矩阵 第103页/共144页得代数方程组 联立求解,得 第104页/共144页 最优控制 即实现最优控制 的状态反馈增益矩阵 最优闭环系统结构图如图6-6所示。图6-6 例6-7的闭环系统结构图 第105页/共144页 输出调节器输出调节器 输出调节器主要研究当系统受到外部干扰时,在不消耗过多控制能量前提下,维持系统的输出向量接近输出平衡状态。由于输出调节器问题可以转化为等效的状态调节器问题,故可根据前述状态调节器,应用类比的方法,建立输出调节器的最优控制规律。第106页/共144页 设能观的时变系统为(6-139)式中,,A(t)、B(t)和C(t)分别是 、和 维矩阵,控制u(t)不受限制。(6-140)1.有限时间时变输出调节器目标函数为第107页/共144页式中,和Q(t)均为 维半正定对称矩阵,R(t)是 维正定对称矩阵。要求在有限时间区间 内,在式(6-139)约束下,寻求 最优控制 ,使泛函J 最小。首先将这类问题转化为等效的状态调节器问题,然后利用前述状态调节器的结论求最优控制规律。为此根据输出方程,用y=C(t)x(t)代入式(6-140)中,得 第108页/共144页(6-141)比较式(6-141)和式(6-112),可见其差别仅是泛函中的权函数发生了变换,即由 和 分别替代式(6-112)中的Q和 。第109页/共144页 若 和 为半正定矩阵,且系统式(6-139)能观测,则可证明 和 也为半正定矩阵。因此,可以用状态调节器式(6-119)确定式(6-139)、式(6-140)所定义输出调节器问题的最优控制(6-142)式中,P(t)是下列黎卡提矩阵微分方程 在边界条件下的惟一非负定解。第110页/共144页 最优输出调节器的最优控制律仍然是状态反馈而不是输出反馈,表明构成最优控制系统需要利用全部状态信息。第111页/共144页 设能控且能观的定常系统(6-145)式中,无限制。目标函数为(6-146)式中,,。求最优控制 使泛函式(6-146)取极小。2.无限时间定常输出调节器无限时间定常输出调节器第112页/共144页 这一问题等价于一个定常状态调节器问题,于是可用定常状态调节器式(6-135)确定式(6-145)、式(6-146)所定义无限时间定常输出调节器问题的最优控制为(6-147)式中,P是下列黎卡提矩阵代数方程的正定对称解(6-148)第113页/共144页 非零给定点调节器非零给定点调节器 设能控且能观的系统(6-149)式中,;,无限制;A、B、C分别是 、常值矩阵。被控量为输出向量y,希望使其保持在非零给定点 。本节讨论非零给定点的定常输出调节器设计问题。第114页/共144页 x、y、u的稳态值 、应满足(6-150)设动态过程中,x、y、u偏离各自(期望)稳态值的偏差量分别为 、,即 ,(6-151)将上式变形代入状态空间表达式(6-149),并根据式(6-150),得 第115页/共144页(6-152)对式(6-152)所示偏差量的系统,取目标函数(6-153)式中,Q、R为常值对称矩阵,并且Q0,R0。偏差量的系统式(6-152)的期望点为零点,故根据给定点为零的输出调节器设计原理,可求出使目标泛函式(6-153)最小的最优控制 第116页/共144页(6-154)式中,其中实对称阵P是下列黎卡提矩阵代数方程(6-155)的惟一正定解,并保证闭环系统 (6-156)在 渐近稳定。第117页/共144页 将式(6-151)代入控制律式(6-154)中,整理可得原系统式(6-149)希望输出向量维持在非零给定点上的最优控制(6-157)式中 (6-158)将最优控制律式(6-157)代入原被控系统状态方程式(6-149),得(6-160)第118页/共144页由于闭环系统渐近稳定,因此,稳态时有 ,则由式(6-160)得 则故有 (6-161)当 时,若 非奇异,由式(6-161)可求得 (6-162)第119页/共144页又状态反馈闭环系统传递函数阵为(6-163)显然有 (6-164)故当 时,若 的逆存在,只要取(6-165)即可实现非零给定点的最优输出调节,即 。采用式(6-165)最优控制律的闭环系统结构如图6-7所示。第120页/共144页图6-7 非零给定点最优调节系统结构图 第121页/共144页 最优跟踪问题最优跟踪问题 最优跟踪问题:设能观测系统 (6-166)式中,,A(t)、B(t)和C(t)分别是 、和 维时变矩阵,控制量u(t)不受约束,终端时刻 固定。设 ,为系统输出y(t)的期望向量,即为所跟踪目标的运动规律,定义误差函数向量为 第122页/共144页(6-167)寻找最优控制 ,使被控系统式(6-166)的输出y(t)跟踪z(t),且使泛函(6-168)最小。式中,为半正定对称矩阵,R(t)为正定对称矩阵。第123页/共144页 应用极小值原理求解最优控制。首先建立上述最优跟踪问题的哈密顿函数(6-169)由控制方程建立极值条件(6-170)则 (6-171)第124页/共144页则得正则方程(6-172)(6-173)其边界条件和横截条件为 (6-174)考虑到构成 的两项,设(6-175)第125页/共144页 将式(6-175)代入式(6-171),得(6-176)对式(6-175)求导得(6-177)将式(6-175)代人式(6-173),得 (6-178)第126页/共144页 将式(6-175)代入式(6-172),得(6-180)比较式(6-180)和式(6-179)得P(t)应满足如下矩阵微分方程(6-181)(6-179)将式(6-178)代人式(6-177),得第127页/共144页 由式(6-175)得(6-183)将式(6-183)与式(6-174)比较,得边界条件 (6-184)(6-182)g(t)应满足如下矩阵微分方程第128页/共144页(6-185)将有限时间最优输出调节器设计问题对应的式(6-143)、(6-144)与式(6-181)、式(6-184)相比