(本科)第03章-数学回顾.pdf





《(本科)第03章-数学回顾.pdf》由会员分享,可在线阅读,更多相关《(本科)第03章-数学回顾.pdf(206页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(c) 2020,陈强,机器学习及 R 应用,高等教育出版社 1 第第 3 章章 数学回顾数学回顾 3.1 微积分 3.1.1 导数导数 对于一元函数( )yf x,记其一阶导数(first derivative)为dydx或( )fx,其定义为 00()( )( )limlimxxdyyf xxf xfxdxxx (3.1) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 2 几何上,(一阶)导数就是函数( )yf x在x处的切线斜率,参见图 3.1。 图 3.1 导数的示意图 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 3 一阶导数( )fx仍然是x的函数,
2、故可定义( )fx的导数,即二阶导数(second derivative): 22( )( )dydd ydxfxfxdxdx (3.2) 直观上,二阶导数表示切线斜率(一阶导数)的变化速度,即曲线( )f x的弯曲程度,也称“曲率”(curvature)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 4 3.1.2 偏导数偏导数 对于多元函数12( )( ,)nyff x xxx,其中列向量12()nx xx x,可定义y对于1x的偏导数(partial derivative)为 112111121201( ,)(,)( ,)limnnnxf x xxyxxf xx xxf
3、 x xxx (3.3) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 5 将多元函数( )f x的所有偏导数写成一个列向量,即为梯度向量(gradient vector): 1( )( )( )( )nfxfffxxxxxx (3.4) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 6 由于偏导数1( )yxx依然是12( ,)nx xx的函数,故可进一步求其自身的二阶偏导数, 21211yxyxx (3.5) 以及混合偏导数,比如: (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 7 21122yxyx xx (3.6) 在一般情况下 (要求二
4、阶偏导数为连续函数) , 混合偏导数与求导顺序无关,即 221221yyx xx x (3.7) 将多元函数( )f x的所有二阶偏导数排成一个矩阵,即为黑塞矩阵(Hessian Matrix): (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 8 2222222112221( )( )( )( )( )nnnffffyyxx xyyxxx xxxxxH xxx xx (3.8) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 9 其中,( )f xxx表示对梯度(列)向量的每个分量分别求偏导,并排成一行(故分母为x)。 由于混合偏导数与求导顺序无关,故黑塞矩阵为对
5、称矩阵。 梯度向量与黑塞矩阵在最优化中起着重要作用。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 10 有 时 我 们 需 要 同 时 考 虑 多 个 响 应 变 量 , 比 如11( ),( )mmyfyfxx,故存在m个函数关系。 可将其写为从向量x到向量y的“向量值函数”(vector-valued function): ( )yf x (3.9) 其中,1()myyy。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 11 将所有( ) (1,)iiyfimx的梯度向量写为行向量,然后叠放在一起,即可得到雅各比矩阵(Jacobian Matrix): 1
6、111( )( )nmmnyyxxyyxxf xJ xx (3.10) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 12 3.1.3 方向导数方向导数 偏导数给出了当x沿着某坐标轴(比如1x)变动时,函数( )yfx变化的速率。 有时我们想知道当x沿着任意方向变化时, 函数( )f x的变化率。 任意给定*x, 考虑( )f x在*x处, 沿着任意方向1()nvvv的方向导数(directional derivative),其中将v的长度标准化为 1,即2211nvvv。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 13 沿着方向v,经过*x的直线方程为 *
7、txxv (3.11) 其中,随着参数tR变化,可得到整条直线。函数( )f x沿着此直线方向的取值可写为 *11( )()(,)nng tftf xtvxtvxv (3.12) 使用链式法则(chain rule),可得函数( )g t在0t 处的导数,即方向导数: (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 14 *1101*1()()()( )()() ()nntnnfffg tvvxxvfffxxvxxxvxxxv (3.13) 方向导数*()f xv是各偏导数*()(1, )jfjnxx的线性组合,而组合的权重为方向v沿着各坐标轴的分量1()nvv。 (c) 202
8、0,陈强,机器学习及 R 应用,高等教育出版社 15 命题 3.1 梯度向量( )fx为函数( )f x增长最快的方向, 而负梯度方向( )fx为该函数下降最快的方向。 证明:在n维空间n中,记梯度向量*()fx与方向v的夹角为,则根据线性代数知识,此夹角的余弦为 *()cos()ffxvxv (3.14) 由于1v,故沿方向v的方向导数可写为 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 16 *()()() cosfff xxvxv (3.15) 由于1cos1 ,故当cos1(即v的方向与*()fx相同),方向导数*()()ff xxv(梯度向量的长度)达到最大值。 因此
9、,梯度向量*()fx为在*x处,函数( )f x增加最快的方向,称为“梯度上升”(gradient ascent)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 17 反之,当cos1 (即v的方向与*()fx相反),方向导数*()()ff xxv(梯度向量长度的负数)达到最小值。 因此,负梯度向量*()fx为在*x处,函数( )f x下降最快的方向,称为“梯度下降”(gradient descent)。 函数( )f x上升最快与下降最快的方向正好相反。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 18 在几何上,应如何想象梯度向量?这可通过函数( )f
10、x的“水平集”(level set)来考察。 任意给定*x,函数( )f x相应的水平集可定义为 *:( )()Cffxxx (3.16) 水平集也称为“等值集”(contour set);比如,地形图的“等高线”或气压图的“等压线” ,参见图 3.2。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 19 图 3.2 梯度向量与水平集(等值集)正交 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 20 命题3.2 梯度向量*()fx与水平集*:( )()Cffxxx正交。 证明:给定水平集*:( )()Cffxxx。假定 *11( )( ),( )nntxx tx
11、x tx (3.17) 为在水平集C上, 经过*x的一条任意曲线。 当0t时,*( ) t xx;而当t变化时,即得到n空间的一条曲线。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 21 根据微积分知识,在*x处,曲线( )tx的切线方向为 1(0)(0)(0)ndxddxdtdtdtx (3.18) 将此曲线方程的表达式(3.17)代入水平集的方程(3.16),则有 *11( ( )( ),( )()nnftf xx txx tfxx (3.19) 在0t处,将此方程两边对t求导可得: (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 22 *11(0)()(0
12、)()0nndxfdxfxdtxdtxx (3.20) 上式可写为 *(0)()0dfdtxx (3.21) 其中,1(0)(0)(0)ndxddxdtdtdtx为曲线( ) tx在*x处的切线方向,而梯度向量*()fx与此切线方向正交(垂直)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 23 由于( )tx为水平集C上的任意曲线, 而它们在*x处的切线方向均与梯度向量*()fx垂直,故在水平集C这一曲面上,通过点*x的一切曲线在点*x处的切线都在同一个平面上, 即水平集C在点*x的切平面。 因此,故梯度向量*()fx与水平集C正交。 (c) 2020,陈强,机器学习及 R
13、 应用,高等教育出版社 24 3.1.4 向量微分向量微分 在进行最优化时,常需对向量求微分(vector differentiation)。 (1) 线性函数的向量微分规则 对于线性函数y x,其向量微分为()xx。 将此线性函数展开写: 1 122nnyxxxx (3.22) 其中,参数向量12()n 。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 25 由于iiyx,故其梯度向量为 11()()()nnxxxxxx (3.23) 此向量微分的规则类似于对一次函数求导。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 26 (2) 二次型的向量微分规则 对于
14、二次(型)函数y xAx, 其向量微分为()xAxAA xx。特别地,如果A为对称矩阵,则2xAxAxx。 将此二次(型)函数展开写: 11nnijijijya x xxAx (3.24) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 27 其中,二次型的矩阵1111nnnnaaaaA。 考虑对第k个变量kx求偏导。 由于在双重求和式11nnijijija x x中,只有1nkjkjja x x(当ikxx)与1nikikia x x(当jkxx)才包含kx,故 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 28 111111()()nnkjjikijikkkn
15、knknnya xa xxxxaaaaxx (3.25) 上式适用于所有1,kn,故共有n个方程。 将这n个方程叠放可得 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 29 11111111111()nnnnnnnnnnnyxyxaaxaaxaaxaaxxAxxAxA xAA x (3.26) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 30 其中,A为矩阵A的转置。 如果A为对称矩阵,则AA,上式可简化为 2xAxAxx (3.27) 对二次型的向量微分类似于对二次函数求导。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 31 (3) 复合函
16、数的向量微分规则 对于复合函数( )yfx z,其向量微分为yfxzzx。 将此复合函数(composite function)展开写: 111( )( ,),( ,)KnKyff x zzx zzx z (3.28) 其中,1( ,)nxxx,而1( ,)Kzzz。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 32 考虑对kz求偏导数。根据微积分的链式法则(chain rule),此复合函数的偏导数可写为 1111nnkknkkknfxxxyfxfxzxzxzzzfx (3.29) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 33 上式对1,kK 均成立,
17、 将这些方程叠放, 可得梯度向量: 111111nnKnKKxyxfzzzxyfyxfxzxzzxzzx (3.30) 其中,xz为( )x z的雅各比矩阵xz之转置。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 34 上式似乎与一元复合函数的微分规则不同,但如果将上式两边同时转置则有 yf xzxz (3.31) 这意味着,如果将梯度向量定义为行向量,则复合函数的向量微分规则在形式上与一元复合函数相同。 在较早的文献中,为了保持这种形式上的一致,一般将梯度向量定义为偏导数的行向量。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 35 3.2 最优化 3.2.
18、1 一元最优化 机器学习的主要方法为最优化(optimization), 尤其是最小化问题(minimization)。有时也涉及最大化问题(maximization),比如最大似然估计(Maximum Likelihood Estimation,简记 MLE)。 最大化问题可等价地写为最小化问题,只要将目标函数加上负号即可: max( )min( )xxf xf x (3.32) 因此,我们主要讨论最小化问题。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 36 考虑以下无约束(unconstrained)的一元最小化问题(参见图3.3), min( )xf x (3.33)
19、 图 3.3 最小化的示意图 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 37 从图 3.3 可知,函数( )f x在其“山谷”底部*x处达到局部最小值。 在山底*x处,( )f x的切线恰好为水平线,故切线斜率为 0。故一元最小化问题的必要条件为 *()0fx (3.34) 由于此最小化的必要条件涉及一阶导数,故称为一阶条件(first order condition)。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 38 直观上, 如果*()0fx,则在*x处增加x可使函数值( )f x进一步下降, 故*()f x不是最小值; 反之, 如果*()0fx,则
20、在*x处减少x可使函数值( )f x进一步下降,故*()f x也不是最小值。因此,在最小值处,必然有*()0fx。 根据同样的逻辑,最大化问题的一阶条件与最小化问题相同,都要求在最优值*x处的切线斜率为 0,即*()0fx,参见图3.4。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 39 图 3.4 最大化的示意图 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 40 最小化问题与最大化问题的区别在于最优化的二阶条件(second order condition), 即最小化要求*()0fx(函数( )f x在*x处为凸函数),而最大化要求二阶导数*()0fx(
21、函数( )f x在*x处为凹函数)。 对于最优化的一阶条件与二阶条件,下面给出较为严格的证明。假设( )f x在*x处达到局部最小值,则对于在*x附近任意小的扰动x,都有 *()()f xf xx (3.35) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 41 假设函数( )f x二阶连续可导(twice continuously differentiable),可将上式右边在*x处进行二阶“泰勒展开”(Taylor expansion): *21()()()()()2f xxf xfxxfxxx (3.36) 其中,01。将此式代入(3.35)可得“基本不等式”(funda
22、mental inequality): *21()()()02fxxfxxx (3.37) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 42 上式对任意小的x都成立。 如果0 x , 在上式两边同除以x, 并求右极限(0 x )可得 *01lim()()()()02xfxfxxxfx (3.38) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 43 反之,如果0 x ,在上式两边同除以x,并求左极限(0 x )可得 *01lim()()()()02xfxfxxxfx (3.39) 综合不等式(3.38)与(3.39)可知,最小化问题的必要条件为*()0fx。将
23、此一阶条件代入基本不等式(3.37)可得: *2()()0fxxx (3.40) 在上式中,由于2()0 x,故 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 44 *()0fxx (3.41) 由于此式对于任意小的x都成立,而二阶导数( )fx假设为连续函数,故最小化的二阶条件要求: *()0fx (3.42) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 45 根据同样的逻辑, “严格局部最小值” (strict local minimum)的充分条件包括:一阶条件*()0fx,二阶条件*()0fx。 如果此一阶条件与二阶条件均成立, 则基本不等式(3.37
24、)取严格大于号(),故*x为严格局部最小值。 同理可证,最大化的二阶条件要求*()0fx。 “严格局部最大值”(strict local maximum)的充分条件包括:一阶条件*()0fx,二阶条件*()0fx。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 46 3.2.2 多元最优化多元最优化 更一般地,考虑以下无约束的多元最小化问题, 12min( )(,)nff x xxxx (3.43) 其中,12()nx xx x。 此最小化问题的一阶条件要求, 在最优值*x处, 梯度向量等于0: (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 47 *1*()()
25、()()nfxfffxxxx0 xx (3.44) (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 48 假设函数( )f x在*12()nx xx x达到最小值,则一元函数1*2( ,)nf x xx在*11xx达到最小值。故根据一元最小化的一阶条件可得,*1211,()()0nx xxffxxx。由此可知,在最优值*x处,所有的偏导数均等于 0: 12*()()()0nfffxxxxxx (3.45) 多元最大化的一阶条件与此相同。 (c) 2020,陈强,机器学习及 R 应用,高等教育出版社 49 假设( )fx在*x达到局部最小值,则对于在*x附近任意小的扰动x,都有 *
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 03 数学 回顾

限制150内