书签分享收藏举报版权申诉 / 261

当前位置：首页 > 技术资料 > 其他杂项 > 2023机器学习的数学原理和算法实践.docx

2023机器学习的数学原理和算法实践.docx

上传人：老朋

文档编号：94198127

上传时间：2023-07-25

格式：DOCX

页数：261

大小：7.87MB

( 4.5 )

《2023机器学习的数学原理和算法实践.docx》由会员分享，可在线阅读，更多相关《2023机器学习的数学原理和算法实践.docx（261页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、机器学习的数学原理和算法实践1目录7(第 1 章补基础：不怕学不懂微积分 11.1 深入理解导数的本质21.1.1 哲学层面理解变化21.1.2 生活中处处有函数31.1.3 从瞬时速度到导数31.1.4 从近似运动来理解导数41.1.5 直观理解复合函数求导61.2 理解多元函数偏导71.2.1 多元函数偏导数是什么71.3理解微积分82.3.1直观理解方程组的解311.3.1 直观理解积分82.3.2如何寻找解的表达式341.3.2 直观理解微积分基本定理 102.3.3深刻理解逆矩阵的本质361.4泰勒公式太重要了112.3.4直观理解行列式的本质401.4.1泰勒公式是什么 112.

2、4彻底理解最小二乘法的本质421.4.2泰勒公式的典型应用 112.4.1 如何求解无解的方程组431.2.2 搞清楚梯度是什么7第 2 章补基础：不怕学不懂线性代数 152.1 直观理解向量162.1.1 理解向量加法与数乘172.1.2 理解向量乘法的本质192.1.3 理解基向量与线性无关212.2 直观理解矩阵222.2.1 理解矩阵运算规则222.2.2 理解矩阵向量乘法的本质 242.2.3 深刻理解矩阵乘法的本质292.3 理解线性方程组求解的本质301.4.3 直观理解泰勒公式的来龙去脉 121.4.4 微积分基本定理与泰勒公式的关系142.4.2 论证 n 维子空间上的情况

3、 482.4.3 搞懂施密特正交化是什么 502.4.4 理解最小二乘法的本质53 2 目录2.5 直观理解相似矩阵对角化542.5.1 相似矩阵是什么552.5.2 如何理解特征值与特征向量592.5.3 直观理解相似矩阵的对角化62第 3 章补基础：不怕学不懂概率统计643.1 什么是概率643.1.1 最简单的概率的例子643.1.2 概率论与数理统计的关系653.2 搞懂大数定律与中心极限定理653.2.1 大数定律想表达什么653.2.2 中心极限定理想表达什么673.2.3 大数定律与中心极限定理的区别703.3 理解概率统计中的重要分布703.3.1 真正搞懂正态分布703.3

4、.2 真正搞懂泊松分布743.4 理解朴素贝叶斯思想很重要753.4.1 如何理解条件概率753.4.2 如何理解贝叶斯公式763.4.3 贝叶斯公式的应用763.4.4 最大似然估计77第 4 章全景图：机器学习路线图794.1 通俗讲解机器学习是什么794.1.1 究竟什么是机器学习794.1.2 机器学习的分类814.2 机器学习所需环境介绍824.2.1 Python的优势834.2.2 Python下载、安装及使用834.3 跟着例子熟悉机器学习全过程844.4 准备数据包括什么874.4.1 数据采集874.4.2 数据清洗884.4.3 不均衡样本处理884.4.4 数据类型转

5、换894.4.5 数据标准化904.4.6 特征工程904.5 如何选择算法924.5.1 单一算法模型924.5.2 集成学习模型924.5.3 算法选择路径964.6 调参优化怎么处理974.6.1 关于调参的几个常识974.6.2 模型欠拟合与过拟合984.6.3 常见算法调参的内容984.6.4 算法调参的实践方法994.7 如何进行性能评估1004.7.1 回归预测性能度量1004.7.2 分类任务性能度量100第 5 章数据降维：深入理解 PCA 的来龙去脉 1025.1PCA是什么 1035.2用一个例子来理解PCA过程 1035.3如何寻找降维矩阵P 1065.4PCA降维的核

6、心思想 1075.4.1 核心思想一：基变换向量投影1085.4.2 核心思想二：协方差归零投影1125.4.3 核心思想三：最大方差投影1145.4.4 PCA降维的关键：协方差矩阵对角化116目录 35.5 面向零基础读者详解PCA降维1165.5.1 计算矩阵 Y 的协方差矩阵 Cy1165.5.2 矩阵 Y 的协方差矩阵 Cy 对角化 1185.5.3 求解降维矩阵 P1205.6 编程实践：手把手教你写代码1225.6.1 背景任务介绍：鸢尾花数据降维1225.6.2 代码展示：手把手教你写1235.6.3 代码详解：一步一步讲解清楚123第 6 章凸优化核心过程：真正搞懂梯度下降

7、过程1266.1 通俗讲解凸函数1266.1.1 什么是凸集1266.1.2 什么是凸函数1276.1.3 机器学习“热爱”凸函数1286.2 通俗讲解梯度下降1286.2.1 梯度是什么1306.2.2 梯度下降与参数求解1306.2.3 梯度下降具体过程演示1316.3 编程实践：手把手教你写代码1326.3.1 一元函数的梯度下降1326.3.2 多元函数的梯度下降137第 7 章搞懂算法：线性回归是怎么回事1427.4.2 代码展示：手把手教你写 1477.4.3 代码详解：一步一步讲解清楚147第 8 章搞懂算法：逻辑回归是怎么回事1508.1 如何理解逻辑回归1508.2 逻辑

8、回归算法实现过程1518.3 编程实践：手把手教你写代码1558.3.1 背景任务介绍：用逻辑回归分类预测肿瘤1558.3.2 代码展示：手把手教你写1558.3.3 代码详解：一步一步讲解清楚156第 9 章搞懂算法：决策树是怎么回事1599.1 典型的决策树是什么样的1599.2 决策树算法的关键是什么1609.3 信息、信息量与信息熵1619.4 信息增益的计算过程1639.5 剪枝处理是怎么回事1679.6 编程实践：手把手教你写代码1679.6.1 背景任务介绍：用决策树分类预测乳腺癌1679.6.2 代码展示：手把手教你写1679.6.3 代码详解：一步一步讲解清楚168第 10

9、章搞懂算法：支持向量机是怎么7.1什么是线性回归1427.2线性回归算法解决什么问题 14310.1SVM有什么用1717.3线性回归算法实现过程 14310.2SVM算法原理和过程是什么 1727.4编程实践：手把手教你写代码 14610.2.1 分离超平面是什么172回事1717.4.1 背景任务介绍：预测房价情况 14610.2.2 间隔与支持向量是什么 175 4 目录10.3 编程实践：手把手教你写代码 18010.3.1 背景任务介绍：用SVM分类预测乳腺癌18010.3.2 代码展示：手把手教你写18010.3.3 代码详解：一步一步讲解清楚181第 11 章搞懂算法：聚类

10、是怎么回事 18411.1 聚类算法介绍18411.1.1 聚类是什么18411.1.2 聚类算法应用场景18511.2 通俗讲解聚类算法过程18611.2.1 相似度如何度量18611.2.2 聚类性能如何度量18811.2.3 具体算法介绍：K-means算法18811.2.4 具体算法介绍：K-means+算法18911.3 编程实践：手把手教你写代码19111.3.1 背景任务介绍：手写数字图像聚类19111.3.2 代码展示：手把手教你写19111.3.3 代码详解：一步一步讲解清楚193第 12 章搞懂算法：朴素贝叶斯是怎么回事19512.1 朴素贝叶斯是什么19512.1.1

11、条件概率是什么19512.1.2 贝叶斯公式是什么19512.2 朴素贝叶斯实现方法19612.2.1 伯努利朴素贝叶斯方法19612.2.2 高斯朴素贝叶斯方法19812.2.3 多项式朴素贝叶斯方法19912.3 编程实践：手把手教你写代码20012.3.1 背景任务介绍：朴素贝叶斯分类预测文本类别20012.3.2 代码展示：手把手教你写20112.3.3 代码详解：一步一步讲解清楚201第 13 章搞懂算法：神经网络是怎么回事 20513.1从一个具体任务开始：识别数字 20613.2理解神经元是什么 20713.2.1 感知器是什么 20713.2.2 S型神经元是什么 20813.

12、3理解典型神经网络多层感知器 21013.3.1 神经网络结构是什么21013.3.2 搞懂MLP的工作原理是什么 21113.4 MLP的代价函数与梯度下降21613.4.1 代价函数:参数优化的依据21613.4.2 梯度下降法：求解代价函数最小值21713.5 反向传播算法的本质与推导过程21913.5.1 反向传播算法：神经网络的训练算法21913.5.2 寻根究底：搞懂反向传播算法的数学原理22113.6 编程实践：手把手教你写代码224目录 513.6.1 通过代码深入理解反向传播算法22413.6.2 一个简单的神经网络分类算法实践227第 14 章综合实践：模型优化的经验

13、技巧23014.1 经验技巧一：特征处理23014.1.1 特征提取：文本数据预处理23014.1.2 特征选择：筛选特征组合 23414.2 经验技巧二：模型配置优化23514.2.1 模型配置优化方法：交叉验证23514.2.2 模型配置优化方法：超参数搜索23714.3 编程实践：手把手教你写代码23914.3.1 背景任务介绍：乳腺癌分类预测多模型对比演示24014.3.2 算法介绍：本案例算法简介24014.3.3 代码展示：手把手教你写24114.3.4 代码详解：一步一步讲解清楚24414.4 经验总结：机器学习经验之谈25214.4.1 机器学习中的误区25214.4.2 如何

14、学好机器学习253补基础：不怕学不懂微积分第 1 章机器学习是一门多学科交叉的学科，背后的数学原理涵盖微积分、线性代数、概率统计等相关内容，它的核心是“使用算法解析数据并从中学习，然后对世界上的某件事情做出预测”。机器学习有着广阔的应用空间，能发挥巨大作用，但要深入掌握算法的内部原理就必须了解相关算法背后的数学原理。搞清楚这些数学原理相关的知识，可以帮助我们选择正确的算法、选择参数设置和验证策略、识别欠拟合和过拟合现象等。微积分就是机器学习背后极其重要且不可或缺的一类数学知识。绝大多数机器学习算法在训练或者预测时会碰到最优化问题，而最优化问题的解决需要用到微积分中函数极值的求解知识，可以说微积

15、分是机器学习数学大厦的基石。微积分是一门由工程实践问题“催生”的学科，大量的工程实践问题促使了微积分的产生，总结来说主要有以下 4 类问题。（1）求解变速运动的瞬时速度。（2）求解曲线上某点处的切线。（3）求解函数的最大值和最小值。（4）求解曲线的长度、曲面的面积、物体体积等。从微分和积分的应用来看，前 3 类问题主要应用微分知识，最后一类问题主要应用积分知识。微积分的应用如图 1-1 所示。图 1-1 微积分的应用254( 2 第 1 章补基础：不怕学不懂微积分微积分包含众多知识点，例如极限概念、求导公式、乘积法则、链式法则、隐函数求导、积分中值定理、泰勒公式等。其中，研究导数

16、、微分及其应用的部分一般称为微分学，研究不定积分、定积分及其应用的部分一般称为积分学。微分学和积分学统称为微积分学，而微积分基本定理则将微分和积分进行关联。由于泰勒定理本质上是微积分基本定理的连用，因此从总体上来看微积分包括核心概念和关键技术，其中核心概念是微分和积分，关键技术是微积分基本定理和泰勒定理。微积分知识体系如图 1-2 所示。图 1-2 微积分知识体系最简单的函数是一次函数，最简单的方程是一次方程，微积分的基本思想就是将其他复杂的函数或者方程变成一次函数或一次方程来研究。根据近似的精确度不同，微积分可以分为以下几种情况。第一种情况，用常数项近似代替某个函数在某点附近的数值，这就是极

17、限，误差是无穷小。第二种情况，用一次函数近似代替某个函数在某点附近的数值，这就是微分，误差为高阶无穷小。第三种情况，用泰勒公式近似代替某个函数在某点附近的数值，误差比前两种情况都要小。从近似的精确度来看，泰勒公式的极限最低，但精确度是最高的。1.1 深入理解导数的本质导数虽然简单，却是深刻理解微积分的切入点和重要基础。本节我们将从一个著名的哲学故事开始我们的微积分之旅。1.1.1 哲学层面理解变化古希腊数学家、哲学家芝诺有一个著名的“飞矢不动”论断。这个“诡辩”是说，设想一支飞行的箭在每一时刻必然位于空间中的一个特定位置。每一瞬间箭都是静止的，既然每一瞬间都是静止的，那么飞行的箭其实就是“静止

18、不动”的，这就是“飞矢不动”。对中学时代的我们来说，这样奇怪的想法还是令人惊奇的。虽然我们明白这是一种“没道1.1 深入理解导数的本质 3理”的说法，但是要严格批驳似乎又觉得无能为力。不过如果我们从数学角度来思考这个问题，很多事情就豁然开朗了。既然芝诺提到“飞矢不动”，那么我们首先就要定义什么是“动”。不难发现，日常我们使用“运动”这个概念的时候，都会牵涉两个因素：时间、位置。假设一个物体在时刻t1 处于A 点，而在时刻 t2 处于 B 点，我们就说物体在时刻 t1 和 t2 之间动了，否则我们就说物体是静止的。“每一瞬间箭都是静止的”这句话本身就有问题。“每一瞬间”就是每一个时刻，每一个

19、时刻箭当然会处在某个位置上，但是“静止”是一个跟“时间段”有关联的概念，不存在某个时刻是“静止”还是“运动”的说法。为了更好、更精确地刻画“运动”或“变化”，数学中引入了函数的概念。数学中，函数是描述物体运动与变化的重要工具。1.1.2 生活中处处有函数“你是你吗？”时刻 t1 看到这句话的你跟时刻 t2 开始思考这句话的你，难道没有发生变化吗？显然，时刻 t2 的你已经不是时刻 t1 的你了，但是大家并不会因此觉得“你不是你”。更一般地说，小时候的你跟现在的你相比，样貌、思想、行为、爱好都存在很大的不同，但是你并不会觉得小时候的你不是你。所以，什么是你呢？我们知道，任何事物都处于时间的河流之

20、中，时间就像河流一样滚滚向前，不断流逝。所以，你可以被看成一个以时间为自变量、自身状态为因变量的函数，自变量的取值范围是你的寿命，而你就是与时刻对应的无穷多状态的总和。你在不同时刻有着不同的状态，我们为什么又会认为不同状态下的你是同一个“你”呢？这其实可以用连续函数来解释。虽然不同时刻的你对应着不同的状态，但是相邻时刻对应的状态差别很小，并且随着时刻越来越接近，状态差别也越来越小，这就是函数的连续性。这很好理解，例如用你读到这段话前后的时刻来对比，你的状态差别很小，别人也不会奇怪地对你说“你变了”；可是如果你跟几年未见的朋友再次见面，朋友可能就会发现你的变化。1.1.3 从瞬时速度到导数有了

21、函数的概念，就可以进一步研究导数了。其实导数的概念并不是凭空产生的，而是基于生产、生活的需要出现的。导数典型的应用场景就是对瞬时速度的求解。我们知道一辆汽车如果是匀速行驶的，那么用汽车行驶距离除以行驶时间就是它的速度，这个速度既是平均速度也是每时每刻的速度。但是实际上汽车很少是匀速行驶的，往往有时快有时慢，这时候用行驶距离除以行驶时间得到的将是汽车的平均速度，而不是它每时每刻的速度。那么，我们应如何求解汽车在某个时刻的速度，也就是瞬时速度呢？牛顿正是从求解瞬时 4 第 1 章补基础：不怕学不懂微积分速度入手进而创立了微积分的。我们之前已经有了“速度”的概念，但那是“平均速度”或者匀速运动

22、中每时每刻的“速度”，并没有“瞬时速度”的概念，所以我们需要给出“瞬时速度”的概念及其计算方法。011010101000001假设我们想求解汽车在时刻 t0 的瞬时速度，光盯着这个时刻是没有办法求解的，因为汽车在某一时刻的位置是确定的，我们需要把时间延伸到时刻 t1。假设汽车行驶的位移公式为s = t2+1。时间从 t 到 t ，时间的变化量 t = t - t ，对应的行驶距离表示为 s = s - s =(t 2 + 1)- (t 2+1)=t 2-t 2=(t +t)2-t 2=2t t +t 2，因此 s /t 就是时刻 t 到 t 的平均速度。00一个合理的想法是，t 越小，s /t

23、这个平均速度就越接近于时刻 t0 的瞬时速度。我们观察 s /t =(2t t+t2 )/t ：当 t 不为 0 时，可得 s /t =2t +t。当 t 不断变小且无限接近于 0 的时候，上述平均速度 s /t 就无限接近于 2t0 这一定值。我们就可以认为当 t 无限趋近于 0 时，平均速度 s /t 无限趋近的数值 2t0 就是时刻 t0 的瞬时速度值，也称为函数在该点的导数。概括地讲，导数描述了自变量的微小变化导致因变量微小变化的关系。我清晰地记得中学阶段第一次接触到这个想法时，既觉得“巧妙”又觉得“不踏实”。“巧妙” 是因为使用趋于 0 的时间段的平均速度来定义瞬时速度的想法符合常

24、理且很好地解决了难题， “不踏实”是因为数学在我心里一直是精确的学科，这样采取“近似”的做法让人一时难以接受。实际上，微积分刚开始确实碰到了逻辑上的一大难题，牛顿当时也没有很好地解决。当牛顿开创了微分方法后，虽然由于它的实用性，该方法受到了数学家和物理学家的热烈欢迎，但由于逻辑上一些不清晰的地方，该方法也受到了猛烈批评，最著名的就是乔治伯克利主教对牛顿的微分方法的批评。伯克利主教猛烈批评牛顿的微分方法，他指出：无穷小量如果等于 0，那么它不能作为分母被化简；无穷小量如果不等于 0，那么它无论多小都不能随意省略。无穷小量既不是 0 又是 0，难道是 0 的“鬼魂”吗？伯克利的批评确实切中

25、要害，即便是牛顿也没法很好地反驳。这一逻辑上的缺陷直到 19 世纪才由柯西等数学家弥补起来。数学家们的解决方法其实也简单，就是通过引入一个新的概念“极限”，将瞬时速度定义为平均速度在 t 趋近于 0 时的极限值。为了严格地论证这个过程，柯西等还发明了一套严格的语言来说明，也就是大学阶段“折磨”过我们的那套语言。1.1.4 从近似运动来理解导数数学家们通过将瞬时速度定义为平均速度在 t 趋近于0 时的某个趋近值，进而引出了“极限” 的概念来进一步定义“导数”虽然这是一个巧妙的想法，但也带来了麻烦，那就是如何说清楚“极限”。这花费了数学家们一个多世纪的时间，并且整个论证过程烦琐复杂，导致大家学起

26、来1.1 深入理解导数的本质 5很困难。实际上，对于导数，除了传统的理解方法外，数学家们还提出了其他更简单的理解方法。我们对一次函数 f (x) =kx+b（k、b 是常数）比较熟悉，一次函数的图像是一条直线，一次项系数 k 是直线的斜率。同时，一次函数可以代表匀速运动，一次项系数 k 正好就是匀速运动的速度。如果所有的运动都是匀速运动，那么我们的问题就解决了，匀速运动的速度就是瞬时速度。但问题是现实中很多运动都是变速运动，这该如何处理呢？仔细思考不难发现，变速运动虽然速度是变化的，但是因为速度是连续变化的，所以在很短的时间内其运动规律近似于匀速运动，那么我们是否可以考虑用匀速运动来近似代替

27、变速运动呢？00010前面汽车行驶的例子中，已知汽车行驶的位移公式为 s = t 2+1，求解汽车在时刻 t 的瞬时速度。我们考虑时刻 t 经过很短的时间 t 后在时刻 t +t 的位置与 t 的关系：s = (t +t )2+1= t 2+1+2t t+t 2 是 t 的二次函数。也就是说，汽车在时刻 t 附近很小时间段 t 的运动规律可以用000二次函数f (t) 来表示。如果把二次函数的常数项和一次项组成一个一次函数的话，可以得到f1(t) = (t 2+1)+2t t，其中 (t 2+1) 是常数项，2t t 是一次项，2t 是一次项系数，也是 f (t ) 所代表的匀速运000001

28、动的速度。如果我们认可变速运动的速度变化是连续的，进而微小时间段内的速度变化也较小，可以看作近似的匀速运动，那么可以在微小的时间段内使用匀速运动来代替变速运动。但上面的一次函数 f (t) = (t 2+1)+2t t 所代表的匀速运动是最接近真实运动规律的 f (t) =s = (t +t )2+1=100110t 2+1+2t t+t 2 的吗？会不会有其他匀速运动的一次函数更加接近真实运动规律 f (t ) 呢？答案00是不会，f1(t ) 的确是最接近真实运动规律 f (t ) 的近似函数。首先计算一下两者的误差：d (t ) = | f (t ) - f (t ) |=t 2。然后计

30、(t )。两个函数是同一个函数，描述的是同一个匀速运动。因此，我们可以知道由某点的二次函数的常数项和一次项组成的一次函数描述的是最接近该点真实运动规律的匀速运动，匀速运动的速度可以看成该点的瞬时速度。一般来说，如果函数 y = f (x) 在 x = a 点附近可以使用一次函数或者常数 f1(x) 来近似代替，使得它们的误差 | f (x) - f1(x) | 是 x 阶无穷小，我们就容易证明 f1(x) 在 x = a 点处是最接近 f (x) 的一次函数或常数。f1(x)=f (a)+kx 的一次项系数 k 就是 y = f (x) 在 x = a 点处的导数。这就是导数的另外一种理解方

31、法。 6 第 1 章补基础：不怕学不懂微积分传统的对导数的理解是借助于“极限”的概念来实现的，“极限”则需要由数学家创造的那套繁杂的 - 语言来描述，而新的导数理解视角则避免了这种麻烦。另外，传统的导数（瞬时速度）求解过程是通过“平均速度”s /t =2t0+t 在 t 0 的情况下趋近于某个值 2t0 来定义的，而新的导数（瞬时速度）则是通过寻找一个与变速运动最接近的匀速运动来求解的。当然，当t 0 时，这两种方法描述的是同一种物理状态。1.1.5 直观理解复合函数求导我们根据导数定义不难得出一些基本函数的导数公式，例如幂函数、三角函数等。掌握了基本函数的求导公式并非“万事大吉”，现

32、实中更为常见的是各种基本函数的复合函数求导问题，这需要我们进一步研究复合函数求导公式。基本函数的复合方式总结起来主要分为 3 类：函数相加、函数相乘、函数嵌套。（1）加法法则：例如，复合函数为 f (x)= x2 +sin x。假设 x 变化量为 dx，则基本函数变化量为 d(x2) 和 d(sinx)，于是复合函数变化量就是 df = d(x2) + d(sinx)。由于基本函数可导，将基本函数的导数代入，可得 df=2xdx+cosxdx，这样复合函数导数。也就是说，基本函数相加形成的复合函数导数等于基本函数导数之和。（2）乘法法则：例如，复合函数为 f (x)= x2 +sin x，

33、则复合函数 f 可以看作以 x2 和 sinx 为邻边的矩形的面积。如果自变量 x 发生微小变化 dx，则矩形的两个邻边也会对应发生变化 d(x2) 和d(sinx)，于是原始矩形的面积会增加 df=sinx d(x2) + x2d(sinx) + d(x2)d(sinx)。其中，d(x2)d(sinx) 是高阶无穷小，可以忽略。于是，复合函数导数。也就是说，基本函数相乘形成的复合函数导数等于“前导后不导加上后导前不导”。乘法法则示意如图 1-3 所示。图 1-3 乘法法则示意1.2 理解多元函数偏导 7（3）链式法则：例如，复合函数 f (x) = sinx2 为基本函数 sinx 和 x

34、2 的函数嵌套。我们用新的符号如 y 来代替 x2，则复合函数可以写作 f (x) = siny。如果自变量 x 发生微小变化 dx，会导致函数 y = x2 发生微小变化 dy (dy =2xdx)，而 dy 的变化又会导致复合函数发生微小变化 dy = cosydy。于是 dy = cosydy = cosx22xdx，即。也就是说，基本函数嵌套形成的复合函数导数等于“外层导数与内层导数依次相乘”。1.2 理解多元函数偏导为了方便读者理解，前文主要从一元函数角度来讲解导数相关知识。但现实中更为常见的是多元函数的求导问题，也就是多元函数的偏导数和梯度求解。1.2.1 多元函数偏导数是什么最简

35、单的函数是一元函数，如 y = kx + b，但现实中更多的是多元函数，如 z = x + y 等。其实，多元函数在生活中随处可见，例如矩形的面积 s = x（y 其中，x、y 分别是矩形的长和宽）就是二元函数，梯形的面积 s = (x+y)z/2（其中，x、y 分别是梯形上、下底长，z 为梯形的高）就是三元函数。从映射的观点来看，一元函数是实数集到实数集的映射，多元函数则是有序数组集合到实数集合的映射。我们对一元函数求导是非常熟悉的，那么对多元函数的求导该如何处理呢？典型的一元函数 f (x) = ax2+ bx+c，对这个典型一元函数求导有 f(x) = 2ax+ b。实际上，式子中的

36、a、b、c 也是可以变化的，所以求导过程也是求解 f(x,a,b,c) = ax2+bx + c 关于 x 的偏导数。由此可知，多元函数偏导数的求解方法就是“各个击破”，对一个变量求导时，将其他变量暂时看成固定的参数。对于形如 f (x) =x2 这样的一元函数，它的导数就是自变量 x 的微小变化 x 与其所引起函数值微小变化 f 的比值，一般表示为。那么对于一个含有 x、y 两个变量的函数 f (x,y) = x2sin (y)，保持其他变量固定而关注一个变量的微小变化带来的函数值变化情况，这种变化的比值就是偏导数，如或。1.2.2 搞清楚梯度是什么梯度和导数是密切相关的一对概念，实际

37、上梯度是导数对多元函数的推广，它是多元函数对各个自变量求偏导形成的向量。 8 第 1 章补基础：不怕学不懂微积分中学时，我们接触“微分”这个概念是从“函数图像某点切线斜率”或“函数的变化率” 这个认知开始的。典型的函数微分如 d(2x) =2dx、d(x2)=2xdx、d(x2y2) =2xy2dx 等。梯度实际上就是多变量微分的一般化，例如 J() =31+42 -53-1.2。对该函数求解微分，也就得到了梯度。梯度的本意是一个向量，表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。一般来说，梯度可以定义为一

38、个函数的全部偏导数构成的向量。梯度在机器学习中有着重要的应用，例如梯度下降算法，这将在后文详细论述。1.3 理解微积分微积分基本定理无疑是人类思想最伟大的成就之一。在它被发现之前，曲面面积、物体体积等问题困扰着一代又一代的数学家，从公元前 3 世纪的阿基米德到 17 世纪中叶的费马都被这些问题所困扰。但是自牛顿、莱布尼茨发现了微积分基本定理并经过其追随者系统完善后，原本这些只有“天才”才能够解决的面积、体积难题变成了一般人根据系统方法和步骤也可以解决的普通问题了。1.3.1 直观理解积分我们讲解导数概念的时候，是已知汽车的位移函数来求解某个时刻的瞬时速度。那么，如果已知汽车各个时刻的瞬时速度，

39、能否求出汽车的位移情况甚至位移函数呢？（1）情况一：匀速运动。如果汽车匀速运动，也就是每时每刻的速度都相等，那么汽车位移就应该是速度曲线下方的面积，如图 1-4 所示。图 1-4 匀速运动情况1.3 理解微积分 9（2）情况二：变速运动。实际上更为一般的情况是汽车速度是变化的，也就是汽车处于变速运动状态。假设汽车瞬时速度 v(t) 与时间 t 之间的函数关系为 v(t) = t (6-t)，如图 1-5 所示。如果汽车每一小段时间内都是匀速运动的话计算就比较方便了，那样只需要把各小段时间内的位移相加就可以得到最终的位移了。其中每一小段时间内的位移就是该段时间内速度与时间段的乘积，最终位移也

40、就是各个直方图的面积之和，如图 1-6 所示。图 1-5 变速运动情况图 1-6 变速运动位移上面的过程可以分解得更为细致，将 0 6 秒时间轴划分为很多份，每一段时间长度为dt，该段时间内的速度为 v(t)。于是，这些小直方图的面积之和可以表示为，如图 1-7所示。上述过程分解得越来越细致，以至于 0 6 秒被划分成无穷多个时间段，则直方图的面积最终会趋近于整个速度曲线下方的面积，如图 1-8 所示。图 1-7 划分细致的变速运动位移图 1-8 划分足够细致的变速运动位移曲线下方的面积就是速度对时间的“积分”，它表示所有的微小量累加起来的结果。 10 第 1 章补基础：不怕学不懂微积分1

41、.3.2 直观理解微积分基本定理有了积分的概念以后，我们就可以进一步思考：积分的数值是多少呢？一辆汽车从时刻 0 启动行驶到时刻 T，行驶速度函数为 v(t) = t(6 - t)，则汽车行驶的位移是多少？显然，不同的时刻 T 对应的速度 v(t) 和位移 s(t) 都是不同的，如图 1-9 所示。图 1-9 积分数值哪个位移函数对时间 t 求导结果恰好是速度函数 v(t) = t (6-t) 呢？通过求导公式，不难知道位移函数对时间 t 的求导结果就是上述的速度函数 v(t) = t (6-t)。于是从时刻 0 到时刻 T 的位移就是。因此，我们可以知道。更一般的情况，某个区间的积分结

42、果为，其中 s(t) 是函数 v(t) 的原函数。区间积分结果如图 1-10 所示。图 1-10 区间积分结果1.4 泰勒公式太重要了11上述结论的一般形式就是微积分基本定理：如果函数 f (x) 在区间a,b上连续，并且存在原函数 F (x)，则。1.4 泰勒公式太重要了由于长期注重考试而轻视运用，大部分人在大学阶段对泰勒公式没有足够重视。实际上，泰勒公式是微分的“巅峰”和精华所在，需要我们高度重视。1.4.1 泰勒公式是什么泰勒公式的典型形式如下：其中，Rn(x) 是高阶无穷小量。上述公式也称为 f (x) 在点 a 处的泰勒级数。泰勒公式的主要作用是对特别复杂的函数进行化简，具体来说就

43、是通过近似函数来代替原函数，通过使用简单熟悉的多项式去代替复杂的原函数。1.4.2 泰勒公式的典型应用请大家解决这个问题：已知，求解的值。解题思路：虽然众所周知，但是的值恐怕还真是不太容易求解。如果我们使用泰勒公式，问题就可以轻松化解。上面的问题可以看成对于函数，已知点 a = 9 处的函数值 f (a)=3，求解点 a = 9 附近点 x = 10 处的函数值。根据泰勒公式，我们可以得到在点 a = 9 附近的函数展开式：代入 a = 9 化简可得：观察上式，我们容易发现函数在自变量的给定值 a 附近可以用无穷个多项式不 12 第 1 章补基础：不怕学不懂微积分断展开来近似代替，展开式越多，代替的精度也就越高。例如，函数在自变量的给定值 a = 9 附近可以用一次函数来近似代替，那么一次项系数就反映了函数在点 x = a = 9 处的变化。如果用一次函数来近似代替原函数的值，那么精度就依赖于 x = x - a 的大小。如果 |x| 足够小，那么使用一次函数来近似代替的效果就令人满意。如果 |x| 不够小，可能导致误差也不够小。如果想得到精度更高的近似值，就需要考虑使用更高次项的多项式来代替原函数。代入 x = 10 有以下几

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

此文档不允许下载，请继续在线阅读

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2023 机器学习数学原理算法实践

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2023机器学习的数学原理和算法实践.docx
链接地址：https://www.taowenge.com/p-94198127.html