书签分享收藏举报版权申诉 / 157

立即下载

当前位置：首页 > 教育专区 > 教案示例 > 斯坦福大学机器学习课程个人笔记完整版.docx

斯坦福大学机器学习课程个人笔记完整版.docx

上传人：飞****2

文档编号：52007855

上传时间：2022-10-20

格式：DOCX

页数：157

大小：4.95MB

( 4.5 )

《斯坦福大学机器学习课程个人笔记完整版.docx》由会员分享，可在线阅读，更多相关《斯坦福大学机器学习课程个人笔记完整版.docx（157页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、 CS 229 机器学习 (个人笔记) 目录 (1)线性回归、logistic回归和一般回归 1 (2)判别模型、生成模型与朴素贝叶斯方法 10 (3)支持向量机SVM（上） 20 (4)支持向量机SVM（下） 32 (5)规则化和模型选择 45 (6)K-means聚类算法 50 (7)混合高斯模型和EM算法 53 (8)EM算法 55 (9)在线学习 62 (10)主成分分析 65 (11)独立成分分析 80 (12)线性判别分析 91 (13)因子分析 103 (14)增强学习 114 (15)典型关联分析 120 (16)偏最小二乘法回归 129 这里面的内容是我在2011年上半年学习

2、斯坦福大学机器学习课程的个人学习笔记，内容主要来自Andrew Ng教授的讲义和学习视频。另外也包含来自其他论文和其他学校讲义的一些内容。每章内容主要按照个人学习时的思路总结得到。由于是个人笔记，里面表述错误、公式错误、理解错误、笔误都会存在。更重要的是我是初学者，千万不要认为里面的思路都正确。如果有疑问的地方，请第一时间参考Andrew Ng教授的讲义原文和视频，再有疑问的地方可以找一些大牛问问。博客上很多网友提出的问题，我难以回答，因为我水平确实有限，更深层次的内容最好找相关大牛咨询和相关论文研读。如果有网友想在我这个版本基础上再添加自己的笔记，可以发送Email给我，我提供原始

3、的word docx版本。另，本人目前在科苑软件所读研，马上三年了，方向是分布式计算，主要偏大数据分布式处理，平时主要玩Hadoop、Pig、Hive、Mahout、NoSQL啥的，关注系统方面和数据库方面的会议。希望大家多多交流，以后会往博客上放这些内容，机器学习会放的少了。 Anyway，祝大家学习进步、事业成功！对回归方法的认识 JerryLead csxulijie 2011 年 2 月 27 日 1 摘要本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题，属于有监督学习中的一种方法。该方法的核心思想是从离散的统计数据中得到数学模型

4、，然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。讲义最初介绍了一个基本问题，然后引出了线性回归的解决方法，然后针对误差问题做了概率解释。 2 问题引入假设有一个房屋销售的数据如下：面积(m2) 销售价钱（万元） 123 250 150 320 87 160 102 220 这个表类似于北京 5 环左右的房屋价钱，我们可以做出一个图，x 轴是房屋的面积。y 轴是房屋的售价，如下：如果来了一个新的面积，假设在销售价钱的记录中没有的，我们怎么办呢？我们可以用一条曲线去尽量准的拟合这些数据，然后如果有新的输入过来，我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合，

5、可能是下面的样子：绿色的点就是我们想要预测的点。首先给出一些概念和常用的符号。房屋销售记录表：训练集(training set)或者训练数据(training data), 是我们流程中的输入数据，一般称为 x 房屋销售价钱：输出数据，一般称为 y 拟合的函数（或者称为假设或者模型）：一般写做 y = h(x) 训练数据的条目数(#training set),：一条训练数据是由一对输入数据和输出数据组成的输入数据的维度 n (特征的个数，#features) 这个例子的特征是两维的，结果是一维的。然而回归方法能够解决特征多维，结果是一维多离散值或一维连续值的问题。 3 学习过程下面是一

6、个典型的机器学习的过程，首先给出一个输入数据，我们的算法会通过一系列的过程得到一个估计的函数，这个函数有能力对没有见过的新数据给出一个新的估计，也被称为构建一个模型。就如同上面的线性回归函数。 4 线性回归线性回归假设特征和结果满足线性关系。其实线性关系的表达能力非常强大，每个特征对结果的影响强弱可以有前面的参数体现，而且每个特征变量可以首先映射到一个函数，然后再参与线性计算。这样就可以表达特征与结果之间的非线性关系。我们用 X1，X2.Xn 去描述 feature 里面的分量，比如 x1=房间的面积，x2=房间的朝向，等等，我们可以做出一个估计函数：在这儿称为参数，在这的意思是调整 f

7、eature 中每个分量的影响力，就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令 X0 = 1，就可以用向量的方式来表示了：我们程序也需要一个机制去评估我们是否比较好，所以说需要对我们做出的 h 函数进行评估，一般这个函数称为损失函数（loss function）或者错误函数(error function)，描述 h 函数不好的程度，在下面，我们称这个函数为 J 函数在这儿我们可以做出下面的一个错误函数：这个错误估计函数是去对 x(i)的估计值与真实值 y(i)差的平方和作为错误估计函数，前面乘上的 1/2 是为了在求导的时候，这个系数就不见了。至于为何选择平方和作为

8、错误估计函数，讲义后面从概率分布的角度讲解了该公式的来源。如何调整以使得 J()取得最小值有很多方法，其中有最小二乘法(min square)，是一种完全是数学描述的方法，和梯度下降法。 5 梯度下降法在选定线性回归模型后，只需要确定参数，就可以将模型用来预测。然而需要在 J() 最小的情况下才能确定。因此问题归结为求极小值问题，使用梯度下降法。梯度下降法最大的问题是求得有可能是全局极小值，这与初始点的选取有关。梯度下降法是按下面的流程进行的： 1）首先对赋值，这个值可以是随机的，也可以让是一个全零的向量。 2）改变的值，使得 J()按梯度下降的方向进行减少。梯度方向由

9、 J()对的偏导数确定，由于求的是极小值，因此梯度方向是偏导数的反方向。结果为迭代更新的方式有两种，一种是批梯度下降，也就是对全部的训练数据求得误差后再对进行更新，另外一种是增量梯度下降，每扫描一步都要对进行更新。前一种方法能够不断收敛，后一种方法结果可能不断在收敛处徘徊。一般来说，梯度下降法收敛速度还是比较慢的。另一种直接计算结果的方法是最小二乘法。 6 最小二乘法将训练特征表示为 X 矩阵，结果表示成 y 向量，仍然是线性回归模型，误差函数不变。那么可以直接由下面公式得出但此方法要求 X 是列满秩的，而且求矩阵的逆比较慢。 7 选用误差函数为平方和的概率解释假设根据特征

10、的预测结果与实际结果有误差(𝑖)，那么预测结果𝜃𝑇𝑥(i)和真实结果𝑦(𝑖)满足下式：一般来讲，误差满足平均值为 0 的高斯分布，也就是正态分布。那么 x 和 y 的条件概率也就是这样就估计了一条样本的结果概率，然而我们期待的是模型能够在全部样本上预测最准，也就是概率积最大。这个概率积成为最大似然估计。我们希望在最大似然估计得到最大值时确定。那么需要对最大似然估计公式求导，求导结果既是这就解释了为何误差函数要使用平方和。当然推导过程中也做了一些假定，但这个假定符合客观规律。 8 带权重的线

11、性回归上面提到的线性回归的误差函数里系统都是 1，没有权重。带权重的线性回归加入了权重信息。基本假设是其中假设𝑤(i)符合公式其中 x 是要预测的特征，这样假设的道理是离 x 越近的样本权重越大，越远的影响越小。这个公式与高斯分布类似，但不一样，因为w(i)不是随机变量。此方法成为非参数学习算法，因为误差函数随着预测值的不同而不同，这样无法事先确定，预测一次需要临时计算，感觉类似 KNN。 9 分类和对数回归一般来说，回归不用在分类问题上，因为回归是连续型模型，而且受噪声影响比较大。如果非要应用进入，可以使用对数回归。对数回归本质上是线性回归，只是在特征到结果的映

12、射中加入了一层函数映射，即先把特征线性求和，然后使用函数 g(z)将最为假设函数来预测。g(z)可以将连续值映射到 0 和 1上。对数回归的假设函数如下，线性回归假设函数只是𝜃𝑇𝑥。对数回归用来分类 0/1 问题，也就是预测结果属于 0 或者 1 的二值分类问题。这里假设了二值满足伯努利分布，也就是当然假设它满足泊松分布、指数分布等等也可以，只是比较复杂，后面会提到线性回归的一般形式。与第 7 节一样，仍然求的是最大似然估计，然后求导，得到迭代公式结果为可以看到与线性回归类似，只是𝜃𝑇𝑥(

13、i)换成了𝜃(𝑥(𝑖)，而𝜃(𝑥(𝑖)实际上就是𝜃𝑇𝑥(i)经过 g(z)映射过来的。 10 牛顿法来解最大似然估计第 7 和第 9 节使用的解最大似然估计的方法都是求导迭代的方法，这里介绍了牛顿下降法，使结果能够快速的收敛。当要求解f() = 0时，如果 f 可导，那么可以通过迭代公式来迭代求解最小值。当应用于求解最大似然估计的最大值时，变成求解(𝜃) = 0的问题。那么迭代公式写作当是向量时，牛顿法可以使用下面式子表示

14、其中是 nn 的 Hessian 矩阵。牛顿法收敛速度虽然很快，但求 Hessian 矩阵的逆的时候比较耗费时间。当初始点 X0 靠近极小值 X 时，牛顿法的收敛速度是最快的。但是当 X0 远离极小值时，牛顿法可能不收敛，甚至连下降都保证不了。原因是迭代点 Xk+1 不一定是目标函数 f 在牛顿方向上的极小点。 11 一般线性模型之所以在对数回归时使用的公式是由一套理论作支持的。这个理论便是一般线性模型。首先，如果一个概率分布可以表示成时，那么这个概率分布可以称作是指数分布。伯努利分布，高斯分布，泊松分布，贝塔分布，狄特里特分布都属于指数分布。在对数回归时采用的是伯努利分布，

15、伯努利分布的概率可以表示成其中得到这就解释了对数回归时为了要用这个函数。一般线性模型的要点是）满足一个以为参数的指数分布，那么可以求得的表达式。）给定 x，我们的目标是要确定，大多数情况下，那么我们实际上要确定的是，而。（在对数回归中期望值是，因此 h 是；在线性回归中期望值是，而高斯分布中，因此线性回归中 h=）。） 12 Softmax 回归最后举了一个利用一般线性模型的例子。假设预测值 y 有 k 种可能，即 y 比如时，可以看作是要将一封未知邮件分为垃圾邮件、个人邮件还是工作邮件这三类。定义那么这样即式子左边可以有其他的概率表示，因此可以

16、当做是 k-1 维的问题。 T(y)这时候一组 k-1 维的向量，不再是 y。即 T(y)要给出 y=i（i 从 1 到 k-1）的概率应用于一般线性模型那么最后求得而 y=i 时求得期望值那么就建立了假设函数，最后就获得了最大似然估计对该公式可以使用梯度下降或者牛顿法迭代求解。解决了多值模型建立与预测问题。学习总结该讲义组织结构清晰，思路独特，讲原因，也讲推导。可贵的是讲出了问题的基本解决思路和扩展思路，更重要的是讲出了为什么要使用相关方法以及问题根源。在看似具体的解题思路中能引出更为抽象的一般解题思路，理论化水平很高。该方法可以用在对数据多维分析和多值预测上，更适用于

17、数据背后蕴含某种概率模型的情景。判别模型、生成模型与朴素贝叶斯方法 JerryLead csxulijie 2011 年 3 月 5 日星期六 1 判别模型与生成模型上篇报告中提到的回归模型是判别模型，也就是根据特征值来求结果的概率。形式化表示为𝑝(𝑦|𝑥 𝜃)，在参数𝜃确定的情况下，求解条件概率𝑝(𝑦|𝑥)。通俗的解释为在给定特征后预测结果出现的概率。比如说要确定一只羊是山羊还是绵羊，用判别模型的方法是先从历史数据中学习到模型，然后通过提取这只羊的特征来预测出

18、这只羊是山羊的概率，是绵羊的概率。换一种思路，我们可以根据山羊的特征首先学习出一个山羊模型，然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征，放到山羊模型中看概率是多少，再放到绵羊模型中看概率是多少，哪个大就是哪个。形式化表示为求𝑝(𝑥|y)（也包括𝑝(𝑦)），y 是模型结果，x 是特征。利用贝叶斯公式发现两个模型的统一性：由于我们关注的是 y 的离散值结果中哪个概率大（比如山羊概率和绵羊概率哪个大），而并不是关心具体的概率，因此上式改写为：其中𝑝(𝑥|y)称为后验概率，w

19、901;(𝑦)称为先验概率。由𝑝(𝑥|y) 𝑝(𝑦) = 𝑝(𝑥, 𝑦)，因此有时称判别模型求的是条件概率，生成模型求的是联合概率。常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine 等。这篇博客较为详细地介绍了两个模型： 2 高斯判别分析（Gaussian discriminant

20、 analysis） 1）多值正态分布多变量正态分布描述的是 n 维随机变量的分布情况，这里的变成了向量，也变成了矩阵。写作𝛮(𝜇, 𝛴)。假设有 n 个随机变量𝑋1, 𝑋2, , 𝑋𝑛。的第 i 个分量是E(X𝑖)，而ii = Var(𝑋𝑖)，ij = Cov(𝑋𝑖, 𝑋𝑗)。概率密度函数如下：其中|是的行列式，是协方差矩阵，而且是对称半正定的。当是二维的时候可

21、以如下图表示：其中决定中心位置，决定投影椭圆的朝向和大小。如下图：对应的都不同。 2）模型分析与应用如果输入特征x是连续型随机变量，那么可以使用高斯判别分析模型来确定p(x|y)。模型如下：输出结果服从伯努利分布，在给定模型下特征符合多值高斯分布。通俗地讲，在山羊模型下，它的胡须长度，角大小，毛长度等连续型变量符合高斯分布，他们组成的特征向量符合多值高斯分布。这样，可以给出概率密度函数：最大似然估计如下：注意这里的参数有两个，表示在不同的结果模型下，特征均值不同，但我们假设协方差相同。反映在图上就是不同模型中心位置不同，但形状相同。这样就可以用直线来进行分隔判别。求导后，得到

22、参数估计公式：是训练样本中结果 y=1 占有的比例。 0是 y=0 的样本中特征均值。 1是 y=1 的样本中特征均值。是样本特征方差均值。如前面所述，在图上表示为：直线两边的 y 值不同，但协方差矩阵相同，因此形状相同。不同，因此位置不同。 3）高斯判别分析（GDA）与 logistic 回归的关系将 GDA 用条件概率方式来表述的话，如下： y 是 x 的函数，其中都是参数。进一步推导出这里的是的函数。这个形式就是 logistic 回归的形式。也就是说如果 p(x|y)符合多元高斯分布，那么 p(y|x)符合 logistic 回归模型。反之，不成立。为什么反过来不成立

23、呢？因为 GDA 有着更强的假设条件和约束。如果认定训练数据满足多元高斯分布，那么 GDA 能够在训练集上是最好的模型。然而，我们往往事先不知道训练数据满足什么样的分布，不能做很强的假设。Logistic回归的条件假设要弱于 GDA，因此更多的时候采用 logistic 回归的方法。例如，训练数据满足泊松分布，，那么 p(y|x)也是 logistic 回归的。这个时候如果采用 GDA，那么效果会比较差，因为训练数据特征的分布不是多元高斯分布，而是泊松分布。这也是 logistic 回归用的更多的原因。 3 朴素贝叶斯模型在 GDA 中，我们要求特征向量 x 是连续实数向量。如果 x

24、是离散值的话，可以考虑采用朴素贝叶斯的分类方法。假如要分类垃圾邮件和正常邮件。分类邮件是文本分类的一种应用。假设采用最简单的特征描述方法，首先找一部英语词典，将里面的单词全部列出来。然后将每封邮件表示成一个向量，向量中每一维都是字典中的一个词的 0/1 值，1 表示该词在邮件中出现，0 表示未出现。比如一封邮件中出现了“a”和“buy”，没有出现“aardvark”、“aardwolf”和“zygmurgy”，那么可以形式化表示为：假设字典中总共有 5000 个词，那么 x 是 5000 维的。这时候如果要建立多项式分布模型（二项分布的扩展）。多项式分布（multinomial d

25、istribution）某随机实验如果有k个可能结局A1，A2，Ak，它们的概率分布分别是p1，p2，pk，那么在N次采样的总结果中，A1出现n1次，A2出现n2次，Ak出现nk次的这种事件的出现概率P有下面公式：（Xi代表出现ni次）对应到上面的问题上来，把每封邮件当做一次随机试验，那么结果的可能性有25000种。意味着 pi 有25000个，参数太多，不可能用来建模。换种思路，我们要求的是 p(y|x)，根据生成模型定义我们可以求 p(x|y)和 p(y)。假设 x 中的特征是条件独立的。这个称作朴素贝叶斯假设。如果一封邮件是垃圾邮件（y=1），且这封邮件出现词“buy”与这封邮件是

26、否出现“price”无关，那么“buy”和“price”之间是条件独立的。形式化表示为，（如果给定 Z 的情况下，X 和 Y 条件独立）：也可以表示为：回到问题中这个与 NLP 中的 n 元语法模型有点类似，这里相当于 unigram。这里我们发现朴素贝叶斯假设是约束性很强的假设，“buy”从通常上讲与“price”是有关系，我们这里假设的是条件独立。（注意条件独立和独立是不一样的）建立形式化的模型表示：那么我们想要的是模型在训练数据上概率积能够最大，即最大似然估计如下：注意这里是联合概率分布积最大，说明朴素贝叶斯是生成模型。求解得：最后一个式子是表示 y=1 的样本数占全部

27、样本数的比例，前两个表示在 y=1 或 0 的样本中，特征 Xj=1 的比例。然而我们要求的是实际是求出分子即可，分母对 y=1 和 y=0 都一样。当然，朴素贝叶斯方法可以扩展到 x 和 y 都有多个离散值的情况。对于特征是连续值的情况，我们也可以采用分段的方法来将连续值转化为离散值。具体怎么转化能够最优，我们可以采用信息增益的度量方法来确定（参见 Mitchell 的机器学习决策树那一章）。比如房子大小可以如下划分成离散值： 4 拉普拉斯平滑朴素贝叶斯方法有个致命的缺点就是对数据稀疏问题过于敏感。比如前面提到的邮件分类，现在新来了一封邮件，邮件标题是“NIPS call for

28、 papers”。我们使用更大的网络词典（词的数目由 5000 变为 35000）来分类，假设 NIPS 这个词在字典中的位置是 35000。然而 NIPS 这个词没有在训练数据中出现过，这封邮件第一次出现了 NIPS。那我们算概率的时候如下：由于 NIPS 在以前的不管是垃圾邮件还是正常邮件都没出现过，那么结果只能是 0 了。显然最终的条件概率也是 0。原因就是我们的特征概率条件独立，使用的是相乘的方式来得到结果。为了解决这个问题，我们打算给未出现特征值，赋予一个“小”的值而不是 0。具体平滑方法如下：假设离散型随机变量 z 有1,2,k个值，我们用𝑖 = p(z

29、 = i)来表示每个值的概率。假设有 m 个训练样本中，z 的观察值是其中每一个观察值对应 k 个值中的一个。那么根据原来的估计方法可以得到说白了就是 z=j 出现的比例。拉普拉斯平滑法将每个 k 值出现次数事先都加 1，通俗讲就是假设他们都出现过一次。那么修改后的表达式为：每个z=j的分子都加1，分母加k。可见。这个有点像 NLP 里面的加一平滑法，当然还有 n 多平滑法了，这里不再详述。回到邮件分类的问题，修改后的公式为： 5 文本分类的事件模型回想一下我们刚刚使用的用于文本分类的朴素贝叶斯模型，这个模型称作多值伯努利事件模型（multi-variate Bernoulli

30、event model）。在这个模型中，我们首先随机选定了邮件的类型（垃圾或者普通邮件，也就是 p(y)），然后一个人翻阅词典，从第一个词到最后一个词，随机决定一个词是否要在邮件中出现，出现标示为 1，否则标示为 0。然后将出现的词组成一封邮件。决定一个词是否出现依照概率 p(xi|y)。那么这封邮件的概率可以标示为。让我们换一个思路，这次我们不先从词典入手，而是选择从邮件入手。让 i 表示邮件中的第 i 个词，xi 表示这个词在字典中的位置，那么 xi 取值范围为1,2,|V|，|V|是字典中词的数目。这样一封邮件可以表示成，n 可以变化，因为每封邮件的词的个数不同。然后我们对于每个 xi

31、随机从|V|个值中取一个，这样就形成了一封邮件。这相当于重复投掷|V|面的骰子，将观察值记录下来就形成了一封邮件。当然每个面的概率服从p(xi|y)，而且每次试验条件独立。这样我们得到的邮件概率是。居然跟上面的一样，那么不同点在哪呢？注意第一个的 n 是字典中的全部的词，下面这个 n 是邮件中的词个数。上面 xi 表示一个词是否出现，只有 0 和 1 两个值，两者概率和为 1。下面的 xi 表示|V|中的一个值，|V|个 p(xi|y)相加和为 1。是多值二项分布模型。上面的 x 向量都是0/1 值，下面的 x 的向量都是字典中的位置。形式化表示为： m 个训练样本表示为：表示第 i 个

32、样本中，共有 ni 个词，每个词在字典中的编号为。那么我们仍然按照朴素贝叶斯的方法求得最大似然估计概率为解得，与以前的式子相比，分母多了个 ni，分子由 0/1 变成了 k。举个例子： X1 X2 X3 Y 1 2 - 1 2 1 - 0 1 3 2 0 3 3 3 1 假如邮件中只有 a，b，c 这三词，他们在词典的位置分别是 1,2,3，前两封邮件都只有 2 个词，后两封有 3 个词。 Y=1 是垃圾邮件。那么，假如新来一封邮件为 b，c 那么特征表示为2,3。那么那么该邮件是垃圾邮件概率是 0.6。注意这个公式与朴素贝叶斯的不同在于这里针对整体样本求的𝛷

33、𝑘|𝑦=1，而朴素贝叶斯里面针对每个特征求的𝛷xj=1|𝑦=1，而且这里的特征值维度是参差不齐的。这里如果假如拉普拉斯平滑，得到公式为：表示每个 k 值至少发生过一次。另外朴素贝叶斯虽然有时候不是最好的分类方法，但它简单有效，而且速度快。支持向量机（上） JerryLead csxulijie 2011 年 3 月 12 日星期六 1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触 SVM 是去年暑假的时候，老师要求交统计学习理论的报告，那时去网上下了一份入门教程，里面讲的很通俗，当时只是大致了解了一些相关概念

34、。这次斯坦福提供的学习材料，让我重新学习了一些 SVM 知识。我看很多正统的讲法都是从 VC 维理论和结构风险最小原理出发，然后引出 SVM 什么的，还有些资料上来就讲分类超平面什么的。这份材料从前几节讲的 logistic 回归出发，引出了 SVM，既揭示了模型间的联系，也让人觉得过渡更自然。 2 重新审视 logistic 回归 Logistic 回归目的是从特征学习出一个 0/1 分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用 logistic 函数（或称作 sigmoid 函数）将自变量映射到(0,1)上，映射后的值被认为是属于 y=

35、1 的概率。形式化表示就是假设函数其中 x 是 n 维特征向量，函数 g 就是 logistic 函数。的图像是可以看到，将无穷映射到了(0,1)。而假设函数就是特征属于 y=1 的概率。当我们要判别一个新来的特征属于哪个类时，只需求𝜃(x)，若大于 0.5 就是 y=1 的类，反之属于 y=0 类。再审视一下𝜃(x)，发现𝜃(x)只和𝜃𝑇𝑥有关，𝜃𝑇𝑥0，那么𝜃(x) 0.5，g(z)只不过是用来映射，真实的类别决定权还

36、在𝜃𝑇𝑥。还有当𝜃𝑇𝑥 0时，𝜃(x)=1，反之𝜃(x)=0。如果我们只从𝜃𝑇𝑥出发，希望模型达到的目标无非就是让训练数据中 y=1 的特征𝜃𝑇𝑥 0，而是 y=0 的特征𝜃𝑇𝑥 0。Logistic 回归就是要学习得到，使得正例的特征远大于 0，负例的特征远小于 0，强调在全部训练实例上达到这个目标。图形化表示如下：中间

37、那条线是𝜃𝑇𝑥 = 0，logistic 回顾强调所有点尽可能地远离中间那条线。学习出的结果也就中间那条线。考虑上面 3 个点 A、B 和 C。从图中我们可以确定 A 是类别的，然而 C 我们是不太确定的，B 还算能够确定。这样我们可以得出结论，我们更应该关心靠近中间分割线的点，让他们尽可能地远离中间线，而不是在所有点上达到最优。因为那样的话，要使得一部分点靠近中间线来换取另外一部分点更加远离中间线。我想这就是支持向量机的思路和 logistic 回归的不同点，一个考虑局部（不关心已经确定远离的点），一个考虑全局（已经远离的点可能通过调整中间线使

38、其能够更加远离）。这是我的个人直观理解。 3 形式化表示我们这次使用的结果标签是 y=-1,y=1，替换在 logistic 回归中使用的 y=0 和 y=1。同时将替换成 w 和 b。以前的𝜃𝑇𝑥 = 0 + 1𝑥1 + 2𝑥2 + + 𝑛𝑥𝑛，其中认为x0 = 1。现在我们替换0为 b，后面替换1𝑥1 + 2𝑥2 + + 𝑛𝑥𝑛为w1𝑥1 + w2𝑥

39、2 + + w𝑛𝑥𝑛（即𝑤𝑇𝑥）。这样，我们让𝜃𝑇𝑥 = 𝑤𝑇𝑥 + b，进一步𝜃(x) = 𝑔(𝜃𝑇𝑥) = g(𝑤𝑇𝑥 + b)。也就是说除了 y 由 y=0 变为 y=-1，只是标记不同外，与 logistic 回归的形式化表示没区别。再明确下假设函数 𝑤,

40、𝑏(x) = 𝑔(𝑤𝑇𝑥 + b) 上一节提到过我们只需考虑𝜃𝑇𝑥的正负问题，而不用关心 g(z)，因此我们这里将 g(z)做一个简化，将其简单映射到 y=-1 和 y=1 上。映射关系如下： 1,z 0 g(z) = 1,z 0或者i(𝑤) 0，那么我们总是可以调整𝛼𝑖和𝛽𝑖来使得𝜃𝒫(w)有最大值为正无穷。而只有 g 和 h 满足约束时，𝜃

41、;𝒫(w)为 f(w)。这个函数的精妙之处在于𝛼𝑖 0，而且求极大值。因此我们可以写作这样我们原来要求的 min f(w)可以转换成求min𝑤 𝜃𝒫(w)了。我们使用p来表示min𝑤 𝜃𝒫(w)。如果直接求解，首先面对的是两个参数，而𝛼𝑖也是不等式约束，然后再在 w 上求最小值。这个过程不容易做，那么怎么办呢？我们先考虑另外一个问题 D 的意思是对偶，将问题转化为先求拉格朗日关于 w 的最小值，将和看作是固定值。之后在求最大值的话：这个问题是原问题的对偶问题，相对于原问题只是更换了 min 和 max 的顺序，而一般更换顺序的结果是 Max Min(X) = Min Max(X)

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 斯坦福大学机器学习课程个人笔记完整版

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：斯坦福大学机器学习课程个人笔记完整版.docx
链接地址：https://www.taowenge.com/p-52007855.html