斯坦福大学公开课 :机器学习课程note3翻译.docx
《斯坦福大学公开课 :机器学习课程note3翻译.docx》由会员分享,可在线阅读,更多相关《斯坦福大学公开课 :机器学习课程note3翻译.docx(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Part VSupport Vector Machines这篇讲义讲的是支持向量机(SVM)学习算法。SVMs是最好的“非专门设计的”监督学习算法。为了讲SVM的故事,我们需要先讲一下分散数据的边际概念。接下来我们会说一下最优边际分类,虽然会有一点离题去讲拉格朗日对偶。我们也会说一下这个核心,给出一种支撑SVMs很有效的适用于高纬度的特征空间,最后我们会以能够很好实现SVMs算法的SMO结束这个故事。1 Margins: Intuition我们会以考虑边际开始我们的故事。本节会给出边际判断和预测的“自信力”;这些东西会正式的讲解在第三节。 考虑一下逻辑回归,概率p(y=1|x; )由h(x)=
2、g(Tx)给出。我们然后会预测“1”通过输入到x当且仅当,或者是当且仅当。有一个正数训练样本(y=1)。越大,就越大,因此我们的预测标签是1的“自信度”也就越高。因此,正式的我们能认为我们的预测作为一个自信的模型如果。同样的,我们认为逻辑回归做出一个非常自信的预测对于y=0,如果。给定一组训练集,如果我们能找到一个使的对于所有的x有当对于任意y有y=1并且对于任意的x有成立当对于所有的y=0,因此这个能反映一个非常正确的分类集对于所有的训练样本。这看起来是一个好的目标去实现,并且我们很快会把这个想法实现出来用函数边际的概念。 对于一个不同的类型关于判断事实,考虑下列图形,x代表正的训练样本,0
3、代表负的训练样本,一个决策边界(图中给定的这条线由给出的,被叫做分类超平面)在图中给出,并且有三个点被标出为A,B和C 注意这个点A离我们的决策边界很远。如果我们被要求去预测一个值y就在A点,看起来我们应该很自信的说y=1.相反的是,C点离这个决策边界很近,并且他也是在我们预测的y=1的一边,看起来如果有一点点的改变的话这个预测值就会改变为y=0.因此,我们相对于C点来说对我们在A点的预测更为自信。点B是介于这两种情况之间,更广泛的说,我们可以看到当一个点远离分类特征时候,我们会更加自信对于我们的预测值。再一次,我们认为他会更好,给定一个训练集,我们想要去找到一个决策边界能够使我们去对所有的数
4、据做正确的和自信的预测。我们会讲到这个在之后使用几何边际的概念。 2 Notation 符号为了使我们对SVMs的讨论更加简单,我们首先需要介绍一下讨论新的算法需要用的符号。我们考虑一个线性分类器对于一个二值分类问题使用标签为y和特征为x。现在开始,我们使用y-1,1(包括0,1)表示分类标签。同样的,我们会使用参数w,b来表示我们的分类器而不是使用向量,接下来可以写出来我们的分类函数:这里g(z)=1如果z=0;其他情况下g(z)=-1。参数“w,b”可以使我们明确的把偏置项b和其他的参数分开。(我们舍弃了以前使用的令x0=1作为偏置项的决定)因此,b现在扮演的角色就是以前的0,w就是以前的
5、1,2,nT。 注意,使用我们上面对g的规定,我们的分类器预测出来的值是-1和1,省去了需要对y进行大约估计的中间步骤。(那是在逻辑回归中做的事情。)3 Functional and geometric margins(函数和几何间接)我们把功能和几何间隔形式化。给定一个训练集(xi,yi),我们定义(w,b)相对于训练集的函数间隔:注意,如果yi=1,这个函数间隔会变大(例如:对于我们的预测会更加自信和正确。)然后我们需要是一个很大的正数。相反的,如果yi=-1,那么这个函数间隔也会变大,那么我们需要是一个很大的负数。此外,如果,那么我们对于这个训练样本的预测是正确的。(自己证明)。因此,一
6、个大的函数间隔代表一个自信的和正确的预测。 对于一个已经给定了上述g的线性分类器,然而,有一个关于函数间隔的性质使的他不能作为判断是否分类完好的标准。选定函数g,我们注意到如果我们使用2w替换w,2b替换b,然后,这个并不会改变最终的输出结果。也就是g和仅仅依赖于正负而不是大小。然而,用(2w,2b)替换(w,b)也使我们的函数间隔增加了2倍。因此,看起来我们按规定的比例值增大w,b,而且这也是我们的函数间隔变大但是这个改变是没有什么意义的。更直观的说,可能那样会有意义就是增加一些标准性的条件,比如像|w|2=1;也就是说,我们可能会使用()替换(w,b),并且考虑这时候的函数间隔。之后我们会
7、再回来讨论这个问题。 给定一个训练集S=(xi,yi);i=1,,m,我们同样定义关于(w,b)的函数间隔关于S作为最小的关于给定训练样本的函数间隔。一样可以写出:接下来,我们讨论几何间隔。考虑一下下面这张图:这个和(w,b)相一致的决策边界如图所示,伴随着向量V。注意w是和分离超平面垂直的。考虑这个点A,代表输入的训练样本xi的标签yi=1.他到决策边界的距离是线段AB。 我们怎么样才能找到的值?是单位向量的长度方向和w一样。因为A代表xi,因此我们发现B由给出。但是这个点在决策边界上,并且所有在决策边界上的点x都满足。因此:解出: 这个对于算出对于一个在图中A点的正的训练集,在决策边界的正
8、方向一侧是好的。更一般的,我们定义(w,b)得到几何间隔使用训练集(xi,yi)注意,如果|w|=1,这个函数间隔等于几何间隔-因此这给出了一种关于两种不一样的表示之间的联系。并且,重新调节参数几何间隔是不变的,也就是说,如果我们用(2w,2b)替换(w,b)这个几何间隔是不变的。这个迟早会用到的。特别的,因为这个不变性,当试图去找到合适的w和 b去训练数据时候,我们可以假设改变任意大小对w而不改变其他重要的东西;例如,我们可以要求|w|=1或者|w1|=5或者|w1+b|+|w2|=2,这些都能适应简单的改变w和b。 最后给定一个训练集S=(xi,yi);i=1,,m,我们定义关于S的(w,
9、b)的几何间隔是最小的在所有的几何间隔中。4 The optimal margin classifier 最佳间隔分类器 给定一个训练集,看起来像从我们以前讨论的里面拿来的一个必需品去试图找到一个决策边界最大化这个间隔,因此这个会反映一个非常明确的对训练集的预测和适合的参数。特别的,这会导致分开正的训练样本和负的训练样本用一个间隔。 现在开始,我们假设我们给定一个训练集是可线性分隔的。也就是说那是可能的分开正的和负的训练样本使用分类超平面。我们怎么才能找到这个分类超平面使的这个几何间隔最大化?我们能提出下面的最佳化问题:也就是说,我们想要最大化,对于每一个训练样本都使用的最小的。此外条件|w|
10、=1约束使的几何间隔等于函数间隔,因此我们能保证对于所有的几何间隔都有最小的。因此,解决这个问题会归结于求(w,b)使的几何间隔最大化在训练集中。 如果我们想解决上面这个优化问题,我们已经做了的。但是条件“|w|=1”是向下的(非凸的),并且这个问题不能以任何形式用标准优化软件去解决。因此试着去改变这个问题成为一个好一点的。考虑下面这个式子:这里,我们想要最大化,受制于函数间隔的所有条件都是在最小化。因此,这个几何和函数间隔是通过联系,这会给我们一个我们想要的答案。此外,我们还摆脱了|w|=1的约束。负面的影响是我们现在有一个非凸的目标函数:,并且我们仍旧没有得到任何的现成的软件可以去解决这类
11、优化问题。 继续。重新回到我们以前的讨论我们能加上一个任意的缩放约束对于w和b而不改变其他东西。这是我们现在要用的主要思想。我们接下来会介绍这个对w,b的缩放约束对于函数间隔在训练集必须是1的条件下: 因此,使w和b乘上一些约束结果导致这个函数间隔同样乘以相同的常熟,这的确是一种缩放约束并且能被适用通过改变w和b。把这些加到我们上面的问题中,并且注意最大化 =是同样的事情和最小化。我们现在有下面的优化问题:我们现在已经改变这个问题到另一个形式能够被有效解决的形式。上面的是一个优化问题带有凸二次方程和仅仅是线性缩放的。他的解决给了我们一个最优间隔分类器。这个最优问题能够被解决使用商业的二次规划代
12、码。 然而现在我们说的问题已经被解决了,我们接下来要做的就是离题讨论一下对偶。这个会引导我们的最优问题到对偶形式,这将会扮演一个重要角色在允许我们使用k均值去得到最优间隔分类器去有效的解决问题在更高维的空间中。这个对偶形式也会允许我们导出一个有效的算法对于解决最优问题能够比商业二次规划代码解决的更好。5 Lagrange duality拉格朗日对偶 让我们先临时的把SVMs和最大化间隔分类器放一边,先考虑一下解决最优选择问题。 考虑如下形式的问题:你们又会说拉格朗日乘数的方法怎么能用来解决这类问题。(不要着急如果以前你没有见到过的话。)在这种方法中,我们定义这个拉格朗日函数为:这里,叫做拉格朗
13、日乘数。我们之后会是他的偏导数等于0:并求出w和。在本节中,我们会归纳这个为最优选择问题我们把不平等的最优当作平等的。由于时间限制,我们本节不会真的去讲拉格朗日对偶的理论推导,但是我们会给出这个主要的定义的结论,我们之后会应用到我们的最优选择问题中。 考虑下面这个问题,我们叫做原始最优问题:为了解决他,我们开始定义一般化的拉格朗日函数:这里,和都是拉格朗日乘数,考虑下面这个等式:这里“p”代表“一般化”。先给定一些w。如果w违反了任何的一般化限制(例如:如果对于任何的gi(w)0或者hi(w)!=0对于i)然后你要能证明:相反的,如果限制条件非常适合一个特别的w,有。因此: 和我们问题中的适合
14、一般化模型的所有的w的值相同,并且是正的如果限制条件被违反了,因此,如果我们考虑这个最小化问题:我们看到这是同一个问题,一般化问题。对于之后的使用,我们也定义这个类的最优值为,我们交这个值为一般化问题的最优值。现在,我们考虑这个有一点点不一样的问题.我们定义:这个“D”代表“对偶”。注意我们定义最优化这个值使用和,这里最优化是依赖于w。我们现在提出对对偶最优化问题的讨论:这个整好和我们上面说的一般化问题一样,出来这个求最值问题换了一下。一个是求最大一个是求最小。我们定义对偶问题的最优值为这个一般化问题和对偶问题有什么联系呢?他可以简单的用下面公式表示:然而,在确定的情况下,我们有,因此我们能解
15、决对偶问题代替原始的问题。我们看一下这些条件. 假设f和gis都是给定的,并且his是仿射变换。进一步假设假设条件gi是可行的;这意味着存在w使得gi(w)0对于所有的i都成立。在我们上面的假设中条件下,必定存在以便于是原是问题的最优解,是对偶问题的最优解,并且。更进一步,适用于KKT条件,如下所示:更进一步说,如果使用于KKT条件,那也就是一种解决原始化和对偶问题的解。 我们看一下等式(5),等式(5)被叫做KKT对偶互补条件。特别的是他反映的是如果那么。(例如:“”条件是激活的,意味着他支持这个等式而不是不等式。)然后,这个会是这个关键对于表示SVM仅仅有一小部分对于“支持向量”成立;这个
16、KKT对偶互补条件也会给我们测试当我们讨论SMO算法时候。6 Optimal margin classifiers最有间隔分类之前,我们给出了下列优化问题去寻找这个最有间隔分类器:我们有一个约束对于每一个训练样本。注意在KKT对偶互补条件中,我们有仅仅对训练样本哪些有函数建个整好对应这个。(例如:这些相对应的约束条件支持等式)。考虑下面的图像,最大间隔分割平面是这个实线。这些最小间隔的点整好是哪些靠近决策边界的那些;这里有是那个点(一个正的和两个负的样本)整好落在和决策边界平行的虚线上。因此,只有三个s-也就是说这三个点相对应的训练样本-将不会等于0在最优化解决中对于我们的最优化问题。这三个点
17、叫做支持向量在这个问题中。这个事实是这个支持向量的数量可以比着训练集小很多。 继续,朝前看,我们提升这个问题为对偶形式,一个主要的注意就是关注我们试图写我们的算法用内积的形式在两个输入特征空间中间。这个事实我们能表示出我们的算法用内积形式将会是我们应用于标志性内核的主要。 当我们重构拉格朗日函数对于我们的最优化问题,我们有:注意这里仅仅只有i而没有i作为拉格朗日乘数,因为这个问题只有不等式限制。 我们找到这个问题的对偶形式。为了这样做,我们需要收线最小化L(w,b,)用w和b,得到,我们将会设置L对w和b的偏导数等于0。这表明:对b求偏导得到:如果我们对照等式(9)的定义并且带回到拉格朗日函数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 斯坦福大学公开课 :机器学习课程note3翻译 斯坦福大学 公开 机器 学习 课程 note3 翻译
限制150内