《支持向量机引导.ppt》由会员分享,可在线阅读,更多相关《支持向量机引导.ppt(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、支持向量机引导 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望支持向量机引导孙宗宝2006年12月20日哈尔滨理工大学网络信息中心学术交流11/11/20222哈尔滨理工大学网络信息中心内容提要概述线性可分情况理论线性不可分情况支持向量机模型核函数支持向量机网络11/11/20223哈尔滨理工大学网络信息中心SVM简介简介9090年代中期在统计学习理论的基础上发展起来的一年代中期在统计学习理论的基础上发展起来的一种机器学习方法种机器学习方法 (Boser,Guyo
2、n,Vapnik)适合有限样本适合有限样本(小样本小样本)问题问题在很大程度上解决了传统方法(如神经网络)中存在很大程度上解决了传统方法(如神经网络)中存在的问题,如过学习、非线性、多维问题、局部极在的问题,如过学习、非线性、多维问题、局部极小点问题等小点问题等统计学习理论和支持向量机被视为机器学习问题的统计学习理论和支持向量机被视为机器学习问题的一个基本框架,传统的方法都可以看作是一个基本框架,传统的方法都可以看作是SVMSVM方法的方法的一种实现一种实现有坚实的理论基础和严格的理论分析有坚实的理论基础和严格的理论分析11/11/20224哈尔滨理工大学网络信息中心概述一、向量的内积与超平面
3、 11/11/20225哈尔滨理工大学网络信息中心概述二、最优分类平面11/11/20226哈尔滨理工大学网络信息中心概述二维数据最优分类线的基本要求:1、要能将两类样本无错误的分开 即使经验风险最小,理论上为零 2、要使两类之间的距离最大 也就是使margin最大,从而使实际风险最小 11/11/20227哈尔滨理工大学网络信息中心概述我们要做的是什么呢?找到一个超平面找到一个超平面(最优分类面最优分类面),使,使得它能够尽可能多的将两类数据点得它能够尽可能多的将两类数据点正确的分开,同时使分开的两类数正确的分开,同时使分开的两类数据点距离分类面最远。据点距离分类面最远。11/11/2022
4、8哈尔滨理工大学网络信息中心HH2H1最优分类平面为最优分类平面的方程11/11/20229哈尔滨理工大学网络信息中心SVM原理之线性可分 设线性可分样本集为(xi,yi),i=1,2,n,xRd,y+1,-1是类别标号。则d维空间中线性判别函数的一般形式为:g(x)=wx+b 分类面方程为:wx+b=0 (1)11/11/202210哈尔滨理工大学网络信息中心SVM原理之线性可分 将判别函数进行归一化,使两类所有样本都满足|g(x)|1,即,使离分类面最近的样本的|g(x)|=1,这样分类间隔就等于2/w,因此间隔最大等价于使w(或w2)最小;而要求分类线对所有样本正确分类,就是要求其满足:
5、yi(wxi)+b-10,(i=1,2,n)(2)11/11/202211哈尔滨理工大学网络信息中心SVM原理之线性可分我们解决这样问题的思路是什么呢?首要的就是设法找到解决问题的数学模型!我们的问题是:找到满足上述式(2)、且使w2的分类面。其实这个分类面就是最优分类面!11/11/202212哈尔滨理工大学网络信息中心SVM原理之线性可分支持向量(SV)在那呢?能使式(2)yi(wxi)+b-10,(i=1,2,n)中等号成立的,也就是位于margin 上的样本就是支持向量。11/11/202213哈尔滨理工大学网络信息中心SVM原理之线性可分最优分类平面求解的数学模型 我们的求解过程显然
6、是一个有 约束条件的优化问题:即在式(2)的约束下,求函数:(w)=1/2w2=1/2(ww)(3)的最小值。11/11/202214哈尔滨理工大学网络信息中心SVM原理之线性可分求解方法-Lagrange 乘子法 什么是Lagrange 乘子法?看一个例子。问题:给你一块面积固定(等于a 的平方)板子,问做成什么样的长方体(盒子),它具有最大的体积。11/11/202215哈尔滨理工大学网络信息中心SVM原理之线性可分Lagrange 乘子法设长方体的三个棱长为x,y,z,则其体积f 为三个边长的乘积:f(x,y,z)=xyz本问题要求表面积为a 的平方,于是长方体的6面的面积可以写成:2x
7、y+2xz+2yz=a2 即 2xy+2xz+2yz-a2=0 这个问题转化为了有约束条件的优化问题。11/11/202216哈尔滨理工大学网络信息中心SVM原理之线性可分Lagrange 乘子法解题方法为:1 用拉格朗日方法制造一个新函数F 2 在F中放进一个未知的常数C 得到:F=xyz+C(2xy+2xz+2yz-a2)11/11/202217哈尔滨理工大学网络信息中心SVM原理之线性可分Lagrange 乘子法 F对x,y,z 的三个自变量的偏微分分别为零,得到三个新方程式:yz+2C(y+z)=0 xz+2C(x+z)=0 xy+2C(x+y)=0 因为自变量仅可能是正数,把上面的式
8、子相除得 (x/y)=(x+z)/(y+z)(y/z)=(x+y)/(x+z)11/11/202218哈尔滨理工大学网络信息中心SVM原理之线性可分Lagrange 乘子法 由此得出只有各个自变量的值相等才可以维持上面的关系,再由约束条件得到它们的值是:x=y=z=(a/6)11/11/202219哈尔滨理工大学网络信息中心SVM原理之线性可分构造拉格朗日函数:L(w,b,a)=(ww)aiyi(wxi)+b-1 其中:ai0为Lagrange系数。求式(3)的极小值就是对w和b求拉氏函数的极小值。求L对w和b的偏微分,并令其等于0,可转化为对偶问题:在约束条件 aiyi=0,ai0,i=1,
9、2,n之下对 ai0求式(5)的最大值:11/11/202220哈尔滨理工大学网络信息中心SVM原理之线性可分 W(a)=ai-aiajyiyj(xi.xj)(5)若ai*为最优解,则w*=i=1.n ai*yixi (6)即最优分类面的权系数向量式训练样本的线性组合。11/11/202221哈尔滨理工大学网络信息中心SVM原理之线性可分这是一个不等式约束的二次函数极值问题,存在唯一解,并且解必须满足(Kuhn-Tucker条件):aiyi(w*xi+b)-1=0,i=1.n (7)显然,只有支持向量的系数ai不为0,即只有支持向量影响最终的划分结果。这是为什么?11/11/202222哈尔滨
10、理工大学网络信息中心SVM原理之线性可分于是式(6)w*=i=1.n ai*yixi可以写成:w=aiyixi 可以看出,只有支持向量影响最终的划分结果,最优分类面的权系数向量是训练样本向量的线性组合。(8)11/11/202223哈尔滨理工大学网络信息中心SVM原理之线性可分若ai*为最优解,求解上述问题后得到的最优分类函数是:f(x)=sgn(w*x)+b*=sgnai*yi(xix)+b*其中:sgn()为符号函数,b*是分类的阈值,可以由任意一个支持向量用式(2)求得,或通过两类中任意一对支持向量取中值求得。对于给定的未知样本x,只需计算sgn(wx+b),即可判定x所属的分类。对于非
11、支持向量ai 都为0。11/11/202224哈尔滨理工大学网络信息中心SVM原理之线性不可分对于线性不可分的样本,希望使误分类的点数最小,为此在式(2)中引入松弛变量i0,即:yi(wxi)+b-1+i0,(i=1,2,n)(9)/yi(wxi)+b-10,(i=1,2,n)(2)11/11/202225哈尔滨理工大学网络信息中心SVM原理之线性不可分在式(9)中,对于给定的常数C,求出使 (w,)=(ww)+C i (10)取极小值的w,b,这一优化问题同样需要变换为用拉格朗日乘子表示的对偶问题,变换的过程与前面线性可分样本的对偶问题类似,结果也几乎完全相同,只是约束条件略有变化:aiyi
12、=0,(0aiC,i=1,2,n)(11)C反映了在复杂性和不可分样本所占比例之间的折中。11/11/202226哈尔滨理工大学网络信息中心支持向量机如果用内积K(x,x)代替最优分类面中的点积,就相当于把原特征空间变换到了某一新的特征空间,此时优化函数变为:W(a)=ai-aiajyiyjK(xixj)相应的判别函数也应变为:f(x)=sgnai*yik(xix)+b*11/11/202227哈尔滨理工大学网络信息中心支持向量机算法的其他条件均不变,这就是支持向量机。所以,原问题就转化成了找SV的问题,而求SV的过程就是解一个二次规划二次规划(有约束的),二次规划无局部极值,只有一个最值,所
13、以SV的求解不会有 不收敛 或者 收敛到局部极小 的问题。而VC维又保证了机器的容量,不可能过学习(因为机器的结构已经固定)具体的求解方法可以参考运筹学中约束二次规划的求解 11/11/202228哈尔滨理工大学网络信息中心非线性分类面非线性分类面非线性可分的数据样本在高维空间有可能转化为线性可分。在训练问题中,涉及到训练样本的数据计算只有两个样本向量点乘的形式使用函数 ,将所有样本点映射到高为空间,则新的样本集为设函数 内核函数内核函数(Kernel function)11/11/202229哈尔滨理工大学网络信息中心一个能实现非线性关系到线性关系变换的实例取:那么11/11/202230哈尔滨理工大学网络信息中心核函数11/11/202231哈尔滨理工大学网络信息中心核函数Mercer条件 对于任意的对称函数K(x,x),它是某个特征空间中的内积运算的充分必要条件是,对于任意的(x)0且2(x)dx 0 11/11/202232哈尔滨理工大学网络信息中心支持向量网络 11/11/202233哈尔滨理工大学网络信息中心通常的内核函数通常的内核函数线性内核线性内核多项式内核多项式内核径向基函数内核径向基函数内核(RBF)S形内核形内核 谢谢大家谢谢大家!11/11/202234哈尔滨理工大学网络信息中心
限制150内