第四章近邻法优秀PPT.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第四章近邻法优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第四章近邻法优秀PPT.ppt(104页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章近邻法第一页,本课件共有104页4.5 4.5 近近 邻邻 法法 u4.5.1最近邻法最近邻法 u4.5.2 k-近邻法近邻法 u4.5.3 最佳距离度量近邻法最佳距离度量近邻法 第二页,本课件共有104页4.5.1最近邻法最近邻法 u一、最近邻决策规则最近邻分类是假定有c个类别1,2,c的模式识别问题,每类有标明类别的样本Ni个,i=1,2,c规定i类的判别函数为 其中 的角标i表示i类,k表示i类Ni个样本中的第k个。按照上式。决策规则可以写为 4.5 4.5 4.5 4.5 近近近近 邻邻邻邻 法法法法 第三页,本课件共有104页4.5.1最近邻法最近邻法 n这一决策方法称为最近邻
2、法。若 n则决策 xjn其直观解释是相当简单的,就是说对未知样本x,只要比较x与 个已知类别的样本之间的欧氏距离,并决策x与离它最近的样本同类。n一、最近邻决策规则第四页,本课件共有104页u二、最近邻法的错误率分析n近邻法的错误率很难计算,因为训练样本集的数量总是有限的,有时多一个少一个训练样本对测试样本分类的结果影响很大。如图中所示4.5.1最近邻法最近邻法 第五页,本课件共有104页n当最近邻法所使用的训练样本数量N不是很大时,其错误率是带有偶然性的。为了说明这一点用如图所示一个在一维特征空间的两类别情况来讨论。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第六页,本课件共有104
3、页n当最近邻法应用于特定的一组样本时,所得到的错误率与样本的偶然性有关。n特别是用不同组的N个样本对x进行分类的话,则x的最近邻可能是不相同的x。n由于决策完全取决于该最近邻样本,所以条件错误率是PN(e|x,x),它同x和x都有关系。若对x取平均,得给定x时的条件错误率4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第七页,本课件共有104页n其中条件概率密度p(x|x)的确切表达式是难以得到的。但按定义x应为x的最近邻,所以可以设想该密度在x附近尖峰凸起,而在其它地方则较小。n就是说在已知x条件下,x的最近邻x在x附近概率密度最大,这显然是合理的。n而且当N时,可以期望p(x|x)趋于
4、一个中心在x的函数。n这样就使上式的计算简单化了。为了严格证明这点,假定对于给定的x,p(x)是连续且非零的。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第八页,本课件共有104页n在这样的条件下,任何样本落在以x为中心的一个超球s里的概率为一正数,记为Ps,且 4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n这样,一个样本落在s外的概率为(l-Ps),N个独立样本x1,x2,xN落在s外的概率为P(x1,x2,xN)=(1-Ps)Nn当N 时,这一概率趋于零。第九页,本课件共有104页n由于s可以任意小,所以N 时,x落在以x为中心无限小区域中的概率趋于l。n就是说x以概率为l
5、收敛于x,从而4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n当说有N个独立抽取并有类别标记的样本时,意思是说有N对 随机变量其中xi是独立抽取的样本,是xi的类别标记,且 是c个类别状态1,2,c之一。第十页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n假定抽取一对(x,)并假定标以 的x是x的最近邻。由于抽出x时,它的类别状态和x无关,因此有 n采用近邻规则的条件错误率就是 第十一页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第十二页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n按渐近平均错误率的定义
6、,有 n上式提供了最近邻法错误率P的计算公式。nP称为渐近平均错误率,是PN(e)在N的极限。第十三页,本课件共有104页n根据贝叶斯错误率的讨论,若设n则有Bayes条件错误率因此 4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n对于两类问题,由前面公式第十四页,本课件共有104页n将上式减去贝叶斯错误率 4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n可得n 可得第十五页,本课件共有104页从式中可见在一般情况下只要P(1|x)P(2|x)0,P是大于零的值。在两种例外情况下P0:P(1|x)1或P(1|x)P(2|x)1/2。4.5.1最近邻法最近邻法 二、最近邻法的错误率分
7、析第十六页,本课件共有104页n在P(m|x)=1时,此时P=P*。特例特例4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第十七页,本课件共有104页在P(i|x)=1/c,(i=1,2,c)时,即各类后验概率相等的情况,有此时也有P=P*。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第十八页,本课件共有104页n请想一下,什么情况下P(1|x)1或P(2|x)=1?P(1|x)=P(2|x)会出现什么情况?n答:一般来说,在某一类样本分布密集区,某一类的后验概率接近或等于1。此时,基于最小错误率贝叶斯决策基本没错,而近邻法出错可能也很小。而后验概率近似相等一般出现在两类分布的交
8、界处,此时分类没有依据,因此基于最小错误率的贝叶斯决策无能为力,近邻法与贝叶斯决策效果相同。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第十九页,本课件共有104页n从以上讨论可以看出,当N时,最近邻法的渐近平均错误率的下界是贝叶斯错误率,这发生在样本对某类别后验概率处处为1的情况或各类后验概率相等的情况。n在其它条件下,最近邻法的错误率要高于贝叶斯错误率。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第二十页,本课件共有104页n可以证明以下关系式成立 n上式实际上给出了最近邻法渐近平均错误率P的范围,指出它在Bayes错误率P*和 之间。n其中P*为贝叶斯错误率,c为类数。4
9、.5.1最近邻法最近邻法 二、最近邻法的错误率分析第二十一页,本课件共有104页n证明P的上界是n仍然考虑下式4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n并已知Bayes条件错误率P*(e|x)=1P(m|x)n以上两式表明:对已知的P(m|x),的最小值对应于P的最大值。第二十二页,本课件共有104页n若记4.5.1最近邻法最近邻法 二、最近邻法的错误率分析则在以下约束条件 n 除m外,其它后验概率都相等,即,i=1,2,c;i m 满足时 达到极小。第二十三页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n根据第二个约束条件,有第二十四页,本课件共有10
10、4页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n 整理上式得 第二十五页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析n求P*(e|x)的方差DP*(e|x)。n根据式:nEP*(e|x)=P*n根据方差定义有 n上述表达式证明了P2P*。第二十六页,本课件共有104页4.5.1最近邻法最近邻法 二、最近邻法的错误率分析即 n根据错误率公式及上述结果,可得第二十七页,本课件共有104页图4.14示出近邻法的上下界。一般地,最近邻法的错误率落在图中的阴影区域中。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析c类别最近邻类别最近邻分类器可能分类器可能渐近误
11、差率渐近误差率第二十八页,本课件共有104页n由于一般情况下P*很小,因此错误率又可粗略表示成因此可以说最近邻法的渐近平均错误率在贝叶斯错误率的两倍之内。从这点说最近邻法是优良的,因此它是模式识别重要方法之一。4.5.1最近邻法最近邻法 二、最近邻法的错误率分析第二十九页,本课件共有104页4.5.2 k-近邻法近邻法 nk-近邻法是取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归于那一类,就是说在N个已知样本中,找出x的k个近邻。n人为确定k(根据经验设定),k大,错误率小,计算量大。4.5 4.5 4.5 4.5 近近近近 邻邻邻邻 法法法法 第三十页,本课件共有104页4.
12、5.2 k-近邻法近邻法 n如图4.15所示k-近邻算法示意图。4.5 4.5 4.5 4.5 近近近近 邻邻邻邻 法法法法 第三十一页,本课件共有104页4.5.2 k-近邻法近邻法 n设这N个样本中,来自1类的样本有N1个,来自2类的样本有N2个,来自c类的样本有Nc个,若k1,k2,kc分别是k个近邻中属于1,2,c类的样本数,定义判别函数为gi(x)=ki,i=1,2,c (4-61)n决策规则为,则决策xj。第三十二页,本课件共有104页n这就是k-近邻法的基本规则。若分错,则风险很大,错误率大,损失大。nk近邻一般采用k为奇数,跟投票表决一样,避免因两种票数相等而难以决策。n考虑到
13、风险(损失)问题,对ki加以约束,若则xi,否则拒判。4.5.2 k-近邻法近邻法 第三十三页,本课件共有104页n对最近邻法条件错误率式,对两类问题稍加变化可以写成n当N 时,x与其最近邻x非常接近,于是有 P(i|x)P(i|x)4.5.2 k-近邻法近邻法 n很容易推广到k-近邻法。若设x属于1,而k1小于等于 ,则发生误判这一事件的概率为第三十四页,本课件共有104页n同样可得到x属于2 的情况。n式中4.5.2 k-近邻法近邻法 第三十五页,本课件共有104页n其中第一项和第二项分别式对于x1和x2的条件概率。其一般情况为:n其中第一项为xi而决策 的概率,第二项为 而决策xi的概率
14、。4.5.2 k-近邻法近邻法 第三十六页,本课件共有104页n为了得到渐近平均错误率Pk,可以对所有的x求上式的期望。n此时,Bayes条件错误率为n这是很困难的。定义一个Bayes条件错误率P*(e|x)的函数CkP*(e|x)为大于 最小凹函数,4.5.2 k-近邻法近邻法 第三十七页,本课件共有104页P*P Ck(P*)Ck1(P*)C1(P*)2P*(1P*)n即对所有x有则 n因为 随k的增大单调减小,故最小凹函数Ck也随k单调减小。所以得到下列不等式关系:4.5.2 k-近邻法近邻法 第三十八页,本课件共有104页n其中2P*(1P*)是两类最近邻法错误率的上限,即c=2的情况
15、。0.50.50.250.2500Ck(P*)贝叶斯错误率k=99k=1k=3k=5k=7图 4.15nk=1时的情况对应于图4.14中最近邻法的情况。n当k增加时,上限逐渐靠近下限Bayes错误率P*。n当k趋于无穷时,上下限重合,从而k-近邻法最优。n图4.15中示出了具有不同k值的k-近邻法错误率的上下限。4.5.2 k-近邻法近邻法 第三十九页,本课件共有104页结论n上述结论是在样本数N趋于无穷的假设下取得的。n在实际问题中,样本数是有限的。因此,通常在k-近邻法中选择k值时,一方面采用大一些的k值以减小错误率,另一方面要求k个近邻都很靠近x,以保证P(i|x)和P(i|x)近似相等
16、。n选择k值时折衷考虑,使它总是样本数的一小部分。4.5.2 k-近邻法近邻法 第四十页,本课件共有104页n最近邻法和k-近邻法都有方法简单的优点,而且分类效果比较好,其错误率为n由于P*一般很小,因此上式可近似表示为P*P 2P*n即近邻法错误率在Bayes错误率P*和两倍Bayes错误率2P*之间。n正因为此优良性质,使其成为模式识别的重要方法之一。4.5.2 k-近邻法近邻法 第四十一页,本课件共有104页n但近邻法存在以下问题:n需要将所有样本存入计算机中,每次决策都要计算待识别样本x与全部训练样本 ,i=1,2,c,k=1,2,Ni之间的距离并进行比较。n存储量和计算量都很大n虽然
17、在一般情况下,对未知样本x都可以进行决策,但当错误代价很大时,会产生较大的风险。4.5.2 k-近邻法近邻法 第四十二页,本课件共有104页n但近邻法存在以下问题(续):n要求样本数N ,这在任何实际场合是无法实现的。n为了解决上述问题出现了一些改进算法,如剪辑近邻法解决存储量大的问题;快速搜索近邻法解决计算量大的问题等。4.5.2 k-近邻法近邻法 第四十三页,本课件共有104页n近邻法举例 Figure shows the decision boundary of the(K=8)-nearest neighbor classifier.4.5.2 k-近邻法近邻法 第四十四页,本课件共有
18、104页快速搜索近邻法快速搜索近邻法 n这种方法只解决减少计算量,但没有达到减少存储量的要求。n其基本思想是将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离。这些组又可形成层次结构,即组又分子组,因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系。4.5.2 k-近邻法近邻法 第四十五页,本课件共有104页一、样本集分级分解一、样本集分级分解n根据以上基本思想,先对样本集进行分级分解,分级分解过程可列举如下:n首先将整个样本分成l个子集,每个子集又分为它的l个子集,如此进行若干次就能建立起一个样本集的树形结构
19、。分成子集的原则是该子集内的样本尽可能聚成堆,这可用聚类方法实现。4.5.2 k-近邻法近邻法 第四十六页,本课件共有104页一、样本集分级分解一、样本集分级分解n结点参数:树形结构,每个结点表示一样本子集,描述该子集的参数是:nXp该结点对应的样本子集代号;nNpp中包含的样本个数;nMp是样本子集p的样本均值;4.5.2 k-近邻法近邻法 Mp到所属成员的最大距离。第四十七页,本课件共有104页二、快速搜索算法二、快速搜索算法 n要实现快速搜索近邻,需要有方法快速判断某个样本子集是否是该待识样本的可能近邻样本集,从而可将无关的样本子集尽快排除。n另一方面在某样本子集内寻找哪个样本是近邻时,
20、需快速排除不可能为近邻的样本。n这两个快速判别算法可用以下两个规则表示:4.5.2 k-近邻法近邻法 第四十八页,本课件共有104页二、快速搜索算法二、快速搜索算法 n规则1:如果存在 B+rpD(x,Mp)n则xiXp不可能是x的近邻。其中B是待识别样本在搜索近邻过程中的当前近邻距离,B在搜索过程中不断改变与缩小。算法开始可将B设为无穷大。nD(x,Mp)表示待识样本x到结点Xp的均值点距离。4.5.2 k-近邻法近邻法 第四十九页,本课件共有104页二、快速搜索算法二、快速搜索算法 n这个规则的证明是显而易见的,如图表示一待识样本及其当前近邻与一样本子集的关系。B+rpD(x,Mp)4.5
21、.2 k-近邻法近邻法 第五十页,本课件共有104页二、快速搜索算法二、快速搜索算法 n如果以x为圆心,B为半径作圆,则圆与样本子集Xp的分布圆不会相交,因而Xp中任一样本不可能比x的当前近邻更靠近x。B+rpD(x,Mp)4.5.2 k-近邻法近邻法 第五十一页,本课件共有104页二、快速搜索算法二、快速搜索算法 n规则2:如果 B+D(xi,Mp)D(x,Mp)n其中xiX,则xi不可能是x的近邻。规则2的证明同规则1。n由此可见,只要将每个样本子集中的每个样本xi到其均值Mp的距离D(xi,Mp)存入存储器中,就可利用上式将许多不可能成为测试样本近邻的训练样本排除。4.5.2 k-近邻法
22、近邻法 第五十二页,本课件共有104页二、快速搜索算法二、快速搜索算法 n如何运用这两个规则设计一个近邻的快速搜索算法?n搜索算法的大体过程是这样的:当搜索树形样本集结构由高层次向低层次深入时,对同一层次的所有结点,可以利用规则1排除掉一些不可能包含待识别样本的近邻的结点(样本子集)。4.5.2 k-近邻法近邻法 第五十三页,本课件共有104页二、快速搜索算法二、快速搜索算法 n但是这往往不能做到只留下唯一的待搜索结点,因此必须选择其中某一结点先深入搜索,以类似于深度优先的方法确定搜索路径直至叶结点。n然而在该叶结点中找到的近邻并不能保证确实是全样本集中的最近邻者,所找到的该近邻样本需要在那些
23、有可能包含最近邻的样本子集中核对与修正,直至找到真正的最近邻样本为止。4.5.2 k-近邻法近邻法 第五十四页,本课件共有104页二、快速搜索算法二、快速搜索算法 n树搜索算法具体的搜索步骤:n步骤1:初始化置B,L1(当前层次),p0(确定当前结点)。n步骤2:置后选待搜索结点把当前结点的所有直接后继结点放入层的一目录表中,并对这些结点计算D(x,Mp)。n步骤3:排除无关结点对层目录表中的每个结点P,用规则1将与近邻无缘的结点从目录表中清除。4.5.2 k-近邻法近邻法 第五十五页,本课件共有104页二、快速搜索算法二、快速搜索算法 n步骤4:路径选择如该层次目录表中有不止一个结点,选其中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 近邻 优秀 PPT
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内