欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    模式识别(第三章2010).ppt

    • 资源ID:85491652       资源大小:1.65MB        全文页数:125页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    模式识别(第三章2010).ppt

    贝叶斯决策的条件:贝叶斯决策的条件:第第3 3章章 概率密度函数的估计概率密度函数的估计如何解决如何解决p(x/i)、P(i)未知问题?未知问题?已已知知先先验验概概率率P(i)和和条条件件概概率率密密度度p(x/i),或者后验概概率或者后验概概率 P(i/x)问题:问题:解决思路:解决思路:利用已知训练样本估计利用已知训练样本估计P(i),p(x/i),分类器训练的主要任务:分类器训练的主要任务:确定类概密函数确定类概密函数p(x/i)可利用信息:可利用信息:训练样本训练样本任务:任务:利用利用有限的样本集有限的样本集去设计分类器。去设计分类器。1)利用样本集估计)利用样本集估计p(x/wi)和和P(wi),得到估计值,得到估计值和和2)利用)利用 、代替贝叶斯决策中的代替贝叶斯决策中的p(x/wi)和和 P(wi),完成分类器设计,完成分类器设计 希望:希望:当样本数当样本数N 时,时,收敛于收敛于p(x/wi)、P(wi)三个要解决的主要问题:三个要解决的主要问题:1)如何利用样本集估计)如何利用样本集估计2)估计量的性质如何(希望无偏估计)估计量的性质如何(希望无偏估计)3)利用样本集进行错误率估计)利用样本集进行错误率估计基本方法基本方法:1)监督参数估计:监督参数估计:样本所属类别及类条件总体概率密度函数的形样本所属类别及类条件总体概率密度函数的形式已知,式已知,未知的未知的是表征概率密度函数的是表征概率密度函数的某些参数;某些参数;例:正态分布,未知参数例:正态分布,未知参数,2,称为:称为:监督参数估计监督参数估计3)监督非参数估计监督非参数估计:2)非监督参数估计:非监督参数估计:已知总体概率密度函数形式,但已知总体概率密度函数形式,但未知样本所属未知样本所属类别类别,要求推断概率密度函数的某些参数;,要求推断概率密度函数的某些参数;以上都是以上都是已知已知p(x/wi)的函数形式的函数形式 已知样本所属类别,但已知样本所属类别,但未知未知p(x/wi)形式形式,直,直接推断概率密度函数接推断概率密度函数3.2 3.2 参数估计中的几个基本概念参数估计中的几个基本概念(1)统计量统计量 由样本按某种规律由样本按某种规律构造的函数构造的函数 或:设样本或:设样本xk(k=1,n)都含有总体信息,为估计都含有总体信息,为估计未知参数,把有用信息抽取出来构造样本的某函数,未知参数,把有用信息抽取出来构造样本的某函数,即为统计量。即为统计量。例:对正态分布,其统计量例:对正态分布,其统计量(2)参数空间参数空间:在统计学中,把未知参数在统计学中,把未知参数 的全部可取值的集的全部可取值的集合称参数空间,记为合称参数空间,记为(3)点估计、估计量和估计值点估计、估计量和估计值 构造一个统计量构造一个统计量d(x1,xN)作为某未知参数作为某未知参数 的的估计估计 ,这种估计称为,这种估计称为点估计点估计在统计学中,在统计学中,称称 为为 的的估计量估计量。将属于将属于wi的样本的样本得到第得到第i类的类的 的的具体数值具体数值,称为,称为 的的估计值估计值。代入统计量代入统计量d,这种构造统计量得到参数估计量的过程,称为点这种构造统计量得到参数估计量的过程,称为点估计问题。估计问题。(4)区间估计区间估计:估计某个区间(估计某个区间(d1,d2)作为未知参数作为未知参数 的可能取的可能取值范围,估计的区间(值范围,估计的区间(d1,d2)称为置信区间,这类称为置信区间,这类估计称为区间估计。估计称为区间估计。即在一定置信度条件下估计即在一定置信度条件下估计某一未知参数某一未知参数 的取值的取值范围范围,称为置信区间,这类估计称为区间估计。,称为置信区间,这类估计称为区间估计。参数估计方法的主要方法参数估计方法的主要方法:最大似然估计最大似然估计贝叶斯估计贝叶斯估计最大似然估计:最大似然估计:一种常用、有效的方法一种常用、有效的方法 把待估参数看作把待估参数看作确定性的量确定性的量,最佳估计就是,最佳估计就是使训练样本的概率为最大的那个值。使训练样本的概率为最大的那个值。两种方法的结果很接近,但本质有很大差别两种方法的结果很接近,但本质有很大差别即:即:使似然函数达到最大的参数值作为估计值。使似然函数达到最大的参数值作为估计值。其中参数其中参数 是确定的未知量(非随机)是确定的未知量(非随机)贝叶斯估计的典型效果就是,每得到新的观测样贝叶斯估计的典型效果就是,每得到新的观测样本,都使后验概密函数更加尖锐,使其在待估参数本,都使后验概密函数更加尖锐,使其在待估参数的真实值附近的真实值附近形成最大尖峰形成最大尖峰,这个现象称为,这个现象称为“贝叶贝叶斯学习斯学习”过程。过程。贝叶斯估计贝叶斯估计:把待估参数把待估参数 看成符合某种先验概率分布的看成符合某种先验概率分布的随机随机变量变量,对样本进行修正的过程就是把,对样本进行修正的过程就是把先验概率密度先验概率密度转化为后验概率密度转化为后验概率密度的过程。的过程。1 1最大似然估计最大似然估计假设假设:(前提条件):(前提条件)1 1)待估参数)待估参数是是确定的未知量确定的未知量(非随机)(非随机)2 2)按类别把样本集分为)按类别把样本集分为C C个子集:个子集:X X1 1,X X2 2,X XC C 任意一个子集任意一个子集X Xi i的样本是从总体中独立抽取的,的样本是从总体中独立抽取的,每一个样本集每一个样本集X Xi i中中样本都是独立同分布的随机变量样本都是独立同分布的随机变量3)每个类条件概密函数)每个类条件概密函数p(x/wi)的形式已知的形式已知,未知的未知的是参数向量是参数向量 i的值的值 为强调为强调p(x/wi)与与 i有关,记为有关,记为p(x/wi,i)4)不同类别的参数不同类别的参数 i是独立的是独立的即即 Xi中的样本不包含中的样本不包含 j(j i)的信息,的信息,只包含只包含 i的信息(的信息(Xi与与 j无关)无关)可对可对每一每一 类样本独立进行处理类样本独立进行处理,每个参数向量只,每个参数向量只由自己类别中的样本决定。由自己类别中的样本决定。下边就只利用第下边就只利用第i类学习样本来估计第类学习样本来估计第i类的概率密度,类的概率密度,忽忽略类别标志,略类别标志,即即 p(x/wi,i)p(x/)设样本子集设样本子集当样本是独立抽取的,则似然函数为当样本是独立抽取的,则似然函数为定义定义:(似然函数似然函数)(当已得到同一类样本集(当已得到同一类样本集X,可略去类别下标,可略去类别下标,可写为,可写为p(X/))当当X的的N个样本确定后,个样本确定后,p(X/)只是只是 的函数,的函数,记为记为l()。最大似然估计的基本思想:最大似然估计的基本思想:例:设例:设xN(6,1),则最可能出现的样本就是,则最可能出现的样本就是x=6,即即l()=max p(x/(6,1)=p(6/(6,1),若若 已知,已知,当从观测值中抽取样本当从观测值中抽取样本x1,x2,xN时,时,最可能出现的样本是最可能出现的样本是使使l()为最大的样本为最大的样本。若若 未知,未知,X选定。不同的选定。不同的 选择,对选择,对N个样本个样本x1,x2,xN 就有不同的就有不同的p(X/)值,应选择使值,应选择使x1,x2,xN的似然函数的似然函数l()为最大的为最大的定义最大似然估计定义最大似然估计:使使p(Xp(X/)达极大值的参数向量达极大值的参数向量 ,就是,就是 的最大似的最大似然估计。然估计。显然使显然使 最大的最大的 是样本是样本x x1 1,x,x2 2,x xN N的函数,的函数,记为记为计算方法:计算方法:或或若若 有有s个分量:个分量:求求即即为便于分析,为便于分析,取对数形式取对数形式求导求导则:则:s个联立方程组求解个联立方程组求解,可得可得即:即:使使对数对数似然函数最大的似然函数最大的 值,也必然使似然函数最大。值,也必然使似然函数最大。是样本的函数,若样本数是样本的函数,若样本数N时,估计值时,估计值 收敛于收敛于真值真值。注:极值解可能有多解,有全局最大解、局部极注:极值解可能有多解,有全局最大解、局部极大点和拐点等,大点和拐点等,确定最大值点确定最大值点即可。即可。按上式对按上式对所有类型进行同样操作所有类型进行同样操作,最终完成对所,最终完成对所有类型的最大似然估计。有类型的最大似然估计。p(X/)例:高斯分布例:高斯分布1)已知已知,未知未知,似然函数为:似然函数为:其中,对于正态分布其中,对于正态分布求导:求导:令令则则 说说明明未未知知均均值值的的最最最最大大大大似似似似然然然然估估估估计计计计正正正正好好好好是是是是训训训训练练练练样样样样本本本本的算术平均的算术平均的算术平均的算术平均2)、均未知均未知考虑一维情况(考虑一维情况(d1)令)令 1=,2=2 似然函数似然函数其中,对于一维正态分布其中,对于一维正态分布令令求导求导 则有则有对于多元高斯函数对于多元高斯函数(d维),则有维),则有 最大似然估计结果令人满意最大似然估计结果令人满意结论:结论:的估计即为学习样本的的估计即为学习样本的算术平均算术平均估计的协方差矩阵是矩阵估计的协方差矩阵是矩阵的的算术平均算术平均(dd阵列,阵列,dd个值)个值)一个反例:均匀分布一个反例:均匀分布 似然函数似然函数 的的解为必要条件解为必要条件(3-11式)式)不一定有解不一定有解,即:,即:(有两个需估计(有两个需估计的参数)的参数)注意:注意:注意:注意:取对数:取对数:求导:求导:极值解为无穷大,结果无意义。极值解为无穷大,结果无意义。需用其它方法找最大值。需用其它方法找最大值。给定给定N个观察值个观察值x1,xN,由这些样本集估计,由这些样本集估计 1,2 1x3d3,窗口为一超立方体,窗口为一超立方体窗口的选择窗口的选择:有多种选择:有多种选择 方窗函数方窗函数指数窗函数指数窗函数正态窗函数正态窗函数(u)(u)(u)hN 正态窗函数正态窗函数若选若选(u(u)是以原点是以原点x x为中心的超立方体为中心的超立方体。在在x xi i落入方窗时,则有落入方窗时,则有在在V VN N内为内为1 1不在不在V VN N内为内为0 0落入落入V VN N的样本数等于所有为的样本数等于所有为1 1者之和者之和即即则概率密度估计:则概率密度估计:落入窗口中的样本为落入窗口中的样本为ParzenParzen窗法估计的基本公式窗法估计的基本公式 该式是一个迭加函数,使用该式是一个迭加函数,使用K KN N个以个以x xi i为中心的窗函为中心的窗函数迭加,对数迭加,对x x处的概密进行估计。每一样本处的概密进行估计。每一样本x xi i对概率密对概率密度函数的贡献只在一个窗口范围,离度函数的贡献只在一个窗口范围,离x x远近不同,贡献远近不同,贡献不同,是不同,是一种内插过程一种内插过程。每每个个样样本本对对估估计计所所起起的的作作用用依依赖赖于于它它到到x x的的距距离离,即即|x-x|x-xi i|h|hN N/2/2时,时,x xi i在在V VN N内为内为1 1,否则为,否则为0 0。讨论:讨论:称为窗函数,取称为窗函数,取0 0,1 1两种值两种值,但有时可取但有时可取0,0.1,0.20,0.1,0.2多种数值,多种数值,例如随例如随x xi i离离x x接近的程度接近的程度,取值可由取值可由0,0.1,0.20,0.1,0.2到到1 1。为满足这两个条件,要求为满足这两个条件,要求窗函数满足窗函数满足窗函数满足窗函数满足:(保证保证 非非负)负)窗函数的选择窗函数的选择例:例:矩形窗、正态窗、指数窗、三角窗等等矩形窗、正态窗、指数窗、三角窗等等(只要(只要满足上述两条件,都可作为窗函数使用)满足上述两条件,都可作为窗函数使用)要求估计的要求估计的 应满应满足:足:窗窗长长度度hN对对 的的影响影响 h h h hN N N N又称为平滑因子又称为平滑因子又称为平滑因子又称为平滑因子,N N有限时,有限时,h hN N影响大,影响大,既影响幅度,又影响宽度既影响幅度,又影响宽度既影响幅度,又影响宽度既影响幅度,又影响宽度若定义若定义 则则 l h h h hN N N N太大太大太大太大,是是p(x)p(x)的一个的一个平滑估计平滑估计,不能跟上不能跟上p(xp(x)变化,变化,分辨力太低,有平均误差分辨力太低,有平均误差。若若若若h h h hN N N N太大太大太大太大,N N(x(x)幅度小,而宽度拓宽,幅度小,而宽度拓宽,变得平变得平缓缓,是由是由N N个宽的低幅缓变函数迭加个宽的低幅缓变函数迭加。若若h hN N太小太小,N N(x)(x)幅度很大,宽度很小幅度很大,宽度很小,是是N N个以个以xixi为中心的尖脉冲在为中心的尖脉冲在x x处的叠加处的叠加。lh h h hN N N N太太太太小小小小,是是p p(x)(x)的的一一个个起起伏伏大大的的估估计计,分分辨辨力高,但不稳定,波动太大,有噪声误差。力高,但不稳定,波动太大,有噪声误差。图图3.63.6、图、图3.73.7,说明,说明h hN N及及N N的影响的影响为使这些误差不严重,为使这些误差不严重,h h h hN N N N应折衷选择应折衷选择应折衷选择应折衷选择,即,即V V V VN N N N选择选择选择选择很关键很关键很关键很关键 看出要得到与真实分布相近的估计,看出要得到与真实分布相近的估计,需要非常大需要非常大量的训练样本。量的训练样本。(5)的统计特性的统计特性 对对p(xp(x),(u)(u),h hN N作必要的约束,作必要的约束,即满足即满足3.1153.1233.1153.123式,就能保证收敛。式,就能保证收敛。在一定限制条件下在一定限制条件下,是是渐近无偏估计渐近无偏估计,平方误差一致,即平方误差一致,即N,0123456x6x5x3x1x2x4x例例1 1:对对于于一一个个二二类类(1 1 ,2 2 )识识别别问问题题,随随机抽取机抽取1 1类的类的6 6个样本个样本X=(xX=(x1 1,x x2 2,.x.x6 6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=1.1)估计估计p(x|p(x|1 1),即,即解:选解:选正态窗函数正态窗函数x x是一维的是一维的 上式用图表示,上式用图表示,则是则是则是则是6 6 6 6个分别以个分别以个分别以个分别以3.23.23.23.2,3.63.63.63.6,3 3 3 3,6 6 6 6,2.52.52.52.5,1.11.11.11.1为中心的正态曲线为中心的正态曲线为中心的正态曲线为中心的正态曲线,而而而而 则是这则是这则是这则是这些曲线之和。些曲线之和。些曲线之和。些曲线之和。由图看出:每个样本对估计的由图看出:每个样本对估计的贡献与样本贡献与样本间的距离有关,样本越多,间的距离有关,样本越多,P PN N(x)(x)越准确越准确。例例2 2:设待估计的:设待估计的p(xp(x)是均值为是均值为0 0,方差为,方差为1 1的正态的正态密度函数。密度函数。若随机抽取若随机抽取X X样本中的样本中的1 1个、个、1616个、个、256256个作个作为学习样本为学习样本x xi i,试用窗口法估计试用窗口法估计p pN N(x(x)。解:设窗口函数为正态的,解:设窗口函数为正态的,1 1,0 0h hN N:窗长度,窗长度,N N为样本数,为样本数,h1h1为选定可调节的参数。为选定可调节的参数。v用用 窗窗法法估估计计单单一一正正态态分分布布的的实实验验N N=N N=256=256N N=16=16N N=1=1当当N N1 1时时,是一个以第一个样本为中心的正是一个以第一个样本为中心的正态形状的小丘,与窗函数差不多。态形状的小丘,与窗函数差不多。讨论:讨论:由图看出由图看出,随随N,hN,h1 1的变化情况的变化情况当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏很大,噪声大曲线起伏很大,噪声大 h h1 11 1 起伏减小起伏减小 h h1 14 4 曲线平坦,平均误差曲线平坦,平均误差 当当NN时,时,p pN N(x(x)收敛于一平滑的正态曲线,收敛于一平滑的正态曲线,估计曲线较好。估计曲线较好。例例3.3.待估的密度函数为二项分布待估的密度函数为二项分布解:此为解:此为多峰情况的估计多峰情况的估计设窗函数为正态设窗函数为正态-0.25x-20 x2x为其它为其它x-2.5-210.2502p(x)N=N=256N=16N=1v用用 窗窗法法估估计计两两个个均均匀匀分分布布的的实实验验当当N N1 1时时,实际是窗函数。实际是窗函数。当当N N1616及及N=256N=256时时 h h1 10.25 0.25 曲线起伏大曲线起伏大 h h1 11 1 曲线起伏减小曲线起伏减小 h h1 14 4 曲线平坦曲线平坦 当当NN时,时,曲线较好曲线较好上图上图是是N=1N=1、1616、256256、时的时的 估计估计结果结果 图图3.63.6、图、图3.73.7说明了该方法的功能和限制,说明了该方法的功能和限制,其其结果依赖结果依赖结果依赖结果依赖N N N N和和和和h1h1h1h1。尤其要得到精确的估计,尤其要得到精确的估计,所需的样本个数非常多所需的样本个数非常多。N=1N=1时,得到的更多是关于窗函数的信息,而不时,得到的更多是关于窗函数的信息,而不 是概密函数是概密函数;当当N=16N=16时,估计结果不令人满意时,估计结果不令人满意;当当N=256N=256,h1=1h1=1时,结果开始趋于精确。时,结果开始趋于精确。图图3.73.7更明显更明显:窗口法具有窗口法具有应用的普遍性应用的普遍性应用的普遍性应用的普遍性。对。对规则、非规则规则、非规则分布,分布,单锋或多峰分布单锋或多峰分布都可用此法估计概率密度。都可用此法估计概率密度。图图3.63.6、图、图3.73.7说明了如下结论:说明了如下结论:只要样本足够多,总可保证收敛于任何复杂的只要样本足够多,总可保证收敛于任何复杂的概密函数概密函数。ParzenParzen窗的优点窗的优点:ParzenParzen窗的缺点:窗的缺点:尤其特征空间维数大于尤其特征空间维数大于1 1后,更加突出,对样后,更加突出,对样本的需求相对于维数按指数本的需求相对于维数按指数,所以易,所以易出现出现出现出现“维数灾维数灾维数灾维数灾难难难难”。要求样本足够多要求样本足够多,才能有较好的估计。,才能有较好的估计。比参数估计法所需样本数大得多,比参数估计法所需样本数大得多,需大需大量的存储单元和计算时间,计算效率不高量的存储单元和计算时间,计算效率不高。利用训练样本类别属性已知,对每一类独立利用训练样本类别属性已知,对每一类独立估计概率密度,并估计概率密度,并根据最大后验概率(根据最大后验概率(MAPMAP)的原)的原则进行分类。则进行分类。为提高处理效率,模式识别可用为提高处理效率,模式识别可用并行处理并行处理方式方式实现,以实现,以空间复杂度来换取时间复杂度空间复杂度来换取时间复杂度具有人具有人工网络的结构。工网络的结构。ParzerParzer窗法神经网络结构窗法神经网络结构概率神经网络概率神经网络(Probabilistic neural network PNNProbabilistic neural network PNN)分类器设计:分类器设计:3.5.3 K3.5.3 KN N近邻估计近邻估计 ParzenParzen窗法存在的问题:窗法存在的问题:例例 ,对对V1V1敏感敏感(图图3.63.6,图,图3.7)3.7)对对V VN N (h hN N )的选择)的选择,对估计结果影响很大对估计结果影响很大若若h hN N选选太太小小,则则大大部部分分体体积积将将是是空空的的(不不包包含含样样本),本),使使P PN N(x(x)估计不稳定估计不稳定;若若h hN N选选太太大大,则则P PN N(x(x)估估计计较较平平坦坦,反反映映不不出出总总体体分布的变化分布的变化.K KN N近邻估计近邻估计是克服该问题的一个是克服该问题的一个较有效方法较有效方法 以以x x为为中中心心建建立立区区域域V V,使使V V增增大大(V V1 1,V V2 2,V VN N ),直直直直到到到到捕捕捕捕捉捉捉捉到到到到K K K KN N N N个个个个样样样样本本本本为为为为止止止止。称称K KN N-近近邻邻估计估计K KN N近邻法的思想近邻法的思想:V VN N 受控于受控于K KN N,而不是直接作为,而不是直接作为N N的函数,可避的函数,可避免出现空的区域免出现空的区域R RN N,消除了不稳定性消除了不稳定性。V VN N适应于适应于K KN N的变化的变化即:样本密度大,即:样本密度大,V VN N;样本密度小,样本密度小,V VN N;K KN N近邻方法:近邻方法:1 1)预先)预先确定确定K KN N是是N N的函数的函数,例:,例:2 2)然后围绕)然后围绕x x点建立一个体积(邻域)点建立一个体积(邻域)R RN N,并让它,并让它 不断增大不断增大,直到包含,直到包含K KN N个样本为止,这个样本为止,这K KN N个样本个样本就称为就称为x x的的K KN N个近邻。个近邻。3 3)计算该领域的体积)计算该领域的体积V VN N显然:如果显然:如果x x点附近样本密度高,概密点附近样本密度高,概密p(xp(x)较大,则区域体积较大,则区域体积就小,分辨力较高。就小,分辨力较高。如果如果x x点附近样本密度低,点附近样本密度低,p(xp(x)较小,较小,则区域体积自然就大,则区域体积自然就大,当区域为包含当区域为包含K KN N个邻近样本而扩展个邻近样本而扩展到高密度区时,扩展过程必然很快停止。到高密度区时,扩展过程必然很快停止。4 4)概密函数估计为)概密函数估计为 nN N个个已知类别样本落入已知类别样本落入V VN N内为内为K KN N个样本的概率密度个样本的概率密度估计为:估计为:当当N N个样本落入个样本落入V VN N内有内有K KN N个,个,K KN N个样本内有个样本内有K Ki i个样本个样本属于属于i i类类则联合概率密度:则联合概率密度:用用K KN N近邻法进行后验概率的估计:近邻法进行后验概率的估计:根据根据BayesBayes公式可求出后验概率:公式可求出后验概率:则则 类别为类别为i i的后验概率就是落在的后验概率就是落在V VN N内属于内属于i i的的样本样本k ki i与与V VN N内总样本数内总样本数K KN N的比值的比值ParzenParzen窗估计法:窗估计法:需调整需调整需调整需调整h h h hN N N N(V(V(V(VN N N N)因子因子因子因子 与与ParzenParzen窗法比较,窗法比较,K KN N近邻估计法是一近邻估计法是一种较好的非参数估计方法。种较好的非参数估计方法。K KN N近邻估计法:近邻估计法:需调查需调查需调查需调查K K K KN N N N因子因子因子因子1)(使平均密度收敛于真实密度,使平均密度收敛于真实密度,即即 )2)N N与与K KN N同相变化同相变化。3)K KN N的变化远小于的变化远小于N N的变化。的变化。即即K KN N 的慢一点,以使捕获的慢一点,以使捕获K KN N个样本的体积个样本的体积V VN N可逐步减小,可逐步减小,使使 ,避免避免 要使要使 收敛于收敛于p(xp(x),仍应满足下列条件仍应满足下列条件:即即N N 时,时,K KN N,可保证样本落在,可保证样本落在V VN N中的概率中的概率估值估值 有一定的值有一定的值(充分必要充分必要条件条件)上述条件满足,则上述条件满足,则 收敛于真实概密收敛于真实概密p(xp(x)缺点:缺点:计算量太大(一维需数百个样本,二维需数千个样计算量太大(一维需数百个样本,二维需数千个样本)。本)。出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类出现了直接用该方法进行样本分类例:最近邻法分类例:最近邻法分类 KK近邻法分类近邻法分类(第六章内容)(第六章内容)K K K K近邻分类准则:近邻分类准则:近邻分类准则:近邻分类准则:K K近邻分类的错误率,近邻分类的错误率,随随KK,其错误率,其错误率PP,最低最低的错误率为的错误率为BayesBayes分类分类对于待分样本对于待分样本x x,找出它的,找出它的k k个近邻,检查它的类别,个近邻,检查它的类别,把把把把x x x x归于样本最多的那个类别归于样本最多的那个类别归于样本最多的那个类别归于样本最多的那个类别。P(e)P 最近邻分类准则:最近邻分类准则:待分样本待分样本x x,找一个离它最近的样本,把找一个离它最近的样本,把x x归于归于最近的样本一类。最近的样本一类。错误率:错误率:其中:其中:c c为类别数为类别数;P(eP(e)为为BayesBayes估计的错误率估计的错误率 最近邻分类法的错误率最近邻分类法的错误率P P比比K K近邻错误率还大,但近邻错误率还大,但最大不会超过贝叶斯分类器错误率的二倍。最大不会超过贝叶斯分类器错误率的二倍。剪辑法:剪辑法:目标去掉训练集中那些目标去掉训练集中那些不太可信不太可信的样本,减少需的样本,减少需计算的距离数计算的距离数方法:方法:方法:方法:1 1)用另一训练集合中的)用另一训练集合中的K KN N个近邻,对现有训个近邻,对现有训 练集合中的每个样本用练集合中的每个样本用K KN N近邻法分类近邻法分类2 2)若分类结果与这个样本原始类别不一样就去掉该)若分类结果与这个样本原始类别不一样就去掉该 样本,就得到一个更小的新的训练集样本,就得到一个更小的新的训练集 为提高近邻估计法效率,为提高近邻估计法效率,应获取一个更新、更小、应获取一个更新、更小、更有效的训练样本。更有效的训练样本。注意样本选择:注意样本选择:3.7 3.7 小结小结 (主要讨论存在的问题及局限性)(主要讨论存在的问题及局限性)应用统计决策理论设计分类器(最优分类器设计)应用统计决策理论设计分类器(最优分类器设计)的前提条件是:的前提条件是:1 1)对先验概率或类条件概密)对先验概率或类条件概密有充分的先验知识有充分的先验知识(已知则更好)(已知则更好)2 2)有足够多的训练样本)有足够多的训练样本虽虽理论完善理论完善理论完善理论完善,但需大量样本,有时难以实现。,但需大量样本,有时难以实现。否则,设计分类器效果差否则,设计分类器效果差

    注意事项

    本文(模式识别(第三章2010).ppt)为本站会员(hwp****526)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开