模式识别练习题(共25页).doc
《模式识别练习题(共25页).doc》由会员分享,可在线阅读,更多相关《模式识别练习题(共25页).doc(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上2013模式识别练习题一. 填空题 1、模式识别系统的基本构成单元包括:模式采集 、特征的选择和提取 和 模式分类 。2、统计模式识别中描述模式的方法一般使用 特征矢量 ;句法模式识别中模式描述方法一般有 串 、 树 、 网 。 3、影响层次聚类算法结果的主要因素有 计算模式距离的测度、聚类准则、类间距离阈值、预定的类别数目 。4、线性判别函数的正负和数值大小的几何意义是 正负表示样本点位于判别界面法向量指向的正负半空间中,绝对值正比于样本点与判别界面的距离。5、感知器算法 1 ,H-K算法 2 。 (1)只适用于线性可分的情况;(2)线性可分、不可分都适用。6、在统
2、计模式分类问题中,聂曼-皮尔逊判决准则主要用于 某一种判别错误较另一种判别错误更为重要的 情况;最小最大判别准则主要用于 先验概率未知的 情况。7、“特征个数越多越有利于分类”这种说法正确吗? 错误 。特征选择的主要目的是 从n个特征中选取最有利于分类的m个特征(mn )的条件下,可以使用分支定界法以减少计算量。8、 散度Jij越大,说明wi类模式与wj类模式的分布 差别越大 ;当wi类模式与wj类模式的分布相同时,Jij= 0 。二、选择题1、影响聚类算法结果的主要因素有(B、C、D )。A.已知类别的样本质量;B.分类准则;C.特征选取;D.模式相似性测度2、模式识别中,马式距离较之于欧式
3、距离的优点是(C、D)。 A.平移不变性;B.旋转不变性;C尺度不变性;D.考虑了模式的分布3、影响基本K-均值算法的主要因素有(ABD)。A.样本输入顺序;B.模式相似性测度;C.聚类准则;D.初始类中心的选取4、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的(B D)。A. 先验概率;B. 后验概率;C. 类概率密度;D. 类概率密度与先验概率的乘积5、在统计模式分类问题中,当先验概率未知时,可以使用(BD)。A. 最小损失准则; B. 最小最大损失准则; C. 最小误判概率准则; D. N-P判决6、散度JD是根据( C )构造的可分性判据。A. 先验概率;B. 后验概率;
4、C. 类概率密度;D. 信息熵;E. 几何距离7、似然函数的概型已知且为单峰,则可用(ABCDE)估计该似然函数。A. 矩估计;B. 最大似然估计;C. Bayes估计;D. Bayes学习;E. Parzen窗法8、KN近邻元法较之Parzen窗法的优点是(B)。A. 所需样本数较少; B. 稳定性较好; C. 分辨率较高; D. 连续性较好9、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质:(A C )。A.变换产生的新分量正交或不相关;B.以部分新的分量表示原矢量均方误差最小;C.使变换后的矢量能量更集中10、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的
5、主要因素有(BC )。A. 已知类别样本质量; B. 分类准则; C. 特征选取;D. 量纲11、欧式距离具有( A B );马式距离具有( A B C D )。 A. 平移不变性; B. 旋转不变性; C. 尺度缩放不变性; D. 不受量纲影响的特性12、聚类分析算法属于(A );判别域代数界面方程法属于( C ) 。 A.无监督分类; B.有监督分类; C.统计模式识别方法; D.句法模式识别方法13、若描述模式的特征量为0-1二值特征量,则一般采用( D )进行相似性度量。A. 距离测度; B. 模糊测度; C. 相似测度; D. 匹配测度14、 下列函数可以作为聚类分析中的准则函数的有
6、(ACD) 。 A.; B.; C. ; D.15、Fisher线性判别函数的求解过程是将N维特征矢量投影在( B )中进行 。 A.二维空间; B.一维空间; C. N-1维空间16、用parzen窗法估计类概率密度函数时,窗宽过窄导致波动过大的原因是(BC)。A.窗函数幅度过小;B.窗函数幅度过大;C. 窗口中落入的样本数过少;D.窗口中落入的样本数过多。17、如下聚类算法中,属于静态聚类算法的是 ( AB )。A. 最大最小距离聚类;B. 层次聚类; C. c-均值聚类。18、 一般,k-NN最近邻方法在( B )的情况下效果较好。A.样本较多但典型性不好;B.样本较少但典型性好;C.样
7、本呈团状分布;D.样本呈链状分布19、影响c均值聚类算法效果的主要因素之一是初始类心的选取,相比较而言,( C )c个样本作为初始类心较好。A. 按输入顺序选前; B. 选相距最远的; C. 选分布密度最高处的; D. 随机挑选。20、类域界面方程法中,能求线性不可分情况下分类问题近似或精确解的方法是(BCD )。A. 感知器算法; B. 伪逆法; C. 基于二次准则的H-K算法; D. 势函数法。三、简答题1、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。答:Mahalanobis距离的平方定义为: 其中x
8、,u为两个数据,是一个正定对称矩阵(一般为协方差矩阵)。根据定义,距某一点的Mahalanobis距离相等点的轨迹是超椭球,如果是单位矩阵,则Mahalanobis距离就是通常的欧氏距离。2、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。答:监督学习方法用来对数据实现分类,分类规则通过训练获得。该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。 非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。 就道路图像的分割而言,监督学习
9、方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。 使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。3、已知一组数据的协方差矩阵为,试问(1) 协方差矩阵中各元素的含义。(2) 求该数组的两个主分量。(3) 主分量分析或称K-L变换,它的最佳准则是什么?(4) 为什么说经主分量分析后,消除了各分量之间的相关性。答:协方差矩阵为,则(1) 对角元素是各分量的方差,非对角元素是各分量之间的协方差。(2) 主分量,通过求协方差矩阵的特征值,用0得,则 ,相应地:,对应特征向量为,对应。这两个特
10、征向量,即为主分量。(3) K-L变换的最佳准则为:对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。(4) 在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关性消除。4、试说明以下问题求解是基于监督学习或是非监督学习:(1) 求数据集的主分量(2) 汉字识别(3) 自组织特征映射(4) CT图像的分割答:(1) 求数据集的主分量是非监督学习方法;(2) 汉字识别:对待识别字符加上相应类别号有监督学习方法;(3) 自组织特征映射将高维数组按保留近似度向低维映射非监督学习;(4) CT图像分割按数据自然分布聚类非监督学习方法;5、试列举线性分类器中
11、最著名的三种最佳准则以及它们各自的原理。答:线性分类器三种最优准则:Fisher准则:根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。这种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。6、试分析五种常用决策规则思想方法的异
12、同。答、五种常用决策是: 1. 基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小的分类规则。 2. 基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。当在0-1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决策。 3. 在限定一类错误率条件下使另一类错误率最小的两类别决策。 4. 最大最小决策:类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。 5. 序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时
13、平衡总的损失,以求得最有效益。7、 1. 什么是特征选择?2. 什么是Fisher线性判别?答:1. 特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。 2. Fisher线性判别:可以考虑把d维空间的样本投影到一条直线上,形成一维空间,即把维数压缩到一维,这在数学上容易办到,然而,即使样本在d维空间里形成若干紧凑的互相分得开的集群,如果把它们投影到一条任意的直线上,也可能使得几类样本混在一起而变得无法识别。但是在一般情况下,总可以找到某个方向,使得在这个方向的直线上,样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线,这就是Fisher
14、算法所要解决的基本问题。8、写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。两类问题:判别函数 决策面方程:C类问题:判别函数 ,决策面方程:,数据获取预处理特征提取与选择分类决策分类器设计信号空间特征空间9、请论述模式识别系统的主要组成部分及其设计流程,并简述各组成部分中常用方法的主要思想。信息获取:通过测量、采样和量化,可以用矩阵或向量表示二维图像或波形。预处理:去除噪声,加强有用的信息,并对输入测量仪器或其他因素造成的退化现象进行复原。特征选择和提取:为了有效地实现分类识别,就要对原始数据进行变换,得到最能反映分类本质的特征。分类决策:在特征空间中用统计方法把识别对象归为某一
15、类。10、简述支持向量机的基本思想。答:SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0),且使分类间隔最大。SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(margin)最大。过两类样本中离分类面最近的点,且平行于最优分类面的超平面上H1,H2的训练样本就叫支持向量。四、计算题1、设两类样本的类内散布矩阵分别为, 两类的类心分别为m1=(2,0)T, m2=(2,2)T, 试用fisher准则求其决策面方程。解:, 或 写出决策面方程 2、已知两个一维模式类别的类概
16、率密度函数为: 先验概率P(w1)=0.6,P(w2)=0.4,(1)求0-1代价Bayes判决函数;(2)求总错误概率P(e);(3)判断样本x1=1.35, x2=1.45, x3=1.55, x4=1.65 各属于哪一类别。答:(1) 基于0-1代价Bayes判决函数为:当 时,否则,(2) 总的误判概率P(e)为:123x概率密度由, 得: (3) ,所以 ,所以 ,所以 ,所以3、假设在某个地区细胞识别中正常(w1)和异常(w2)两类先验概率分别为,现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得,并且已知,试对该细胞x用一下两种方法进行分类:(1) 基于最小错误率的
17、贝叶斯决策;(2) 基于最小风险的贝叶斯决策;请分析两种结果的异同及原因。答:(1) 利用贝叶斯公式,分别计算出和的后验概率:根据贝叶斯决策规则:,所以把x归为正常状态。(2) 根据条件和上面算出的后验概率,计算出条件风险:由于,即决策为的条件风险小于决策为的条件风险,因此采取决策行动,即判断待识别的细胞x为类-异常细胞。将 (1) 与 (2) 相对比,其分类结果正好相反,这是因为这里影响决策结果的因素又多了一个,即“损失”;而且两类错误决策所造成的损失相差很悬殊,因此“损失”起了主导作用。4、有两类样本集 , ,(1) 用K-L变换求其二维特征空间,并求出其特征空间的坐标轴;(2) 使用Fi
18、sher线性判别方法给出这两类样本的分类面。解:,其对应的特征值和特征向量为: ,降到二维空间,取对应的坐标:(2) , , 所以 判别函数为5、假设两类模式服从如下的正态分布: ,求使最大化的一维特征空间的变换矢量。答:,, , 因为的秩为1,所以只有一个非零特征值,是矩阵,即。 为求解的特征值,解方程 ,即 因为为标量,所以,。6、现有样本集X=(0,0)T, (0,1) T, (2,1) T, (2,3) T, (3,4) T, (1,0) T , 试用K-meansC-均值算法进行聚类分析(类数C=2), 初始聚类中心为(0, 0)T、(0, 1) T。解:第一步:由题意知C = 2,
19、初始聚类中心为Z10=(0,0)T, Z20=(0,1) T第二步: |x1-Z10|=|(0,0) T -(0,0) T |=0|x1-Z20|=|(0,0) T -(0,1) T |=1因为|x1-Z10|x2-Z20|, 所以x2w2同理因为|x3-Z10|=51/2|x3-Z20|=2,所以x3w2因为|x4-Z10|=81/2|x4-Z20|=51/2,所以x4w2x5w2, x6w1由此得到新的类:w1=x1, x6 N1=2, w2=x2, x3, x4, x5 N2=4 第三步:根据新分成的两类计算新的聚类中心Z11=(x1+x6)/2=(0.5, 0)TZ21=(x2+x3+
20、x4+x5)/4=(1.75, 2.25)T第四步:因为新旧聚类中心不等,转第二步第二步:重新计算x1, x2, x3, x4, x5, x6到Z11、Z12的距离,把它们归为最近聚类中心,重新分为两类w1=x1, x2, x6 N1=3, w2=x3, x4, x5 N2=3第三步:根据新分成的两类计算新的聚类中心Z12=(x1+x2+x6)/3=(1/3, 1/3)TZ22=(x3+x4+x5)/3=(7/3, 8/3)T第四步:因为新旧聚类中心不等,转第二步重新计算x1, x2, x3, x4, x5, x6到Z12、Z22的距离,把它们归为最近聚类中心,重新分为两类w1=x1, x2,
21、 x6,N1=3, w1=x3, x4, x5 ,N2=3和上次聚类结果一样,计算结束。7、已知二维样本:=(-1,0)T,=(0,-1)T,=(0,0)T,=(2,0)T和=(0,2)T,。试用感知器算法求出分类决策函数,并判断=(2,1)T属于哪一类?答:将样本符号规范化得:=(-1,0,1)T,=(0,-1,1)T,=(0,0,-1)T,=(-2,0,-1)T和=(0,-2,-1)T,赋初值,取增量, 置迭代步数k=1, 则有:k=1, , , k=2, , , k=3, , , k=4, , , k=5, , , k=6, , , k=7, , , k=8, , , k=9, , ,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 练习题 25
限制150内