山东大学2016年度模式识别考试题记忆版.doc
.-一、判断题(共10个题)请写清楚题号,在答卷纸上填写或,不要直接在本页回答。特别说明:本部分题目的得分规则为:答对一个题,得2分;不答(即放弃回答)的题,本题得0分;答错一个题,得-2分(即反扣2分)。本道大题得负分的,从其他大题扣除。所以,判断题的回答,建议慎重对待。1. 基于最小错误率的贝叶斯概率是 损失函数0-1的 基于最小风险贝叶斯概率的特例2. 监督参数估计是(太多记不住)。3. 单隐层神经网络在经过足够训练后,不管节点多少,总能找到全局最优解。4. 决策树可以生成规则集,且生成的规则集是可以解释的。5. SVM向量机在样本数据少、非线性的情况下有优势。6. Bagging是一种串行学习框架。7. 泛化能力指的是在训练集中体现的特点。8. Self_Trainning是一种半监督的方法。9. 决策树属性选择是依照信息增益比。10. 2006年以前,多隐层神经网络因为缺乏良好的算法,限制了深度学习的发展。二、计算题设在某个局部地区细胞识别中正常 和异常 两类的先验概率分别为:正常状态:异常状态:现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得 试使用贝叶斯决策对该细胞x进行分类(要求给出具体计算过程及计算结果)解:利用贝叶斯公式,分别计算出 及 的后验概率根据贝叶斯决策规则,有所以合理的决策规则是把x归类于正常状态。三、简答题1、 应用贝叶斯决策需要满足的三个前提条件是什么? (1)分类的类别数;(2)先验概率;(3)各类的类条件概率密度。2、 试简述您对先验概率和后验概率理解 先验概率:预先已知的或者可以估计的模式识别系统位于某种类型的概率。根据大数定律,当训练集包含充足的独立同分布样本时,先验概率就可以通过各类样本出现的频率来进行估计。 后验概率:后验概率是通过贝叶斯公式对先验概率进行修正,计算而得出的概率。表示系统在某个具体的模式样本X条件下位于某种类型的概率。3、 试简述Fisher线性判别的基本思想解决多维到一维的投影问题,利用线性判别方法解决一维分类问题。从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数,构造原则是使得总体之间区别最大,而使各总体内部的离差最小。有了线性判别函数之后,对于一个新的样品,将它的p个指标值带入线性判别函数式中求出结果值,然后根据一定的规则,就能判别新的样品属于哪个总体。 投影降维:将多维空间的样本投影到一维空间,根据实际情况找到一条最好的、易于分类的投影线。寻找合适的投影方向,即寻找好的变换向量。 一维分类:当维数和样本数都很大时,可用贝叶斯决策规则;上述条件都不符合,可用先验知识选定分界阈值点y0,再有决策规则判断x属于何类别。4、 试简述何为k-近邻法(1)K-近邻学习是一种常用的监督学习方法,(2)k-近邻法的基本思想:给定一个训练数据集,对新的输入实例,基于某种距离度量找出训练集中与其最靠近的 K 个实例(邻居)。然后基于这 K 个实例的信息来进行预测,使各点邻域体积为数据的函数,而不是样本数的函数,实现各点密度估计。看这K个近邻中多数属于哪一类,就把输入实例归为哪一类;5、 试简述您对非线性支持向量机(SVM)理解对于线性支持向量机,选择一个合适的惩罚参数C 0 ,并构造凸二次函数线性规划问题,求得原始问题的对偶问题的最优解 ,由此可以求出原始问题的最优解;在处理非线性问题时,可以通过将非线性问题转化成线性问题,并通过已经构建的线性支持向量机来处理。在线性不可分的情况下,SVM首先在低维空间中完成计算,然后通过选择合适的核函数来将样本从原始空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而分离非线性数据。(1)选取适当的核函数和适当的参数,构造原始问题的对偶问题,求得对应的最优解;(2)选择的一个满足的分量,求;(3)构造决策函数;6、 试简述何为度量学习在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中学习比原始空间更好。事实上,每个空间对应了在样本属性上定义的一个距离度量。度量学习可以根据不同的任务来自主学习出针对某个特定任务的度量距离函数,找出一个合适的距离度量。度量学习方法可以分为通过线性变换的度量学习和度量学习的非线性模型。7、 试简述何为半监督学习(SSL)半监督学习是监督学习与无监督学习相结合的一种学习方法,就是让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。包括:1)平滑假设2)聚类假设3)流形假设。8、 试简述何为聚类聚类试图将数据集中的样本划分为若干个通常是不相交的子集称为一个簇,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),并且这些概念对于聚类算法而言事先是未知的,聚类过程仅能自动地形成簇结构,簇所对应的概念语义需要使用者来把握和定义。9、 试简述您对稀疏表达的理解稀疏表达的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。两大主要任务就是字典的生成和信号的稀疏分解。假设一个样本数据 D,D 对应的矩阵中存在很多零元素,并且它们不是以整行整列的形式出现的,那么这种表达是稀疏的。这样的稀疏表达形式对学习任务会有不少好处。例如,SVM 在文本上有很好的性能。若给定数据集 D 是稠密的,即普通非稀疏数据,我们可以通过字典学习(稀疏编码)来将样本转化为合适的稀疏表示。10、 试简述您对流型学习的理解假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。流形学习也通常被用于可视化,因为当维数被降至二维或三维时,能进行可视化。等度量映射和局部线性嵌入是两种著名的流形学习方法。11、 试简述您对同分布问题的理解我们在设计一个模式识别时,是有一些假设或前提条件的,其中之一就是:假定用于训练或建模的有标记样本集的分布,是和全集的分布相同的,这就是同分布。如果满足同分布的预期模型将有很好的泛化能力。12、 试简述您对模型泛化能力的理解经过训练的网络对于不是样本集的输入也能给出合适的输出,该性质称为泛化能力,意味着从训练样本数据得到的模型也能够很好的适应测试样本数据。通常期望经训练样本训练的网络具有较强的泛化能力,但并非训练的次数越多越能得到正确的输入输出映射关系。训练过程中过分追求分类器将训练样本尽量分类正确或完全分类正确反倒使泛化能力下降。四、论述题1、试简述何为集成学习 集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。2、如果让您设计与实现一个模式识别系统,用于实现齐鲁软件学院男、女生的分类(二分类问题),您将如何考虑?其中有哪些需要注意的问题?请就您的理解,尽可能全面、深入地描述,以此展示您对模式识别技术这门课的理解。如果您觉得有必要,必要之处也可以画图辅助表达。答:假设我们所拥有的训练样本有如下属性:身高是否喜欢网购出行次数(月)生活费(月)性别155是122500女159是112200女182否81800男我们可以采用 ID3 决策树算法来用于对学生性别的分类。在建立决策树的过程中,首先需要对属性进行划分,为了选择出最优划分属性,我们需要计算出用每个属性对样本集进行划分所获得的信息增益,选择信息增益大的属性划分,我们可以得到一棵决策树。可能存在的问题: 过拟合:我们可以通过剪枝来解决过拟合的问题,使得决策树不会出现分支过多的问题。 连续值处理:对上述例子中的身高属性,即为连续值的属性,因为连续属性的可取值的数目不是无限的,所以不能根据属性值来划分,因此要计算,找出划分点。 缺失值处理:如果某些样本的某些属性缺失,我们也不能浪费这些样本,C4.5 算法提供了解决方案。
收藏
编号:2602621
类型:共享资源
大小:38.98KB
格式:DOC
上传时间:2020-04-23
8
金币
- 关 键 词:
-
山东大学
山大
年度
模式识别
考试题
记忆
- 资源描述:
-
.-
一、判断题(共10个题)
请写清楚题号,在答卷纸上填写√或,不要直接在本页回答。
特别说明:本部分题目的得分规则为:答对一个题,得2分;不答(即放弃回答)的题,本题得0分;答错一个题,得-2分(即反扣2分)。本道大题得负分的,从其他大题扣除。所以,判断题的回答,建议慎重对待。
1. 基于最小错误率的贝叶斯概率是 损失函数0-1的 基于最小风险贝叶斯概率的特例
2. 监督参数估计是(太多记不住)。。。
3. 单隐层神经网络在经过足够训练后,不管节点多少,总能找到全局最优解。
4. 决策树可以生成规则集,且生成的规则集是可以解释的。
5. SVM向量机在样本数据少、非线性的情况下有优势。
6. Bagging是一种串行学习框架。
7. 泛化能力指的是在训练集中体现的特点。
8. Self_Trainning是一种半监督的方法。
9. 决策树属性选择是依照信息增益比。
10. 2006年以前,多隐层神经网络因为缺乏良好的算法,限制了深度学习的发展。
二、计算题
设在某个局部地区细胞识别中正常 和异常 两类的先验概率分别为:
正常状态:
异常状态:
现有一待识别的细胞,其观察值为x,从类条件概率密度分布曲线上查得
试使用贝叶斯决策对该细胞x进行分类(要求给出具体计算过程及计算结果)
解:
利用贝叶斯公式,分别计算出 及 的后验概率
根据贝叶斯决策规则,有
所以合理的决策规则是把x归类于正常状态。
三、简答题
1、 应用贝叶斯决策需要满足的三个前提条件是什么?
(1)分类的类别数;(2)先验概率;(3)各类的类条件概率密度。
2、 试简述您对先验概率和后验概率理解
先验概率:预先已知的或者可以估计的模式识别系统位于某种类型的概率。根据大数定律,当训练集包含充足的独立同分布样本时,先验概率就可以通过各类样本出现的频率来进行估计。
后验概率:后验概率是通过贝叶斯公式对先验概率进行修正,计算而得出的概率。表示系统在某个具体的模式样本X条件下位于某种类型的概率。
3、 试简述Fisher线性判别的基本思想
解决多维到一维的投影问题,利用线性判别方法解决一维分类问题。
从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数,构造原则是使得总体之间区别最大,而使各总体内部的离差最小。有了线性判别函数之后,对于一个新的样品,将它的p个指标值带入线性判别函数式中求出结果值,然后根据一定的规则,就能判别新的样品属于哪个总体。
投影降维:将多维空间的样本投影到一维空间,根据实际情况找到一条最好的、易于分类的投影线。寻找合适的投影方向,即寻找好的变换向量。
一维分类:当维数和样本数都很大时,可用贝叶斯决策规则;上述条件都不符合,可用先验知识选定分界阈值点y0,再有决策规则判断x属于何类别。
4、 试简述何为k-近邻法
(1)K-近邻学习是一种常用的监督学习方法,
(2)k-近邻法的基本思想:给定一个训练数据集,对新的输入实例,基于某种距离度量找出训练集中与其最靠近的 K 个实例(邻居)。然后基于这 K 个实例的信息来进行预测,使各点邻域体积为数据的函数,而不是样本数的函数,实现各点密度估计。看这K个近邻中多数属于哪一类,就把输入实例归为哪一类;
5、 试简述您对非线性支持向量机(SVM)理解
对于线性支持向量机,选择一个合适的惩罚参数C >0 ,并构造凸二次函数线性规划问题,求得原始问题的对偶问题的最优解 ,由此可以求出原始问题的最优解;
在处理非线性问题时,可以通过将非线性问题转化成线性问题,并通过已经构建的线性支持向量机来处理。在线性不可分的情况下,SVM首先在低维空间中完成计算,然后通过选择合适的核函数来将样本从原始空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而分离非线性数据。
(1)选取适当的核函数和适当的参数,构造原始问题的对偶问题,求得对应的最优解;
(2)选择的一个满足的分量,求;
(3)构造决策函数;
6、 试简述何为度量学习
在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中学习比原始空间更好。事实上,每个空间对应了在样本属性上定义的一个距离度量。度量学习可以根据不同的任务来自主学习出针对某个特定任务的度量距离函数,找出一个合适的距离度量。
度量学习方法可以分为通过线性变换的度量学习和度量学习的非线性模型。
7、 试简述何为半监督学习(SSL)
半监督学习是监督学习与无监督学习相结合的一种学习方法,就是让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。包括:1)平滑假设2)聚类假设3)流形假设。
8、 试简述何为聚类
聚类试图将数据集中的样本划分为若干个通常是不相交的子集称为一个『簇』,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),并且这些概念对于聚类算法而言事先是未知的,聚类过程仅能自动地形成簇结构,簇所对应的概念语义需要使用者来把握和定义。
9、 试简述您对稀疏表达的理解
稀疏表达的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。两大主要任务就是字典的生成和信号的稀疏分解。
假设一个样本数据 D,D 对应的矩阵中存在很多零元素,并且它们不是以整行整列的形式出现的,那么这种表达是稀疏的。这样的稀疏表达形式对学习任务会有不少好处。例如,SVM 在文本上有很好的性能。
若给定数据集 D 是稠密的,即普通非稀疏数据,我们可以通过『字典学习』(『稀疏编码』)来将样本转化为合适的稀疏表示。
10、 试简述您对流型学习的理解
假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质,找到产生数据的内在规律。
流形学习也通常被用于可视化,因为当维数被降至二维或三维时,能进行可视化。等度量映射和局部线性嵌入是两种著名的流形学习方法。
11、 试简述您对同分布问题的理解
我们在设计一个模式识别时,是有一些假设或前提条件的,其中之一就是:假定用于训练或建模的有标记样本集的分布,是和全集的分布相同的,这就是同分布。
如果满足同分布的预期模型将有很好的泛化能力。
12、 试简述您对模型泛化能力的理解
经过训练的网络对于不是样本集的输入也能给出合适的输出,该性质称为泛化能力,意味着从训练样本数据得到的模型也能够很好的适应测试样本数据。
通常期望经训练样本训练的网络具有较强的泛化能力,但并非训练的次数越多越能得到正确的输入输出映射关系。训练过程中过分追求分类器将训练样本尽量分类正确或完全分类正确反倒使泛化能力下降。
四、论述题
1、试简述何为集成学习
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。
2、如果让您设计与实现一个模式识别系统,用于实现齐鲁软件学院男、女生的分类(二分类问题),您将如何考虑?其中有哪些需要注意的问题?请就您的理解,尽可能全面、深入地描述,以此展示您对《模式识别技术》这门课的理解。如果您觉得有必要,必要之处也可以画图辅助表达。
答:假设我们所拥有的训练样本有如下属性:
身高
是否喜欢网购
出行次数(月)
生活费(月)
性别
155
是
12
2500
女
159
是
11
2200
女
182
否
8
1800
男
……
……
……
……
……
我们可以采用 ID3 决策树算法来用于对学生性别的分类。
在建立决策树的过程中,首先需要对属性进行划分,为了选择出最优划分属性,我们需要计算出用每个属性对样本集进行划分所获得的信息增益,选择信息增益大的属性划分,我们可以得到一棵决策树。
可能存在的问题:
过拟合:我们可以通过剪枝来解决过拟合的问题,使得决策树不会出现分支过多的问题。
连续值处理:对上述例子中的身高属性,即为连续值的属性,因为连续属性的可取值的数目不是无限的,所以不能根据属性值来划分,因此要计算,找出划分点。
缺失值处理:如果某些样本的某些属性缺失,我们也不能浪费这些样本,C4.5 算法提供了解决方案。
展开阅读全文
淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。