第六章 模式识别与机器学习.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第六章 模式识别与机器学习.pptx》由会员分享,可在线阅读,更多相关《第六章 模式识别与机器学习.pptx(126页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1第6章模式识别与机器学习模式识别与机器学习模式识别与机器学习06062第2章脑与认知目录目录/ContentsContents6.46.46.56.5回归算法支持向量机6.66.66.76.7深度学习降维6.16.16.26.2基本概念分类算法6.36.3聚类算法第6章模式识别与机器学习目录目录/ContentsContents6.16.1基本概念一、研究分类二、研究模型三、研究内容第6章模式识别与机器学习一、研究分类模式识别:模式识别是指对表征事物或现象地各种形式地(数值地、文字地和逻辑关系地)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释地过程。模式识别侧重于利用计算机对要
2、分析的客观事物通过某种模式算法对其进行分类,使识别到地结果最接近于待识别地客观事实。机器学习:对于某类任务和性能度量参数,如果一个计算机程序在任务上以度量参数衡量的性能随着经验而自我完善,那么我们称这个计算机程序在从经验中学习。随着技术和应用的发展,它们越来越融合解决的很多共同问题(分类、聚类、特征选择、信息融合等),这两个领域的界限也越来越模糊。机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题,其中包括图像/视频分析、文档分析、信息检索和网络搜索等。第6章模式识别与机器学习研究分类机器学习目前领域内的主流学习策略可以分为三类:搜索型策略、构造型策略和规划型策略。从机器学习
3、的方式划分,机器学习可以分为五种:记忆学习、传授学习、演绎学习、归纳学习、类比学习。从机器学习的形式来说,机器学习可以分为四类:监督学习、无监督的学习、半监督学习、强化学习。第6章模式识别与机器学习研究模型机器学习基本模型在这个模型中,“学习环节”和“执行环节”是两个过程,“学习环节”通过对“环境”的学习构建“知识库”,同时不断学习改进“知识库”,而“执行环节”就是利用已有的“知识库”来解决当前的问题。第6章模式识别与机器学习研究模型环境:系统外部的信息源,主要为学习提供信息和样本,环境信息的表现形式决定了机器学习能够解决的问题。信息表现的质量决定了学习过程的难易和效果,如果环境向系统提供的信
4、息表述准确,机器在学习过程中就能比较容易归纳总结,取得不错的效果,否则达不到预期效果。学习环节:通过对外部环境所提供的信息进行学习,归纳总结出知识,并不断反馈完善知识。环境所提供的信息必须经过学习环节反复的分析,对比,归纳,总结等过程才能获得相关知识。知识库:机器学习模型中用于存放学习环节获得知识的地方,知识库的表现形式和存储结构也是影响模型好坏的重要因素,在知识的表示方面应要要参照以下基本原则:表达能力的强弱,推理的难度大小,修改的难易程度,是否便于扩充。执行环节:学习系统最重要的环节,执行环节的最终效果也是衡量个系统是否成功的指标这个坏节主要是解决当前所面临的现实问题,将知识库中的知识应用
5、于解决实际问题中去。同时,每次执行环节的结果都将反馈回学习环节中,进一步元善系统的学习。第6章模式识别与机器学习研究内容给定一个样本特征,我们希望预测其对应的属性值,如果是离散的,那么这就是一个分类问题,反之,如果是连续的实数,这就是一个回归问题。如果给定一组样本特征,我们没有对应的属性值,而是想发掘这组样本在维空间的分布,比如分析哪些样本靠的更近,哪些样本之间离得很远,这就是属于聚类问题。分类问题最常用的学习算法包括Bayes(贝叶斯估计),SVM(支持向量机),SGD(随机梯度下降算法),Ensemble,KNN,决策树学习等;聚类算法包括k-means(K-均值),GMM(高斯混合模型)
6、,DBSCAN等几种;回归问题能使用最小二乘法,logistic回归等算法,以及其它线性回归算法.第6章模式识别与机器学习目录目录/ContentsContents6.26.2分类算法一、二分类二、多类别分类三、贝叶斯分类四、决策树学习第6章模式识别与机器学习一、二分类首先考虑2类别分类问题y+1,-1.这种情况下,分类器的学习问题可以近似地定义为取值为+1、-1的二值函数问题,如下图所示:第6章模式识别与机器学习二分类二值函数可以使用最小二乘法进行与回归算法相同的学习。测试模式x所对应的类别y的预测值y是由学习后的输出结果的符号决定的:是指实际上不会发生的事件,也就是小概率事件。如果利用输入
7、为线性的模型为:训练输出表示为。其中和分别代表正负训练样本个数。通过设定,利用最小二乘学习进行模式识别,与线性判别分析算法一致的。第6章模式识别与机器学习二分类分类问题使用函数的正负符号来进行模式判断,函数值本身的大小并不重要。因此,分类问题中应用如下式所示的0/1损失,比L2损失得到的结果更佳。函数结果为1表示分类错误的;函数结果为0表示分类正确。因此,0/1损失可以用来对错误分类的样本个数进行统计。上式0/1损失等价为:第6章模式识别与机器学习二、多类别分类1.一对多法:对于所有与y=1,.,c相对应的类别,设其标签为+1,剩余的y以外的所有类别,则设其标签为-1.在对样本x进行分类时,利
8、用从各个2类别分类问题中得到的c个识别函数:对训练样本进行预测,并计算其函数值,其预测类别y即为函数值最大的对应类。在一对多方法中,从各个2类别的分类问题中训练得到c个识别函数f1(x),f2(x),.,fc(x)的输出,表示的是测试样本x属于类别y的概率,概率最大即为测试样本x所属的类别。第6章模式识别与机器学习二、多类别分类2.一对一法:/类别类别1 1类别类别2 2类别类别3 3类别类别c c类别类别1 1/类别类别2 2/类别类别3 3/类别类别c c/在该方法如表所示。首先对于所有与y,y=1,.,c相对应的类别,在任意两类之间训练一个分类器,属于类别y的标签设为+1,属于类别y的标
9、签设置为-1,通过这样的方式,利用二分类算法进行求解。第6章模式识别与机器学习二、多类别分类对样本x进行分类时,利用从各个二分类问题中得到的c(c-1)/2个识别函数对训练样本进行预测,再用投票法决定其最终类别,得票数最多的类别就是样本x所属的类别。在一对多方法中,对2类别问题进行了c次求解,而一对一方法进行了c(c-1)/2次求解。另一方面,对于每个2类别分类器,一对一方法中需要2类的训练样本即可完成训练。而在一对多方法中,每个2类别分类器需要所有类别的训练样本都参与才能完成。第6章模式识别与机器学习三、贝叶斯分类贝叶斯(NaiveBayesian)分类算法是基于贝叶斯定理和特征条件独立假设
10、原则的分类方法,用概率统计的观点和方法来解决模式识别问题。通过给出的特征计算分类的概率,选依据概率情况进行分类,是基于概率论的一种机器学习分类方法。贝叶斯分类算法必须满足如下条件:要决策分类的类别数是一定的;各类别总体的概率分布是已知的。基本概念:样本:;类别:;先验概率:;样本分布密度:;类密度概率密度:;后验概率密度:;错误概率:;平均错误率:;正确率:。第6章模式识别与机器学习最小错误率贝叶斯分类该方法是是统计模式识别的基本方法和基础,决策出发点是使分类的平均错误率最小,具体如下,假设需要分类的类别为,已知类先验概率和类条件概率密度,则满足平均错误率最小为最佳分类策略。第6章模式识别与机
11、器学习最小错误率贝叶斯分类下面以下面以2 2分类为例,讲解贝叶斯求解公式分类为例,讲解贝叶斯求解公式:已知:因为:分类判决是使得最小,即后验概率:第6章模式识别与机器学习最小错误率贝叶斯分类哪一类的后验概率大,则判决为哪一类。后验概率第6章模式识别与机器学习最小错误率贝叶斯分类计算后验概率,由贝叶斯全概率公式可得:根据上述全概率公式,可以得到2分类贝叶斯判决的4种格式:贝叶斯公式可以有几种形式的判别法则,针对具体问题可以选取合适的形式。不管选取何种形式,其基本思想均是要求判别归属时依概率最大作出决策,这样的结果就是分类的错误率最小第6章模式识别与机器学习最小错误率贝叶斯分类上述分类推广到多类分
12、类情况:根据全概率公式,可得第2种表示形式:其中,判决的错误率为:第6章模式识别与机器学习最小风险贝叶斯决策在某些实际情况下,引入风险的概念,以求风险最小的决策则更为合理,比如对癌细胞的识别中,将正常人判别为癌症患者和将癌症患者判别为正常人判别,后果损失是完全不一样的,直接关系到病人的身体甚至生命。因此引入风险概念比仅仅依靠错误率似乎更恰当。首先引入损失函数表示当处于状态时且判决为所带来的损失。表示为如下决策表,来描述各种情况下的决策损失。第6章模式识别与机器学习最小风险贝叶斯决策当引入“损失”的概念,考虑错判所造成的损失时,就不能只根据后验概率的大小来作决策,而必须考虑所采取的决策是否使损失
13、最小。因此在采取决策情况下的条件期望损失即条件风险为:期望风险R:反映对整个特征空间所有x的取值采取相应的决策(x)所带来的平均风险。如果在采取每一个决策或行动时,都使其条件风险最小,则对所有的x作出决策时,其期望风险也必然最小。(条件平均损失最小的判决也必然使总的平均损失最小。因此最小风险贝叶斯决策规则为:第6章模式识别与机器学习最小风险贝叶斯决策计算步骤:(1)计算后验概率:(2)计算风险:(3)决策:第6章模式识别与机器学习四、决策树学习决策树学习是根据数据样本的属性建立树状结构的一种决策模型,解决分类和回归问题。常见的算法包括CART(ClassificationAndRegressi
14、onTree),ID3,C4.5等。关键是根据数据中蕴含的只是信息提取出一系列的规则,这些规则就是树结构的创建过程,即机器学习的过程。决策树模型应用广泛,其余机器学习算法都以树模型为基础,例如,随机森林,Xgboost等算法。第6章模式识别与机器学习决策树分类的原理如图是一个预测人是否会购买电脑的决策树。利用这棵树,对新记录进行分类,从根节点(年龄)开始,有如下判断:(1)如果某个人的年龄为中年,直接判断该人会买电脑;(2)如果是青少年,则需要进一步判断是否是学生;(3)如果是老年则需要进一步判断其信用等级,直到叶子结点可以判定记录的类别。第6章模式识别与机器学习决策树分类的原理决策树能够建立
15、人能直接理解的规则,但贝叶斯、神经网络等算法没有的特性;决策树的准确率也比较高,不需要了解背景知识方可进行分类,一个非常有效的算法。决策树算法的优点有:决策树算法的优点有:第6章模式识别与机器学习决策树分类的原理决策树算法的基本思想:决策树算法的基本思想:1)输入:数据记录D,包含类标的训练数据集;2)过程:建立决策树模型主要分为两部分:(1)属性列表attributeList,候选属性集,用于在内部结点中作判断的属性.(2)属性选择方法AttributeSelectionMethod(),选择最佳分类属性的方法.3)输出:一棵决策树.4)最佳属性选择函数会在后续做介绍,现在只有知道能找到一个
16、准则,根据判断结点得到的子树的类别只含有一个类标.5)根据分裂准则设置结点N的测试表达式。6)对应构建多叉决策树时,离散的属性在结点N及其子树中只用一次,用过之后就从可用属性列表中删掉。第6章模式识别与机器学习决策树分类的原理(1)构造一个节点N;(2)如果数据记录D中的所有记录的类标都相同(记为C类):则将节点N作为叶子节点标记为C,并返回结点N;(3)如果属性列表为空:则将节点N作为叶子结点标记为D中类标最多的类,并返回结点N;(4)调用AttributeSelectionMethod(D,attributeList)选择最佳的分裂准则splitCriterion;(5)将节点N标记为最佳
17、分裂准则splitCriterion;(6)如果分裂属性取值是离散的,并且允许决策树进行多叉分裂:从属性列表中减去分裂属性,attributeLsit-=splitAttribute;(7)对分裂属性的每一个取值j:记D中满足j的记录集合为;如果为空:则新建一个叶子结点F,标记为D中类标最多的类,并且把结点F挂在N下;(8)否则:递归调用GenerateDecisionTree(Dj,attributeList)得到子树结点,将挂在N下;(9)返回结点N。决策树模型的建立过程:决策树模型的建立过程:第6章模式识别与机器学习决策树的属性选择方法属性选择方法指选择最好的属性作为分裂属性,即让每个分
18、支的记录的类别尽可能单一。它将所有属性列表的属性进行按某个标准排序,从而选出最好的属性。属性选择方法常用的为:信息增益(Informationgain)、增益比率(gainratio)、基尼指数(Giniindex)。第6章模式识别与机器学习决策树的属性选择方法(1)信息增益信息增益基于香浓的信息论,找出的属性R具有这样的特点:以属性R分裂前后的信息增益比其他属性最大。信息的定义如下:其中m表示数据集D中类别C的个数,表示D中任意一个记录属于的概率,计算时中属于类的集合的记录个数。表示将数据集D不同的类分开需要的信息量。第6章模式识别与机器学习决策树的属性选择方法Info是信息论中的熵Entr
19、opy,表示不确定度的度量,如果某个数据集的类别的不确定程度越高,则其熵就越大。熵定义为:(1)将一个立方体A抛向空中,记落地时着地的面为,的取值为,的熵(2)现把立方体A换为正四面体B,记落地时着地的面为,的取值为1,2,3,4,的熵(3)如果换成一个球C,记落地时着地的面为,显然不管怎么扔着地都是同一个面,即的取值为1,故其熵entropy(f3)=-1*log(1)=0。面数越多,熵值越大,当只有一个面的球时,熵值为0,表示不确定程度为0,即着地时向下的面是确定的。第6章模式识别与机器学习决策树的属性选择方法信息增益:假设选择属性R作为分裂属性,数据集D中,R有k个不同的取值,将D根据R
20、的值分成k组,按R进行分裂后,将数据集D不同的类分开还需要的信息量为:信息增益的定义为分裂前后,两个信息量只差:信息增益Gain(R)表示属性R给分类带来的信息量,我们寻找Gain最大的属性,就能使分类尽可能的纯,即最可能的把不同的类分开。ID3算法使用的就是基于信息增益的选择属性方法。第6章模式识别与机器学习决策树的属性选择方法(2)增益比率信息增益选择方法有一个很大的缺陷,倾向于选择属性值多的属性。例如,在上述数据记录加姓名属性,假设14条记录中的每个人姓名不同,那么信息增益选择姓名作为最佳属性。按姓名属性分裂后,每个组只包含一条记录,每个记录只属于一类(要么购买电脑要么不购买),因此纯度
21、最高,以姓名作为测试分裂的结点下面有14个分支。但是这样的分类没有意义,没有任何泛化能力。增益比率对此进行改进,引入一个分裂信息:增益比率定义为信息增益与分裂信息的比率:第6章模式识别与机器学习决策树的属性选择方法GainRatio最大的属性作为最佳分裂属性。如果一个属性的取值很多,那么SplitInfoR(D)会大,从而使GainRatio(R)变小。但增益比率也有缺点:(1)SplitInfo(D)可能取0,此时没有计算意义;(2)当SplitInfo(D)趋向于0时,GainRatio(R)的值变得不可信。改进的措施就是在分母加一个平滑,对所有的分裂信息取平均值:第6章模式识别与机器学习
22、决策树的属性选择方法(3)基尼指数基尼指数是另外一种数据的不纯度的度量方法,其定义如下:为D的一个非空真子集,为在D的补集,即,对于属性R来说,有多个真子集,即GiniR(D)有多个值,但我们选取最小的那么值作为R的基尼指数。最后:Gini(R)增量最大的属性作为最佳分裂属性。第6章模式识别与机器学习目录目录/ContentsContents6.36.3聚类算法一、聚类算法的原理二、K-means算法原理三、GMM算法四、DBSCAN算法第6章模式识别与机器学习聚类算法clustering(聚类),聚类英文为Clustering,它就是我们说的典型的“无监督学习”的一种,就是把物理对象或抽象对
23、象的集合分组为由彼此类似的对象组成的多个类的分析过程。聚类分析是按某一特征,对研究对象进行分类的多元统计方法,忽略特征及变量间的因果关系。分类结果应使类别间个体差异大,同类的个体差异要小。与回归、支持向量机和决策树不同,聚类分析是在没有输出信息和给定划分类别的条件下,只利用输入样本信息,根据样本相似度进行样本分组,属于非监督学习,该算法基于数据的内部结构寻找观察样本的自然族群(即集群)。使用案例包括细分客户、新闻聚类、文章推荐等。聚类算法包括k-means(K-均值),AP,层次聚类,DBSCAN,GMM(高斯混合模型)等几种。第6章模式识别与机器学习一、聚类算法的原理聚类是根据样本之间的相似
24、性对数据点进行分类,同一簇类的数据点类似,否则反之。相似性衡量标准的选择,对于聚类(clustering)的结果十分重要,通常基于某种形式的距离来定义相似度度量的,距离越大,则相似度越小。良好的聚类效果如图所示。聚类效果示意图第6章模式识别与机器学习一、聚类算法的原理聚类类型的区分依据是被划分好的聚类是否嵌套,如果嵌套称作层次聚类,反之称其划分聚类,分别如图所示。(a)层次聚类 (b)划分聚类第6章模式识别与机器学习二、K-means算法原理K-Means算法属于划分聚类是通过不断地取离种子点最近均值的算法,主要解决的问题如下图所示。从图中可以看出有四个点群,如何让机器找出该群点呢?于是引入K
25、-means算法。K-Means要解决的问题第6章模式识别与机器学习二、K-means算法原理算法原理如下图所示,A,B,C,D,E是五个未知的输入点,灰色是聚类的中心点,有两个中心点,及k=2,所以K-means的算法步骤如下:1.在图中随机取K(这里K=2)个聚类中心点。2.求图中所有未知点(A,B,C,D,E)到K个中心点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(图中,我们可以看到A,B属于上面的种子点,C,D,E属于下面中部的种子点)3.移动种子点到属于他的“点群”的中心,得到更新后的聚类中心。(见图中的第三步)4.然后重复第2和第3步,直到,种子点没有移动(我们可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六章 模式识别与机器学习 第六 模式识别 机器 学习
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内