现代图像分析知识点 (55).pdf
Modern Image Analysis Bayes 分类贝叶斯分类基于贝叶斯理论,贝叶斯理论是由18世纪概率论和决策论的早期研究者Thomas Bayes 发明的,因此得名。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单的贝叶斯分类可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。目前研究较多的贝叶斯分类器主要有Naive Bayes,TAN,BAN和GBN。贝叶斯 Thomas Bayes,英国数学家9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image AnalysisBayes 定理通常,事件 A 在事件 B 发生的条件下的概率,与事件 B 在事件 A 发生的条件下的概率是不一样的;然而,这两者是有确定关系的,贝叶斯定理就是这种关系的陈述。Bayes 公式(|)()(|)()PBA PAPABPB 贝叶斯公式提供了从先 验 概 率 P(A)、P(B)和P(B|A)计算后验概率P(A|B)的方法。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类,即贝叶斯分类器是最小错误率意义上的优化。朴素贝叶斯(Naive Bayes)分类器12,.,nxa aa 1.设为一个待分类项,为x的一个特征属性,且之间独立。ia12,.,kCc cc 2.设为一个类别集合。12(|),(|),.,(|)kP cxP cxP cx3.计算。4.,则。12(|)max(|),(|),.,(|)ikP cxP cxP cxP cx 1xc 9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis举例:某个医院早上收了六个门诊病人,如下表。症状职业疾病症状职业疾病打喷嚏护士感冒打喷嚏护士感冒打喷嚏农夫过敏打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人脑震荡头痛建筑工人感冒头痛建筑工人感冒打喷嚏教师感冒打喷嚏教师感冒头痛教师脑震荡头痛教师脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis根据贝叶斯定理:P(打喷嚏,建筑工人|感冒)P(感冒)P(感冒|打喷嚏,建筑工人)=P(打喷嚏,建筑工人)假定“打喷嚏”和“建筑工人”这两个特征是独立的,因此,上面的等式就变成了:P(感冒|打喷嚏,建筑工人)=P(打喷嚏|感冒)P(建筑工人|感冒)P(感冒)P(打喷嚏)P(建筑工人)9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法P(感冒|打喷嚏,建筑工人)=0.66 0.33 0.5/0.5 0.33=0.66因此,这个打喷嚏的建筑工人,有 66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。Modern Image Analysis 朴素贝叶斯算法优点:算法逻辑简单,易于实现;分类过程中时空开销小;算法稳定,对不同的数据其分类性能差别不大,健壮性较好。朴素贝叶斯算法缺点:朴素贝叶斯分类要求特征属性必须是条件独立或者基本独立(实际上在现实应用中几乎不可能做到完全独立),当该条件成立时,朴素贝叶斯分类法的准确率最高,但当各个特征属性之间具有较强相关性时,就限制了朴素贝叶斯的分类能力,于是诞生了一种更高级、应用范围更广的贝叶斯网络。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis KNN算法下面图片中只有三种豆,有三个豆是未知的种类,如何判定他们的种类?1968年,Cover和Hart提出了最初的近邻法。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis 最近邻算法为了判定未知样本的类别,以全部训练样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者的类别作为决策未知样本类别的唯一依据。问题:有一个未知形状 X(图中绿色的圆点),如何判断 X 是什么形状?9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis K-最近邻算法基本思路是:选择未知样本一定范围内确定个数的K个样本,该K个样本大多数属于某一类型,则未知样本判定为该类型。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法step.1-初始化距离为最大值step.2-计算未知样本和每个训练样本的距离diststep.3-得到目前K个最临近样本中的最大距离maxdiststep.4-如果dist小于maxdist,则将该训练样本作为K-最近邻样本step.5-重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完step.6-统计K个最近邻样本中每个类别出现的次数step.7-选择出现频率最大的类别作为未知样本的类别实现步骤:Modern Image Analysis KNN算法优点简单,易于理解,易于实现,无需估计参数,无需训练适合对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型)特别适合于多分类问题(multi-modal,对象具有多个类别标签),例如根据基因特征来判断其功能分类,KNN比SVM的表现要好 KNN算法缺点KNN是一种懒惰算法。需要存储全部的训练样本;需要进行繁重的距离计算量。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis Decision Tree(决策树)决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见。这个女孩的决策过程就是典型的分类树决策。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树的定义基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。通常,决策树在每个结点选取能最好地分类样例的属性。继续这个过程直到这棵树能完美分类训练样例,或所有的属性都使用过了。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis Decision Tree构建开始,所有记录看作一个节点遍历每个变量的每一种分割方式,找到最好的分割点分割成两个节点N1和N2对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis Decision Tree的优化优化方案1:修剪枝叶决策树过度拟合往往是因为太过“茂盛”,也就是节点过多,所以需要裁剪(Prune Tree)枝叶。裁剪枝叶的策略对决策树正确率的影响很大。主要有两种裁剪策略。前置裁剪:在构建决策树的过程时,提前停止。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法后置裁剪:决策树构建好后,然后才开始裁剪。Modern Image Analysis首先计算出整体的决策树T,叶节点个数记作N,设i属于1,N。对每个i,使用K-Fold Validation方法计算决策树,并裁剪到 i 个节点,计算错误率,最后求出平均错误率。这样可以用具有最小错误率对应的i作为最终决策树的大小,对原始决策树进行裁剪,得到最优决策树。优化方案2:K-Fold Cross Validation9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis实践证明,此算法的错误率得到了进一步的降低。这种方法背后的原理可以用“三个臭皮匠顶一个诸葛亮”这句谚语来概括。一颗树预测正确的概率可能不高,但是集体预测正确的概率却很高。优化方案3:随机森林(Random Forest)Random Forest 是用训练数据随机计算出许多决策树,形成了一个森林。然后用这个森林对未知数据进行预测,选取投票最多的分类。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法Modern Image Analysis 决策树优点易于理解和实现,在学习过程中无需了解很多背景知识,可以直接体现数据的特点。能够同时处理数据型和常规型,在相对短的时间内对大型数据源做出可行且效果良好的结果。易于通过静态测试来对模型进行评测,当给定观察模型,易于根据产生的决策树推出相应的逻辑表达式。决策树缺点对连续性的字段比较难预测;当类别太多时,错误增加比较快;对有时间顺序的数据,需要较多的预处理工作。9.4 模式分类识别专题模式分类识别专题经典分类方法经典分类方法