模式识别原理及其应用基本概念.pptx
会计学1模式识别原理及其应用基本概念模式识别原理及其应用基本概念第一章第一章第一章第一章 概论概论概论概论 1-1 1-1 模式识别的基本概念模式识别的基本概念模式识别的基本概念模式识别的基本概念一一一一.模式识别的基本定义模式识别的基本定义模式识别的基本定义模式识别的基本定义 模式模式模式模式(pattern)(pattern)-存在于时间,空间中可观察存在于时间,空间中可观察存在于时间,空间中可观察存在于时间,空间中可观察 的事物,具有时间或空间分布的信息。的事物,具有时间或空间分布的信息。的事物,具有时间或空间分布的信息。的事物,具有时间或空间分布的信息。模式识别模式识别模式识别模式识别(Pattern Recognition)(Pattern Recognition)-用计算机实现用计算机实现用计算机实现用计算机实现 人对各种事物或现象的分析人对各种事物或现象的分析人对各种事物或现象的分析人对各种事物或现象的分析,描述描述描述描述,判断判断判断判断,识别。识别。识别。识别。确定确定确定确定一个样本的类别属性(模式类)的过程,即把某一样本归一个样本的类别属性(模式类)的过程,即把某一样本归一个样本的类别属性(模式类)的过程,即把某一样本归一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。属于多个类型中的某个类型。属于多个类型中的某个类型。属于多个类型中的某个类型。模式识别模式识别模式识别模式识别 直观,无所不在,直观,无所不在,直观,无所不在,直观,无所不在,“人以类聚,物以群分人以类聚,物以群分人以类聚,物以群分人以类聚,物以群分”n n周围物体的认知:桌子、椅子周围物体的认知:桌子、椅子周围物体的认知:桌子、椅子周围物体的认知:桌子、椅子n n人的识别:张三、李四人的识别:张三、李四人的识别:张三、李四人的识别:张三、李四n n声音的辨别:汽车、火车,狗叫、人语声音的辨别:汽车、火车,狗叫、人语声音的辨别:汽车、火车,狗叫、人语声音的辨别:汽车、火车,狗叫、人语n n气味的分辨:炸带鱼、红烧肉气味的分辨:炸带鱼、红烧肉气味的分辨:炸带鱼、红烧肉气味的分辨:炸带鱼、红烧肉第第2页页/共共38页页第1页/共38页人和动物的模式识别能力是极其平常的,但对计算人和动物的模式识别能力是极其平常的,但对计算人和动物的模式识别能力是极其平常的,但对计算人和动物的模式识别能力是极其平常的,但对计算机来说却是非常困难的。目的:利用计算机对物理机来说却是非常困难的。目的:利用计算机对物理机来说却是非常困难的。目的:利用计算机对物理机来说却是非常困难的。目的:利用计算机对物理对象进行分类,在错误概率最小的条件下,使识别对象进行分类,在错误概率最小的条件下,使识别对象进行分类,在错误概率最小的条件下,使识别对象进行分类,在错误概率最小的条件下,使识别的结果尽量与客观物体相符合的结果尽量与客观物体相符合的结果尽量与客观物体相符合的结果尽量与客观物体相符合.样本(Sample)一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。模式类(Class):具有某些共同特性的模式的集合。特征(Features):能描述模式特性的量(测量值)。在统计模式识别方法中,通常用一个矢量表示,称之为特征矢量第第3页页/共共38页页第2页/共38页特征矢量:设一个研究对象的 个特征量测量值分别为 ,我们将它们作为一个整体来考虑,让它们构成一个 维特征矢量 。特征空间:各种不同取值的特征矢量的全体构成了 维特征空间。注:特征矢量就是特征空间中的一个点。(颜色(绿颜色(绿/红)红),似圆度似圆度)第第4页页/共共38页页第3页/共38页模式识别的例子计算机自动诊断疾病计算机自动诊断疾病:1.获取情况获取情况(信息采集信息采集)测量体温、血压、心率、测量体温、血压、心率、血液化验、血液化验、X光透射、光透射、B超、心电图、超、心电图、CT等尽等尽可能多的信息,并将这些信息数字化后输入电可能多的信息,并将这些信息数字化后输入电脑。当然在实际应用中要考虑采集的成本,这脑。当然在实际应用中要考虑采集的成本,这就是说特征要进行选择的。就是说特征要进行选择的。2.运行在电脑中的专家系统或专用程序可以分析运行在电脑中的专家系统或专用程序可以分析这些数据并进行分类,得出正常或不正常的判这些数据并进行分类,得出正常或不正常的判断,不正常情况还要指出是什么问题。断,不正常情况还要指出是什么问题。第第5页页/共共38页页第4页/共38页模式识别系统的主要环节:特征提取:符号表示,如长度、波形、。特征选择:选择有代表性的特征,能够正确分类学习和训练:利用已知样本建立分类和识别规则分类识别:对所获得样本按建立的分类规则进行分类识别第第6页页/共共38页页第5页/共38页二二.模式识别的发展史模式识别的发展史n n1929年 G.Tauschek发明阅读机,能够阅读0-9的数字。n n30年代 Fisher提出统计分类理论,奠定了统计模式识别的基础。因此,在6070年代,统计模式识别发展很快,但由于被识别的模式愈来愈复杂,特征也愈多,就出现“维数灾难”。但由于计算机运算速度的迅猛发展,这个问题得到一定克服。统计模式识别仍是模式识别的主要理论。第第7页页/共共38页页第6页/共38页n n50年代 Noam Chemsky 提出形式语言理论 美籍华人付京荪 提出句法结构模式识别。n n60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别理论得到了较广泛的应用。n n80年代 Hopfield提出神经元网络模型理论。近些年人工神经元网络在模式识别和人工智能上得到较广泛的应用。n n90年代 小样本学习理论,支持向量机也受到了很大的重视。第第8页页/共共38页页第7页/共38页三三三三.关于模式识别的国内、国际学术组织关于模式识别的国内、国际学术组织关于模式识别的国内、国际学术组织关于模式识别的国内、国际学术组织n n19731973年年 IEEE(IEEE(电气电子工程师协会电气电子工程师协会Institute of Institute of Electrical and Electronics Engineers)Electrical and Electronics Engineers)发起了第发起了第一次关于模式识别的国际会议一次关于模式识别的国际会议“ICPR”ICPR”,成,成立了国际模式识别协会立了国际模式识别协会-“IAPR”-“IAPR”,每,每2 2年召开年召开一次国际学术会议。一次国际学术会议。n n19771977年年 IEEEIEEE的计算机学会成立了模式分析与的计算机学会成立了模式分析与机器智能(机器智能(PAMIPAMI)委员会,每)委员会,每2 2年召开一次模年召开一次模式识别与图象处理学术会议。式识别与图象处理学术会议。n n国内的组织有电子学会,通信学会,自动化国内的组织有电子学会,通信学会,自动化协会,中文信息学会协会,中文信息学会.。第第9页页/共共38页页第8页/共38页1-2 1-2 模式识别系统模式识别系统模式识别系统模式识别系统n n信息的获取:是通过传感器,将光或声音等信息的获取:是通过传感器,将光或声音等信息转化为电信息。信息可以是二维的图象信息转化为电信息。信息可以是二维的图象如文字,图象等;可以是一维的波形如声波,如文字,图象等;可以是一维的波形如声波,心电图,脑电图;也可以是物理量与逻辑值。心电图,脑电图;也可以是物理量与逻辑值。n n预处理:包括预处理:包括AD,AD,二值化,图象的平滑,变二值化,图象的平滑,变换,增强,恢复,滤波等换,增强,恢复,滤波等,主要指图象处理。主要指图象处理。第第10页页/共共38页页第9页/共38页n n特征抽取和选择:在模式识别中,需要进行特征的抽取和选择,例如,一幅64x64的图象可以得到4096个数据,这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。这就是特征提取和选择的过程。n n分类器设计:分类器设计的主要功能是通过训练确定判决规则,使按此类判决规则分类时,错误率最低。把这些判决规则建成标准库。n n分类决策:在特征空间中对被识别对象进行分类。第第11页页/共共38页页第10页/共38页1-3 1-3 模式识别的应用模式识别的应用模式识别的应用模式识别的应用1.1.字符识别:字符识别:字符识别:字符识别:包括印刷体字符的识别;手写体字符的识别(脱机),各种OCR设备例如信函分拣、文件处理、卡片输入、支票查对、自动排板、期刊阅读、稿件输入;在线手写字符的识别(联机),各种书写输入板。2.2.医疗诊断:医疗诊断:医疗诊断:医疗诊断:心电图,脑电图,染色体,癌细胞识别,疾病诊断,例如关幼波肝炎专家系统。3.3.遥感:遥感:遥感:遥感:资源卫星照片,气象卫星照片处理,数字化地球,图象分辨率可以达到1米。第第12页页/共共38页页第11页/共38页4.指纹识别 脸形识别5.检测污染分析,大气,水源,环境监测。6.自动检测:产品质量自动检测7.语声识别,机器翻译,电话号码自动查询,侦听,机器故障判断。8.军事应用9.经济学 股票交易预测、企业行为分析第第13页页/共共38页页第12页/共38页纸币识别器对纸币按面额进行分类 面额系统实例5元10元20元50元100元第第14页页/共共38页页第13页/共38页系统实例 长度(mm)宽度(mm)5元1366310元1417020元1467050元15170100元15677第第15页页/共共38页页第14页/共38页系统实例磁性金属条位置(大约)5元有 54/8210元有 54/8720元有 57/8950元有 60/91100元有 63/93第第16页页/共共38页页第15页/共38页5元 10元 20元 50元 100元12345678反反射射光光波波形形第第17页页/共共38页页第16页/共38页系统实例数据采集、特征提取:长度、宽度、磁性、磁性的位置,光反射亮度、光透射亮度等等 特征选择:长度、磁性及位置、反射亮度分类识别:确定纸币的面额及真伪第第18页页/共共38页页第17页/共38页系统实例训练集:是一个已知样本集,在监督学习方法中,用它来开发出模式分类器。测试集:在设计识别和分类系统时没有用过的独立样本集。系统评价原则:为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测试。第第19页页/共共38页页第18页/共38页例例:汽车车牌识别汽车车牌识别n n从摄像头获取包含车牌的彩从摄像头获取包含车牌的彩色图象色图象n n车牌定位和获取车牌定位和获取n n字符分割和识别字符分割和识别输入图输入图象象特征提特征提取取粗略定粗略定位位分割字分割字符符确定类确定类型型精细定精细定位位识别、输出识别、输出第第20页页/共共38页页第19页/共38页第第21页页/共共38页页第20页/共38页第第22页页/共共38页页第21页/共38页实例:统计模式识别实例:统计模式识别n n19名男女同学进行体检,测量了身高和体重,但事后发现其中有4人忘记填写性别,试问(在最小错误的条件下)这4人是男是女?体检数值如下:第第23页页/共共38页页第22页/共38页第第24页页/共共38页页第23页/共38页实例:统计模式识别(续)实例:统计模式识别(续)n n待识别的模式:性别(男或女)n n测量的特征:身高和体重n n训练样本:15名已知性别的样本特征n n目标:希望借助于训练样本的特征建立判别函数(即数学模型)第第25页页/共共38页页第24页/共38页实例:统计模式识别实例:统计模式识别(续)(续)n n由训练样本得到的特征空间分布图第第26页页/共共38页页第25页/共38页实例:统计模式识别(续)实例:统计模式识别(续)n n从图中训练样本的分布情况,找出男、女两类特征各自的聚类特点,从而求取一个判别函数(直线或曲线)。n n只要给出待分类的模式特征的数值,看它在特征平面上落在判别函数的哪一侧,就可以判别是男还是女了。第第27页页/共共38页页第26页/共38页1-4 1-4 模式识别的基本问题模式识别的基本问题模式识别的基本问题模式识别的基本问题一一.模式模式(样本样本)表示方法表示方法1.1.向量表示向量表示 :假设一个样本有假设一个样本有n n个变量个变量(特征特征)=(X=(X1 1,X,X2 2,Xn),Xn)T T2.2.矩阵表示矩阵表示:N:N个样本,个样本,n n个变量个变量(特征特征)第第28页页/共共38页页第27页/共38页3.3.几何表示几何表示 一维表示一维表示 X X1 1=1.5 X=1.5 X2 2=3=3 二维表示二维表示 X X1 1=(x=(x1 1,x,x2 2)T T=(1,2)=(1,2)T T X X2 2=(x=(x1 1,x,x2 2)T T=(2,1)=(2,1)T T 三维表示三维表示 X X1 1=(x=(x1 1,x,x2 2,x,x3 3)T T =(1,1,0)=(1,1,0)T T X X2 2=(x=(x1 1,x,x2 2,x,x3 3)T T =(1,0,1)=(1,0,1)T T第第29页页/共共38页页第28页/共38页二二二二.模式类的紧致性模式类的紧致性模式类的紧致性模式类的紧致性1.紧致集:同一类模式类样本的分布比较集中,没有或临界样本很少,这样的模式类称紧致集。第第30页页/共共38页页第29页/共38页2.2.临界点临界点(样本样本):在多类样本中,某些样本的值:在多类样本中,某些样本的值有微小变化时就变成另一类样本称为临界样有微小变化时就变成另一类样本称为临界样本(点)。本(点)。3.3.紧致集的性质紧致集的性质 要求临界点很少要求临界点很少 集合内的任意两点的连线集合内的任意两点的连线,在线上的点属于在线上的点属于同同 一集合一集合 集合内的每一个点都有足够大的邻域集合内的每一个点都有足够大的邻域,在邻在邻域内只包含同一集合的点域内只包含同一集合的点4.4.模式识别的要求模式识别的要求:满足紧致集,才能很好的分类;满足紧致集,才能很好的分类;如果不满足紧致集,就要采取变换的方法如果不满足紧致集,就要采取变换的方法,满满足紧致集足紧致集.第第31页页/共共38页页第30页/共38页三三三三.相似与分类相似与分类相似与分类相似与分类 1.1.两个样本两个样本x xi i,x xj j之间的相似度量满足以下要求:之间的相似度量满足以下要求:应为非负值应为非负值 样本本身相似性度量应最大样本本身相似性度量应最大 度量应满足对称性度量应满足对称性 在满足紧致性的条件下,相似性应该是点在满足紧致性的条件下,相似性应该是点间距离的间距离的 单调函数单调函数 2.2.用各种距离表示相似性:用各种距离表示相似性:绝对值距离绝对值距离 已知两个样本已知两个样本 x xi i=(x=(xi1 i1,x,xi2 i2,x,xi3 i3,x,xinin)T T x xj j=(x=(xj1 j1,x,xj2 j2,x,xj3 j3,x,xjnjn)T T 第第32页页/共共38页页第31页/共38页 欧几里德距离欧几里德距离明考夫斯基距离明考夫斯基距离 其中当q=1时为绝对值距离,当q=2时为欧氏距离第第33页页/共共38页页第32页/共38页 切比雪夫距离q趋向无穷大时明氏距离的极限情况 马哈拉诺比斯距离(马氏距离)其中xi,xj为特征向量,为协方差。使用的条件是样本符合正态分布第第34页页/共共38页页第33页/共38页x1x2x1x2x3 夹角余弦例:x1,x2,x3的夹角如图:因为x1,x2 的夹角小,所以x1,x2 最相似。第第35页页/共共38页页第34页/共38页注意:注意:在求相关系数之前,要将数据标准化在求相关系数之前,要将数据标准化3.3.分类的主观性和客观性分类的主观性和客观性分类的主观性和客观性分类的主观性和客观性 分类带有主观性分类带有主观性:目的不同目的不同,分类不同分类不同.例如例如:鲸鱼鲸鱼,牛牛,马从生物学的角度来讲都属于哺乳类,但是从产业马从生物学的角度来讲都属于哺乳类,但是从产业角度来讲鲸鱼属于水产业,牛和马属于畜牧业。角度来讲鲸鱼属于水产业,牛和马属于畜牧业。分类的客观性:科学性分类的客观性:科学性 判断分类必须有客观标准,因此分类是追求客观性判断分类必须有客观标准,因此分类是追求客观性的,但主观性也很难避免,这就是分类的复杂性。的,但主观性也很难避免,这就是分类的复杂性。相关系数为xi xj的均值第第36页页/共共38页页第35页/共38页四四四四.特征的生成特征的生成特征的生成特征的生成 1.1.低层特征:低层特征:无序尺度:有明确的数量和数值。无序尺度:有明确的数量和数值。有序尺度:有先后、好坏的次序关系,如酒有序尺度:有先后、好坏的次序关系,如酒 分为上,中,下三个等级。分为上,中,下三个等级。名义尺度:无数量、无次序关系,如有红,名义尺度:无数量、无次序关系,如有红,黄两种颜色黄两种颜色 2.2.中层特征:经过计算,变换得到的特征中层特征:经过计算,变换得到的特征 3.3.高层特征:在中层特征的基础上有目的的经过运高层特征:在中层特征的基础上有目的的经过运 算形成算形成例如:椅子的重量例如:椅子的重量=体积体积*比重比重 体积与长,宽,高有关;比重与材料,纹理,颜体积与长,宽,高有关;比重与材料,纹理,颜色有关。这里低、中、高三层特征都有了。色有关。这里低、中、高三层特征都有了。第第37页页/共共38页页第36页/共38页五五五五.数据的标准化数据的标准化数据的标准化数据的标准化 1.1.极差标准化,一批样本中,每个特征的最大值极差标准化,一批样本中,每个特征的最大值与最小值之差。与最小值之差。极差极差 极差标准化极差标准化 2.2.方差标准化方差标准化 Si 为方差标准化的方法很多,原始数据是否应该标准化,应采用什么方法标准化,都要根据具体情况来定。第第38页页/共共38页页第37页/共38页