模式识别(配套教学材料《现代模式识别》).ppt
《模式识别(配套教学材料《现代模式识别》).ppt》由会员分享,可在线阅读,更多相关《模式识别(配套教学材料《现代模式识别》).ppt(712页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1,模式识别,主讲: 蔡宣平 教授 电话: 73441(O),73442(H)E-mail:单位: 电子科学与工程学院信息工程系,2, 课程对象 相关学科 教学方法 教学目标 基本要求 教材/参考文献,关于本课程的有关说明,3, 课程对象,信息工程专业本科生的专业课 学院硕士研究生的学位课 学院博士研究生的必修课之一,4, 相关学科,统计学 概率论 线性代数(矩阵计算) 形式语言 人工智能 图像处理 计算机视觉 等等,5, 教学方法,着重讲述模式识别的基本概念,基本方法和算法原理。 注重理论与实践紧密结合 实例教学:通过实例讲述如何将所学知识运用到实际应用之中 避免引用过多的、繁琐的数学推导,
2、6, 教学目标,掌握模式识别的基本概念和方法 有效地运用所学知识和方法解决实际问题 为研究新的模式识别的理论和方法打下基础,7, 基本要求,基本:完成课程学习,通过考试,获得学分。 提高:能够将所学知识和内容用于课题研究,解决实际问题。 飞跃:通过模式识别的学习,改进思维方式,为将来的工作打好基础,终身受益。,8,教材/参考文献,孙即祥,现代模式识别,国防科技大学出版社,2003年。 吴逸飞译,模式识别原理、方法及应用,清华大学出版社,2003年。 李晶皎等译,模式识别(第三版),电子工业出版社,2006年。,9,讲授课程内容及安排,第一章 引论 第二章 聚类分析 第三章 判别域代数界面方程法
3、 第四章 统计判决 第五章 学习、训练与错误率估计 第六章 最近邻方法 第七章 特征提取和选择 上机实习,10,第一章 引论,1.1 概述 1.2 特征矢量和特征空间 1.3 随机矢量的描述 1.4 正态分布,概念,模式识别(Pattern Recognition):确定一个样本的类别属性(模式类)的过程,即把某一样本归属于多个类型中的某个类型。,样本(Sample):一个具体的研究(客观)对象。如患者,某人写的一个汉字,一幅图片等。,模式(Pattern):对客体(研究对象)特征的描述(定量的或结构的描述),是取自客观世界的某一样本的测量值的集合(或综合)。,特征(Features):能描述
4、模式特性的量(测量值)。在统计模式识别方法中,通常用一个矢量 表示,称之为特征矢量,记为,模式类(Class):具有某些共同特性的模式的集合。,概念,模式识别的例子,计算机自动诊断疾病:,获取情况(信息采集) 测量体温、血压、心率、血液化验、X光透射、B超、心电图、CT等尽可能多的信息,并将这些信息数字化后输入电脑。当然在实际应用中要考虑采集的成本,这就是说特征要进行选择的。 运行在电脑中的专家系统或专用程序可以分析这些数据并进行分类,得出正常或不正常的判断,不正常情况还要指出是什么问题。,14,各类空间(Space)的概念,模式采集:从客观世界(对象空间)到模式空间的过程称为模式采集。,特征
5、提取和特征选择:由模式空间到特征空间的变换和选择。,类型判别:特征空间到类型空间所作的操作。,模 式 识 别 三大 任务,15,1.1 概述模式识别系统,通常在采集信息过程中,还要去除所获取信息中的噪声,增强有用的信息等工作。这种使信息纯化的处理过程叫做信息的预处理。,分类识别是根据事先确定的分类规则对前面选取的特征进行分类(即识别)。,通常能描述对象的元素很多,为节约资源和提高处理速度,有时更为了可行性,在满足分类识别正确率要求的条件下,按某种准则尽量选用对正确分类识别作用较大的特征。使得用较少的特征就能完成分类识别任务。,预处理这个环节的内容很广泛,与要解决的具体问题有关,例如,从图象中将
6、汽车车牌的号码识别出来,就需要先将车牌从图像中找出来,再对车牌进行划分,将每个数字分别划分开。做到这一步以后,才能对每个数字进行识别。以上工作都应该在预处理阶段完成。,数字化比特流,16,1.1 概述模式识别系统,17,1.1 概述模式识别系统,模式识别系统的主要环节: 特征提取:符号表示,如长度、波形、。 特征选择:选择有代表性的特征,能够正确分类 学习和训练:利用已知样本建立分类和识别规则 分类识别:对所获得样本按建立的分类规则进行分类识别,18,纸币识别器对纸币按面额进行分类 面额,1.1 概述系统实例,5元 10元 20元 50元 100元,19,1.1 概述系统实例,长度(mm) 宽
7、度(mm) 5元13663 10元14170 20元14670 50元15170 100元15677,20,1.1 概述系统实例,磁性金属条位置(大约) 5元有 54/82 10元有 54/87 20元有 57/89 50元有 60/91 100元有 63/93,5元 10元 20元 50元 100元,1 2 3 4 5 6 7 8,反射光波形,22,1.1 概述系统实例,数据采集、特征提取: 长度、宽度、磁性、磁性的位置,光反射亮度、光透射亮度等等,特征选择: 长度、磁性及位置、反射亮度,分类识别: 确定纸币的面额及真伪,23,1.1 概述系统实例,训练集:是一个已知样本集,在监督学习方法中
8、,用它来开发出模式分类器。 测试集:在设计识别和分类系统时没有用过的独立样本集。 系统评价原则:为了更好地对模式识别系统性能进行评价,必须使用一组独立于训练集的测试集对系统进行测试。,24,例:汽车车牌识别,从摄像头获取包含车牌的彩色图象 车牌定位和获取 字符分割和识别,25,26,27,1.1 概述模式识别的基本方法,一、统计模式识别 二、句法模式识别 三、模糊模式识别 四、人工神经网络法 五、人工智能方法,28,1.1 概述模式识别的基本方法,一、统计模式识别,模式描述方法: 特征向量 模式判定: 模式类用条件概率分布P(X/i)表示,m类就有m个分布,然后判定未知模式属于哪一个分布。,2
9、9,1.1 概述模式识别的基本方法,一、统计模式识别,理论基础:概率论,数理统计 主要方法:线性、非线性分类、Bayes决策、聚类分析 主要优点: 1)比较成熟 2)能考虑干扰噪声等影响 3)识别模式基元能力强 主要缺点: 1)对结构复杂的模式抽取特征困难2)不能反映模式的结构特征,难以描述模式的性质3)难以从整体角度考虑识别问题,30,1.1 概述模式识别的基本方法,二、句法模式识别,模式描述方法: 符号串,树,图 模式判定: 是一种语言,用一个文法表示一个类,m类就有m个文法,然后判定未知模式遵循哪一个文法。,31,例2:如下图中一幅图形,要识别图中的物体,选用句法模式识别方法.,1.1
10、概述模式识别的基本方法,32,解:图形结构复杂,首先应分解为简单的子图(背景、物体)。构成一个多级树结构:,1.1 概述模式识别的基本方法,33,在学习过程中,确定基元与基元之间的关系,推断出生成景物的方法。 判决过程中,首先提取基元,识别基元之间的连接关系,使用推断的文法规则做句法分析。若分析成立,则判断输入的景物属于相应的类型。,1.1 概述模式识别的基本方法,34,理论基础:形式语言,自动机技术 主要方法:自动机技术、CYK剖析算法、Early算法、转移图法 主要优点:1)识别方便,可以从简单的基元开始,由简至繁。2)能反映模式的结构特征,能描述模式的性质。3)对图象畸变的抗干扰能力较强
11、。 主要缺点:当存在干扰及噪声时,抽取特征基元困难,且易失误。,1.1 概述模式识别的基本方法,35,1.1 概述模式识别的基本方法,三、模糊模式识别,模式描述方法: 模糊集合 A=(a,a), (b,b),. (n,n) 模式判定: 是一种集合运算。用隶属度将模糊集合划分为若干子集, m类就有m个子集,然后根据择近原则分类。,36,理论基础:模糊数学 主要方法:模糊统计法、二元对比排序法、推理法、模糊集运算规则、模糊矩阵 主要优点:由于隶属度函数作为样本与模板间相似程度的度量,故往往能反映整体的与主体的特征,从而允许样本有相当程度的干扰与畸变。 主要缺点:准确合理的隶属度函数往往难以建立,故
12、限制了它的应用。,1.1 概述模式识别的基本方法,37,1.1 概述模式识别的基本方法,四、人工神经网络法,模式描述方法: 以不同活跃度表示的输入节点集(神经元) 模式判定: 是一个非线性动态系统。通过对样本的学习建立起记忆,然后将未知模式判决为其最接近的记忆。,38,理论基础:神经生理学,心理学 主要方法:BP模型、HOP模型、高阶网 主要优点:可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题。允许样本有较大的缺损、畸变。 主要缺点:模型在不断丰富与完善中,目前能识别的模式类还不够多。,1.1 概述模式识别的基本方法,39,1.1 概述模式识别的基本方法,五、逻辑推理法(人工
13、智能法),模式描述方法: 字符串表示的事实 模式判定: 是一种布尔运算。从事实出发运用一系列规则,推理得到不同结果,m个类就有m个结果。,40,理论基础:演绎逻辑,布尔代数 主要方法:产生式推理、语义网推理、框架推理 主要优点:已建立了关于知识表示及组织,目标搜索及匹配的完整体系。对需要众多规则的推理达到识别目标确认的问题,有很好的效果。 主要缺点:当样本有缺损,背景不清晰,规则不明确甚至有歧义时,效果不好。,1.1 概述模式识别的基本方法,41,1.1 概述模式识别的发展简史,1929年 G. Tauschek发明阅读机 ,能够阅读0-9的数字。 30年代 Fisher提出统计分类理论,奠定
14、了统计模式识别的基础。 50年代 Noam Chemsky 提出形式语言理论傅京荪提出句法/结构模式识别。 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别方法得以发展和应用。,42,1.1 概述模式识别的发展简史,80年代 以Hopfield网、BP网为代表的神经网络模型导致人工神经元网络复活,并在模式识别得到较广泛的应用。 90年代 小样本学习理论,支持向量机也受到了很大的重视。,43,1.1 概述模式识别的应用(举例),生物学 自动细胞学、染色体特性研究、遗传研究 天文学 天文望远镜图像分析、自动光谱学 经济学 股票交易预测、企业行为分析 医学 心电图分析、脑电图分析、医学图像
15、分析,44,1.1 概述主要实用系统举例,文字识别(Character Recognition) OCR(Optical Character Recognition) 智能交通(Intelligent Traffic) 车牌、车型。 语音识别(Speech recognition) 翻译机,身份识别等 目标识别 ATR(Automaic Target Recognition),45,46,1.2 特征矢量和特征空间,47,1.3 随机矢量的描述,随机矢量: 在模式识别过程中,要对许多具体对象进行测量,以获得许多次观测值。 每次观测值不一定相同,所以对许多对象而言,各个特征分量都是随机变量,即许
16、多对象的特征向量在n维空间中呈随机性分布,称为随机矢量。,48,1.3 随机矢量的描述,(一)随机矢量的分布函数:,设 为随机矢量,,为确定性矢量。,随机矢量的联合概率分布函数定义为:,式中 表示括号中事件同时发生的概率。,49,1.3 随机矢量的描述,(一)随机矢量的分布函数:,随机矢量 的联合概率密度函数定义为:,50,1.3 随机矢量的描述,51,1.3 随机矢量的描述,x,p(x),52,1.3 随机矢量的描述,53,1.3 随机矢量的描述,(二)随机矢量的数字特征: 其中, 的分量:,式中, 是 的第 个分量的边缘密度。随机矢量 的均值矢量 的各分量是相应的各随机分量的均值。,54,
17、1.3 随机矢量的描述,(二)随机矢量的数字特征: 条件期望 在模式识别中,经常以类别 作为条件,在这种情况下随机矢量 的条件期望矢量定义为,55,1.3 随机矢量的描述,随机矢量 的自协方差矩阵表征各分量围绕其均值的散布情况及各分量间的相关关系,其定义为:,(二)随机矢量的数字特征: 协方差矩阵,56,1.3 随机矢量的描述,57,1.3 随机矢量的描述,58,1.3 随机矢量的描述,(二)随机矢量的数字特征: 相关系数,由布尼亚科夫斯基不等式知:,相关系数矩阵定义为 :,59,1.3 随机矢量的描述,60,1.3 随机矢量的描述,61,1.3 随机矢量的描述,62,1.3 随机矢量的描述,
18、63,1.4 正态分布,64,1.4 正态分布,(1)一维随机变量的正态分布,65,1.4 正态分布,66,1.4 正态分布,(2)随机矢量的正态分布,正态分布随机矢量 的概率密度函数定义为:,67,1.4 正态分布,68,1.4 正态分布,(2)二维随机变量的正态分布,69,1.4 正态分布,范例 木板 图象 512512 d=3 长度 纹理 亮度 c=2 松木 桦木,维数 无限 有限/ 很大R 有限d 不大c,总结:模式识别过程,dR无限,71,试证明,对于正态分布,不相关与独立是等价的。 试证明,多元正态随机矢量的线性变换仍为多元正态随机矢量。 试证明,多元正态随机矢量X的分量的线性组合
19、是一正态随机变量。,习题,72,模式识别,主讲: 蔡宣平 教授 电话: 73441(O),73442(H)E-mail:单位: 电子科学与工程学院信息工程系,73,第二章 聚类分析 (Clustering Analysis),2.1 聚类分析的概念 2.2 模式相似性测度 2.3 类的定义与类间距离 2.4 聚类的算法,74,2.1 聚类分析的概念,一、聚类分析的基本思想 相似的归为一类。 模式相似性的度量和聚类算法。 无监督分类(Unsupervised) 。,二、特征量的类型 物理量-(重量、长度、速度) 次序量-(等级、技能、学识) 名义量-(性别、状态、种类),第二章 聚类分析,75,
20、三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分类无效时的情况 1.特征选取不当使分类无效。,第二章 聚类分析,76,三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分类无效时的情况 2.特征选取不足可能使不同类别的模式判为一类。,第二章 聚类分析,77,三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分类无效时的情况 3.特征选取过多可能无益反而有害,增加分析负担并使分析效果变差。,第二章 聚类分析,78,三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分
21、类无效时的情况 4.量纲选取不当。,第二章 聚类分析,79,三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分类无效时的情况 4.量纲选取不当。,第二章 聚类分析,80,三、方法的有效性 取决于分类算法和特征点分布情况的匹配。,2.1 聚类分析的概念,分类无效时的情况 4.量纲选取不当。,第二章 聚类分析,81,下列是一些动物的名称: 羊 (sheep)狗 (dog) 蓝鲨(blue shark)蜥蜴 (lizard) 毒蛇(viper)猫 (cat) 麻雀(sparrow)海鸥 (seagull) 金鱼(gold fish)绯鲵鲣(red-mullet)蛙
22、(frog) 要对这些动物进行分类,则不同的特征有不同的分法:,特征选取不同对聚类结果的影响,第二章 聚类分析,82,特征选取不同对聚类结果的影响,羊, 狗, 猫 蓝鲨,蜥蜴,毒蛇,麻雀,海鸥,金鱼,绯鲵鲣, 青蛙,(a) 按繁衍后代的方式分,哺乳动物,非哺乳动物,第二章 聚类分析,83,金鱼绯鲵鲣蓝鲨,羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥 青蛙,(b) 按肺是否存在分,无肺,有肺,特征选取不同对聚类结果的影响,第二章 聚类分析,84,青蛙,羊,狗,猫 蜥蜴,毒蛇麻雀,海鸥,金鱼绯鲵鲣 蓝鲨,(c) 按生活环境分,陆地,水里,两栖,特征选取不同对聚类结果的影响,第二章 聚类分析,85,蓝鲨,金鱼绯
23、鲵鲣,蜥蜴,毒蛇麻雀,海鸥 青蛙,羊,狗,猫,(d) 按繁衍后代方式和肺是否存在分,非哺乳且有肺,哺乳且无肺,哺乳且有肺,非哺乳且无肺,特征选取不同对聚类结果的影响,第二章 聚类分析,86,距离测度不同,聚类结果也不同,数据的粗聚类是两类,细聚类为4类,第二章 聚类分析,87,综上可见:,选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对分类结果都会产生极大影响。,第二章 聚类分析,88,聚类过程遵循的基本步骤,一、特征选择(feature selection) 尽可能多地包含任务关心的信息,二、近邻测度(proximity measure) 定量测定两特征如
24、何“相似”或“不相似”,三、聚类准则(clustering criterion) 以蕴涵在数据集中类的类型为基础,四、聚类算法(clustering algorithm) 按近邻测度和聚类准则揭示数据集的聚类结构,五、结果验证(validation of the results) 常用逼近检验验证聚类结果的正确性,六、结果判定(interpretation of the results) 由专家用其他方法判定结果的正确性,89,聚类应用的四个基本方向,一、减少数据 许多时候,当数据量N很大时,会使数据处理变得很费力。因此可使用聚类分析的方法将数据分成几组可判断的聚类m(mN)来处理,每一个类可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代模式识别 模式识别 配套 教学 材料 现代
限制150内