《《模式识别》教学大纲(本科).docx》由会员分享,可在线阅读,更多相关《《模式识别》教学大纲(本科).docx(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别一、课程简介模式识别包含了模式识别与数据挖掘两门课程。模式识别与数据挖掘研究的内容是使机器能 做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断、并 在大型数据库中发现模式的能力。模式识别与数据挖掘是在统计分析、语言学、计算机科学、生 物学、控制论、优化算法等技术的基础上发现潜在有价值的模式,解决生物医学基础科研中的实 际问题。通过本课程的学习,使学生了解和掌握模式识别与数据挖掘的基础理论、基本知识,掌握模 式识别与数据挖掘的常用技术和方法,掌握以计算机为工具对生物数据进行储存、检索和分析的 科学、有效地进行数据的采集、整理、检索、分析,从中提取有价值的模
2、式,同时培养学生应用 所学知识解决生物学问题的能力,为学生在未来工作中合理使用模式识别与数据挖掘方法打下坚实 的理论基础。二、理论教学内容1 .模式识别总论了解内容:模式识别和模式的概念;模式识别系统。2 .贝叶斯决策理论掌握内容:贝叶斯决策理论基本概念;常用的决策规那么,包括:最小错误率贝叶斯决策,基 于最小风险的贝叶斯决策,朴素贝叶斯分类器;正态分布时的统计决策;关于分类时的统计决策;判 别函数和决策面;贝叶斯决策方法生物学应用。了解内容:正态分布概率密度的定义和性质;决策规那么的不同形式;决策的错误率;最小风 险决策的一般性;多元正态概率模型下的最小错误率贝叶斯决策;贝叶斯决策应用。了解
3、内容:最大似然估计,多元正态分布参数最大似然估计。3 .线性分类器掌握内容:Fisher线性判别;感知准那么函数;最小错分样本数准那么;多类问题。了解内容:最小平方误差准那么函数;随机最小错误率线性判别准那么函数。4 .非线性分类器掌握内容:分段线性判别函数、多层感知器神经网络、支持向量机。5 .其他分类器了解内容:最近邻法;k-近邻法。6 .决策树分类算法掌握内容:决策树归纳;决策树的工作原理;决策树归纳算法;评估分类器的性能;比拟分 类器的方法;不平衡类问题;决策树生物学应用。了解内容:模型的过分拟合;组合方法;随机森林;随机森林生物学应用。7 .聚类分析及应用掌握内容:数据、簇和聚类算法
4、的特性;基于原型的聚类;基于密度的聚类;基于图的聚类、 聚类应用。了解内容:可伸缩的聚类算法。8 .关联分析及应用掌握内容:频繁项集的产生;规那么产生;频繁项集的紧凑表示;处理分类属性连续属性;序 列模式;子图模式;挖掘多物种通路频繁模式;文本挖掘。了解内容:产生频繁项集的其他方法;FP增长算法;关联模式的评估;倾斜支持度分布的 影响;非频繁模式。70三、实验教学内容1 .基于Fisher准那么的线性分类器设计基本内容:本实验旨在让同学进一步了解分类器的设计概念,能够根据自己的设计对线性分类器 有更深刻地认识,理解Fisher准那么方法确定最正确线性分界面方法的原理。完成Fisher线性分类器
5、的设 计。利用试验数据集合训练两个具体的Fisher分类器,一个利用二维数据(即前两列属性)构建分 类器,另一个利用三维数据构建分类器。分析W的比例因子对于Fisher判别函数没有影响的原因。基本要求:了解分类器的设计概念;能够自己的设计对线性分类器,理解Fisher准那么方法确 定最正确线性分界面方法的原理。2 .利用模式识别软件进行分类器设计基本内容:安装模式识别软件(WEKA),对软件数据格式、数据准备、分类局部进行学习,并 根据实例操作,了解weka的主要功能;选择朴素贝叶斯分类方法,进行分类器的整体设计和检验。基本要求:掌握weka的分类模块中分类方法,例如:贝叶斯方法,Fisher
6、方法;熟悉交叉验 证方法;特征选择方法。3 .决策树归纳设计基本内容:实现决策树归纳算法;评估分类器的性能;ROC曲线的绘制,生物数据的应用。基本要求:掌握决策树的工作原理;熟悉评估分类器的性能的方法。4 .聚类分析基本内容:利用k均值和层次聚类分析结肠癌基因表达谱数据,对样本和基因进行聚类,分 析聚类的结果;结合生物学背景,解释结果的生物学含义;利用SNN测度在基因共表达网络中挖 掘模块。基本要求:掌握层次聚类方法,层次聚类图的分析;实现K-均值聚类方法,网络模块的挖掘。四、参考资料模式识别第三版.张学工主编.清华大学出版社,2010年8月出版数据挖掘导论第二版.斯坦巴赫(著)范明范宏建(译
7、).人民邮电出版社.2011年4月 出版数据挖掘原理与算法.(第3版).毛国君段立娟.清华大学出版社.2016年南京大学-模式识别课程()中国科学技术大学-模式识别课程( :/识别中国大学MOOC( 5%88%AB#/)模式识别.哈尔滨工程大学.中国大学MOOC)71五、学时分配序号教学内容参考学时总学时理论学时实验学时1模式识别总论2202统计决策方法(最小错误率贝叶斯决策,最小风险贝叶斯决策,正 态分布统计决策)8803概率密度函数的估计(最大似然估计,贝叶斯估计,贝叶斯估计,非参数 方法)6424线性分类器(基本概念,fisher线性判别分析,感知器,最小平 方误差判别,多类线性分类器)10645非线性分类器(分段线性判别函数,基于距离的分段线性判别函 数)8626其他分类方法(最近邻法、k-近邻法)6427特征的选择与提取类别可别离性判据最优特征选择方法(穷举法、分制定界法)次优特征选择方法(单独最优特征组合法、前进法、后退法、增L减R 法、爬山法)181628决策树分类器8629分类算法的评估44010聚类分析及应用(K-均值聚类,层次聚类,DBSCAN算法)862合计72561672
限制150内