《《模式识别与数据挖掘》课程教学大纲.docx》由会员分享,可在线阅读,更多相关《《模式识别与数据挖掘》课程教学大纲.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模式识别与数据挖掘教学大纲课程名称模式识别与数据挖掘Pattern Recognition and Data Mining课程编码CST521411030开课院部计算机科学与技术学院课程团队机器学习教学团队学分3.0课内学时56讲授32实验0上机24实践0课外学时56适用专业智能科学与技术授课语言中文先修课程线性代数、概率论与数理统计、机器学习课程简介 (必修)本课程系统地介绍模式识别和数据挖掘的基本理论、原理方法和应用,重点掌握贝叶斯决策理论、概率密度函数的估计、数据预处 理、特征的选择与提取、基于K-L展开式的特征提取、关联规则挖掘、序列模式挖掘等,并且要掌握数据挖掘的主要技术,如统计方法
2、、 机器学习方法、神经计算、数据库系统与数据仓库等。通过本课程的学习,培养学生对模式识别和数据挖掘的基本概念、基本原理、基本 分析方法和算法的理解和掌握,培养学生利用模式识别和数据挖掘方法,运用技能解决本专业和相关领域的实际问题的能力。并且课程还 以专业知识点为主,挖掘课程知识点与思政元素的融合点为目标,利用思政案例、使学生在掌握专业知识的同时,培养学生树立正确的价 值观和深入理解社会主义核心价值观等。This course systematically introduces the basic theories, principles, methods and applicat ions o
3、f pattern recognition and data mining, focusing on mastering Bayesian decision theory, estimation of probability density function, data preprocessing, feature selection and extraction, feature extraction, association rule mining, sequential pattern mining, etc. based on K-L expansion, and master the
4、 main technologies of data mining, such as statistical methods, machine learning methods, neural computing, database system and data warehouse, etc. Through the study of this course, students wi11 be trained to understand and master the basic concepts, principles, basic analysis methods and algori t
5、hins of pattern recognition and data mining, to cultivate students* ability to use pattern recognition and data mining methods to solve practical problems in their major and related fields. In addition, the course also focuses on professional knowledge points, aiming at mining the integration points
6、 of course knowledge points and ideological and political elements, and using ideological and political cases to enable students to master professional knowledge whi1e at the same time, cultivate students to establish correct values and in-depth understanding of socialist core values.一、课程基本信息负责人大纲执笔
7、人审核人4Ml实验20%A-按时提交作业,基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。C-数据分析过程存在问题。D-不能按时提交实验报告,且完成不好。5Ml期末考试50%(见试卷评分标准)6M2考勤5%A-缺勤2次以内。B-缺勤3次及以上且很少参加课堂讨论。7M2课堂表现10%(见试卷评分标准)8M2平时作业15%A-按时提交作业基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。9M2实验20%A-按时提交作业,基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。C-数据分析过程存在问题。D-不能按时提交实验报告,且完成不好。10M2期末考试
8、50%(见试卷评分标准)11M3考勤5%A-缺勤2次以内。B-缺勤3次及以上且很少参加课堂讨论。12M3课堂表现15%(见试卷评分标准)13M3平时作业15%A-按时提交作业基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。14M3实验20%A-按时提交作业,基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。C-数据分析过程存在问题。D-不能按时提交实验报告,且完成不好。15M3期末考试50%(见试卷评分标准)评分等级说明:A, B, C, D, E = 90-100, 80-89, 70-79, 60-69, 0-59 ; A, B, C, D = 90-10
9、0, 75-89, 60-74, 0-59; A, B, C = 90-100, 75-89, 60-74, 0-59; M, N = 80-100, 0-79六、教材与参考资料序号教学参考资料明细1图书1模式识别,张学工,清华大学出版社,2010, ISBN:9787302225003. (*主教材)2图书1数据挖掘:概念与技术,Jian Pei,机械工业出版社,2012, ISBN:978711139140L (*主教材)3图书1数据挖掘导论,陈封能,人民邮电出版社,2011, ISBN:9787115241009.二、课程目标序号代号课程目标OBE毕业要求指标点任务自选1Ml目标1 :
10、了解模式识别的应用背景与技术特征,熟悉模式识别的应用领域;理解数据挖掘的基本概 念,了解数据挖掘的国内外研究现状,并分析数据挖掘技术在工程问题上的可行性。是12.22M2目标2 :掌握模式识别的基本理论与方法,掌握模式识别的主要原理和知识体系;掌握数据挖掘的主 要功能、主要的挖掘算法和具体应用。是2.23M3目标3 :利用模式识别方法、运用技能解决本专业及相关领域实际问题,并应用于工程实践;深化对 数据挖掘相关算法的原理探究和方法的理解,提高对于数据的分析能力。是2.2三、课程内容序号章节号标题课程内容/重难点支撑课 程目标课内 学时教学方式课外学时课外环节1第1章第1章模式识别 绪论本章重点
11、难点:监督模式识别与非监督模式识别;了解国内模 式识别的发展和成就,熟悉领域内国内的著名学者。1.1模式与模式识别L2模式识别的主要方法1. 3监督模式识别与非监督模式识别L4模式识别系统举例语音识别,说话人识别,字符与文字识别,复杂图像中特定 目标的识别。L5模式识别系统的典型构成Ml2讲授2自学2第2章第2章统计决策 方法本章重点难点:正态分布及其性质,正态分布概率模型下的最 小错误率贝叶斯决策。2. 1引言:一个简单的例子2. 2最小错误率贝叶斯决策最小错误率贝叶斯决策规则的等价形式。2. 3最小风险贝叶斯决策Ml2讲授2自学2. 4两类错误率、ncyman-pcarson决策与roc曲
12、线2. 5正态分布时的统计决策2. 6错误率的计算2. 7离散概率模型下的统计决策举例3第3章第3章概率密度 函数的估计本章重点难点:最大似然估计原理,正态分布时的贝叶斯估 计,核密度估计。3.1引言3. 2最大似然估计最大似然估计的基本原理,最大似然估计的求解,正态分 布下的最大似然估计。3.3贝叶斯估计与贝叶斯学习贝叶斯估计,贝叶斯学习,正态分布时的贝叶斯估计,其 它分布的情况。3. 4概率密度估计的非参数方法非参数估计的基本原理与直方图方法,KN近邻估计方 法,Parzen窗法。M22讲授2作业4实验1实验1 :概率密度 函数估计实验概率密度函数估计的代码实现M22上机2上机5第4章第4
13、章特征选择本章重点难点:特征的评价准则,特征选择的最优算法。4. 1引言4. 2特征的评价准则基于类内、类间距离的可分性判据,基于概率分布的可分 性盘踞,基于燧的可分性判据,利用统计检验作为可分性判 据。4. 3特征选择算法特征选择的最优算法,特征选择的次优算法,单独最优特M22讲授/讨论2作业征的组合,顺序前进法,顺序后退法。4.4特征选择的遗传算法遗传算法的基本思想,遗传算法的实现。4.6以分类性能为准则的特征选择方法递归支持向量机,支持向量机递归特征剔除。6实验2实验2 :特征选择 实验特征选择的代码实现M22上机2上机7第5章第5章特征提取本章重点难点:karhunen-loeve变换
14、,多维尺度法。5.1引言5. 2基于类别可分性判据的特征提取5. 3主成分分析方法5. 4 karhunen-loeve 变换K-L变换的基本原理,用于监督模式识别的K-L变换5.5 k-1变换在人脸识别中的应用举例5. 6高维数据的低维显示5. 7多维尺度法MDS的基本概念,古典尺度发,度量型MDS,非度量型MDS, MDS在模式识别中的应用5. 8非线性变换方法简介核主成分分析,IsoMap方法和LLE方法。M23讲授3作业8实验3实验3 :特征提取 实验特征提取的代码实现。M22上机2上机9第6章第6章分类与预 测熟悉分类的基本概念及其基本过程,重点掌握基于决策树的分 类,熟悉其它的几种
15、分类方法。6.1分类的基本过程分为两步的过程:利用训练集进行学习;使用模型预测给定数 据的类标号。进行分类评估。M23讲授/讨论3作业6. 2分类模型的构造方法包括机器学习方法、统计方法、神经网络方法以及粗糙集的方 法。6.3 基于决策树(判定树)的分类决策树是一个类似流程图的树型结构,其中树的每个内部结点 代表对一个属性的测试,其分支就是代表测试的每个结果,也 就是每一种可能的值和一条边一一对应,叶子节点指定一个类 别,其分类方法采用自顶向下的递归方式。6.4 其他分类方法K-最临近(近邻)分类(KNN),基于统计的分类策略。10实验4实验4:分类与预 测实验分类与预测算法的代码实现。M2,
16、 M32上机2上机11第7章第7章聚类分析本章难点重点:熟悉聚类分析算法分类、聚类分析中的数据类 型。并掌握主要聚类方法的实现,包括基于层次方法以及划分 方法(动态聚类法)。7.1聚类分析概述把一个给定的数据对象集合分成不同的簇;聚类就是按照事物 的某些属性,把事物聚集成类,使类间的相似性尽可能的小, 类内相似性尽量大的过程。7. 2聚类分析算法分类分按照聚类的标准、聚类算法所处的数据类型及聚类的尺度三 种方式来对聚类方法进行分类。7.3聚类分析中的数据类型基本的数据结构、数据的标准化测量、数值型数据的相异性度 量及其它类型的变量相似性值。7. 4主要聚类方法的实现其中层次方法可以分为凝聚层次
17、方法(也称自底向上方法)、分 裂层次方法(自顶向下方法)。划分方法是基于一个n个对象或M22讲授/讨论2作业元组的数据库,构建数据的k个划分,每个划分表示一个簇, k=no12实验5实验5 :聚类分析 实验聚类分析算法的代码实现。M22上机2上机13第8章第8章模式识别 系统的评价本章重点难点:有限样本下错误率的区间估计问题。8.1监督模式识别方法的错误率估计训练错误率,测试错误率,交叉验证。8. 2有限样本下错误率的区间估计问题问题的提出,用扰动重采样估计SVM错误率的置信区间8.3特征提取与选择对分类器性能估计的影响8.4从分类的显著性推断特征与类别的关系8. 5非监督模式识别系统性能的评
18、价M22讲授/讨论2作业14实验6实验6 :模式识别 系统的评价实验监督模式识别方法的错误率估计实验。M22上机2上机15第9章第9章数据挖掘 概述本章主要介绍数据挖掘的定义和过程,介绍数据挖掘系统的一 般结构,以及数据挖掘的常用方法和功能。了解国内数据挖掘 的发展和成就,熟悉领域内国内的著名学者。9.1数据挖掘的定义和过程数据挖掘:数据挖掘即是从海量数据中获取知识的过程与方 法。9. 2数据挖掘的衡量标准学会衡量KDD方法的标准,包括评价其描述模型的能力、精确 性、鲁棒性等。9. 3数据挖掘的常用方法常用KDD技术包括统计方法、机器学习方法、神经计算、数据 库系统与数据仓库以及可视化。Ml2
19、讲授/讨论2自学16实验7实验7:简单的数 据挖掘实验简单的数据挖掘算法的代码实现。M22上机2上机17第10第10章基于数据 库和数据仓库的数 据挖掘熟悉发现知识的归纳方法以及统计分析方法。掌握数据仓库的 定义以及其体系结构和设计与实现。10.1 关系数据库的数据挖掘知识基表浓缩过程中发现知识的归纳方法以及微观操作时发现 知识的统计分析方法。10.2 基于数据仓库的挖掘数据仓库的组成、体系结构及其设计与实现。M22讲授2作业18实验8实验8 :基于数据 仓库的挖掘实验基于数据仓库的挖掘算法代码实现。M2, M32上机2上机19第11第11章数据预处 理主要介绍数据库中的知识发现处理过程,了解
20、数据预处理的重 要性,掌握数据预处理的方法。11.1数据预处理的主要任务熟悉数据处理的应该完成的主要任务,包括数据清洗、数据集 成、数据规约以及数据变换等。H.2数据清洗学习噪声数据处理以及不一致数据处理的方法。11.3数据集成与转换掌握数据集成处理以及数据转换的处理。Ml, M22讲授2作业20实验9实验9 :数据清洗 实验代码实现噪声数据的处理及不一致数据处理的方法。M22上机2上机21第12 章第12章关联规则 挖掘熟悉关联规则挖掘的基本概念,掌握关联规则算法Apriori及 其改进,学习并掌握FP增长算法。12.1关联规则挖掘简介M24讲授/讨论4作业关联规则挖掘在事务、关系数据库中的
21、项集和对象中发现频繁 模式、关联规则、相关性或者因果结构。12.2 关联规则算法Apriori找出所有频繁数据项集,即找出所有支持度超过指定阈值的数 据项集;利用平法数据项集,生成候选的关联规则,并验证其 可信度。如果可信度超过指定阈值,则该候选关联规则为要找 的关联规则。12.3 关联规则算法Apriori改进包括对数值性属性的处理、非事务数据库中关联规则的挖掘及 算法效率的改进。12.4 FP增长算法将数据库的信息压缩成一个描述频繁项相关信息的频繁模式 树。12.5 5多层关联规则由于数据在多维空间的多样性,在低层或原始层的数据项之间 很难找出强关联规则,在较高的概念层发现的强关联规则可能
22、 提供普遍意义的知识。22实验io实验10 :关联规 则挖掘实验几种关联规则挖掘算法的代码实现。M2, M32上机2上机23第13 章第13章序列模式 挖掘序列模式挖掘算法的原理和实现。M22讲授/讨论2作业24实验11实验11 :序列模 式挖掘实验。代码实现客户购买行为模式预测。M22上机2上机25第14第14章图挖 掘、社会网络分析和多关系本章难点重点:图挖掘、多关系数据挖掘(MRDM)。14. 1图挖掘用于挖掘大型图数据集的频繁图模式,并进行特征化、区分、 分类和聚类分析。M22讲授/讨论2作业14.2 社会网络分析社会网络展示了某些特征,它们倾向于遵守稠化哥律,它指出 随着时间的增长,
23、网络变得日益稠密。14.3 多关系数据挖掘(MRDM)多关系数据挖掘方法搜索涉及关系数据库中多个表(关 系)的模式。26实验12实验12 :图挖掘 实验代码实现挖掘大型图数据集的频繁图模式,并进行分析。M2, M32上机2上机四、考核方式序号考核环节操作细节总评占比1考勤随机点名、刷卡点名等5%2实验1 .本课程24个学时实验,共12次实验。2 .成绩采用等级制,根据实验完成情况评分。20%3课堂表现随机检查学生上课精神状态、回答问题情况10%4平时作业1 .每周布置2-3道题目,平均每次课1道题以上。2 .成绩采用白分制,根据作业完成准确性、是否按时上交、是否独立完成评分。3 .考核学生对基本知识的掌握能力、学生综合运用所学知识分析问题、解决问题的能力。15%5期末考试1 .闭卷考试,成绩采用百分制,卷面成绩总分10。分。2 .主要考核学生对模式识别和数据挖掘基本知识的掌握能力,学生综合运用所学知识分析问题、解决问题的能力,题型 主要有选择题、简答题、分析题、计算题、机器学习算法实现题等。50%五、评分细则序号课程目标考核环节大致占比评分等级1Ml考勤5%A-缺勤2次以内。B-缺勤3次及以上且很少参加课堂讨论。2Ml课堂表现10%(见试卷评分标准)3Ml平时作业15%A-按时提交作业基本知识点理解无误。B-按时提交作业,基本知识点理解存在少量错误。
限制150内