《数据挖掘教学大纲(共8页).doc》由会员分享,可在线阅读,更多相关《数据挖掘教学大纲(共8页).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上西北师范大学计算机科学与技术专业课程教学大纲数据挖掘一、说明(一)课程性质数据挖掘是计算机科学与技术专业的选修课程,本课程以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘模型。先修课程:数据库原理、概率论与数理统计、高级程序设计语言、数据结构等。(二)教学目的数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握
2、它。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为统计学专业的一门重要课程。通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,为进入更深入的智能数据分析研究打好基础。(三)教学内容本课程主要学习的内容包括数据预处理、分类与预测、聚类分析等内容(四)教学时数 本课程的教学时数为课堂36学时,上机18学时,2.5学分。 (五)教学方式本课程将采用课堂讲授、上机实验相结合的方法。 二、本文第一章 数据挖掘概述 教学要点:1.理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能。2.了解数据挖掘的应用和面临的问题。3.对数据挖掘能够解决
3、的问题和解决问题思路有清晰的认识。教学时数:3学时。教学内容:第一节 什么是数据挖掘(0.5学时)数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。第二节 数据挖掘在何种数据上进行?(0.5学时)关系数据库、数据仓库、事务数据库第三节 数据挖掘功能可以挖掘什么类型的模式(1学时)关联分析、分类和预测、聚类分析第四节 数据挖掘系统的分类(1学时)数据挖掘系统可以根据所挖掘的知识类型分类。即,根据数据挖掘的功能,如特征、区分、关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等分类。一个全面
4、的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。此外,数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分,包括泛化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。一个先进的数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统还可以分类为挖掘数据规律(通常出现的模式)和数据反规律(如例外或局外者)。一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将局外者作为噪音排除。这些方法也能帮助检测局外者。第二章 数据仓库与OLAP教学要点:1.了解数据集市、数据仓库的基本内涵。2.掌握数据仓库的实现方法,包括如何建立多维数据模型。3.了解数据仓库系统的结构。
5、4.掌握OLAP的典型操作,并能根据实际问题进行OLAP操作。 教学时数: 3学时。 教学内容:第一节 数据仓库(0.5学时)数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定。这个简短、全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其它数据存储系统(如,关系数据库系统、事务处理系统、和文件系统)相区别。第二节 多维数据模型(1学时)星形模式、雪花模式、事实星座模式第三节 数据仓库的系统结构和实现(1学时)1.数据仓库的设计步骤和结构2.三层数据仓库结构3.OLAP 服务器类型第四节 由数据仓库到数据挖掘(0.5学时
6、)1.数据仓库的使用2.由联机分析处理到联机分析挖掘第三章 数据预处理 教学要点:1.了解数据预处理的目的和意义。2.掌握如何读取不同数据源的数据。3.掌握如何对数据进行清理。4.掌握如何对不同数据源的数据进行合并。5.掌握如何对数据进行变换,使之适合建模的需要。6.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效。7.了解目前数据预处理发展及研究动态。教学时数4学时。教学内容:第一节 数据清理(1学时)遗漏值、噪音数据第二节 数据集成和变换(1学时)1.数据集成2.数据变换第三节 数据归约(1学时)1. 数据方聚集:聚集操作用于数据方中的数据。2. 维归约:可以检测并删除不相关、弱相
7、关或冗余的属性或维。3. 数据压缩:使用编码机制压缩数据集。4. 数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。第四节 离散化和概念分层产生(1学时)1.数值数据的离散化和概念分层产生。2.分类数据的概念分层产生。第四章 挖掘频繁模式、关联和相关教学要点:1.了解关联规则的基本思想、概念和意义。2.了解关联规则挖掘的应用背景;掌握常用的关联规则算法。3.掌握关联规则分析如何通过数据挖掘软件实现。4.了解其它方法的内容、了解关联规则挖掘的研究动态。 教学时数: 4学时。 教学内容:第一节 基本概念和路线图
8、(0.5学时)1.购物篮分析2.频繁项集、闭项集和关联规则3.频繁模式挖掘:路线图第二节 有效的和可伸缩的频繁项集挖掘(2学时)1.Apriori 算法:使用候选项集找频繁项集2.由频繁项集产生关联规则3.提高Apriori 算法的有效性第三节 挖掘各种类型的关联规则(1学时)1.多层关联规则2.挖掘多层关联规则的方法第四节 由关联挖掘到相关分析(0.5学时)1.强关联规则2.由关联分析到相关分析第五章 分类与预测教学要点:1.了解分类及预测的基本思想、概念和意义。2.掌握常用的分类及预测算法(或模型)。3.了解分类及预测挖掘的研究动态。教学时数: 12学时。 教学内容:第一节 什么是分类,什
9、么是预测(0.5学时)分类和预测的定义第二节 用决策树归纳分类(1学时)1.决策树归纳2.属性选择度量3.树剪枝4.可伸缩性与决策树归纳第三节 贝叶斯分类(2学时)1.贝叶斯定理2.朴素贝叶斯分类 3.贝叶斯信念网络4.训练贝叶斯信念网络第四节 基于规则的分类(1学时)1.使用IF-THEN规则分类2.从决策树提取规则3.使用顺序覆盖算法的规则归纳第五节 后向传播分类(2学时)1.多路前馈神经网络2.定义网络拓扑3.后向传播4.后向传播和可解释性第六节 支持向量机(2学时)1.数据线性可分情况下的分类2.数据线性不可分情况下的分类第七节 惰性学习法(1学时)1.K最近邻分类算法2.基于案例的推
10、理第八节 其它分类方法(1.5学时)1.遗传算法2.粗糙集方法3.模糊集方法第九节 预测(1学时)1.线性回归2.非线性回归3.其它回归模型第六章 聚类分析教学要点:1.了解如何计算由各种属性和不同的类型来表示的对象之间的相异度。2.了解几种聚类技术,它们可以分为如下几类:划分方法,层次方法,基于密度的方法,基于网格的方法,和基于模型的方法。3.如何利用聚类方法进行离群点分析。教学时数: 10学时。 教学内容:第一节 聚类分析中的数据类型(0.5学时)1.区间标度(Interval-Scaled)变量2.二元变量(binary variable)3.标称型、序数型和比例标度型变量4.混合类型的
11、变量第二节 主要聚类方法的分类(0.5学时)1.划分方法2.层次的方法3.基于密度的方法4.基于网格的方法 第三节 划分方法(2学时)1.典型的划分方法:k-Means 和k-Medoids2.大规模数据库中的划分方法:从k-Medoids 到CLARANS第四节 层次方法(2学时)1.凝聚的和分裂的层次聚类2.BIRCH:利用层次方法的平衡迭代约减和聚类3.ROCK:分类属性的层次聚类算法第五节 基于密度的方法(2学时)1.DBSCAN:一个基于密度和高密度的连结区域的聚类算法2.OPTICS:通过对象排序识别聚类结构3.DENCLUE:基于密度分布函数的聚类第六节 基于约束的聚类分析(2学
12、时)1.含有障碍物的对象聚类2.用户约束的聚类分析3.半监督聚类分析第七节 孤立点(OUTLIER)分析(1学时)1.基于统计分布的离群点探测2.基于距离的离群点探测3.基于密度的局部离群点检测4.基于偏离的离群点探测三、参考书目教材用书:1、Jiawei Han、MichelineKamber 著,范明等译,数据挖掘概念与技术,机械工业出版社,2007年3月,第二版。参考书目:1、张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2004。2、陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,2002。3、林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.1。4、朱明编
13、著,数据挖掘,中国科学技术大学出版社,2002.2。5、Richard J. Roiger, Michael W. Geatz 著,翁敬农 译,数据挖掘教程,清华大学出版社,2003。6、David Hand, Heikki Mannila, Padhraic Smyth著,张银奎、廖丽、宋俊等译,数据挖掘原理,机械工业出版社,2003。 本课程使用教具和现代教育技术的指导性意见本课程教材力求内容新颖,应采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操
14、作任务给学生上机操作并及时指导。数据挖掘实验教学大纲及实验项目课程编号:课程类别:专业基础选修课实验学时:实验18学时学 分:1适用专业:计算机科学与技术一、实验教学目的和任务 数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握它。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为统计学专业的一门重要课程。通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念
15、和方法,为进入更深入的智能数据分析研究打好基础。本课程的任务是:通过实践,学生对常用数据挖掘中的基本概念及其不同算法的实现方法的理论得到进一步的掌握,并对数据挖掘中的数据预处理、分类与聚类方法的具体实现及作用有所体会。二、实验教学基本要求本课程是一门实践性很强的专业课,只有了解这门课程的特点和基本要求,学习时才能做到有的放矢,举一反三,本课程特点主要有以下几个方面:(1) 内容丰富,理论性强。本课程为以后更深入的进行智能数据分析研究打下良好的基础。(2) 注重理论联系实际,加强实验环节的训练。只有通过实验,才能透彻理解基本原理。三、实验教学内容序号项目名称项目类别项目类型项目学时1数据仓库设计
16、基础性选做32数据预处理基础性必做33Apriori算法综合性必做34Nave Bayes综合性选做35决策树算法综合性必做36k-Means算法综合性必做3实验项目内容及要求 实验要求的设备为计算机,统一在计算机实验室完成。实验项目共5个,项目类别分为基础性、综合性和设计性三种,实验项目类型分为必做和选做。要求学生在18学时必须完成必做项目,在完成的基础上实现选做项目。实验一 数据仓库设计实验1、实验目的及要求:(1) 在学习的过程中,学生需要在教材的基础上搜索相关的文献资料,对于研究内容,只要能够形成决策的数据环境即可,同时对于研究方法也不做具体的限制。(2) 对于研究内容,要能体现出数据
17、仓库设计的各个阶段和方法侧重点。2、实验内容及学时分配: (3学时,选做)(1) 针对企业管理的某个领域,研究数据仓库设计的理论与方法。(2) 设计出一个数据仓库实例。实验二 数据预处理实验1、实验目的及要求:(1) 在学习的过程中,学生需要在教材的基础上搜索相关的文献资料,采用任何数据预处理方法,只要能达到相应的决策目的即视为有效。(3) 对于研究内容,只要能够为以后的数据挖掘提供准备功能即可,同时对于研究方法也不做具体的限制,但是要能体现出数据预处理的合理性。2、实验内容及学时分配: (3学时)(1) 研究数据预处理方法。(2) 编制出数据预处理方法的程序,并基于实例进行实现得出最终实验结
18、果。实验三 Apriori算法实验1、实验目的及要求:(1) 掌握Apriori算法模型的实现过程及基本方法。(2) 掌握Apriori算法的实现。2、实验内容及学时分配: (3学时)(1) 选择合理的数据集。(2) 数据预处理。(3) Apriori算法模型设计。实验四 Nave Bayes实验1、实验目的及要求:(1) 掌握Nave Bayes算法模型的实现过程及基本方法。(2) 掌握Nave Bayes算法的实现。2、实验内容及学时分配: (3学时)(1) 选择合理的数据集。(2) 数据预处理。(3) Nave Bayes算法模型设计。实验五决策树算法实验1、实验目的及要求:(1) 掌握
19、决策树算法模型的实现过程及基本方法。(2) 掌握决策树算法的实现。2、实验内容及学时分配: (3学时)(1) 选择合理的数据集。(2) 数据预处理。(3) 决策树算法模型设计。实验六k-Means算法实验1、 实验目的及要求:(1) 掌握k-Means算法模型的实现过程及基本方法。(2) 掌握k-Means算法的实现。2、实验内容及学时分配: (3学时)(1) 选择合理的数据集。(2) 数据预处理。(3) k-Means算法模型设计。四、实验教材(或参考书、指导书)教材用书:1、Jiawei Han、MichelineKamber 著,范明等译,数据挖掘概念与技术,机械工业出版社,2007年3月,第二版。参考书目:1、张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2004。2、陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,2002。3、林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.1。4、朱明编著,数据挖掘,中国科学技术大学出版社,2002.2。5、Richard J. Roiger, Michael W. Geatz 著,翁敬农 译,数据挖掘教程,清华大学出版社,2003。6、David Hand, Heikki Mannila, Padhraic Smyth著,张银奎、廖丽、宋俊等译,数据挖掘原理,机械工业出版社,2003。专心-专注-专业
限制150内