数据挖掘与数据仓库课程教学大纲.docx
数据挖掘与数据仓库教学大纲课程性质专业限选课课程编号Xx408312课程名称数据挖掘与数据仓库适用专业计算机科学与技术、软件工程、网络工程、物联网工程先修课程离散数学、概率统计、线性代数、数据库原理、 MySQL数据库技术、数据结构、算法设计与分析总学时其中理论32 学时学分数2一、课程简介本课程属于计算机科学与技术专业中大数据技术及应用方向的方向限选课。主要目 的是使学生初步具有利用数据仓库技术对业务活动中产生的海量数据的采集、清理、存 储、分析、使用与维护;利用数据挖掘技术在数据仓库中发现隐藏在海量数据中人们未 知的、有价值的信息的能力。学习该课程之前应先修离散数学、概率统计、线性代数、数据库原理、 MySQL数据库技术、数据结构、算法设计与分析。二、课程教学目标通过本课程数据挖掘与数据仓库的学习,学生应实现如下目标:知识目标:要求学术了解数据仓库与数据挖掘的产生、开展,数据挖掘的应用,操 作型处理(事务型处理)和分析型处理,数据仓库的应用,熟悉应用领域与管理,数据挖 掘动机、数据挖掘功能,数据挖掘系统的分类和数据挖掘实施控制,多层关联规那么、多 维关联规那么的基本思想,利用神经网络算法进行数据挖掘的应用;要求学生理解OLAP 概念,以多维数据库为基础的OLAP服务,数据仓库的设计步臊,数据仓库的数据组织 目的,学习组织方法和方式,认识决策数分类的基本思想,神经网络原理等;要求学术 掌握数据库中的知识发现过程,数据仓库的基本原理,展现方式、OLAP的体系结构和分 类,螺旋式开发过程,熟悉应用领域与管理,掌握数据仓库开发设计过程,数据仓库的 开发方法等。能力目标:1、掌握数据挖掘与数据仓库的基础理论和基本知识;2、具有分析数据 和构建数据仓库的能力;3、具有综合运用数据挖掘科学理论和工程技术知识、分析解 决工程问题的基本能力;三、课程教学基本要求1、了解数据仓库及数据挖掘的概念、特征、应用范围,以及主要数据挖掘工具。2、了解OLTP和OLAP的区别;熟悉OLAP的体系结构,以及如何评价OLAP工具; 掌握多维分析的基本分析动作。3、了解数据质量,掌握数据预处理方法。4、掌握数据挖掘的定性归纳技术、关联挖掘、聚类分析、分类方法、预测方法、 文本挖掘、WEB挖掘。5、熟练掌握数据挖掘软件Clementine在各类挖掘任务中的应用。四、课程教学模块(或教学内容)与学时分配序号教学模块知识点学时1数据仓库与 数据挖掘概 述了解:数据仓库及数据挖掘的概念、特征、应 用范围,以及主要数据挖掘工具。理解:数据仓库及数据挖掘的概念。掌握:数据挖掘常用的方法。22数据仓库与OLAP了解:数据仓库的概念,区分与传统数据库技术的不同。理解:数据仓库的存储的数据模型。掌握:常见的数据模型。2了解:数据仓库的体系结构。理解:掌握数据仓库存储的抽取、转换和装载。 掌握:OLAP的典型操作,并能根据实际问题进 行OLAP操作。23数据预处理了解:数据预处理的目的和意义。理解:掌握如何读取不同数据源的数据。掌握:如何对数据进行清理以及不同数据源的 数据进行合并。2了解:目前数据预处理开展及研究动态。2理解:如何对数据进行消减,使得在消减后的 数据集上挖掘更有效。掌握:如何对数据进行变换,使之适合建模的 需要。4挖掘频繁模 式、关联和相 关了解:购物篮分析。理解:频繁项集、闭项集和关联规那么,频繁模 式挖掘路线图。掌握:Apriori算法。2了解:多层关联规那么,挖掘多层关联规那么的方法。理解:强关联规那么。掌握:由关联分析到相关分析。25分类与预测了解:决策树归纳理解:属性选择度量掌握:树剪枝,可伸缩性与决策树归纳2了解:贝叶斯定理掌握:朴素贝叶斯分类理解:贝叶斯信念网络,训练贝叶斯信念网络2了解:使用IF-THEN规那么分类理解:从决策树提取规那么掌握:使用顺序覆盖算法的规那么归纳2了解:数据线性可分情况下的分类 理解:数据线性不可分情况下的分类 掌握:支持向量机分类器的原理与方法2理解:线性回归理解:非线性回归 了解:其它回归模型26聚类分析理解:k-Means理解:k-Medoids2掌握:大规模数据库中的划分方法,从 k-Medoids 到 CLARANS理解:凝聚的和分裂的层次聚类理解:BIRCH利用层次方法的平衡迭代约减和聚类理解:ROCK分类属性的层次聚类算法2了解:含有障碍物的对象聚类 理解:用户约束的聚类分析 理解:半监督聚类分析2理解:基于统计分布的离群点探测理解:基于距离的离群点探测理解:基于密度的局部离群点检测,.基于偏 离的离群点探测2五、教学方法与策略数据挖掘与数据仓库教学以课堂讲授为主,对重点模块(要求熟练掌握局部),可 以进行课堂教学、讨论、视频、虚拟仿真、测试相结合的方法进行教学;课后应该布置 相应的作业,对作业中存在的问题,应该在课堂上进行相应的讲解。六、学生学习成效考核方式七、选用教材考核环节构成(均为100分制)评分依据占总成绩 的比重期末考试(100分)闭卷:题型:填空题20分,判断题30分,分析计算30分,设计应用题20分。40%课堂讨论与小测试(100 分)(1)数据仓库(20分)(2)数据预处理(20分)(3)频繁模式挖掘、关联分析(20分)(4)分类与预测(20分)(5)聚类(20分)30%考勤(100分)旷课一次扣5分20%作业(100分)缺交一次作业扣20分10%Jiawei Han. Micheline Kamber著,范明等译,数据挖掘:概念与技术(第三版), 机械工业出版社,2012.八、参考资料(1)张云涛、龚玲著,数据挖掘原理与技术,电子工业出版社,2004.(2)陈京民编著,数据仓库与数据挖掘技术,电子工业出版社,2002.(3)林杰斌主编,数据挖掘与OLAP理论与实务,清华大学出版社,2003.(4)朱明编著,数据挖掘,中国科学技术大学出版社,2002.(5) Richard J. Roiger, Michael W. Geatz著,翁敬农译,数据挖掘教程,清华 大学出版社,2003.(6)David Hand, Heikki Mannila, Padhraic Smyth 著,张银奎、廖丽、宋俊等译,数据挖掘原理,机械工业出版社,2003.