数据挖掘课程教学大纲.doc
数据挖掘课程教学大纲Data Mining一、课程的性质和教学目的课程性质:数据挖掘是一门重要的专业课程,是一门实践性较强的课程,授课对象为计算机科学专业一年级硕士研究生。本课程的任务是让学生在硕士学习期间掌握数据挖掘理论以及如何用数据挖掘软件工具来解决实际问题,全面提高学生的实际解决数据挖掘问题的能力。数据挖掘是一个新兴的学科,是数据库技术、统计学习、机器学习、模式识别、可视化等学科的交叉,并且广泛应用于科学、工程、商业、产业、医学等诸多领域。教学目的:通过本课程的学习,在理论上掌握数据挖掘理论的有关知识,在实践过程中能利用数据挖掘工具Weka软件包和一些用于数据挖掘的UCI数据集进行数据挖掘并解释数据挖掘的输出结果。通过该课程的学习使学生能独立完成数据挖掘的研究工作来解决实际问题。通过启发式教学和大量实验的练习,引导学生完成不同类型数据挖掘任务的分析与建模工作,培养学生理论和实际相结合的实际运用能力。二、课程教学内容1.第一章从数据挖掘的基本介绍开始,介绍了数据挖掘过程的步骤,使用了一些不同领域的成功例子介绍这种新技术,吸引学生进行实际数据挖掘项目,讨论的数据挖掘的主要挑战。2.第二章从商务角度讨论数据挖掘,这一章从数据挖掘的历史和演化开始,进而讨论数据仓库、联机分析处理和决策支持系统的异同,以及它们最终发展到今天的数据挖掘。3.第三章介绍表示对象的数据的类型和格式,第四章介绍广泛使用的数据挖掘工具之一决策树。介绍了常用的ID3、CART算法以及各种模型的评估技术。4.进行数据挖掘的人将90的时间用于数据预处理,第五章详细讨论预处理的必要性和主要步骤。第六章给出了一些标准数据集的描述和某些数据挖掘工具在这些数据集上的挖掘结果。5.第七章用简单的例子介绍了著名的算法Apriori算法。第八章专门介绍使用Weka开源软件包进行实际数据挖掘方法。6.第九章介绍一些经典的统计学技术,如用于分类的朴素贝叶斯、最近邻方法。第十章介绍了支持向量机SVM方法和SVM的一种变形,称作近支持向量机PSVM方法。7.第十一章介绍另外一种主要的数据挖掘工具聚类技术,包括层次聚类、k均值、k中心点、DBSCAN、OPTICS和基于图的技术。8.第十二章是数据可视化的基础,多维数据可视化是一个专门的领域。本章只介绍一些基本的方法。三、课程教学的基本要求通过本课程的学习,使学生理解数据挖掘在处理海量数据过程中的作用和意义;了解现有数据挖掘的基本理论;理解数据挖掘的基本方法,掌握数据挖掘的分类、聚类、预测、关联等内容,以及用于这些数据挖掘问题的典型算法,能够根据实际数据挖掘问题分析建模并解释实验结果。四、课程的教学环节要求教学环节包括:课堂讲授、案例分析课、讨论课,课后作业。通过本课程各个教学环节的教学,使学生掌握数据挖掘的基本方法,培养学生的自学能力、动手能力、分析问题解决问题的能力。1.课堂讲授教学方法上尽量采用启发式、讨论式教学,在课堂上多提问题,安排一些自学内容,鼓励学生自学,培养学生的自学能力。本课程是一门实践性较强的工程类课程,由于学生缺乏实践经验,教学必须以“案例”教学为主,除第一章概述性介绍最新的技术与理论,其它章节的教学全部结合具体实例进行讲解,为加大信息量,采用Weka工具及多媒体教学手段,以学生为教学主体,采用引导式教学方法。2.习题课(1)根据教学需要,要适当安排上机实验课、课外习题。(2)学生必须独立、按时完成课外习题,习题和作业完成情况应作为评定课程学习成绩的20%。3.考核本课程采用开卷考试方式,满分为100分,折成最终成绩时要乘80%。五、本课程与其它课程的联系与分工对于计算机科学与技术专业的学生来说,本课程的先修课程为数据库原理、程序设计。六、实验(实践)环节内容及其要求本实验要求学生掌握数据挖掘的常用软件工具和标准数据集,如Weka工具软件和UCI数据集,学生根据要求通过数据挖掘工具和UCI数据集实现典型数据挖掘算法。七、建议学时分配教 学 内 容建议学时备 注数据挖掘介绍2数据挖掘商业应用2数据挖掘算法的数据类型、输入和输出2决策树分类2数据挖掘的预处理和数据集2关联规则挖掘2用开源软件Weka进行机器学习2数据挖掘(上机实践教学)4分类和回归算法2数据挖掘(上机实践教学)2支持向量机2数据挖掘(上机实践教学)2聚类分析2数据挖掘(上机实践教学)2多维数据可视化2习题课2总结复习2合 计36学时八、建议教材与教学参考书1数据挖掘基础教程,K.P.Soman,Shyam Diwakar, V.Ajay著,范明,牛常勇 译,机械工业出版社,2009.12数据挖掘教程,Richard J. Roiger, Michael W. Geatz 著, 翁敬农 译,清华大学出版社,20033数据挖掘概念与技术Jiawei Han, Micheline Kamber. 著,范明、孟小峰等译,机械工业出版社,20014数据挖掘概念、模型、方法和算法Mehmed Kantardzic 著,闪四清、陈茵、程雁等译,清华大学出版社,2003