2022年数据挖掘教学大纲 .pdf
《2022年数据挖掘教学大纲 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘教学大纲 .pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 课程编号:6001420363数据挖掘课 程 教 学 大 纲吉 林 财 经 大 学二五年 八 月名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 11 页 - - - - - - - - - 2 数据挖掘课程教学大纲一、课程基本信息1课程编号: 6001420363 2英文名称: Data Mining 3课程模块:专业限选课4课程学时:总计 36 学时,其中,实验(践) 8 学时5学分:2 6先(预)修课程:概率与统计,数据库原理7适用专业:计算机科学与技术、电子商务
2、、信息管理与信息系统8修订时间: 2015.8 二、课程简介数据挖掘是管理科学与信息工程学院开设的一门重要的专业限选课程。本课程主要讲授数据挖掘的基本概念,原理、方法和技术,具体包括:数据的预处理、分类预测、关联挖掘、聚类分析等内容。通过学习,使学生理解数据挖掘的基本流程,掌握数据挖掘的基本理论和技术,熟悉数据挖掘成果的表达; 掌握数据挖掘的基本方法, 能熟练地应用数据挖掘技术对现实数据进行有效的分析,能够结合 Clementine 软件从大量统计数据中获取有价值的信息。三、课程教学目标数据挖掘是高级数据处理和分析技术。通过本课程学习, 使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与
3、技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine 实现数据分析和挖掘,并使学生具有进一步学习的基础与能力。四、教学内容与要求第一章数据挖掘和 Clementine使用概述【教学目的与要求】名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 11 页 - - - - - - - - - 3 本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉 c
4、lementine软件的使用环境。要求学生掌握以下内容:数据挖掘的发展数据挖掘基本知识数据挖掘功能数据挖掘应用数据挖掘的热点问题熟悉 Clementine软件【教学重点】1、数据挖掘概念2、数据挖掘分类【教学难点】1、Clementine操作基础【教学内容】1.1 数据挖掘的产生背景1、数据挖掘产生的背景2、数据挖掘的发展3、数据挖掘概述1.2 什么是数据挖掘1、数据挖掘概念2、数据挖掘分类3、数据挖掘体系结构1.3 Clementine软件概述1、Clementine的配置2、Clementine操作基础第二章Clementine数据管理【教学目的与要求】名师资料总结 - - -精品资料欢迎
5、下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 11 页 - - - - - - - - - 4 本章中的数据管理主要是指数据挖掘中的数据预处理部分。对数据进行预处理, 不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。要求学生掌握本章讲授的所有数据管理技术。【教学重点】1、数据源节点 (Sources ) 2、记录选项节点( Record Ops)3、字段选项节点( Field Ops)【教学难点】【教学内容】2.1
6、 数据源节点 ( Sources ) 1、从开放数据库中导入数据2、从文本文件中读取数据3、导入 Excel 格式的数据4、用户手动创建数据2.2 记录选项节点( Record Ops )1、选择节点( Select )2、对数据的抽样( Sample)3、修正数据集中的不均匀性(Balance )4、统计汇总( Aggregate )5、对节点数据的排序6、区分节点来清除重复记录2.3 字段选项节点( Field Ops)1、变量说明2、变量值的重新计算3、变量类别值的调整4、生成新变量5、变量值的离散化处理6、生成样本集分割变量第三章Clementine 数据的基本描述分析名师资料总结 -
7、 - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 11 页 - - - - - - - - - 5 【教学目的与要求】基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。 描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。要求学生掌握 Clementine数据的基本分析方法。【教学重点】1、数据质量探索2、数据基本描述分析【教学难点】1、两分类变量相关性的研究【教学内容】3.1 数据质量探索1、数据
8、的基本描述与质量探索2、离群点和极端值的修正3、缺失值的替补4、数据质量管理的其他功能3.2 数据基本描述分析1、计算基本描述统计量2、绘制散点图3.3 两分类变量相关性的研究1、两分类变量相关性的图形分析2、两分类变量相关性的数值分析3.4 两总体的均值比较3.5 变量重要性分析第四章关联规则挖掘【教学目的与要求】关联规则是形如 XY的蕴涵式,其中, X 和 Y分别称为关联规则的先导(antecedent或 left-hand-side, LHS)和后继 (consequent 或 right-hand-side, RHS) 。其中,关联规则 XY,存在支持度和信任度。名师资料总结 - -
9、-精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 11 页 - - - - - - - - - 6 本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、 相对比较成熟的分支, 因此本章重点在于一些经典理论和算法、热点问题的介绍。要求学生掌握以下内容:关联规则相关概念Apriori 算法在 Clementine中应用 Apriori 算法【教学重点】1、关联规则相关概念2、Apriori 算法【教学难点】1、序列模式挖掘【教学内容】4.1
10、 关联规则概述1、基本概念2、关联规则表示3、关联规则挖掘算法简介4.2 Apriori 算法1、Apriori 算法生成频繁项集的过程2、Apriori 算法从频繁项集产生关联规则4.3 在 Clementine中应用 Apriori 算法4.4 序列模式挖掘1、序列与序列模式2、AprioriAll 算法3、在 Clementine中应用序列模式挖掘第五章分类与预测【教学目的与要求】。分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类, 用基于归纳的学习算法得出分类。预测可以涉及数据值预测和类标记预测, 但预测通常指值预测。 两者的区别是, 分类是用
11、来预测数据对象的类标记,而预测则是估计某些空缺或未知值。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 11 页 - - - - - - - - - 7 分类与预测在数据挖掘中是一项非常重要的方面,本章对分类与预测的基本概念与步骤、经典的方法以及有关的问题进行了阐述。要求学生掌握如下内容:分类和预测数据分析形式ID3 算法C4.5 算法logistic 回归分析【教学重点】1、决策树概述2、ID3 算法3、C4.5 算法【教学难点】1、logistic 回归分析【教学内容
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘教学大纲 2022 数据 挖掘 教学大纲
限制150内