数据挖掘课程复习提纲.doc
《数据挖掘课程复习提纲.doc》由会员分享,可在线阅读,更多相关《数据挖掘课程复习提纲.doc(28页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘课程复习提纲(12级计算机、软件、网络)有关考试题型:一、填空题(15分,每空1分)二、判断题(10分,每题1分)三、计算题(55分,4大题,13大题各15分,第4大题10分)聚类、分类、关联分析、异常挖掘各一题四、问答题(20分,3题,分别是7分,6分,和7分题)基本要求:掌握数据预处理、分类、聚类、关联分析、异常挖掘的基本方法、clementine的基本使用方法,及每类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点掌握k-means、一趟聚类、DBSCAN、ID3(C4.5)、Bayes、KNN、Apriori及基于距离、密度、聚类的异常检测方法。第一章 绪论1 数据挖掘的
2、定义技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。2 数据挖掘的任务预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模式挖掘。(1) 关联(Association)分析关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁
3、出现的模式知识(又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。 (2) 分类(Classification)分析分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。(3) 聚类(Clustering)分析“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。 聚类与分类的区别 聚类问题是无指导的:没有预先定义的类。 分类问题是有指导的:预先定义有类。 (4) 演化(Evolving)分析演化分析就是对随时间变
4、化的数据对象的变化规律和趋势进行建模描述。 如:商品销售的周期(季节)性。 (5) 异常(Outlier)分析异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人的调查等。(6) 序列模式(Sequential Pattern)挖掘 分析数据间的前后序列关系 3 数据挖掘的对象包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网4.知识发现的主要步骤: (1) 数据清洗(data clearing)。其作用是清除数据噪声和与挖掘主题明显无关的数据。(2) 数据集成(data integration)。其作用是将来自多数
5、据源中的相关数据组合到一起。(3) 数据转换(data transformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。(4) 数据挖掘(data mining)。其作用是利用智能方法挖掘数据模式或规律知识。(5) 模式评估(pattern evaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。(6) 知识表示(knowledge presentation)。其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识。数据挖掘只是知识发现过程的一个步骤。5 数据挖掘产生背景及应用领域产生背景:“数据过剩”、“信息爆炸”与“知识贫乏” 使得人们淹
6、没在数据中, 难以制定合适的决策!应用领域:在许多行业都有广泛应用,有大量数据的领域就有应用。(1)数据挖掘在商业领域中的应用市场分析和管理,公司分析和风险管理,欺诈行为检测和异常模式的发现,自动趋势预测,(2)数据挖掘在计算机领域中的应用信息安全:入侵检测,垃圾邮件的过滤,互联网信息/使用挖掘,智能回答系统(3)其它领域中的应用数据挖掘在工业制造方面的应用,生物信息或基因的数据挖掘,体育竞赛,天文学,军事情报分析(反恐),电视观众预测,多媒体、空间数据分析,6 数据挖掘使用的软件SPSS Clementine、SAS Enterprise Miner 、IBM Intelligent Min
7、er 、SQL Server 2005,Oracle DM等商用软件能够提供常规的挖掘过程和挖掘模式。Matlab, Excel(Data mining in Excel: XLMiner)等提供了数据挖掘模块。Weka,RapidMiner(YALE),ARMiner等为开源数据挖掘工具。7 数据挖掘领域10大挑战性问题:(1) 数据挖掘理论的构建(2) 高维、数据流数据挖掘(高效、可扩展) (3) (时间)序列数据挖掘(4) 从复杂数据中挖掘复杂知识(5) 网络环境下的数据挖掘技术 (6) 分布式、多代理的数据挖掘(7) 生物及环境问题数据挖掘(8) 相关问题的数据挖掘处理(9) 安全、隐
8、私及数据整合(10) 非静态、不平衡及代价敏感的数据挖掘第二章 数据预处理1 数据挖掘中使用的数据(1) 数据挖掘中使用的数据是数据对象及其属性的集合。其中:属性是指对象的性质或特性,对象也称为数据对象、点、样本、观测或是实体等。数据集是数据对象的集合(同分布、同特征)。(2) 不同的属性类型:分为分类属性和数值属性,分类属性又分标称型和序数型,而数值属性又分区间型和比率型。如性别为标称型,好坏等级为序数型,日期时间为区间型,分数为比率型。因此,根据属性具有的不同性质,属性可分为四种:标称、序数、区间、比例 。(3) 数据集的类别:记录数据、基于图形的数据、有序的数据、序列数据。(4) 数据集
9、的特性::维度(Dimensionality),稀疏性(Sparsity),分辨率(Resolution)。2 数据的质量问题现实世界中的原始数据往往存在一定的质量问题,如:噪声、离群点、缺失值、重复数据等,需要对其进行“清洗”才能更高效地进行挖掘。中位数的定义:设给定的N个不同值的数据集按数值升序排序,如果N是奇数,则中位数是有序集的中间值,否则中位数是中间两个值的平均值。众数的定义:数据集中出现次数最多的值。3 数据预处理(1) 为什么要预处理数据o 现实世界的数据是“不干净的” 不完整的:有感兴趣的属性缺少属性值 含噪声的:包含错误或“孤立点” 不一致的:在命名或编码上存在差异o 没有高
10、质量的数据,就没有高质量的挖掘效果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致性地集成o 意义 使挖掘过程更有效、更容易 目的:提供干净、简洁、准确的数据,提高挖掘效率和准确性(2) 数据预处理工作一般包括:数据清理、数据集成、数据变换、数据归约、离散化及特征选择等。数据清理包括填写空缺数据,平滑噪声数据,识别、删除孤立点,数据集成,抽样等。数据集成是集成多个数据库,数据立方体或文件。数据变换是对原始数据进行规范化和特征构造。数据归约是对数据集进行压缩表示及特征选择。数据离散化是通过概念分层和数据离散化来归约数据。(3) 抽样:用数据较小的随机样本表示大的数据集o 抽
11、样是一种选择数据对象子集进行分析的常用方法o 数据挖掘使用抽样是因处理所有数据的费用太高、太费时间 o 有效抽样原理:如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样抽样方法:o 简单随机抽样:无放回抽样 ,有放回的抽样 o 分层抽样 特点:总体由不同类别的对象组成,每种类型的对象数量差别很大 先对数据集进行分组:数据集D被划分为互不一相交的“层”,则可通过对每一层按一定比例简单随机选样得到D的分层选样 利用聚类实现分层抽样:将数据集D划分成m个不相交的簇,再在聚类结果的簇上进行简单随机抽样抽样方法可以压缩数据量。如果数据的类别不均衡,通常采用的抽样方法是分层抽样。(4) 噪声的
12、处理方法包括:分箱(将数据落入箱中来平滑数据)、聚类(通过聚类监测并且去除孤立点)、计算机与人工结合(计算机检测可疑数据然后对可疑数据进行人工判断)、回归(通过让数据适应回归函数来平滑数据)。 规范化通过将属性数据按比例缩放,通过一个函数将给定属性的整个值域映射到一个新的值域中,即每个旧的值都被一个新的值替代。有3种规范化策略。规范化方法一 最小最大(min-max)规范化通过线性变换将值转换到区间0,1,这里分别为f的n个观测值的最小值和最大值。最小最大规范化保持原有数据之间的联系。如果今后的输入落在A的原始数据值域之外,该方法将面临“越界错误”。规范化方法二z-score规范化,其中为属性
13、标准差,为属性平均值。当属性f的实际最大和最小值未知,或异常点左右了最小最大规范化时,该方法是有用的。规范化方法三小数定标规范化小数定标规范化通过移动属性A 的小数点位置进行规范化。A 的值v 被规范化为v,由下式计算:,其中,j是使 的最小整数。(5) 数据归约策略数据归约:数据归约用来得到数据集的简约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果o 数据归约策略 数据立方体聚集 维归约:通过删除不相干的属性或维减少数据量 数据压缩:用数据编码或者变换得到原始数据的压缩表示。典型的有小波变换和主成分分析 数值归约 离散化和概念分层o 归约标准 用于数据归约的时间不应当超过或“抵消”
14、在归约后的数据上挖掘节省的时间 归约得到的数据比原数据小得多,但可产生相同或几乎相同的分析结果(6) 特征提取(Feature Extraction):由原始数据创建新的特征集o 映射数据到新的空间 从不同视角提示重要和有趣的特征 傅里叶变换(Fourier Transform) 小波变换(Wavelet Transform)o 特征构造 由一个或多个原始特征共同构造新的特征(7) 特征选择从一组已知特征集合中选择最具代表性的特征子集,使其保留原有数据的大部分信息,即所选特征子集可以像原来的特征全集一样用来正确区分数据集的每个数据对象。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高
15、数据处理的效率。特征选择可以用于解决维数灾难的问题。 特征选择目的:去除不相关和冗余的特征,降低时间空间复杂度,提高数据质量及数据泛化能力。 理想的特征子集:每个有价值的非目标特征与目标特征强相关,而非目标特征之间不相关或是弱相关 基本步骤:去掉与目标特征不相关的特征,删除冗余特征(8) 离散化与概念分层离散化:通过将属性域划分为区间,减少给定连续属性值的个数。包括等宽离散化,等频离散化等方法。概念分层:通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)。4 距离与相似性
16、属性之间的相似性度量 (1) Cosine相似度定义两个向量的夹角余弦为相似度,即: 对文档进行聚类时通常采用余弦相似度计算相似性。(2) 相关系数(Correlation coefficient)相关系数是标准化后的对象之间的夹角余弦,它表示两个向量的线性相关程度。具有平移不变性。(3) Pearson相关系数对象之间的相似性度量常用距离函数:(1) 间隔数值属性设m为样本空间的维数,对于任意样本对象与。欧式(Euclidean)距离:曼哈顿(Manhattan)距离:Canberra距离:(2) 二值属性二值属性变量(binary variable)只有两种状态:0或1,表示属性的存在与否
17、。一种差异计算方法就是根据二值数据计算。假设二值属性对象p和q的取值情况如表2-1所示。其中表示对象p和q中均取1的二值属性个数,表示对象p取1而对象q取0的二值属性个数,表示对象p取0而对象q取1的二值属性个数,表示对象p和q均取0的二值属性个数。表2-1 二值属性对象p和q的取值情况对象p对象q10合计10合计Jaccard系数定义如下:第三章 分类1 分类的定义分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值,
18、例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。2 分类的应用领域 目前分类与回归方法已被广泛应用于各行各业,如:在金融领域中,分类器被用于预测股票未来的走向。在医疗诊断中,使用分类模型预测放射学实验室医疗癌症的诊断、精神病的诊断、医疗影像的诊断等。在市场营销中,利用历史的销售数据,预测某些商品是否可以销售、预测广告应该投放到哪个区域、预测某客户是否会成为商场客户从而实施定点传单投放等。3 分类的步骤(1) 将数据集划分为训练集和测试集;(2) 对训练集进行学习,构建分类模型;(这个模型可以是决策树或分类规则等形式)(3) 用建好的分类模型对测
19、试集进行分类;(4) 评估该分类模型的分类准确度及其它性能;(5) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。4 分类算法归类分类方法大体上有以下几类:基于决策树的分类方法、贝叶斯分类方法、最近邻分类方法、神经网络方法、粗糙集、支持向量机等。回归则包括线性回归、非线性回归、逻辑回归等。5 决策树分类算法决策树分类方法的特点是对训练样本集进行训练,生成一棵形如二叉或多叉的决策树。决策树中每个非叶节点表示样本的一个属性,每个分支表示非叶结点属性取不同值下的样本子集,每个叶结点存放一个类标号值。决策树算法的关键环节是如何选择测试属性和划分样本集,目前主要决策树学习算法包括ID3、
20、C4.5、CART、SLIQ、SPRINT、PUBLIC等。5.1 ID3决策树分类算法介绍ID3分类算法由Quinlan于1986年提出,使用信息增益(information gain)作为属性的选择标准。其基本思想如下:首先检测所有属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一个类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。ID3分类算法的伪代码如下:函数:DT(S,F)输入:训练集数据S,训练集数据属性集合F输出:ID3决策树(1)if 样本S全部属于同一个类别C th
21、en(2) 创建一个叶结点,并标记类标号为C;(3) return;(4)else(5) 计算属性集F中每一个属性的信息增益,假定增益值最大的属性为A(6) 创建结点,取属性A为该结点的决策属性;(7) for 结点属性A的每个可能的取值V do(8) 为该结点添加一个新的分支,假设SV为属性A取值为V的样本子集(9) if 样本SV全部属于同一个类别C then(10) 为该分支添加一个叶结点,并标记类标号为C;(11) else(12) 递归调用DT(SV, F-A),为该分支创建子树;(13) end if(11) end for(12)end ifID3算法使用信息增益来获取最好的属性
22、作为决策结点,以使得训练记录被划分为较纯的子集。信息增益是度量一个给定属性划分训练集到目标类的好坏程度。信息增益值最高的属性被选择作为决策结点。ID3建决策树例子见书本。熵(entropy)的定义:熵用来度量一个属性信息的数量。假设训练集S的类标号属性C具有m个可能的值,即C=C1,C2,Cm,并且Ci在所有样本中出现的频率为Pi (i=1,2,3,m),则该训练集S所包含的信息熵Entropy(S)为:如果所有记录都属于同一个类,则训练集S的熵值为0,表示很纯。例如假定数据集S中有14个样本,目标属性Play Ball有2个值:Play Ball=Yes, No。14个样本的分布为:9个样本
23、的类标号取值为YES,5个样本的类标号取值为NO,因此: C1=Yes在所有样本S中出现的概率为:9/14,C2=NO在所有样本S中出现的概率为:5/14,因此数据集S的熵为:信息增益的定义:ID3中信息增益(information gain)的定义是:划分前样本的不纯程度(熵)和划分后样本的不纯程度(熵)的差值。假设划分前样本数据集为S, 现在假定用属性A来划分样本S,则按属性A划分S的信息增益Gain(S,A)为:样本S的熵减去按属性A划分S后的样本子集的熵。其中:按属性A划分S后的样本子集的熵定义如下:假定属性A有k个不同的取值,从而将S划分为k个样本子集S1,S2,Sk,则按属性A划分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程 复习 提纲
限制150内