[精选]数据挖掘技术概述.pptx
《[精选]数据挖掘技术概述.pptx》由会员分享,可在线阅读,更多相关《[精选]数据挖掘技术概述.pptx(146页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据分析和内存计算第4讲 数据挖掘技术概述提纲数据挖掘概览数据预处理分类Classification聚类Cluster关联规则Association Rule回归Regression数据挖掘概览What?数据挖掘的定义Why?数据挖掘的动机How?哪些数据可以用来挖掘?数据挖掘的主要内容数据挖掘定义什么是数据挖掘Data Mining?-Extraction of interesting non-trivial,implicit,previously unknown and potentially useful patterns or knowledge from huge amount o
2、f data-其他称谓:Knowledge discoverymining in databaseKDD,data/pattern analysis,business intelligence,decision-support system,knowledge extraction,data archeology,data dredging and information harvesting etc.模式有效性度量SimplicityE.g.,association rule length,decision tree size CertaintyE.g.,confidence,PA|B=#A
3、 and B/#B,classification reliability or accuracy,rule strength,etc.UtilityPotential usefulness,e.g.,support association,noise threshold description NoveltyNot previously known,surprising used to remove redundant rules 为何需要数据挖掘?1.数据量大2.缺乏理论知识3.数据挖掘可以帮助产生新的假说或者使数据变得有意义为何需要数据挖掘?We are drowning in data,
4、but starving in knowledge Data explosion:Automated data collection tools and mature database technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases,data warehouses,and other information repositories.苦恼:淹没在数据中;不能制定合适的决策!数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关
5、联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府n人口统计人口统计n生命周期生命周期数据挖掘的意义数据挖掘数据挖掘辅助社辅助社会管理会管理促进民促进民生改善生改善支持商支持商业决策业决策推动科推动科技进步技进步股票趋势分析股票趋势分析智能交通智能交通数据挖掘应用l银行 银行家协会ABA预测数据仓库和数据挖掘技术在 商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等l电子商务网上商品推荐;个性化网页;自适应网站l生物制药、
6、基因研究DNA序列查询和匹配;识别基因序列的共发生性 l电信欺诈甄别;客户流失l保险、零售数据挖掘应用Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神经网络神经网络 Neural Networks Neural Networks聚类分析聚类分析 Clustering ClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence Analysis Sequence Analysis决策树决策树 Decision Trees Decision Trees 倾向性分析
7、 客户保存 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保存 目标市场 欺诈检测关联分析关联分析 Association Association 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘步骤数据预处理数据清理消除噪音或不一致数据,补缺数据集成多种数据源可以组合在一起数据变换标准化数据规约数据简化数据挖掘算法使用智能方法提取数据模式分类、聚类、关联分析、回归预测、文本挖掘质量评估识别提供知识的真正有趣模式知识表示可视化和知识表示技术数据质量:为何需要数据预处理?数据质量衡量:准确度:correct or wrong,accurate or not完
8、整度:not recorded unavailable一致性:some modified but some not,dangling时效性:timely update?可信度:how trustable the data are correct?可解释性:how easily the data can be understood?数据挖掘预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换标准化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一局部,通过概念分层和数据的离散
9、化来规约数据,对数字型数据特别重要数据清洗脏数据:例如设备错误,人或者机器错误,传输错误等不完整性:属性值缺失或者只有聚集数据p例如:phone=“;噪音:包含噪声、错误或者异常值p例如:salary=-10不一致性:p例如:age=42,birthday=03-07-2010假值:p例如:使用某一值填补缺失属性缺失值In plete/Missing Data数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比方销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记
10、载空缺值要经过推断而补上如何补充缺失值忽略元组:当类标号缺少时通常这么做假定挖掘任务设计分类或描述,当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比方使用unknown或-使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像使用最可能的值填充空缺值:使用像BayesianBayesian公公式或判定树这样的基于推断的方法式或判定树这样的基于推断的方法噪声数据噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致其
11、它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据分箱分箱:first sort data and partition into equi-depth binsthen one can smooth by bin means,smooth by bin median,smooth by bin boundaries,etc.聚类聚类detect and remove outliers人机融合人机融合detect suspicious values and check by human e.g.,deal with possible outliers回归回归smooth b
12、y fitting the data into regression functions分箱Binning等宽Equal-width distance partitioning:Divides the range into N intervals of equal size:uniform gridif A and B are the lowest and highest values of the attribute,the width of intervals will be:W=B A/N.The most straightforward,but outliers may dominat
13、e presentationSkewed data is not handled well.等深Equal-depth frequency partitioning:Divides the range into N intervals,each containing approximately same number of samplesGood data scalingManaging categorical attributes can be tricky.数据平滑的分箱方法price的排序后数据单位:美元:4,8,15,21,21,24,25,28,34划分为等深的箱:箱1:4,8,15
14、箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34聚类:Cluster Analysis每个簇中的数据用其中心值代替忽略孤立点先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点Regression通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。线性回归 多线性回归非线性回归xyy=x+1X1Y1Y1数据集成实体识别元数据可帮助防止错误知识图谱属性冗余相关分析数据重复元组冗余数据值冲突的检测与处理表示、比
15、例或编码不同数据变换标准化平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。聚集:对数据进行汇总或聚集。数据泛化概化:使用概念分层,用高层概念替换低层或“原始数据。标准化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标标准化。数据变换平滑,聚集数据概化,标准化属性构造特征构造有限区间的归一化:无限区间的归一化:模糊隶属度:数据规约海量数据 代表性数据对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。对归约后的数据集挖掘将更有效,并产生相同或几乎相同
16、的结果。数据规约数据归约策略:1数据立方体聚集:对数据立方体做聚集操作2属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。3维度归约:删除不重要的属性4数值归约:用规模较小的数据表示、替换或估计原始数据5离散化和概念分层产生属性的原始数值用区间值或较高层的概念替换数据立方体据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。如:立方体内存储季度销售额,假设对年销售额感兴趣,可对数据执行聚集操作,例如sum等。属性子集选择通过删除不相关或冗余的属性或维减小数据集。其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。通过穷举搜索找出有属性的最正确子集是
17、不现实的。通常采用压缩搜索空间的启发式算法。如贪心算法:从局部最优到全局最优。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳维度规约维度归约使用数据编码或变换,以便得到原数据的归约或“压缩表示。分为无损和有损两种。主要方法:串压缩:无损,但只允许有限的数据操作。小波变换DWT:有损,适合高维数据。主成分分析PCA:有损,能更好地处理稀疏数据。数值规约通过选择替代的、“较小的数据表示形式来减少数据量。可以分为参数方法和非参数方法。参数方法:回归regression 和对数线性模型非参数方法:直方图、聚类、抽样离散化离散化的用途:1适应某些仅接受离散值的算法;2减小数据的尺度。离散化的
18、方法包括几下几种。1等距分割;2聚类分割;3直方图分割;4基于熵的分割;5基于自然属性的分割。抽样用数据的小得多的随机样本子集不是大型数据集。抽样方法s个样本无放回简单随机抽样s个样本有放回简单随机抽样聚类抽样分层抽样分类分类分类是指将数据映射到预先定义好的群组或类。在分析测试数据之前,类别就已经被确定了,所以分类统称被称作有指导的学习。分类算法要求基于数据属性来定义类别。分类算法通常通过观察所属类别的数据的特征来描述类别。分类应用分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。为了识别乘客是否是潜在的 分子或罪犯,机场安全摄像站需要对乘客的脸部进行扫描并辨识脸部的基本
19、模式例如双眼间距、嘴的大小及形状、头的形状,然后将得到的模式与数据库中的 分子或罪犯的模式进行逐个比较,看看是否与其中的某一模式相匹配。分类步骤1建立一个模型,描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,假定每个元组属于一个预定义的类,由一个称作类标号。通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。2.使用模型进行分类首先评估模型分类法的预测准确率。p将的类标号与该样本的学习模型类预测比较p准确率等于测试集的样本中被模型正确分类的百分比p测试集应该与训练集的内容相互独立,
20、否则会出现过分适应的情况如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。1模型的构建TrainingDataClassificationAlgorithmsIF rank=professorOR years 6THEN tenured=yes Classifier(Model)NAME RANKYEARSTENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no2
21、利用模型分类ClassifierTestingDataUnseen Data(Jeff,Professor,4)Tenured?分类方法评价预测的准确率l这涉及模型正确地预测新的或先前未见过的数据的类标号的能力速度l构造模型的速度l利用模型进行分类的速度强壮性l给定噪声数据或具有空缺值的数据,模型正确预测的能力可伸缩性l当给定大量数据时,有效地构造模型的能力可解释性 l涉及学习模型提供的理解和洞察的层次分类器性能评价方式准确率和召回率-混淆矩阵等给定一个类Cj和一个数据库元组ti,ti可能被分类器判定为属于Cj或不属于Cj,其实ti本身可能属于Cj或不属于Cj,这样就会产生如下一些情况:真正:
22、判定ti在Cj中,实际上确实在其中。假正:判定ti在Cj中,实际上不在其中。真负:判定ti不在Cj中,实际上不在其中。假负:判定ti不在Cj中,实际上确实在其中。准确率:P=A/A+B召回率:R=A/A+C评估分类方法的准确性保持方法给定数据随机划分为两个集合:训练集2/3和测试集1/3训练集导出分类法,测试集对其准确性进行评估k-折交叉验证初始数据被划分为k个不相交的,大小大致相同的子集S1,S2Sk进行k次训练和测试,第i次时,以Si做测试集,其他做训练集准确率为k次迭代正确分类数除以初始数据集样本总数分类方法基于距离的分类方法与一个类中的成员和另一个类中的成员之间的相似性相比,被映射到同
23、一个类中的成员彼此之间被认为是更加相似的。相似性距离度量可以用来识别数据库中不同成员之间的“相似程度。基于距离的分类方法的直观解释a类定义类定义b待分类样例待分类样例c分类结果分类结果距离计算方法闵可夫斯基距离:当p=2时,为欧几里得距离当p=1时,为曼哈顿距离当p-时,为切比雪夫距离向量内积:夹角余弦:Jaccard:还有信息熵、相关系数等其他的度量方法基于距离的分类方法的一般性描述算法算法 基于距离的分类算法基于距离的分类算法输入:每个类的中心输入:每个类的中心C1,Cm;待分类的元组;待分类的元组t。输出:输出类别输出:输出类别c。1dist=;/距离初始化距离初始化2FOR i:=1
24、to m DO 3 IF disci,tdist THEN BEGIN4cCi;5distdistCi,t;6 END.算法通过对每个元组和各个类的中心来比较,从而可算法通过对每个元组和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。以找出他的最近的类中心,得到确定的类别标记。K近邻算法KNNK K Nearest Nearest neighborneighborKNNKNN通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。训练样本用n维数值属性描述。每个样本代表n维空间的一个点。
25、所有的训练样本都放在n维模式空间中。给定一个样本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本。K近邻算法KNN要求的信息要求的信息训练集训练集距离计算值距离计算值要获取的最邻近的邻居的数目要获取的最邻近的邻居的数目k k一个未知的记录进行分类一个未知的记录进行分类计算与其它训练记录之间的距离计算与其它训练记录之间的距离识别出识别出k k个最近的邻居个最近的邻居使用最近邻居的类标号来标识未知元组的类使用最近邻居的类标号来标识未知元组的类by taking by taking majority votemajority voteK近邻算法KNN算法算法 K-近邻分类算法近邻分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 精选 数据 挖掘 技术 概述
限制150内