【教学课件】第5章传统数据挖掘技术.ppt
《【教学课件】第5章传统数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第5章传统数据挖掘技术.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第 2 章章 计算机局域网集成计算机局域网集成 第5章章 传统数据挖掘技术传统数据挖掘技术 5.1传统的统计分析类数据挖掘技术传统的统计分析类数据挖掘技术 5.2统计分析类工具统计分析类工具 5.3统计分析类工具的应用统计分析类工具的应用 5.4统计分析类工具应用的问题统计分析类工具应用的问题 练习练习 第第 2 章章 计算机局域网集成计算机局域网集成 5.1 传统的统计分析类数据挖掘技术传统的统计分析类数据挖掘技术 5.1.1 统计与统计类数据挖掘技术统计与统计类数据挖掘技术1统计与数据挖掘统计与数据挖掘统计推断分析统计推断分析 2统计类数据挖掘技术统计类数据挖掘技术第第 2 章章 计算机
2、局域网集成计算机局域网集成 5.1 传统的统计分析类数据挖掘技术传统的统计分析类数据挖掘技术 5.1.2 数据的聚集与度量技术数据的聚集与度量技术常用的聚集函数,例如,常用的聚集函数,例如,count()、()、sum()、()、avg()、()、max()、()、min()等()等 数据中心趋势度量,可以采用算术平均值加权算术平均值。,第第 2 章章 计算机局域网集成计算机局域网集成 5.1.3 柱状图数据挖掘技术柱状图数据挖掘技术,序号姓名年龄收入信用评价性别1王平62一般一般女2李力53一般差男3高洁47高一般女4李强32一般差男5李玲21高优良女6曾前27高一般男7武颖50低优良女8程
3、勇46高优良男9牛兰27低优良女10高程68低优良男第第 2 章章 计算机局域网集成计算机局域网集成 5.1.3 柱状图数据挖掘技术柱状图数据挖掘技术,第第 2 章章 计算机局域网集成计算机局域网集成 5.1.4 线性回归数据挖掘技术线性回归数据挖掘技术,线形回归是最简单的回归形式。双变量回归将一个随机变量Y(称作响应变量)看作为另一个随机变量x(称为预测变量)的线形函数,即Y=+x (5.1)=-第第 2 章章 计算机局域网集成计算机局域网集成 5.1.5 非线性回归数据挖掘技术非线性回归数据挖掘技术,双曲线模型双曲线模型二次曲线模型二次曲线模型对数模型对数模型三角函数模型三角函数模型指数模
4、型指数模型幂函数模型幂函数模型修正指数增长曲线修正指数增长曲线第第 2 章章 计算机局域网集成计算机局域网集成 5.1.6 聚类数据挖掘技术聚类数据挖掘技术,1.聚类分析原理聚类分析原理.年龄80类别1类别2类别3收入6000030000 150000第第 2 章章 计算机局域网集成计算机局域网集成 5.1.6 聚类数据挖掘技术聚类数据挖掘技术,1.聚类分析原理聚类分析原理“孤立点”或“奇异点”“欧几里得距离”“曼哈顿距离”“明考斯基距离”第第 2 章章 计算机局域网集成计算机局域网集成 2.分层聚类分层聚类NumLabel新增率流失率numLabel新增率流失率1江苏0.520.309内蒙古
5、0.160.082山东0.120.1210陕西0.360.103广东0.310.1111广西0.340.104海南0.390.1312吉林0.140.115辽宁0.100.1213湖北0.160.096黑龙江0.180.1214新疆自治区0.260.057江西0.460.1415浙江0.360.158上海0.500.1416第第 2 章章 计算机局域网集成计算机局域网集成 BIRCH算法主要分两个阶段进行:阶段一:扫描数据库,建立一个初始的CF树,看作一个数据的多层压缩,试图保留数据内在的聚类结构。当一个对象被插入到最近的叶节点(子聚类)中时,如果在插入对象后,存储在叶节点中子聚类的直径大于阀
6、值,那么该叶节点被分裂,也可能有其他节点被分裂。新对象插入后,关于该对象的信息向根节点传递。通过修改阀值,CF树的大小可以改变。阶段二:采用某个聚类算法对CF树的叶节点进行聚类。BIRCH算法具有可伸缩性,通过对数据集的首次扫描产生一个基本聚类,二次扫描则进一步改进聚类质量并处理孤立点。BIRCH算法处理速度较快,只是对非球形簇处理效果不好。第第 2 章章 计算机局域网集成计算机局域网集成 CURE算法的主要步骤如下:算法的主要步骤如下:从源数据集中抽取一个随机样本从源数据集中抽取一个随机样本S。将样本将样本S划分为一组划分。划分为一组划分。对每个划分进行局部的聚类。对每个划分进行局部的聚类。
7、通过随机抽样剔除孤立点。如果一个簇增长太通过随机抽样剔除孤立点。如果一个簇增长太慢,就删除该簇。慢,就删除该簇。对局部的簇进行聚类。落在每个新形成的簇中对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的收缩因子收缩或向簇中的代表点根据用户定义的收缩因子收缩或向簇中心移动。这些点代表了簇的形状。心移动。这些点代表了簇的形状。用相应的簇标签来标记数据。用相应的簇标签来标记数据。第第 2 章章 计算机局域网集成计算机局域网集成 3.划分聚类划分聚类k-平均算法最为简单。每个簇用该簇中对象的平均值来表示。平均算法最为简单。每个簇用该簇中对象的平均值来表示。首先将所有对象随机分配到首先将所有
8、对象随机分配到k个非空的簇中。个非空的簇中。计算每个簇的平均值,并用该平均值代表相应的簇。计算每个簇的平均值,并用该平均值代表相应的簇。根据每个对象与各个簇中心的距离,分配给最近的簇。根据每个对象与各个簇中心的距离,分配给最近的簇。然后转第二步,重新计算每个簇的平均值。这个过程不断重复然后转第二步,重新计算每个簇的平均值。这个过程不断重复直到满足某个准则函数才停止。直到满足某个准则函数才停止。k-中心点算法中心点算法每个簇用接近聚类中心的一个对象来表示。首每个簇用接近聚类中心的一个对象来表示。首先为每个簇选择一个代表对象,剩余的对象根先为每个簇选择一个代表对象,剩余的对象根据其与代表对象的距离
9、分配给最近的一个簇。据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以提高然后反复用非代表对象代替代表对象,以提高聚类的质量。聚类的质量。第第 2 章章 计算机局域网集成计算机局域网集成 4.密度聚类密度聚类DBSCAN算算法法首首先先需需要要用用户户给给定定聚聚类类对对象象的的半半径径-邻邻域域和和-邻邻域域中中最最少少要要包包含含的的对对象象数数MitPts。然然后后算算法法检检查查某某个个对对象象-邻邻域域中中的的对对象象数数,如如果果对对象象数数大大于于MitPts,该该对对象象就就是是核核心心对对象象,就就构构建建以以该该对对象象为为核核心心的的新新簇簇。然
10、然后后反反复复寻寻找找从从这这些些核核心心对对象象出出发发在在-邻邻域域内内的的对对象象,这这个个寻寻找找过过程程可可能能会会合合并并一一些些簇簇,直直到到没没有有新新的的对对象象可可以以添加到任何簇中为止。添加到任何簇中为止。第第 2 章章 计算机局域网集成计算机局域网集成 4.密度聚类密度聚类OPTICS算算法法是是对对DBSCAN算算法法的的改改进进,因因为为在在DBSCAN算算法法中中需需要要用用户户设设定定-邻邻域域和和MitPts,但但是是在在实实际际应应用用中中用用户户往往往往很很难难确确定定这这些些参参数数,而而且且这这些些参参数数设设置置的的不不同同往往往往会会导导致致聚聚类
11、类结结果果有有很很大大差差别别。在在OPTICS算算法法中中认认定定对对象象应应该该以以特特定定的的顺顺序序进进行行处处理理,这这个个顺顺序序首首先先处处理理最最小小的的值值密密度度可可达达的的对对象象,这这样样可可以以首首先先完完成成高高密密度的聚类。度的聚类。第第 2 章章 计算机局域网集成计算机局域网集成 4.密度聚类密度聚类DENCLUE算算法法的的依依据据是是某某个个数数据据点点在在邻邻域域内内的的影影响响可可以以用用一一个个数数学学函函数数来来形形式式化化地地模模拟拟,这这个个函函数数为为影影响响函函数数。所所聚聚类类数数据据空空间间的的整整体体密密度度看看成成是是所所有有数数据据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 传统 数据 挖掘 技术
限制150内