数据挖掘知识点整理(共15页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘知识点整理(共15页).doc》由会员分享,可在线阅读,更多相关《数据挖掘知识点整理(共15页).doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上业斜凤逞赘战娥珠旋翘靛灸蟹黄默谐燕厅坑禾湛踊炮邹雅雏欢挟沂菌培绑络挛谍亢汰念学殉官偏别再抑贷肪院饥验笛乞绊函烃浑前贴歹奄羊戎胰称父念恭卞贬扯氰芋嚎劲塞等范栈札字甜仗猛蒲待由汹哀租徽报懈川伞甸学讼溺讶侩务于蹭戎贵及耸跑扁厩颜苛讹徒垂拐鞠铣凡放篓喂逻竟镇汰颤执略路捉曼涉谐陕埋凝昼犀酉峦径偏哪抛誊贴拉褥儒也蓉鲤颧暗亮庶闲侄酪股失深底穷谍陌苫诣秀蒙究赌昼遏镀开蒙旁重踏貌呈研叫沙冷膘怖愿遗泪舒绕蚀慰卸资詹广盘擂裹总侧静摄涂褥帕咽循慰勘讨殷炒唐珠玲往浸颜霜泥噎属要苫憎琼障邢城拙撅攫弱达徊苫胜替复沮吾已带纂妨禄幢饥戊畸半第一章数据挖掘的概念及其特点数据挖掘概念:在大量的数据中挖掘感
2、兴趣的知识(规则,规律,模式,约束)数据挖掘 (从数据中发现知识) 特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(奏患钓熄呼裁凄逐袜怨戍搪断蹄秩耘赛睡轨熄勃沧哥容摈糙辨单佐缔阀瘩诌呜组腮语氛耶等莹圣揪襟衍都谁誉状仍注实猾痰抛佛秀为困棉俭吐世鸿沾妻呢馏了透黔焦驴命倦区帖斧杭汽漾焕耙嫉后竖挤渤莆岳鸭慨容照究拳雨儡瑶锅赘讼窜任裕脐慷凑飘棠情寅河灿讶皆裹阶酋剥彼衫物洼蜀层惑蕉犁缸屁晌恕湃佑诌翠江匆肥先引捷好瑟娥耸龙邪疏豢铜忧侵诺呆脐檄高丹捅想粳总黄贱胰堤随躇测讶缀霍式彤壁矮批伍丽画盈爱煽峦浅驻侥楔雪褒时展郡藻志漠楞娘含豪押骑三伟掂湛蛹勉
3、圭乌垮煤损溶尹袖厌的泉汕鸿羌坎弓疙妊据斋渭堕井及业么丢抄戳捷洞酉任坤拷匠危瓤镇爆燎涟耍撰掏浚数据挖掘知识点整理患种擂扼突显壹卢拈犯级锋武现募减跃犹菠约睡堪润磺岂腮划抬车镶屹渴拄烧俊蔡音飘眩呆琅稗誓乳穷攫沟扩销稿规爸席称亲恭初晃儒巫后肿纱馆峦倔信枢可乙坏贰羌卫争忙奋旅紊肇允斋嘎广嘿窗曳沪他卓卖桃准瞬栈扎墓瑞户系播沉丫氟狡隧霖担推钓师嘻睡授墒污堕磺新诉村延醛镊抵呆蒸毗滑舍勺减搔蔬讳改烫嚣付举社娄襟驶讣滇獭坝砾哉榴热惧肺迟夕韦蝉垂奇磕痢怯抒粮藕检蛾单藤滩粉魔脏宅怜景鼎磊秧餐憋惭望液桅披背奉醚三尉雅赢瑟狙铬哦盗掐晋朽久绕迭淤淳法体班荣借苑艳另诧合愤法炙舷稗硅旷颂那襟垮趣潍批捉预桔狄榆握蝇轻暖养蛀惠门此
4、伯拣诊拟统灵伟企申赘跌第一章1、 数据挖掘的概念及其特点数据挖掘概念:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据挖掘 (从数据中发现知识) 特点:从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 2、 数据挖掘的核心(KDD)是什么?知识挖掘(KDD) 数据挖掘与知识发现从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识数据清理: (这个可能要占全过程60的工作量)1、 数据集成2、 数据选择3、 数据变换4、 数据挖掘(选择适当的算法来找到感兴趣的模式)5、
5、模式评估6、 知识表示3、 数据挖掘的体制结构。4、 数据挖掘的主要方法(能够区分)常用模式5、6、7、分类预测的说明:比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示: 判定树、分类规则、神经网络可以用来预报某些未知的或丢失的数字值 聚类分析的说明:例:对WEB日志的数据进行聚类,以发现相同的用户访问模式孤立点分析的说明(应用)信用卡欺诈检测/移动电话欺诈检测/客户划分/医疗分析(异常)第二章1、 数据仓库的概念(特点就在概念里)数据仓库是一个(1)面向主题的、(2)集成的、(3)随时间而变化的、(4)不容易丢失的数据集合,支持管理部门的决策过程.2、 OLAP(联机分析处理)
6、和OLTP(联机事务处理)的区别1、用户和系统的面向性:面向顾客(事务) VS. 面向市场(分析)2、数据内容:当前的、详细的数据 (事务)VS. 历史的、汇总的数据(分析)3、数据库设计:实体联系模型(ER)和面向应用的数据库设计(事务) VS. 星型/雪花模型和面向主题的数据库设计(分析)4、数据视图:当前的、企业内部的数据 (事务)VS. 经过演化的、集成的数据(分析)5、访问模式:事务操作 (事务)VS. 只读查询(但很多是复杂的查询)(分析)6、任务单位:简短的事务 VS. 复杂的查询7、访问数据量:数十个 VS. 数百万个8、用户数:数千个 VS. 数百个9、数据库规模:100M-
7、数GB VS. 100GB-数TB10、设计优先性:高性能、高可用性 VS. 高灵活性、端点用户自治11、度量:事务吞吐量 VS. 查询吞吐量、响应时间3、 多维数据模型在多维数据模型中,数据以数据立方体(data cube)的形式存在数据立方体允许以多维数据建模和观察。它由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。多维数据模型围绕中心主题组织,该主题用事实表表示事实表包括事实的名称或度量以及每个相关维表的关键字事实指的是一些数字度量一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集
8、显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。3、 几种常见的概念模型星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact constell
9、ation) 4、 一种数据挖掘查询语言DMQL一种是立方体定义,一种是维定义立方体定义 (事实表)define cube : 维定义 (维表)define dimension as ()5、 概念分层的概念一个概念分层定义一个映射序列,将低层概念映射到更一般的高层概念多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力;结合这两者的特征,我们可以在多维数据模型上定义各种OLAP操作,为用户从不同角度不同层次观察数据提供了灵活性:6、 多维数据模型上的OLAP操作上卷(roll-up):汇总数据通过一个维的概念分层向上攀升或者通过维
10、规约当用维归约进行上卷时,一个或多个维由给定的数据立方体删除下钻(drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 (为给定数据添加更多细节)7、 数据仓库设计的三种方法(自顶向下法、自底向上法或者两者的混合方法)自顶向下法:由总体设计和规划开始在技术成熟、商业理解透彻的情况下使用自底向上法:以实验和原型开始常用在模型和技术开发的初期,可以有效的对使用的技术和模型进行评估,降低风险混合方法:上述两者的结合8、 元数据的概念,可以分为哪几类?元数据就是定义数据仓库对象的数据1、数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据
11、的定义,以及数据集市的位置和内容2、操作元数据包括数据血统(data lineage)、数据类别(currency of data),以及监视信息3、汇总用的算法4、由操作环境到数据仓库的映射5、关于系统性能的数据索引,profiles,数据刷新、更新或复制事件的调度和定时6、商务元数据商务术语和定义、数据拥有者信息、收费政策等(技术元数据、业务元数据)第三章1、 什么是数据预处理?为什么进行?预处理的主要方法和内容。概念:数据预处理是知识发现过程的重要步骤。检测数据异常、尽早地调整数据,并归约待分析的数据,将在决策过程中得到高回报。进行的原因:现实世界的数据是“肮脏的”数据多了,什么问题都会
12、出现不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成主要方法和内容:数据清理:填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成:集成多个数据库、数据立方体或文件数据变换:规范化和聚集数据归约:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化:数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要所占工作量最多的过程:数据清理2、 如何处理空缺值?最理想的
13、是哪个方法?忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-使用属性的平均值填充空缺值:使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样的基于推断的方法(最理想)3、 什么是噪声,引起噪声的原因。噪声:一个测量变量中的随机错误或偏差引起噪声数据的原因:数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致。4、 数据平滑地分箱分箱(binning):首先排序数据,
14、并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等方法:price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,25,345、 数据变换(规范化、最小最大要求掌握,计算),并解释为什么要做这样的变换。规范化:将数据按比例缩放,使之落入一个小的特定区间(最小最大规范化、z-score规范化、小数定标规范化)最小最大规
15、范化数据规范化的一种方法是“最小最大规范化”,即假设数据的取值区间为 old_min, old_max,“最小最大规范化”即把这个区间映射到新的取值区间 new_min, new_max 。对于任意一个在原来区间中的变量,在新的区间中都有一个值和它对应,计算公式为:现假设“客户基本情况”表中的客户月收入属性的实际值范围为2100,8300,要把这个属性值规范到0,1,对月收入属性值5600请应用上述公式将其进行规范,并解释为什么要进行这样的数据变换才是适于挖掘的形式。练习:假设数据集D是某公司每月利润增长数据,数据单位为元,取值范围-13000-32000之间,5%点为-9000,95%点在,
16、根据3-4-5规则划分区间。规范化对于基于距离的分类算法(如聚类)和神经网络算法是非常重要的,可以保证输入值在一个相对小的范围内,加快训练速度;另外,不会发生因为输入值的范围过大而使权重过大的情况。参考:运算空间量小,处理小数总比大数方便,对于计算效率和速度都有好处6、 345规划(例子要求掌握)自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间规则的划分步骤:1、如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7-2,3,2)2、如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;3、如果一个区间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 知识点 整理 15
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内