2022年数据挖掘考试复习要点整理 .pdf
《2022年数据挖掘考试复习要点整理 .pdf》由会员分享,可在线阅读,更多相关《2022年数据挖掘考试复习要点整理 .pdf(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、主要内容数据挖掘综述数据仓库和数据挖掘的OLAP 技术数据预处理数据挖掘原语、语言和系统结构概念描述:特征化与比较挖掘大型数据库中的关联规则分类和预测聚类分析复杂类型数据的挖掘数据挖掘的应用和发展趋势我们拥有丰富的数据,但却缺乏有用的信息解决方法: 数据仓库技术和数据挖掘技术数据仓库 (Data Warehouse) 和在线分析处理(OLAP) 数据挖掘: 在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)数据库技术的演化1960s 和以前 : 文件系统1970s: 层次数据库和网状数据库 ( 1973 年 查理士巴赫曼)1980s 早期 :关系数据模型 , 关系数据库管理系统(RDBM
2、S) 的实现1980s 晚期 : 各种高级数据库系统( 扩展的关系数据库, 面向对象数据库等等 .) 面向应用的数据库系统 (spatial数据库,时序数据库,多媒体数据库等等)1990s: 数据挖掘 , 数据仓库 , 多媒体数据库和网络数据库2000s 流数据管理和挖掘基于各种应用的数据挖掘 XML 数据库和整合的信息系统什么是数据挖掘?数据挖掘 ( 从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识挖掘的不仅仅是数据 (所以“数据挖掘” 并非一个精确的用词)数据挖掘的替换词数据库中的知识挖掘(KDD ) 、知识提炼、数据 / 模式分析、
3、数据考古、数据捕捞、信息收获等等。并非所有东西都是“数据挖掘”查询处理 . 专家系统或是小型的数学计算/ 统计程序知识挖掘的步骤了解应用领域了解相关的知识和应用的目标创建目标数据集:选择数据数据清理和预处理: ( 这个可能要占全过程60的工作量 ) 数据缩减和变换找到有用的特征,维数缩减/ 变量缩减,不变量的表示。选择数据挖掘的功能数据总结 , 分类模型数据挖掘, 回归分析 , 关联规则挖掘, 聚类分析等 . 选择挖掘算法数据挖掘 : 寻找感兴趣的模式模式评估和知识表示可视化,转换,消除冗余模式等等运用发现的知识数据挖掘的主要方法 (1) 概念 / 类描述 : 特性化和区分归纳,总结和对比数据
4、的特性。比如:对每个月来网站购物超过5000 元的顾客的描述:4050 岁,有正常职业,信用程度良好。关联分析发现数据之间的关联规则,这些规则展示属性值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。分类和预测通过构造模型 ( 或函数 ) 用来描述和区别类或概念,用来预测类型标志未知的对象类。比如:按气候将国家分类,按汽油消耗定额将汽车分类导出模型的表示: 判定树、 分类规则、 神经网络可以用来预报某些未知的或丢失的数字值名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -
5、- 第 1 页,共 21 页 - - - - - - - - - 聚类分析将类似的数据归类到一起,形成一个新的类别进行分析。最大化类内的相似性和最小化类间的相似性孤立点分析孤立点 : 一些与数据的一般行为或模型不一致的孤立数据通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势趋势和偏差 :回归分析序列模式匹配: 周期性分析、基于类似性的分析、其他定向模式或统计分析所有模式都是有趣的吗?数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。模式兴趣度的度量一个模式是有趣
6、的,如果(1) 它易于被人理解; (2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设模式兴趣度的客观和主观度量客观度量 : 基于所发现模式的结构和关于它们的统计,比如: 支持度、置信度等等主观度量 : 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等多种数据挖掘的视角根据所挖掘的数据库分类关系数据库 , 事务数据库 , 流式数据 , 面向对象数据库, 对象关系数据库 , 数据仓库 , 空间数据库 , 时态数据库 , 文本数据库 , 多媒体数据库 , 异构数据库 , 历史数据库 , WWW 根据挖掘的知识类型特征分析 , 区
7、分 , 关联分析 , 分类 , 聚类 , 孤立点分析 / 演变分析 , 偏差分析等等 . 多种方法的集成和多层次挖掘根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP 、机器学习、统计学、可视化等等 . 根据挖掘所用的应用金融 , 电信 , 银行 , 欺诈分析 , DNA分析, 股票市场 , Web挖掘等等 . 什么是数据仓库 ? 数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。为统一的历史数据分析提供坚实的平台,对信处理提供支持“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W
8、. H. Inmon(数据仓库构造方面的领头设计师)建立数据仓库 (data warehousing): 构造和使用数据仓库的过程。数据仓库关键特征一面向主题围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。数据仓库关键特征二数据集成一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,联机事务处理记录使用数据清理和数据集成技术。确保命名约定、 编码结构、 属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。数据仓库关键特征三随时间而变化数据仓库的时间范围比操作数据库系
9、统要长的多。操作数据库系统: 主要保存当前数据。数据仓库 : 从历史的角度提供信息(比如过去 5-10 年)数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。数据仓库关键特征四数据不易丢失尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。操作数据库的更新操作不会出现在数据仓库环境下。不需要事务处理,恢复,和并发控制等机制只需要两种数据访问: 数据的初始装载和数据访问(读操作)数据仓库与操作数据库系统操作数据库系统的主要任务是联机事务处理OLTP 日常操作 : 购买,库存,银行,制造,工资,注册,记帐等数据仓库的主要任务是联机分
10、析处理OLAP 数据分析和决策OLTP和 OLAP 的主要区别:用户和系统的面向性: 顾客 VS. 市场数据内容 : 当前的、 详细的数据 VS. 历史的、 汇总的数据数据库设计 : 实体联系模型(ER)和面向应用的数据库设计 VS. 星型/ 雪花模型和面向主题的数据库设计视图 : 当前的、 企业内部的数据 VS. 经过演化的、 集成的数据访问模式 : 事务操作 VS. 只读查询(但很多是复杂的查询)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 21 页 - - - -
11、 - - - - - 为什么需要一个分离的数据仓库? 提高两个系统的性能DBMS 是为 OLTP而设计的:存储方式, 索引, 并发控制 , 恢复数据仓库是为OLAP而设计:复杂的 OLAP查询 , 多维视图,汇总不同的功能和不同的数据: 历史数据 : 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)数据质量 : 不同的源使用不一致的数据表示、编码和格式, 对这些数据进行有效的分析需要将他们转化后进行集成数据仓库和数据仓库技术基于多维数据模型。 这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表
12、表示。事实是数值度量的。数据立方体允许以多维数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字在数据仓库的研究文献中,一个n 维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0 维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。数据仓库的概念模型种类:最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。星型模式 (St
13、ar schema ): 事实表在中心,周围围绕地连接着维表(每维一个) ,事实表含有大量数据,没有冗余。雪花模式 (Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。事实星座 (Fact constellations): 多个事实表共享维表, 这种 模式 可以 看 作 星 型 模 式集 , 因 此 称 为 星 系 模 式 ( galaxy schema) ,或者事实星座(fact constellation)多维数据模型上的OLAP操作上卷 (roll-up):汇总数据通过一个维的概念分层向上攀升
14、或者通过维规约下钻 (drill-down):上卷的逆操作由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现切片和切块 (slice and dice) :投影和选择操作转轴 (pivot):立方体的重定位,可视化,或将一个3 维立方体转化维一个2 维平面序列其他 OLAP操作钻过 (drill_across):执行涉及多个事实表的查询钻透 (drill_through):使用关系 SQL机制, 钻到数据立方体的底层,到后端关系表数据仓库设计:一个商务分析框架数据仓库设计的四种视图自顶向下视图 :允许我们选择数据仓库所需的相关信息数据源视图: 揭示被操作数据库系统所捕
15、获、存储和管理的信息数据仓库视图:有事实表和维表所组成商务查询视图:从最终用户的角度透视数据仓库中的数据数据仓库的设计过程自顶向下法、自底向上法或者两者的混合方法自顶向下法:由总体设计和规划开始(成熟)自底向上法:以实验和原型开始(快速)从软件过程的观点瀑布式方法: 在进行下一步前, 每一步都进行结构化和系统的分析螺旋式方法: 功能渐增的系统的快速产生,相继版本之间间隔很短典型的数据仓库设计过程:选取待建模的商务过程、选取商务过程的粒度、选取用于每个事实表记录的维选取将安放在事实表中的度量OLAP服务器类型关系 OLAP服务器 (ROLAP) 使用关系数据库或扩展的关系数据库存放并管理数据仓库
16、的数据,而用OLAP中间件支持其余部分包括每个 DBMS 后端优化, 聚集导航逻辑的实现,附加的工具和服务较大的可扩展性多维 OLAP服务器 (MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术)能对预计算的汇总数据快速索引混合 OLAP服务器 (HOLAP) 结合上述两种技术,更大的使用灵活性特殊的 SQL服务器在星型和雪花模型上支持SQL查询数据仓库的实现难点海量数据快速反应OLAP服务器要在几秒内响应决策支持查询名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 21
17、页 - - - - - - - - - 方法高效的数据立方体计算技术高效的存取方法高效的查询处理技术数据立方体的有效计算数据立方体可以被看成是一个方体的格最底层的方体是基本方体最顶端的方体(顶点)只包含一个单元的值一个 n 维的数据立方体, 每维 L 层,可能产生的方体总数是多少?数据立方体的物化预先计算所有方体(全物化) ,不预先计算任何“非基本”方体(不物化) ,有选择的计算一个所有方体的适当子集(部分物化)确定物化哪些方体考虑工作负荷下的查询、它们的频率和它们的开销等等方体计算:关系型OLAP的方法( ROLAP )方体计算的有效方法基于 ROLAP 的方体算法 (Agarwal et
18、al96)基于数组的算法(MOLAP)(Zhao et al97)自底向上的计算方法(Beyer & Ramarkrishnan99)H-cubing技术(Han, Pei, Dong & Wang:SIGMOD01)基于 ROLAP 的方法将排序、散列 (hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类在某些子聚集上分组,作为“部分分组步骤”。可以由以前计算的聚集计算新的聚集,而不必由基本事实表计算元数据存储在数据仓库中, 元数据 就是定义数据仓库对象的数据。有以下几种 :数据仓库结构的描述仓库模式、视图、维、层次结构、导出数据的定义, 以及数据集市的位置和内容操作元数
19、据包括数据血统 (data lineage)、数据类别(currency of data) ,以及监视信息汇总用的算法由操作环境到数据仓库的映射关于系统性能的数据索引, profiles,数据刷新、更新或复制事件的调度和定时商务元数据商务术语和定义、 数据拥有者信息、 收费政策等元数据的使用元数据与数据一起,构成了数据仓库中的数据模型,元数据所描述的更多的是这个模型的结构方面的信息。在数据仓库中,元数据的主要用途包括:用作目录, 帮助决策支持系统分析者对数据仓库的内容定义作为数据仓库和操作性数据库之间进行数据转换时的映射标准用于指导当前细节数据和稍加综合的数据之间的汇总算法, 指导稍加综合的数
20、据和高度综合的数据之间的汇总算法。数据仓库的应用数据仓库的三种应用信息处理支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理分析处理对数据仓库中的数据进行多维数据分析支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等数据挖掘从隐藏模式中发现知识支持关联分析, 构建分析性模型, 分类和预测,并用可视化工具呈现挖掘的结果三种应用间的差别从联机分析处理到联机分析挖掘为什么要联机分析挖掘数据仓库中有高质量的数据数据仓库中存放着整合的、一致的、 清理过的数据围绕数据仓库的信息处理结构存取、 集成、合并多个异种数据库的转换, ODBC/OLEDB 连接 ,Web 访问和访问工具等基于 O
21、LAP的探测式数据分析使用上卷、下钻、切片、转轴等技术进行数据挖掘数据挖掘功能的联机选择多种数据挖掘功能、 算法和任务的整合作业:查阅资料,谈谈OLAP 、DM 、OLAM 的联系和区别。) 11(niiLT名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 21 页 - - - - - - - - - 为什么要预处理数据?现实世界的数据是“肮脏的”不完整的: 有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异没有高
22、质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成数据预处理的主要任务数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性数据集成集成多个数据库、数据立方体或文件数据变换规范化和聚集数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据预处理的形式空缺值数据并不总是完整的例如: 数据库表中, 很多条记录的对应字段没有相应值,比如销售表中的顾客收入引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在
23、输入时, 有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载空缺值要经过推断而补上如何处理空缺值忽略元组: 当类标号缺少时通常这么做(假定挖掘任务设计分类或描述) ,当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或- 使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian 公式或判定树这样的基于推断的方法噪声数据噪声:一个测量变量中的随机错误或偏差引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致
24、其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据分箱 (binning): 首先排序数据,并将他们分到等深的箱中然后可以按箱的平均值平滑、按箱中值平滑、 按箱的边界平滑等等聚类:监测并且去除孤立点计算机和人工检查结合计算机检测可疑数据,然后对它们进行人工判断回归通过让数据适应回归函数来平滑数据数据平滑的分箱方法price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 划分为(等深的)箱:箱 1:4,8,15 箱 2:21,21,24 箱 3:25,28,34 用箱平均值平滑:箱 1:9,9,9 箱 2:22,22,22 箱 3:29,29
25、,29 用箱边界平滑:箱 1:4,4,15 箱 2:21,21,24 箱 3:25,25,34 数据集成:将多个数据源中的数据整合到一个一致的存储名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 21 页 - - - - - - - - - 中模式集成:整合不同数据源中的元数据实体识别问题: 匹配来自不同数据源的现实世界的实体,比如:A.cust-id=B.customer_no 检测并解决数据值的冲突对现实世界中的同一实体,来自不同数据源的属性值可能是不同的可能的原因:不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年数据挖掘考试复习要点整理 2022 数据 挖掘 考试 复习 要点 整理
限制150内