数据挖掘概论(复习大纲).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘概论(复习大纲).doc》由会员分享,可在线阅读,更多相关《数据挖掘概论(复习大纲).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 数据挖掘概论1.什么是数据挖掘?数据挖掘 (Data Mining DM)从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 数据挖掘的替换词 数据库中的知识挖掘、知识发现(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等2. KDD的步骤 数据清理: (这个可能要占全过程60的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估知识表示3. 体系结构:典型数据挖掘系统 4. 数据挖掘的主要功能 概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。 关联分析 发现数据之间的关联规则,这
2、些规则展示属性值频繁的在给定的数据中所一起出现的条件。 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 孤立点分析 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势5. 数据挖掘系统与DB或DW系统的集成方式 不耦合 松散耦合 半紧密耦合 紧密耦合概念P23第三章 数据仓库和OLAP技术1. 什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义.“数据仓库是一个面向主题的、集
3、成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”W. H. Inmon(数据仓库构造方面的领头设计师)2. 数据仓库关键特征 数据仓库关键特征一面向主题 数据仓库关键特征二数据集成 数据仓库关键特征三随时间而变化数据仓库关键特征四数据不易丢失3. 数据仓库与异种数据库集成 传统的异种数据库集成: 在多个异种数据库上建立包装程序和中介程序 采用查询驱动方法当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库: 采用更新驱动 将来自多个异种源的信息预先集
4、成,并存储在数据仓库中,供直接查询和分析 高性能.4. 从关系表和电子表格到数据立方体 数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数据立方体由维和事实定义。 维:是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字?. 在最低抽象层建立的立方体是存放最底层汇总的方体叫做基本方体。0维方体存放最高层的汇总,也就是最高层抽象的立方体称作顶点方体。多维数据模型(数据立方体)使得从不同的角度对数据进行观察成为可能,而概念分层则
5、提供了从不同层次对数据进行观察的能力。5. 度量的分类 一个数据立方体的度量是一个数值函数。度量可以根据其所用的聚集函数分为三类: 分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。比如:count(),sum(),min(),max()等 代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。比如:avg(),min_N(),standard_deviation() 整体的(holistic):比如:median(),mode(),rank()6. 数据仓库的概念模
6、型 最流行的数据仓库概念模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式的形式存在。 星型模式、雪花模式、或事实星座模式画图 星型模式(Star schema): 事实表在中心,周围围绕地连接着维表(每维一个),事实表含有大量数据,没有冗余。 雪花模式(Snowflake schema): 是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加表中。结果,模式图形成类似于雪花的形状。 事实星座(Fact constellations): 多个事实表共享维表, 这种模式可以看作星型模式集,因此称为星系模式(galaxy schema),或者事实星座(fact c
7、onstellation) 。星型模式实例雪花模式实例事实星座模式实例7. 多维数据模型上的OLAP操作 上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 切片和切块(slice and dice) 切片操作在给定的数据立方体的一个维上进行选择,导致一个子立方体 切块操作通过对两个或多个维进行选择,定义子立方体 转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化维一个2维平面序列 其他OLAP操作 钻过(drill_across)
8、:执行涉及多个事实表的查询 钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层,到后端关系表。8.典型的数据仓库设计过程 选取待建模的商务过程 选取商务过程的颗粒度 比如:记录每条详细订单,或是开始于每日的汇总数据 选取用于每个事实表记录的维 常用的维有:时间、货物、客户、供应商等 选取将安放在事实表中的度量 常用的数字度量包括:售价、货物数量等9. 三种数据仓库模型 企业仓库 数据集市虚拟仓库10. OLAP服务器类型 逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多维数据 物理上,OLAP的底层数据存储实现可以有多种不同的方式 关系OLAP服务器 多维
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概论 复习 大纲
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内