OLAP融合于数据挖掘之模型构建论文.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《OLAP融合于数据挖掘之模型构建论文.docx》由会员分享,可在线阅读,更多相关《OLAP融合于数据挖掘之模型构建论文.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、OLAP融合于数据挖掘之模型构建论文OLAP融合于数据挖掘之模型构建论文数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的经过。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经历法则)和形式识别等众多方法来实现上述目的。下面是学习啦我今天为大家精心准备的:OLAP融合于数据挖掘之模型构建相关论文。内容仅供浏览与参考!OLAP融合于数据挖掘之模型构建全文如下:1OLAM模型本文提出的OLAM模型对OLAP中数据立方体和星型形式的概念分别进行了拓展,涵盖问题的整个搜索空间,能够比拟全面地反映多维数据挖掘的本质.下面描绘相应的理论方法、基本权
2、标和数据构造.1.1从数据立方体到影响域本文在OLAM模型中引进基本权标:影响域(influencedomain).影响域与多维空间的数据立方体在逻辑上是等价的.但立方体上计算的是聚合(aggregation),而影响域上计算的是蕴涵(implication),即数据中隐藏的形式.影响域同立方体一样具有属性和值,不同点在于它具有置信度(confidence).立方体将维映射至度量,而影响域将维和度量映射至置信而影响域将度.一个影响域可视为一个函数,其映射关系从维和度量映射至一置信度级别.影响域可视为是广义概念上的数据立方体空间,由于影响域的大小通常比数据立方体要大得多,OLAM分析经常在更细的
3、粒度上分析更多的维,或对多个特性之间的关系进行探索.由于每次重新计算的代价太昂贵,所以需要在比星型形式存储有更多的聚合的形式上进行,即采用下一节所提出的旋转形式.为了遍历整个影响域,需要将OLAP运算与影响性分析穿插.能够看出,影响域的操作可在多维和多层次的抽象空间中进行,有利于灵敏地挖掘知识.而文献3,4,5的操作是基于数据立方体的多维数据挖掘,包含在基于影响域的操作之内,是其中的特例.影响域概念可用面向对象的思想描绘,这样有助于生成一个较好的构造化的框架.影响域包含六个主要特性:(1)基本维(类);(2)属性;(3)对象或实例;(4)层次;(5)度量;(6)蕴涵.其中,基本维是一种高层次的
4、类型划分,如产品、客户等.每个类/维具有一属性集合,如产品维具有属性价格、颜色等.每个类/维有对象或要素作为实例,对象的每个属性具有一个值.在类和属性内存在层次,例如,对类来讲,商标类是产品的父类;对属性来讲,属性集合地区,城市,省是一个层次.度量是在维构成的空间上的计算.蕴涵是在维和度量构成的立方体空间上的计算.1.2从星型形式到旋转形式从面向对象的角度来看,数据立方体与影响域的特性不尽一样,包含基本维(类)、属性、对象或实例、层次以及度量这五个特性,OLAP的星型形式通常直接映射在该对象构造中.星型形式每个维表都可看成一个对象,对象的属性代表在维表中的列,度量在各个维构成的空间上进行计算.
5、图1给出一个星型形式的例子,包含四个基本维:商店维、客户维、产品维和定货维,中央的事实表中存有度量和各个基本维的码值.星型形式是用来处理聚合运算的,该形式能很好地用于OLAP,但它本身不带数据挖掘功能,不能用于OLAM,因而需要将星型形式作相应扩展.在对影响域进行分析的经过中,通常将分析焦点聚焦在星型形式中的维表上(如产品或商店,如图1所示).由于在分析中要用附加的聚合或选择的数据项以丰富维表内容,因而对于每个库表来讲,需要比星型形式存储更多的数据.分析的焦点在各个维表之间不断转换,例如从客户维转换至商店维再到产品维等等,能够看作是焦点在绕着星型形式旋转,因而,本文引入旋转形式的概念,将OLA
6、M的分析构造命名为旋转形式.图2显示出与图1中星型形式所对应的旋转形式的例子.旋转形式的中心存储的是影响域的蕴涵,外围是各个维表的码值以及聚焦度量和其它度量,四周呈辐射状的是各个维表.在执行影响域分析时,焦点沿着不同的基本维(或类)旋转,在维和度量构成的广义数据立方体空间上执行蕴涵运算对应于图1的旋转形式的例子如图3所示,旋转形式中的库表具有五个主要部分:(1)中的库表具有五个主要部分聚焦维;(2)聚焦度量;(3)内部属性;(4)外部属性;(5)非聚焦度量.聚焦维代表当前分析焦点所在的基本维,如图2所示的客户维;聚焦度量代表用户关心的度量,如利润;内部属性是聚焦维中的属性,如客户年龄等;外部属
7、性是非聚焦维中的属性,如某客户最喜欢的产品颜色等;非聚焦度量是用于辅助决策的度量,如某客户平均一次购买的商品的数目.由此能够看出影响域中的存储形式与OLAP是不同的.2实现OLAM机制的讨论OLAM机制具有交互的特性,而且求蕴涵函数的计算代价比拟昂贵,因而在大型数据库或数据仓库中实现OLAM机制的关键是解决快速响应和有效实现的问题.必须考虑如下因素:2.1快速响应和高性能挖掘OLAM若想获得快速响应和高的性能,会比OLAP困难,由于数据挖掘的计算代价通常比OLAP昂贵.快速响应对于交互式挖掘是致关重要的,有时为了得到快速响应甚至能够牺牲精度,由于交互式挖掘能一步步引导挖掘者聚焦在搜索空间并查找
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OLAP 融合 数据 挖掘 模型 构建 论文
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内