数据挖掘功能(共8页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘功能(共8页).doc》由会员分享,可在线阅读,更多相关《数据挖掘功能(共8页).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘功能可以挖掘什么类型的模式?数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,
2、通常每个被发现的模式带上一个确定性或“可信性”度量。数据挖掘功能以及它们可以发现的模式类型介绍如下。1 概念/类描述:特征和区分数据可以与类或概念相关联。例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。数据特征是目标类数据
3、的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和汇总。 例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。例 1.4 数据挖掘系统应当能够产生一年之内在AllElectr
4、onics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓,如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维下钻,如在occupation 下钻,以便根据他们的职业来观察这些顾客。数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。例如,你可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些进行比较。用于数据区分的方法与用于数据特征的那些类似。“区分描述如何输出?”输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类。用规则表示的区分描
5、述称为区分规则。用户应当能够对特征和区分描述的输出进行操作。例 1.5 数据挖掘系统应当能够比较两组AllElectronics 顾客,如定期(每月多于2 次)购买计算机产品的顾客和偶尔(即,每年少于3 次)购买这种产品的顾客。结果描述可能是一般的比较轮廓,如经常购买这种产品的顾客80%在20-40 岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位。沿着维下钻,如沿occupation 维,或添加新的维,如income_level,可以帮助发现两类之间的更多区分特性。2 关联分析“什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数
6、据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。更形式地,关联规则是形如X Y,即”A1 . Am B1 . Bn”的规则;其中, Ai (i1,.,m), Bj(j1,.,n)是属性-值对。关联规则解释为“满足X 中条件的数据库元组多半也满足Y 中条件”。例 1.6 给定 AllElectronics 关系数据库,一个数据挖掘系统可能发现如下形式的规则age(X ,20 29) income(X ,20 30K)buys(X ,CD _ player)support = 2%,confidence = 60%其中,X 是变量,代表顾客。该规则是说,所研究的AllElectroni
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 功能
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内