数据挖掘_概念与技术.pdf
《数据挖掘_概念与技术.pdf》由会员分享,可在线阅读,更多相关《数据挖掘_概念与技术.pdf(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、What is data mining?i.数 据 挖 掘 工就 是 从 存 放 在 数 据 库,数 据 仓 库 或 其 他 信 息 库 中 的 大 量 的 数 据 中 获 取 有 效的、新 颖 的、潜 在 有 用 的、最 终 可 理 解 的 模 式 的 昨 平 凡 过 程。数据挖 握(D a ta M in in g)又 称 为 数 据 库 中 的 知 识 发 现(K n o w le d g eD is c o v e ry in D a ta b a s e,K D D)V 就 是 从 大 量 数 据 中 获 取 有 效 的、新 颖 的、潜 在有 用 的、最 终 可 理 解 的 模 式
2、的 非 平 凡 过 程.面 单 的 说.数 据 挖 倔 就 是:从 大 量 数据 中 提 取 或。挖 倔”知 识。2.数 据 仓 库=英 文 名 称 望 D a ta W arehouse.可 简 写 为 D、V 或 DWH定 义:数 据 仓 库 是 一 个 面 向 主 笔 的、集 成 的、相 对 稳 定 的、反 映 历 史 变 化 的数据集用 里 决 策。数 据 各 库 是 决 策 支 持 系 统(h s s)和 联 机 分 析 应 用 数 据 源 的 结 构 化 数 据 环 境。数 据 仓 库 研 究 和 解 决 从 数 据 库 中 获 取 信 息 的 问 题-数 据 仓 库 的 四 大
3、关 延 特 征,面 向 主 题 性、数 据 集 成 性、数 据 的 时 变 性 和 数 据的 昨 易 失 性。Suppose your task as a software engineer at Big-University is to design a data mining system to examinetheir university course database,which contains the following information:the name,address,and status(e.g.,undergraduate or graduate)of eacli
4、student,the courses taken,and their cumulative grade pointaverage(GPA).Describe the architecture you would choose.What is the purpose of each component of thisarchitecture?1.3 假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)、所修课程以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作
5、用是什么?答:该应用程序的数据挖掘的体系结构应包括以下主要组成部分:数据库,数据仓库,万维网或其他信息库:这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库;数据库或数据仓库服务器:根据用户数据挖掘请求,数据库或数据仓库服务器负责提取相关数据;知识库:这是领域的知识,用于指导搜索或评估结果模式的兴趣度。数据挖掘引擎:这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。模式评估模块:该成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。用户界面:该模块在用户和数
6、据挖掘系统之间通信,允许用户与系统交互,说明挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。How is a data warehouse different from a database?How are they similar?1.4 数据仓库和数据库有何不同?有哪些相似之处?p8答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。相似:它们都为数据挖掘提供了源数据,都是
7、数据的组合。B r i e f l y d e s c r i be t h e f o l l o w i n g advanced database systems au d ap p l i c at i o n s:o bj e c t-r e l at i o n al d at abas e s,s p at i al d at abas e s,t e x t d at abas e s,i i i u l t i i n e d i a d at abas e s,t h e Wo r l d Wi d e We b.1.5 简述以下高级数据库系统和应用:对象-关系数据库、空间
8、数据库、文本数据库、多媒体数据库、流数据和万维网。答:对象一关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组织。每个实体在数据库中被视为个对象。该对象包含一 组变量描述的对象,一组消息的对象可以使用的沟通与其他物体或与其余的数据库系统,以及一套方法,每种方法持有的代码实现一个消息。空间数据库包含空间有关的数据,这可能是代表的形式,栅格或矢量数据。栅格数据包括n维位图或像素地图,矢量数据是由点,线,多边形或其他种类的图元处理,一些例子包括地理空间数据库(图)数据库,超大规模集成电路芯片设计,以及医疗和卫星图像数据库。文本数据库包含文木文件或其他长句或段落格式的文字说明,如
9、产品规格、误差或错误报告、警告信息、总结报告、说明或其他文件。多媒体数据库存储的图像,音频,视频数据,并应用于诸如图像、基于内容的检索、语音邮件系统、视频点播系统、互联网和以语音为基础的用户界面。流数据是一类新的数据的产生和分析,其中数据动态地从观测平台(或窗口)流进或流出。特点:海量甚至可能无限,动态变化,以固定的次序流进或流出,只允许一遍或少数几遍扫描,要求快速响应时间。如电力供应、网络通信、股票交易、电信、W e b点击流、视频监视和气象或环境监控数据。万维网上提供丰富的、全世界范围内的联机信息服务,其中的数据对象链接在一起便于交互访问。与之关联的分布式信息服务的例子如:美国在线,雅虎!
10、A lta V i s ta等。D e f i ne e a c h of th e f ollowi ng data mining functionalities:c h a ra c te ri za ti on,d i s c ri mi na ti on,a s s oc i a ti on a ndc orre la ti on a na lys i s,c la s s i f i c a ti on,pre d i c ti on,c lus te ri ng,a nd e voluti on a na lys i s.G i ve e xa mple s of e a c h
11、d a tami ni ng f mi c ti ona li ty.us i ng a re a l-li f e d a ta b a s e tli a t you a re f a mi li a r wi th.1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(G P A:G ra d epoi nt a ve rs g e)的信息,还有所
12、修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA的学生的一般特性可被用来与具有低GPA的般特性比较。最终的描述可能是学生的一个般可比较的轮廓,就像具有高GPA的学生的7 5%是四年级计算机科学专业的学生,而具有低GPA的学生的6 5%不是。关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,-个数据挖掘系统可能发现的关联规则为:ma j or(X,c omputi ng s c i e nc e )=owns(X,wpe rs ona lc ompute r)s upport=12%,c onf i d
13、 e nc e=9 8%其中,X是一个表示学生的变量。这个规则指出正在学习的学生,1 2%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是9 8%(置信度,或确定度)。分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑己知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每簇可以被看作
14、个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析Suppose that the values for a given set of data are grouped into iutervals.The intervals and correspondingfrequencies arc as follows.2.2 假设给定的数据集的值已经分组为区间
15、。区间和对应的频率如下。年龄 频率5 2 0 05 1 5 4 5 01 5 2 0 3 0 02 0 5 0 1 5 0 05 0 8 0 7 0 08 0 1 1 0 44计算数据的近似中位数值。解答:先判定中位数区间:N=2 0 0+4 5 0+3 0 0+l 5 0 0+7 0 0+4 4=3 1 9 4;N/2=1 5 9 72 0 0+4 5 0+3 0 0=9 5 0 1 5 9 7 1 2.8 5.脂肪百分比均值=2 8.7 8,中位数=3 0.7,标准差=8.9 9.(b)Draw the boxplots for age and%fat.(b)绘制年龄和脂肪百分比的盒图60
16、555045如353025sen40353025201510so3e%fat(c)Draw a scatter plot and a q-q plot based on these two variables.(c)根据这两个属性,绘制散布图,各 q-q 图q-q 图散布(d)Normalize the two variables based on z-score normalization.(d)根据z-s c o r e 规范化来规范化这两个属性(P4 6)2 32 32 72 73 94 14 74 95 0z-age-1.8 3-1.8 3-1.5 1-1.5 1-0.5 8-0.4
17、20.0 40.2 00.2 8%fat9.52 6.57.81 7.83 1.42 5.92 7.12 7.23 1.2z-%fat-2.1 4-0.2 5-2.3 3-1.2 20.2 9-0.3 2-0.1 5-0.1 80.2 75 25 45 45 65 75 85 86 06 1z-age0.4 30.5 90.5 90.7 40.8 20.9 00.9 01.0 61.1 3%fat3 4.64 2.52 8.83 3.43 0.23 4.13 2.94 1.23 5.7z-%fat0.6 51.5 30.00.5 10.1 G0.5 90.4 61.3 8().7 7(e)Ca
18、lculate the correlation coefficient(Persons product moment coefficient).Are these two variablespositively or negatively correlated?(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?r 4 E (a,-A)(b.-B)/N o A o =(E (a.b.)-NA B )/N o A o B=(E (a,b()-1 8*4 6.4 4*2 8.7 8 )/1 8*1 2.8 5*8.9 9=0.8 2相关系数是0.8 2。变量呈正相关。2.10.W
19、h a t a re th e v alu e ran g e s o f th e follow ing n o rm a liza tio n m eth o d s?(a)m in-m ax n o rm aliz a tio n(b)z-score n o rm a liz a tio n(c)n o rm a liz a tio n by d ecim al scalin g2.1 0 如下规范化方法的值域是什么?答:(a)m i n-m ax 规范化。值域是 n e w_m i n,n e w_m ax。(b)z-s c o r e 规范化。值域是(o l d j n i n-m
20、e an)/。,(o l d j n ax-m e an)/o ,总的来说,对于所有可能的数据集的值域是(-8,+8)。(c)小数定标规范化。值域是(一 L0,1.0)。Suppose that a data warehouse consists of the three dimensions time,doctor,and patient,and the twomeasures count and charge,where charge is the fee that a doctor charges a patient for a visit.3.3 (P9 7)假定数据仓库包含三维:t
21、i m e,d o c t o r 和p at i e n t;和两个度量:c o u n t 和c h ar g e;其中,c h ar g e 是医生对病人一次诊治的收费。(a)列举三种流行的数据仓库建模模式答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。(b)使用(a)列举的模式之一,画出上面的数据仓库的模式图time doctordiinensiou table fact table diineusion table数据仓库的星形模型(C)山基本方体 d ay,d o c t o r,p at i e n t 开始,为列出2 0 0 4年每位医生的收费总数,应当
22、执行哪些OLA P操作?沿课程(c o u r s e)维从c o u r s e i d “上卷”到d e p a r t m e n t。沿时间(.time维 从d a y 上卷 至lj yearo 取time=2 0 0 4,对 维/加e作“切W 操作 沿病人patient维 从个别病人“上卷”到全部病人。(d)为得到同样结果,写一个S QL查询。假定数据存放在关系数据库中,其模式为fee(day,month,year,doctor,hospital,patient,count,charge)。答:S QL查询语句如下:select doctor,SUM(charge)from feew
23、here year=2004group by doctor3.5.Suppose that a data warehouse consists of the four dimeiisioiis.date,spectator,location,and game,and thetwo measures,count and charge,where charge is the fare that a spectator pays when watching a game on agiven date.Spectators may be students,adults,or seniors,with
24、each category having its own charge rate.3.5(P9 8)假定数据仓库包含4维:date,spectator,location,和game,和两个度量:c o u n l和c h a r g e;其中,c h a r g e是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。答:星形模式图如下:datedimeusion tablesalesfact tablespectatordimension tableb.由基本方体 d a t e,location,g a m e 开始,
25、为列出2 0 0 4年学生观众在G M_ Pl a c e 的总付费,应执行的OLA P操作:沿时间(date)塘仄date_id 上 卷 到yearQ 沿时间(game)维 从game_id“上卷”到全部。沿时间(location)墉吠location_id”上卷 至U location_name。沿时间(spectator 雄Jkspectatojid“上卷”到 status。以 status=students、location name=GM Place a n d y e a r 三 勿。4 作转轴操作3.6.C(mtribute(l by Tao Cheng A data wareh
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术
限制150内