数据仓库与数据挖掘ppt习题课件.ppt
《数据仓库与数据挖掘ppt习题课件.ppt》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘ppt习题课件.ppt(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据仓库与数数据仓库与数 据据 挖挖 掘掘主讲教师:王浩畅主讲教师:王浩畅E-mail:wanghch_School of Computer&Information Technology of NEPU为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第2章数据预处理为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益练习练习1 1假定用于分析的数据包
2、含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(a)该数据的均值是什么?中位数是什么?l(b)该数据的众数是什么?讨论数据的峰l(c)数据的中列数是什么?为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答(a)均值:l中位数:有序集中间值或者中间两个值平均。奇数个,中间值:25(b):表示数据集中出现频率最高的值两个值出现了相同的最高频率,25和35,都出现了
3、4次,也就是双峰(c)中列数:最大值和最小值的平均l(13+70)/2=41.5为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益练习练习2 2假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(d)找出数据的第一个四分位数Q1和第三个四分位数Q3l(e)给出数据的五数概括为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘
4、用制度,保障用人单位和职工的合法权益解答解答(d)第一个四分位数Q1:20 第三个四分位数Q3:35l中位数:有序集中间值或者中间两个值平均。奇数个,中间值:25(e)五数概括:13,20,25,35,70为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益练习练习3 3假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l(f)画出数据的盒图为了规范事业单
5、位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答2035257013年龄(f)52为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益噪声数据噪声数据(3)(3)u数据平滑的分箱方法price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34划分为(等深的)箱:l箱1:4,8,15l箱2:21,21,24l箱3:25,28,34用箱平均值平滑:l箱1:9,9,9l箱2:22,22,22l箱3:29,29,29用箱边界平滑:l箱1:4,4,15l
6、箱2:21,21,24l箱3:25,25,34为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益练习练习假定用于分析的数据包含属性age.数据元组age值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70.l使用分箱均值光滑对以上数据进行光滑,箱的深度为3.解释你的步骤为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答Step 1:
7、排序数据.Step 2:将有序值划分到大小为3的等频箱中Step 3:计算每个箱中数据的算术平均值.Step 4:.将每个箱中的每个值用此箱的算术平均值替换Bin1:44/3,44/3,44/3 Bin2:55/3,55/3,55/3Bin3:21,21,21 Bin4:24,24,24为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益u规范化最小最大规范化:对原始数据进行线性变换。假定minA 和 maxA 分别为属性A 的最小和最大值。将A的值v映射到区间new _ minA,new _ maxA中的vl最小-最大规范化通过
8、计算l例:假定属性income的最小与最大值分别为12 000美元和98 000美元。我们想把income映射到区间0.0,0.1。根据最小最大规范化,income值73 600美元将变换为:数据变换数据变换(2)(2)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益z-score规范化:属性A 的值基于A 的平均值和标准差规范化。l最大最小值未知,或者离群点影响较大的时候适用l例:假定属性income的均值和标准差分别为54 000美元和16 000美元。使用z-score规范化,值73 600美元转换为数据变换数据变换(3
9、)(3)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益小数定标规范化:通过移动属性A 的小数点位置进行规范化。小数点的移动位数依赖于A 的最大绝对值。例:假定A的取值由-986917。A的最大绝对值为986。使用小数定标规范化,用1 000(即j=3)除每个值,这样,986规范化为0.986,而917被规范化为0.917。数据变换数据变换(4)(4)其中,j是使 Max(|)1的最小整数为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益练习练习用如下两种方法规
10、范化如下数据组200;300;400;600;1000l(a)min-max 规范化 令 min=0,max=1l(b)z-score 规范化为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答l(a)min-max 规范化 令 min=0,max=1l(b)z-score 规范化为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益例 下面的数据是AllElectronics 通常销售的商品的单价表(按$取整)。已对数据进行了排序:1,1,5,5,5,5,5,
11、5,8,8,10,10,10,10,12,12,12,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,25,28,28,30,30,30为进一步压缩数据,让每个桶代表price 的一个不同值。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益通过自然划分分段通过
12、自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。l聚类分析产生概念分层可能会将一个工资区间划分为:51263.98,60872.34l通常数据分析人员希望看到划分的形式为50000,60000自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益自然划分的自然划分的3-4-53-4-5规则规则规则的划分步骤:l如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)l如果一个区间最高有
13、效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;l如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;l将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;l对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分顶层分段段时,选用一个大部分的概率空间。e.g.5%-95%为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3-4-53-4-5规则规则例子例子u假定AllElectronics 所有分部1999 年的利润覆盖了一个很宽的区间
14、,由-$351,976.00 到$4,700,896.50。用户希望自动地产生利润的概念分层。为了改进可读性,我们使用记号(l.r表示区间(l,r。例如,(-$1,000,000.$0表示由-$1,000,000(开的)到$0(闭的)的区间。1 根据以上信息,最小和最大值分别为MIN=-$351,976.00 和MAX=$4,700,896.50。对于分段的顶层或第一层,要考虑的最低(第5 个百分位数)和最高(第95 个百分位数)值是:LOW=-$159,876,HIGH=$1,838,761。2 给定LOW 和HIGH,最高有效位在百万美元数字位(即,msd=1,000,000)。LOW 向
15、下对百万美元数字位取整,得到LOW=-$1,000,000;HIGH 向上对百万美元数字位取整,得到HIGH=+$2,000,000。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3-4-53-4-5规则规则例子例子3 由于该区间在最高有效位上跨越了三个值,即,(2,000,000 (1,000,000)/1,000,000=3,根据3-4-5 规则,该区间被划分成三个等宽的区间:(-$1,000,000.$0,($0.$1,000,000 和($1,000,000.$2,000,000。这代表分层结构的最顶层。4.现在,我
16、们考察MIN 和MAX,看它们“适合”在第一层分划的什么地方。由于第一个区间(-$1,000,000.$0覆盖了MIN 值(即,LOW HIGH,我们需要创建一个新的区间来覆盖它。对MAX 向上对最高有效位取整,新的区间为($2,000,000$5,000,000。因此,分层结构的最顶层包含4 个区间:(-$400,000.$0,($0.$1,000,000,($1,000,000.$2,000,000和($2,000,000.$5,000,000。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3-4-53-4-5规则规则例
17、子例子5.递归地,每一个区间可以根据3-4-5 规则进一步划分,形成分层结构的下一个较低层:l 第一个区间(-$400,000.$0划分成4 个子区间:(-$400,000.-$300,000,(-$300,000.-$200,000,(-$200,000.-$100,000和(-$100,000.$0。l 第二个区间($0.$1,000,000划分成5 个子区间:($0.$200,000,($200,000.$400,000,($400,000.$600,000,($600,000.$800,000和($800,000.$1,000,000。l 第三个区间($1,000,000.$2,000
18、,000 划分成5 个子区间:($1,000,000.$1,200,000,($1,200,000.$1,400,000,($1,400,000.$1,600,000,($1,600,000.$1,800,000和($1,800,000$2,000,000。l 最后一个区间($2,000,000.$5,000,000 划分成3 个子区间:($2,000,000.$3,000,000,($3,000,000.$4,000,000和($4,000,000.$5,000,000。l类似地,如果必要的话,3-4-5 规则可以在较低的层上继续迭代为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体
19、制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3-4-53-4-5规则规则例子例子(-$400-$5,000)(-$400-0)(-$400-$300)(-$300-$200)(-$200-$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)(
20、$1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步第一步 -$351-$159profit$1,838$4,700 Min Low(i.e,5%-tile)High(i.e,95%-0 tile)Maxcount(-$1,000 -$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第3章数据仓库和数据挖掘的OLAP技术为了规范事业单位聘用关系,建立和完
21、善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益习题习题假定 数据仓库包含三个维:time,doctor 和patient;两个度量:count 和charge;其中,charge 是医生对一位病人的一次来访的收费。l(a)列举三种流行的数据仓库建模模式。l(b)使用星型模式,画出上面数据仓库的模式图。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答(a)星型模式、雪花模式、或事实星座模式(b)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障
22、用人单位和职工的合法权益习题习题假定 数据仓库包含三个维:time,doctor 和patient;两个度量:count 和charge;其中,charge 是医生对一位病人的一次来访的收费。l(c)由基本方体day,doctor,patient开始,为列出2004 年每位医生的收费总数,应当执行哪些OLAP 操作?为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益解答解答上卷(Roll-up)操作,时间维的概念分层向上攀升,从day攀升到year.切片(Slice)操作,for time=2004.上卷(Roll-up)操作:
23、维规约,对patient维进行规约。patient from individual patient to all.为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第4章 挖掘频繁模式、关联和相关为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益由事务数据库挖掘单维布尔关联由事务数据库挖掘单维布尔关联规则规则最简单的关联规则挖掘,即单维、单层、布尔关联规则的挖掘。最小支持度 50%最小置信度 50%n对规则A D,其支持度 =60%n置信度Transaction-
24、idItems bought10A,B,D20A,C,D30A,D,E40B,E,F50B,C,D,E,FD A (60%,75%)为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益AprioriApriori算法步骤算法步骤Apriori算法由连接连接和剪枝剪枝两个步骤组成。连接:连接:为了找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选候选k项集项集记为Ck。lLk-1中的两个元素L1和L2可以执行连接操作 的条件是Ck是Lk的超集,即它的成员可能不是频繁的,但是所有频繁的k-项集都在Ck中(为什么?)。因此可以
25、通过扫描数据库,通过计算每个k-项集的支持度来得到Lk。l为了减少计算量,可以使用Apriori性质,即如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以直接从Ck删除。为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益AprioriApriori算法算法示例示例Database TDB1st scanC1L1L2C2C22nd scanC3L33rd scanTidItems10A,C,D20B,C,E30A,B,C,E40B,EItemsetsupA2B3C3D1E3ItemsetsupA2B3C
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 ppt 习题 课件
限制150内