欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据挖掘概念与技术.docx

    • 资源ID:35987016       资源大小:187.13KB        全文页数:35页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘概念与技术.docx

    数据挖掘概念概念与技术Data MiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译(a)该数据的均值是什么?中位数是什么?(b)该数据的众数是什么?争论数据的峰(即双峰、三峰 等)。(c)数据的中列数是什么?(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第 三个四分位数(Q3)吗?(e)给出数据的五数概括。(f)画出数据的盒图。(g)分位数一分位数图与分位数图的不同之处是什么?解答:(a)该数据的均值是什么?中位数是什么?均值是!妥=809/27 = 29.96 E 30 (公式2.1)。中位数i'应是第14个,即灯4=25=。2。(b)该数据的众数是什么?争论数据的峰(即双峰、三峰等)。这个数集的众数有两个:25和35,发生在同样最高的频率处,因此是双峰众数。(c)数据的中列数是什么?数据的中列数是最大术和最小是的均值。即:midrang e=(J0-13 )/2=41.5。(d)你能(粗略地)找出数据的第一个四分位数(Q1)和第三个四分位数(。3)吗?数据集的第一个四分位数应发生在25%处,即在(N+l)/4=7处。所以:01=20。而第三个四分位数应发生在75%处,即在3x(N+l)/4=21处。所以:23=35(e)给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大 值构成。它给出了分布外形良好的汇总,并且这些 数据是:13、20、 25、 35、 70o(f)画出数据的盒图。略。(g)分位数一分位数图与分位数图的不同之处是什么?分位数图是一种用来展现数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展现全部数的分位数信息,而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数一分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量 值相应分布的值域,且点依据 两种分布分位数值 展现。一条线(y=x)可画到图中,以增加图像的 信息。落在该线以上的点表示在y轴上显示的值 的分布比x轴的相应的等同分位数对应的值 的分 布高。反之,对落在该线以下的点那么低。2.3 2.7使用习题2.4给出的age数据回答以下问题:(a)使用分箱均值光滑对以上数据进行光滑,箱的深度为3o解释你的步骤。评述对于给定的数 据,该技术的效果。(b)如何确定数据中的离群点?(c)对于数据光滑,还有哪些其他方法?解答:(a)使用分箱均值光滑对以上数据进行光滑,箱 的深度为3o解释你的步骤。评述对于给定的数 据,该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以 下步骤:S 步骤1:对数据排序。(由于数据已被排序,所以此 时不需要该步骤。)S 步骤2:将数据划分到大小为3的等频箱中。箱 2: 16, 19, 204 : 22 , 25 , 25箱 6: 33, 33, 35箱 8: 36, 40, 45箱 1: 13, 15, 16箱 3 : 20 , 21 , 22 箱箱 5: 25, 25, 30箱 7: 35, 35, 35箱 9: 46, 52, 70S 步骤3:计算每个等频箱的算数均值。因 步骤4:用各箱计算出的算数均值替换每箱中的每个 值。箱 1: 44/3, 44/3, 44/3 箱 2: 55/3, 55/3, 55/3 箱 3: 21, 21, 21箱 4: 24, 24, 24箱 5: 80/3, 80/3, 80/3箱 6: 101/3, 101/3, 101/3箱 7: 35, 35, 35 箱 8: 121/3, 121/3,121/3箱9: 56, 56, 56 (b)如何确定数据中的离群点?聚类的方法可用来将相像的点分成组或“簇”,并检测离群点。落到簇的集外的值可以被视为离群点。作为选择,一种人机结 合的检测可被采纳,而计算机 用一种事先打算的 数据分布来区分可能的离群点。这些可能的离群点 能被用人工 轻松的检验,而不必检查整个数据集。(c)对于数据光滑,还有哪些其他方法?其它可用来数据光滑的方法包括别的分箱光滑 方法,如中位数光滑和箱边界 光滑。作为选择, 等宽箱可被用来执行任何分箱方式,其中每个箱中 的数据范围 均是常量。除了分箱方法外,可以使 用回归技术拟合成函数来光滑数据,如通过线性 或多线性回归。分类技术也能被用来对概念分层, 这是通过将低级概念上卷到高级概念来光滑数 据。2.4 2.10如下法律规范化方法的值域是什么?(a) min-max法律规范化。(b) z-score法律规范化。(c)小数定标法律规范化。解答:(a) min-max 法律规范化。值域是new_min,new_max o (b) z-score法律规范化。值域是(old _min mean)/ o, (old_max mean)/。,总的来说,对于全部可能 的数据集的 值域是(一oo, +oo) o(c)小数定标法律规范化。值域是(一1.0, 1.0) o2.5 2.12使用习题2.4给出的age数据,回答以下问题:(a)使用min-max法律规范化将age值35变换到0.0, 1.0 区间。(b)使用z-score法律规范化变换age值35,其中age的标 准差为12.94岁。(c)使用小数定标法律规范化变换age值35。(d)对于给定的数据,你情愿使用哪种方法?陈述你的理 由。解答:(a)使用min-max法律规范化将age值35变换到0.0, 1.0 区间。minA=13, maxA=70, new_min A=0.0, new_maxA=1.0,而 v=35,£ v J俺眯 4)+ new_,min_ min max -AmaxA 厂 min A(1 ° 0Q)+ °-° = 03860(b)使用z-score法律规范化变换age值35,其中age的标 准差为12.94岁。4 _ 13 +15 + 2 16 + 19 + 2 20 + 21 + 2 22 + 4 - 25A+ 30 + 2 - 33 + 4 - 35+36 + 40+ 45 + 46 + 52 + 70=鬻=29,963(A/ -=12.7002=12.7002= 12.9421吟="一发 161.2949,。A 二Hi 或 AS . 4)=2 = 1=n 167.4986,sA =v=355.037=0.3966 H 0.400o A12.700212.7002?2'9v963SA?2'9v963SA"口 A = 3512.94215.0 = 0.3892 H 0.393712.9421濒定法律35 o35 oge10 35 =035 由于最大的肯定值为J w70,所以 j=2。M =(d)对于给定的数据,你情愿使用哪种方法?陈述你的理 由。略。2.6 2.14假设12个销售价格纪录组已经排序如下:5, 10,11, 13, 15, 35,50, 55, 72, 92, 204, 215。使用如下每种方法将其划分成三 个箱。(a)等频(等深)划分。(b)等宽划分。(c)聚类。解答:(a)等频(等深)划分。bin5.10.11.binbinl 72,91,204,215等宽时分。每个区间的宽度是:(215-5)/3=70binbin9bin204.2(c)聚类。我们可以使用一种简洁的聚类技术:用2个最大的间隙将 数据分成3个箱。binbin35.50.55.bin204212.7 2.15使用习题2.4给出的age数据,(a)画出一个等宽为10的等宽直方图;(b)为如下每种抽样技术勾画例子:SRSWOR, SRSWR ,聚类抽样,分层抽样。使用大小为5 的样本和层“青年”,“中年”和“老年”。解答:(a)画出一个等宽为10的等宽直方图;(b)为如下每种抽样技术勾画例子:SRSWOR, SRSWR ,聚类抽样,分层 抽样。使用大小为5 的样本和层“青年”,“中年”和“老年”。元组:T1T2T3T1T2T3T1T2T3T1T2T3T1T2T4T2T3T4T2T3T4T2T3T5T2T3T7SRSWOR和SRSWR:不是同次的随机抽样结果可以不 同,但前者因无放回所以不能有相同的元组。SamoleSamoleSamoleSamoleSamoleSamoleT113T20T25T33T35T52T215T20T25T33T36T70T316T21T25T35T40T416T22T25T35T45JT519T22T30T35T46Sample2 Sample5T20T235T20T236T21T240T22T245T22T?46分层抽样:依据年龄分层抽样时,不同的随机试验结果不 同。T1VOUT2VOUH2T3middleT1VOUT2vounzT3middleT1VOUT2vounsT3middleT1VOUT2voun2T3middleT1VOUT2VOUI12T4middleT2VOUT3middleT4middleT2VOUT3middleT4middleT2VOUT3middleT5middleT2VOUT3middleT7seniorT1vounaT2vounsT3middleT4middleT7Senio2.8 555555555555555555555555551.1 3.4假定BigUniversity的数据仓库包含如下4个维: student(student_name,area_id , major, status, university) , course(course_name,department) ,semester( semester, year)和 instructor(dept, rank) ; 2 个度量:count和avg_grade 0在最低概念层, 度量avg_grade存放同学的实际课程成果。在较 高概念层,avg_grade存放给定组合的平均成果。(a)为该数据仓库画出雪花形模式图。(b)由基本方体student, course, semester, instructor开始, 为歹U 出 BigUniversity 每个同学的CS课程的平均成果,应使用哪 些特另I的OLAP操作。(c)假如每维有5层(包括all ),如“ student<major<status<university<all ", 该立方体包含多少方体?解答:a)为该数据仓库画出雪花形模式图。雪花模式如图所 /J O由基本方体student, course, semester, instructor开始, 为歹(J 出 BigUniversity 每个同学的CS课程的平均成果,应使用哪 些特别的OLAP操作。这些特别的联机分析处理(OLAP)操作有:i .沿课程(course)维从 course_id “上卷"至U department o.沿同学(student)维从student_id “上卷”至Iuniversity。ii .取 department= " CS ”和 university= " Big University ”,沿课程(course)维和同学(student)维切片。iii .沿同学(student)维从university下钻到 student_name。b) 假如每维有5层(包括all ),如“ student<major<status<university<all ",该立方体包含多少方体?这个立方体将包含54=625个方体。couunstudentcourse_idcourse_name department蓬stu也也jidstudent_idcourse_idstudent namesemester_idarea_idinstructor_idmajorcountstatusavg_gradeuniversityiv维表事semesterIsemester_idsemesteryearinstructor维表Instructor_iddeptarea维表area_idcityprovi Feecountry题3.4图题3.4中数据仓库的雪花形模式3.2 22222223.3 33333334.1 2022-11-294.2 有几种典型的立方体计算方法,4.3 题4.12考虑下面的多特征立方体查询:按 item , regio n, month)的全部 子集分组,对每组 找出2004年的最小货架寿命,并对价格低于100 美元、货架 寿命在最小货架寿命的1.251.5倍之 间的元组找出总销售额局部。d)画出该查询的多特征立方体图。e)用扩充的SQL表示该查询。f)这是一个分布式多特征立方体吗?为什么?解答:(a)画出该查询的多特征立方体图。R0fRl(21. 25*min (shelf) andW1. 5*min (shelf) (b)用扩充的SQL表示该查询。select item, region, month, Min(shelf), SUM(Rl) fromPurchase whereyear=2004cube by item, region, month: RIsuch that R1.shelf> 1.25 *MIN(Shelf) and(RI.Shelf<l.5*MIN(Shelf) and Rl .Price<100(c)这是一个分布式多特征立方体吗?为什么? 这不是一个分布多特征立方体,由于在“such that”语句中采纳了条件。4.4 2022-11-294.5 2022-11-295.1 Apriori算法使用子集支持度性质的先验学问。节介绍了由频繁项集产生关联规章的方法。提 出了一个更有效的方法。解释它为什么比 节的方 法更有效。(提示:考虑将习题5.1(b)和习题5.1(c) 的性质结合到你的设计中。)5.3数据库有5个事物。设min_sup=60%, min_conf=80。TWOE,YT200min_sup=60%, min_conf=80。TWOE,YT200HD购买的商品M, O, N, K,D, O, N, K,E, Y T300E, Y T300M, A, K, E)T400M, U, C, K,YT500C, O, O, K, I, EApriori和FP增长算法找出全部的频繁项 挖掘过程的效率。h)列举全部与下面的的元规章匹配的强关联规章(给出支持度s和置信度c),其中,X是代表顾客的变量,item是表示项的变量(如 "A”、“B” 等):xDtransaction, buys(X, item 1) Abuys(X, item 2)®buys(X, item3) s, c解答:(a)分别使用Apriori和FP增长算法找出全部的频繁项集。比拟两种挖掘过 程的效率。Apriori算法:由于只有5次购买大事,所以肯定支持度是5xmin_sup=3o第1章引 、A什么是数据挖掘?在你的回答中,针对以下问题:1.1 1.6定义以下数据挖掘功能:特征化、区 分、关联和相关分析、猜想聚 类和演化分 析。使用你熟识的现实生活的数据库,给出 每种数据挖掘功 能的例子。解答:回特征化是一个目标类数据的一般特性或特性 的汇总。例如,同学的特征 可被提出,形成 全部高校的计算机科学专业一班级同学的轮 廓,这些特征包括作为一种高的班级平均成 果(GPA: Grade point aversge)的信息、,还有 所修的课程的最大数量。S区分是将目标类数据对象的一般特性与一个 或多个比照类对象的一般 特性进行比拟。 例如,具有高GPA的同学的一般特性可被 用来与具有 低GPA的一般特性比拟。最终 的描述可能是同学的一个一般可比拟的轮 廓,就像具有高GPA的同学的75%是四班级 计算机科学专业的同学,而具有低GPA的同 学的65%不是。因关联是指觉察关联规章,这些规章表示一起 频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能觉察的 关联规那么为:major(X,u computingscience) JM3/O 3XM0 ;/ ,MK3 ot£10000 ,=fK 500fME2002 硼Y、MK,V,0g C300发二yY 82°£400p°°二,300C20090ZK300003:KEh0000 ,DpoPE3机2fU:Cloo 100 如 2ooKY3L =0KE31REKY f< EYLioAprio ri算法相同,得到计数的递减序排序,L=(K:5), (E:4),(M:3),(O:3), (Y:3)。扫描没个事 务,按以上L 的排序,从根节点开头,得到FP-树。E:4MO:1 :2RootM:1 0:2Y:1Y:1Y:1项条件条件产生的频繁YK,E,M,O:1, K,E,O:1, K,M:1)(tv n n/fi iK:3K:3K, Y:3K,O:3, f T7 CC 1效率比拟:Aprio ri算法的计算过程必需对数据 库作屡次扫描,而FP-增长算法在构造过程中 只需扫描一次数据库,再加上初始时为确定支持 度递减排序 的一次扫描,共计只需两次扫描。由于在Aprio ri算法中的自身连接过程产 生候 选项集,候选项集产生的计算代价特别高,而 FP-增长算法不需产生任何候选项。(b)列举全部与下面的的元规章匹配的强关联规 章(给出支持度s和置信度c),其中,X是 代表顾客的变量,item是表示项的变量(如“A”、“B” 等):xDtransaction, buys(X, " K " ) A buys(X, “0")®buys(X, "E ”)s=0.6, c=lxDtransaction, buys(X, "E " ) Abuys(X, "E" ) buys(X, “K”)s=0.6,c=l或也可表示为K,OEs(support)=0.6 或60%,c(confid ence)=1 或 100%E,O-Ks(support)=0.6 或60%,c(confid ence)=1 或 100%5.4 (实现工程)使用你熟识的程序设计语言(如C十十或Java),实现本章介 绍的三种频繁项集挖掘算法:5.5 2022- 12-015.6 2022-01-09第6章分类和猜想6.1 简述决策树分类的主要步骤。6.2 6.11下表由雇员数据库的训练数据组成。数据已泛化。 例如,age “3135”表示年龄在3135之间。对于给定的行,count表示 department, status, ag e和salary在该行具有给定值的元组数。deDartm status ag salary countsal senior sal junior sal junior systems junior systems senio r systems junior systems senio r marketin senior marketin junior secretary senior secretary junior304040205331044631- 46K-26 26K- nr31- 31K-21 46K-31- 66K-*W TF"26 46K*4i 66K-36- 46K-31- 41K-46 36K-26 26K-良嘴僵更备本决策树算法,以便考虑每个广义数据元 的 count?j)使用修改过的算法,构造给定数据的决策树。k) 给定一个数据元组,它的属性department , age和salary的值分别为“systems ” , " 26 30 ",和 " 46K 50K”。该元组status的朴实贝叶斯分类是什么?1)为给定的数据设计一个多层前馈神经网络。标记输入 和输出层节点。m)使用上面得到的多层前馈神经网络,给定训练实例(sales, senior ,3135, 46K-50K),给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率O解答:(a)如何修改基本决策树算法,以便考虑每个广义数据元组 (即每一行)的count?(b)使用修改过的算法,构造给定数据的决策树。(c)给定一个数据元组,它的属性 department , age 和 salary 的值分另U 为“systems”, “2630”,和 “46K-50K”。该元组status的朴实贝叶斯分类是什么?解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率:P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113; P(26-30junior)=(40+3+6)/l 13=49/113P(46K-50Kjunior)=(20+3)/l 13=23/113 ;X=(department=system, age=26 , , 30,salary=46K, , 50K);/. P(Xjunior)=P(systemsjunior)P(26-30|junior)P(46K-50Kjunio r)二23x49x23/1133=25921/1442897=0.01796 ;P(sy stems| senior)=(5+3)/(30+5+3+10+4)=23/52; P(26-3 01 senior)=(0)/53=0;P(46K-50K|senior)=(30+10)/52=40/52 ;X=(department=system, age=26 , , 30,salary=46K, , 50K);P(X|senior)=P(systems|senio r)P(26-30|senior)P(46K-50K|senior)=0;P(junior> 113/165=0.68;P(senior)=52/165=0.32;P(Xjunior)P(junior)=0.01796 X0. 68=0. 0122128>0=0=P(X|senior)P(senio r); 所以:朴实贝叶斯分类器将X分到junior类。解二:设元组的各属性之间不独立,其联合概率不 能写成份量相乘的形式。所以:X=(department=system,age=26, , , 30,salary=46K, , 50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。先验概率:当 status=senio r 时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32 ;当status=junior时,元组总数为: 40+40+20+3+4+6=113 ,P(junior)=l 13/165=0.68 ;由于status=senior状态没有对应的age=2630区间,所以:P(X|senior)=0; 由于 status=junior 状态对应的 partment=systems、age=26 30 区间的总元组 数为:3,所以:P(X|junior)=3/113;由于:P(X|junior)P(junior)=3/l 13 X 113/165 =0. 018>0=P(X|senior)P(senior); 所以:朴实贝叶斯分类器将X分到junior类。(d)为给定的数据设计一个多层前馈神经网络。标记输入和输 出层节点。(e)使用上面得到的多层前馈神经网络,给定训练实例(sales, senior, 31 35, 46K50K),给出后向传播算法一次迭代后 的权重值。指出你使用的初始权重和偏倚以及学习率。6.3 2022-12-016.4 2022-12-01owns(X,"personalcomputer")confidsupport=12%,ence=98%肯需同圣是丘畲表示同学的变量。这个规章指出正在学 (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个同学 拥有一台个人电 脑的概率是98% (置信度,或确定度)。S分类与猜想不同,由于前者的作用是构造一 系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去猜想 缺失的或无效的、并且通常是数字的数据 值。它们的相像性是他们都是猜想的工具: 分类被用作猜想目标数据的类的标签,而猜 测典型的应用是猜想缺失的 数字型数据的 值。S聚类分析的数据对象不考虑的类标号。 对象依据最大花蕾内部的相 似性、最小化类 之间的相像性的原那么进行聚类或分组。形成 的每一簇可以被看作一个对象类。聚类也便 于分类法组织形式,将观测组织成类分层结 构,把类似的大事组织在一起。S数据延边分析描述和模型化随时间变化的对 象的规律或趋势,尽管这可 能包括时间相关 数据的特征化、区分、关联和相关分析、分 类、或猜想,这种分析的明确特征包括时间序 列数据分析、序列或周期模式匹配、和 基于 相像性的数据分析1.9列举并描述说明数据挖掘任务的五种原语。解答:用于指定数据挖掘任务的五种原语是:因任务相关数据:这种原语指明给定挖掘所处 理的数据。它包括指明数据 库、数据库表、 或数据仓库,其中包括包含关系数据、选择 关系数据的条件、用于探究的关系数据的属 性或维、关于修复的数据排序和分组。因挖掘的数据类型:这种原语指明白所要执行 的特定数据挖掘功能,如特 征化、区分、关 联、分类、聚类、或演化分析。同样,用户 的要求可能更特别,并可能供应所觉察的模 式必需匹配的模版。这些模版或超模式(也被称为超规章)能被用来指导觉察过程。 因背景学问:这种原语允许用户指定已有的关 于挖掘领域的学问。这样的学问能被用来指导学问觉察过程,并且评估觉察的模式。关 于数据中关 系的概念分层和用户信念是背景 学问的形式。因模式爱好度度量:这种原语允许用户指定功 能,用于从学问中分割不感 爱好的模式,并 且被用来指导挖掘过程,也可评估觉察的模 式。这样就 允许用户限制在挖掘过程返回的 不感爱好的模式的数量,由于一种数据挖掘 系统可能产生大量的模式。爱好度测量能被 指定为简易性、确定性、适用性、和新奇性的 特征。S觉察模式的可视化:这种原语述及觉察的模 式应被显示出来。为了使 数据挖掘能有效地 将学问传给用户,数据挖掘系统应能将觉察 的各种 形式的模式展现出来,正如规章、表 格、饼或条形图、决策树、立方体或其它视觉的表示。1.3 1.13描述以下数据挖掘系统与数据库或数据 仓库集成方法的差异:不耦合、松散耦合、 半紧耦合和紧密耦合。你认为哪种方法最流 行,为什么?解答:数据挖掘系统和数据库或数据仓库系统的集成的层次的差异如下。S不耦合:数据挖掘系统用像平面文件这样的 原始资料获得被挖掘的原始 数据集,由于没 有数据库系统或数据仓库系统的任何功能被 作为处理过程的一局部执行。因此,这种构 架是一种糟糕的设计。s松散耦合:数据挖掘系统不与数据库或数据 仓库集成,除了使用被挖掘 的初始数据集的 源数据和存储挖掘结果。这样,这种构架能 得到数据库 和数据仓库供应的敏捷、高效、 和特征的优点。但是,在大量的数据集中, 由松散耦合得到高可测性和良好的性能是特 别困难的,由于很多这种系统是基于内存 的。s半紧密耦合:一些数据挖掘原语,如聚合、 分类、或统计功能的估计算,可在数据库或数 据仓库系统有效的执行,以便数据挖掘系统 在挖掘-查询 过程的应用。此外,一些常常 用到的中间挖掘结果能被估计算并存储到 数 据库或数据仓库系统中,从而增加了数据挖 掘系统的性能。s紧密耦合:数据库或数据仓库系统被完全整 合成数据挖掘系统的一部份,并且因此供应 了优化的数据查询处理。这样的话,数据挖 掘子系统被视为一个信息系统的功能组件。这是一中高度期望的结构,由于它有 利于数 据挖掘功能、高系统性能和集成信息处理环 境的有效实现。从以上供应的体系结构的描述看,紧密耦合是 最优的,没有值得顾虑的技术 和执行问题。但紧 密耦合系统所需的大量技术基础结构仍旧在进展变 化,其实现 并非易事。因此,目前最流行的体系 结构仍是半紧密耦合,由于它是松散耦合和 紧密 耦合的折中。1.4 1.14描述关于数据挖掘方法和用户交互问题的三个数据 挖掘挑战。第2章数据预处理2.1 2.2假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年频1205-14515 302015050 70801104计算数据的近似中位数值。解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597200+450+300=950< 1597<2450=950+1500;2050对应中位数区间。我们有:£1=20, N=3197,篁freq) 1=953 freqmed ,q=1500, width=30,使用公式(2.3):RN/2 fr4a 03197/2 950median = -width = - 30 = 32.97a freq 为笆 1500 median median=32,9r7 岁。2.2 2.4假定用于分析的数据包含属性ageo数据 元组的age值(以递增序)是:13, 15,16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30,40, 45, 46, 52, 70。

    注意事项

    本文(数据挖掘概念与技术.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开