欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据仓库与数据挖掘考试试题44520.docx

    • 资源ID:68832946       资源大小:97.86KB        全文页数:8页
    • 资源格式: DOCX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘考试试题44520.docx

    中国矿业大学银川学院期末考试试题2010至2011学年第2学期考试科目 数据仓库与数据挖掘 学分 2 年级 2008 系 机电动力力与信息工程程系 专业 计算机 一、 填空题(15分分)1.数据仓库的的特点分别是是 面向主题题 、 集成 、 相对稳定定 、反映历史史变化。2.元数据是描描述数据仓库库内数据的结结构和建立方方法的数据。根根据元数据用用途的不同可可将元数据分分为 技术 元数据和 业务 元数据两类类。3.OLAP技技术多维分析析过程中,多多维分析操作作包括 切片 、 切块 、 钻取 、 旋转 等。4.基于依赖型型数据集市和和操作型数据据存储的数据据仓库体系结结构常常被称称为“ 中心和辐辐射 ”架构,其中中 企业级数数据仓库 是中心,源源数据系统和和数据集市在在输入和输出出范围的两端端。5.ODS实际际上是一个集集成的、 面向主题的的 、 可更新的 、 当前值的 、 企业级的 、详细的数据据库,也叫运运营数据存储储。二、 多项选择题(110分)6.在数据挖掘掘的分析方法法中,直接数数据挖掘包括括( )A 分类 B 关联联 C 估值 DD 预言7.数据仓库的的数据ETLL过程中,EETL软件的的主要功能包包括()A 数据抽取 BB 数据转换换 C 数据据加载 D 数据稽核8.数据分类的的评价准则包包括( AABCD )A 精确度 B 查全率和查查准率 C F-Measure D 几何均值9.层次聚类方方法包括( BC )A 划分聚类方方法 B 凝聚型层次次聚类方法 C 分解解型层次聚类类方法 D 基于密密度聚类方法法10.贝叶斯网网络由两部分分组成,分别别是( AA D )A 网络结构 B 先验概率 CC 后验概率率 D 条件概率表表三、 计算题(30分分)11.一个食品品连锁店每周周的事务记录录如下表所示示,其中每一一条事务表示示在一项收款款机业务中卖卖出的项目,假假定supminn=40%,connfmin=400%,使用Apriiori算法法计算生成的的关联规则,标标明每趟数据据库扫描时的的候选集和大大项目集。(115分)事务项目事务项目 T1 T2 T3面包、果冻、花花生酱面包、花生酱面包、牛奶、花花生酱 T4 T5啤酒、面包啤酒、牛奶解:(1)由II=面包、果果冻、花生酱酱、牛奶、啤啤酒的所有有项目直接产产生1-候选选C1,计算其支支持度,取出出支持度小于于supmiin的项集,形形成1-频繁繁集L1,如下表所所示:项集C1 支持度 项集L11 支持度面包 花生酱 牛奶 啤酒 4/53/52/52/5面包 花生酱 牛奶 啤酒 44/5 33/5 22/5 22/5(2)组合连接接L1中的各项目目,产生2-候选集C22,计算其支支持度,取出出支持度小于于supmiin的项集,形形成2-频繁繁集L2,如下表所所示:项集C2 支持度 项集L22支持度面包、花生酱酱 3/5面包、花生酱酱 3/5至此,所有频繁繁集都被找到到,算法结束束,所以,conffidencce(面包包花生酱)=(4/5)/(3/5)=4/3> confmiin coonfideence( 花生酱面包)=(3/5)/(4/5)=3/4> confmiin所以,关联规则则面包花生酱、 花生生酱面包均均是强关联规规则。12.给定以下下数据集(22 ,4,10,12,15,3,21),进行行K-Meaans聚类,设设定聚类数为为2个,相似似度按照欧式式距离计算。(15分)解:(1)从数数据集X中随随机地选择kk个数据样本本作为聚类的的出示代表点点,每一个代代表点表示一一个类别,由由题可知k=2,则可设设m1=2,m2=4:(2)对于X中中的任意数据据样本xm(1<xm<totaal),计算算它与k个初初始代表点的的距离,并且且将它划分到到距离最近的的初始代表点点所表示的类类别中:当mm1=2时,样样本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为2,8,110,13,11,19。当m2=4时,样样本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为-2,66,8,111,-1,117。最小距离是1或或者-1将该该元素放入mm1=2的聚类类中,则该聚聚类为(2,33),另一个个聚类m2=4为(44,10,112,15,221)。(3)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点:m1=2.5,mm2=12:(4)对于X中中的任意数据据样本xm(11<xm<ttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中:当当m1=2.5时时,样本(22 ,4,110,12,115,3,221)距离该该代表点的距距离分别为-0.5,00.5,1.5,7.55,9.5,112.5,118.5。当m2=12时时,样本(22 ,4,110,12,115,3,221)距离该该代表点的距距离分别为-10,-99,-8,22,3,9。最小距离是1.5将该元素素放入m1=2.5的的聚类中,则则该聚类为(22,3,4),另另一个聚类mm2=12为(110,12,115,21)。(5)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点:m1=3, m2=14.55:(6)对于X中中的任意数据据样本xm(11<xm<ttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中:当当m1=3时,样样本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为-1,11,7,9,112,18,。当m2=14.5时,样本本(2 ,44,10,112,15,33,21)距距离该代表点点的距离分别别为-12.58,-111.5,-10.5,-4.5,-2.5,00.5,6.5。最小距离是0.5将该元素素放入m1=3的聚类类中,则该聚聚类为(2,33,4),另另一个聚类mm2=14.55为(10,112,15,221)。至此,各个聚类类不再发生变变化为止,即即误差平方和和准则函数的的值达到最优优。四设计题(445分)13.按照题目目给定的3个个数据文件,任任选一个建立立数据流图,要要求至少包括括记录选项、字段选项、图图形结点各一一个。任选关联规则则Aprioori算法、贝贝叶斯网络、KK-Meanns聚类、决决策树C5.0(C4.5)算法、神神经网络中的的一个进行挖挖掘,并给出出数据流图。(10分)14.对以上数数据流图中使使用的每个结结点做一简短短说明。(10分)选择:age>>25.过滤:过滤后的的字段。Regionn,tenuure,agge,marrital,churnn.类型:15.给出以上上数据流图中中模型的执行结果(生生成模型完全全展开后的数数据),对于执行行结果太多的的,可节选部部分结果。(10分)16.对以上模模型生成的结结果做一简要要的分析,包包括算法采用用的基本原理理、数学模型型、算法步骤骤等。(15分)答:k-meaans聚类算算法基本原理理:将各个聚聚类子集内的的所有数据样样本的均值作作为该聚类的的代表点,算算法的主要思思想是通过迭迭代过程把数数据划分为不不同的类别,使使得评价聚集集类性能的准准则函数达到到最优,从而而使生成的每每个聚集类的的紧凑,类间间独立。操作步骤:输入:数据集,其中的数据据样本只包含含描述属性,不不包含类别属属性。聚类个个数K输出:(1)从数据集集X中随机地地选择k个数数据样本作为为聚类的出示示代表点,每每一个代表点点表示一个类类别(2)对于X中中的任意数据据样本xm(11<xm<ttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中(3)完成数据据样本的划分分之后,对于于每一个聚类类,计算其中中所有数据样样本的均值,并并且将其作为为该聚类的新新的代表点,由由此得到k个个均值代表点点(4)对于X中中的任意数据据样本xm(11<xm<ttotal),计计算它与k个个初始代表点点的距离,并并且将它划分分到距离最近近的初始代表表点所表示的的类别中(5)重复3.4,直到各各个聚类不再再发生变化为为止。即误差差平方和准则则函数的值达达到最优

    注意事项

    本文(数据仓库与数据挖掘考试试题44520.docx)为本站会员(you****now)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开