2022年数据仓库与数据挖掘考试试题.docx

资源ID：49955696 资源大小：361.29KB 全文页数：5页
资源格式： DOCX 下载积分：4.3金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4.3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2022年数据仓库与数据挖掘考试试题.docx

精选学习资料 - - - - - - - - - 多练出技巧巧思出硕果一、填空题（ 15 分）1. 数据仓库的特点分别是面对主题、集成、相对稳固、反映历史变化；2. 元数据是描述数据仓库内数据的结构和建立方法的数据；依据元数据用途的不同可将元数据分为技术元数据和业务元数据两类；3.OLAP 技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等；4. 基于依靠型数据集市和操作型数据储备的数据仓库体系结构经常被称为“中心和辐射” 架构, 其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范畴的两端；5.ODS实际上是一个集成的、面对主题的、可更新的、当前值的、企业级的、具体的数据库,也叫运营数据储备；二、多项挑选题（ 10 分）6. 在数据挖掘的分析方法中,直接数据挖掘包括（） D 基于密度聚类方法A 分类 B 关联 C 估值 D 预言7. 数据仓库的数据ETL 过程中, ETL软件的主要功能包括（）A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8. 数据分类的评判准就包括（ ABCD ）A 精确度 B 查全率和查准率 C F-Measure D 几何均值9. 层次聚类方法包括（ BC ）A 划分聚类方法 B 凝结型层次聚类方法 C 分解型层次聚类方法10. 贝叶斯网络由两部分组成,分别是（ A D ）A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、运算题（ 30 分）11. 一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定 supmin=40%,confmin=40%,使用 Apriori 项目集；（15 分）算法运算生成的关联规章,标明每趟数据库扫描时的候选集和大事务项目事务项目 T1 面包、果冻、花生酱 T4 啤酒、面包 T2 面包、花生酱 T5 啤酒、牛奶 T3 面包、牛奶、花生酱的全部项目直接产生1- 候选 C1,运算其支持度,取出支解：（ 1）由 I= 面包、果冻、花生酱、牛奶、啤酒名师归纳总结持度小于 supmin 的项集,形成1- 频繁集 L1,如下表所示：第 1 页,共 4 页- - - - - - -精选学习资料 - - - - - - - - - 项集 C1 多练出技巧巧思出硕果支持度支持度项集 L1 面包 L1中的各项目,产生4/5 面包 4/5 2- 频花生酱 3/5 花生酱 3/5 牛奶 2/5 牛奶 2/5 啤酒 2/5 啤酒 2/5 2 组合连接2- 候选集 C2,运算其支持度,取出支持度小于sup min 的项集,形成繁集 L2,如下表所示：项集 C23/5 支持度项集 L2 3/5 支持度面包、花生酱面包、花生酱至此,全部频繁集都被找到,算法终止,所以, confidence （面包花生酱） =（4/5 ） / （3/5 ） =4/3> conf min confidence（花生酱面包） =（3/5 ） / （4/5 ） =3/4> conf min所以,关联规章面包花生酱、花生酱面包均是强关联规章；12. 给定以下数据集（2 ,4,10,12,15,3,21）,进行 K-Means 聚类,设定聚类数为2 个,相像度依据欧式距离运算；（ 15 分）解：（1）从数据集X 中随机地挑选k 个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知 k=2,就可设 m1=2,m2=4：（2）对于 X 中的任意数据样本xm（1<xm<total ）,运算它与k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中：当分别为 2, 8,10,13,1,19；m1=2 时,样本（ 2 ,4, 10,12,15,3,21）距离该代表点的距离当 m2=4 时,样本（ 2 ,4,10,12,15,3,21）距离该代表点的距离分别为-2 , 6,8,11,-1 ,17；最小距离是 1 或者 -1 将该元素放入 m1=2 的聚类中,就该聚类为（2,3）,另一个聚类 m2=4 为（ 4,10, 12,15, 21）；（3）完成数据样本的划分之后,对于每一个聚类,运算其中全部数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k 个均值代表点：m 1=2.5 ,m2=12：（4）对于 X 中的任意数据样本xm（ 1<xm<total ）,运算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中：当 m1=2.5 时,样本（ 2 , 4,10,12, 15, 3, 21）距离该代表点的距离分别为 -0.5 ,0.5 ,1.5 , 7.5 ,9.5 ,12.5 , 18.5 ；当 m2=12 时,样本（ 2 , 4,10, 12,15,3,21）距离该代表点的距离分别为-10 ,-9 ,-8 ,2, 3, 9；最小距离是 1.5 将该元素放入 m1=2.5 的聚类中,就该聚类为（2,3,4）,另一个聚类 m2=12 为（ 10, 12,15, 21）；（5）完成数据样本的划分之后,对于每一个聚类,运算其中全部数据样本的均值,并且将其作为该聚类的名师归纳总结 - - - - - - -第 2 页,共 4 页精选学习资料 - - - - - - - - - 多练出技巧巧思出硕果新的代表点,由此得到 k 个均值代表点：m 1=3, m2=14.5 ：（6）对于 X 中的任意数据样本xm（ 1<xm<total ）,运算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中：当 m1=3 时,样本（ 2 ,4, 10,12,15,3,21）距离该代表点的距离分别为 -1 ,1,7, 9,12,18,；当 m2=14.5 时,样本（ 2 , 4, 10, 12, 15, 3,21）距离该代表点的距离分别为-12.58 ,-11.5 , -10.5 ,-4.5 ,-2.5 , 0.5 ,6.5 ；最小距离是0.5 将该元素放入m1=3 的聚类中,就该聚类为（2,3, 4）,另一个聚类m2=14.5 为（ 10, 12,15, 21）；至此,各个聚类不再发生变化为止,即误差平方和准就函数的值达到最优；四设计题（ 45 分）13. 依据题目给定的 3 个数据文件,任选一个建立数据流图,要求至少包括记录选项、字段选项、图形结点各一个；任选关联规章 Apriori 算法、贝叶斯网络、K-Means 聚类、决策树 C5.0（ C4.5）算法、神经网络中的一个进行挖掘,并给出数据流图；（ 10 分）14. 对以上数据流图中使用的每个结点做一简短说明；（ 10 分）挑选： age>25. 名师归纳总结过滤：过滤后的字段；Region,tenure,age,marital,churn. ：第 3 页,共 4 页类型- - - - - - -精选学习资料 - - - - - - - - - 多练出技巧巧思出硕果15. 给出以上数据流图中模型的执行结果（生成模型完全绽开后的数据）分结果；（10 分）,对于执行结果太多的,可节选部16. 对以上模型生成的结果做一简要的分析,包括算法采纳的基本原理、数学模型、算法步骤等；15 分答： k-means 聚类算法基本原理：将各个聚类子集内的全部数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评判集合类性能的准就函数达到最优,从而使生成的每个集合类的紧凑,类间独立；操作步骤：输入：数据集 , 其中的数据样本只包含描述属性,不包含类别属性；聚类个数 K 输出：（1）从数据集 X 中随机地挑选 k 个数据样本作为聚类的出示代表点,每一个代表点表示一个类别（2）对于 X 中的任意数据样本 xm（ 1<xm<total ）,运算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中（3）完成数据样本的划分之后,对于每一个聚类,运算其中全部数据样本的均值,并且将其作为该聚类的新的代表点,由此得到 k 个均值代表点（4）对于 X 中的任意数据样本 xm（ 1<xm<total ）,运算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中（5）重复 3.4 ,直到各个聚类不再发生变化为止；即误差平方和准就函数的值达到最优名师归纳总结 - - - - - - -第 4 页,共 4 页

注意事项

本文（2022年数据仓库与数据挖掘考试试题.docx）为本站会员（H****o）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。