2022年数据仓库与数据挖掘考试试题 .pdf

资源ID：33680508 资源大小：338.84KB 全文页数：4页
资源格式： PDF 下载积分：4.3金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要4.3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2022年数据仓库与数据挖掘考试试题 .pdf

多练出技巧巧思出硕果一、填空题（ 15 分）1. 数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2. 元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。4. 基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。二、多项选择题（ 10 分）6. 在数据挖掘的分析方法中，直接数据挖掘包括（）A 分类 B 关联 C 估值 D 预言7. 数据仓库的数据ETL过程中， ETL软件的主要功能包括（）A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8. 数据分类的评价准则包括（ ABCD ）A 精确度 B 查全率和查准率 C F-Measure D 几何均值9. 层次聚类方法包括（ BC ）A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法10. 贝叶斯网络由两部分组成，分别是（ A D ）A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、计算题（ 30 分）11. 一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定 supmin=40% ，confmin=40% ，使用 Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15 分）事务项目事务项目 T1 T2 T3 面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4 T5 啤酒、面包啤酒、牛奶解：（1）由 I= 面包、果冻、花生酱、牛奶、啤酒的所有项目直接产生1- 候选 C1，计算其支持度，取出支持度小于 supmin的项集，形成1- 频繁集 L1，如下表所示：精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页，共 4 页多练出技巧巧思出硕果项集 C1 支持度项集 L1支持度面包花生酱牛奶啤酒 4/5 3/5 2/5 2/5 面包花生酱牛奶啤酒 4/5 3/5 2/5 2/5 (2) 组合连接L1中的各项目，产生2- 候选集 C2，计算其支持度，取出支持度小于supmin的项集，形成2-频繁集 L2，如下表所示：项集 C2支持度项集 L2支持度面包、花生酱 3/5 面包、花生酱 3/5 至此，所有频繁集都被找到，算法结束，所以， confidence （面包花生酱）=（4/5 ）/ （3/5 ）=4/3 confmin confidence（花生酱面包）=（3/5 ）/ （4/5 ）=3/4 confmin所以，关联规则面包花生酱、花生酱面包均是强关联规则。12. 给定以下数据集（2 ，4，10，12，15，3，21），进行 K-Means聚类，设定聚类数为2 个，相似度按照欧式距离计算。（15 分）解：（1）从数据集X 中随机地选择k 个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知 k=2，则可设 m1=2，m2=4：（2）对于 X 中的任意数据样本xm（1xmtotal ），计算它与k 个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（ 2 ，4，10，12，15，3，21）距离该代表点的距离分别为 2，8，10，13，1，19。当 m2=4 时，样本（ 2 ，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1 ，17。最小距离是 1 或者 -1 将该元素放入m1=2 的聚类中，则该聚类为（2，3），另一个聚类m2=4 为（ 4，10，12，15，21）。（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k 个均值代表点：m1=2.5 ，m2=12：（4）对于 X 中的任意数据样本xm （1xmtotal ），计算它与 k 个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5 时，样本（ 2 ，4，10，12，15，3，21）距离该代表点的距离分别为 -0.5 ，0.5 ，1.5 ，7.5 ，9.5 ，12.5 ，18.5 。当 m2=12 时，样本（ 2 ，4，10，12，15，3，21）距离该代表点的距离分别为-10 ，-9 ，-8 ，2，3，9。最小距离是1.5 将该元素放入m1=2.5 的聚类中，则该聚类为（2，3，4），另一个聚类m2=12 为（ 10，12，15，21）。（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页，共 4 页多练出技巧巧思出硕果新的代表点，由此得到k 个均值代表点：m1=3， m2=14.5 ：（6）对于 X 中的任意数据样本xm （1xm25. 过滤：过滤后的字段。Region,tenure,age,marital,churn. 类型：精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页，共 4 页多练出技巧巧思出硕果15. 给出以上数据流图中模型的执行结果（生成模型完全展开后的数据），对于执行结果太多的，可节选部分结果。（10 分）16. 对以上模型生成的结果做一简要的分析，包括算法采用的基本原理、数学模型、算法步骤等。(15 分) 答： k-means 聚类算法基本原理：将各个聚类子集内的所有数据样本的均值作为该聚类的代表点，算法的主要思想是通过迭代过程把数据划分为不同的类别，使得评价聚集类性能的准则函数达到最优，从而使生成的每个聚集类的紧凑，类间独立。操作步骤：输入：数据集 , 其中的数据样本只包含描述属性，不包含类别属性。聚类个数K 输出：（1）从数据集X中随机地选择k 个数据样本作为聚类的出示代表点，每一个代表点表示一个类别（2）对于 X 中的任意数据样本xm （1xmtotal ），计算它与 k 个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k 个均值代表点（4）对于 X 中的任意数据样本xm （1xmtotal ），计算它与 k 个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中（5）重复 3.4 ，直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页，共 4 页

注意事项

本文（2022年数据仓库与数据挖掘考试试题 .pdf）为本站会员（Che****ry）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。