2022年数据仓库与数据挖掘考试试题 .pdf
多练出技巧巧思出硕果一、 填空题( 15 分)1. 数据仓库的特点分别是面向主题、 集成 、 相对稳定、反映历史变化。2. 元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务 元数据两类。3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、 钻取 、 旋转 等。4. 基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“ 中心和辐射”架构, 其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、 可更新的、 当前值的、 企业级的、详细的数据库,也叫运营数据存储。二、 多项选择题( 10 分)6. 在数据挖掘的分析方法中,直接数据挖掘包括()A 分类 B 关联 C 估值 D 预言7. 数据仓库的数据ETL过程中, ETL软件的主要功能包括()A 数据抽取 B 数据转换 C 数据加载 D 数据稽核8. 数据分类的评价准则包括( ABCD )A 精确度 B 查全率和查准率 C F-Measure D 几何均值9. 层次聚类方法包括( BC )A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法10. 贝叶斯网络由两部分组成,分别是( A D )A 网络结构 B 先验概率 C 后验概率 D 条件概率表三、 计算题( 30 分)11. 一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定 supmin=40% ,confmin=40% ,使用 Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15 分)事务项目事务项目 T1 T2 T3 面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱 T4 T5 啤酒、面包啤酒、牛奶解: (1)由 I= 面包、果冻、花生酱、牛奶、啤酒 的所有项目直接产生1- 候选 C1,计算其支持度,取出支持度小于 supmin的项集,形成1- 频繁集 L1,如下表所示:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 4 页多练出技巧巧思出硕果项集 C1 支持度项集 L1支持度 面包 花生酱 牛奶 啤酒 4/5 3/5 2/5 2/5 面包 花生酱 牛奶 啤酒 4/5 3/5 2/5 2/5 (2) 组合连接L1中的各项目,产生2- 候选集 C2,计算其支持度,取出支持度小于supmin的项集,形成2-频繁集 L2,如下表所示:项集 C2支持度项集 L2支持度 面包、花生酱 3/5 面包、花生酱 3/5 至此,所有频繁集都被找到,算法结束,所以, confidence ( 面包 花生酱 )=(4/5 )/ (3/5 )=4/3 confmin confidence( 花生酱 面包 )=(3/5 )/ (4/5 )=3/4 confmin所以,关联规则 面包 花生酱 、 花生酱 面包 均是强关联规则。12. 给定以下数据集(2 ,4,10,12,15,3,21) ,进行 K-Means聚类,设定聚类数为2 个,相似度按照欧式距离计算。 (15 分)解: (1)从数据集X 中随机地选择k 个数据样本作为聚类的出示代表点,每一个代表点表示一个类别,由题可知 k=2,则可设 m1=2,m2=4:(2)对于 X 中的任意数据样本xm(1xmtotal ) ,计算它与k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2时,样本( 2 ,4,10,12,15,3,21)距离该代表点的距离分别为 2,8,10,13,1,19。当 m2=4 时,样本( 2 ,4,10,12,15,3,21)距离该代表点的距离分别为-2,6,8,11,-1 ,17。最小距离是 1 或者 -1 将该元素放入m1=2 的聚类中,则该聚类为(2,3) ,另一个聚类m2=4 为( 4,10,12,15,21) 。(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k 个均值代表点:m1=2.5 ,m2=12:(4)对于 X 中的任意数据样本xm (1xmtotal ) ,计算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中:当m1=2.5 时,样本( 2 ,4,10,12,15,3,21)距离该代表点的距离分别为 -0.5 ,0.5 ,1.5 ,7.5 ,9.5 ,12.5 ,18.5 。当 m2=12 时,样本( 2 ,4,10,12,15,3,21)距离该代表点的距离分别为-10 ,-9 ,-8 ,2,3,9。最小距离是1.5 将该元素放入m1=2.5 的聚类中,则该聚类为(2,3,4) ,另一个聚类m2=12 为( 10,12,15,21) 。(5)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 4 页多练出技巧巧思出硕果新的代表点,由此得到k 个均值代表点:m1=3, m2=14.5 :(6)对于 X 中的任意数据样本xm (1xm25. 过滤:过滤后的字段。Region,tenure,age,marital,churn. 类型:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 4 页多练出技巧巧思出硕果15. 给出以上数据流图中模型的执行结果(生成模型完全展开后的数据),对于执行结果太多的,可节选部分结果。(10 分)16. 对以上模型生成的结果做一简要的分析,包括算法采用的基本原理、数学模型、算法步骤等。(15 分) 答: k-means 聚类算法基本原理:将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据划分为不同的类别,使得评价聚集类性能的准则函数达到最优,从而使生成的每个聚集类的紧凑,类间独立。操作步骤:输入:数据集 , 其中的数据样本只包含描述属性,不包含类别属性。聚类个数K 输出:(1)从数据集X中随机地选择k 个数据样本作为聚类的出示代表点,每一个代表点表示一个类别(2)对于 X 中的任意数据样本xm (1xmtotal ) ,计算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中(3)完成数据样本的划分之后,对于每一个聚类,计算其中所有数据样本的均值,并且将其作为该聚类的新的代表点,由此得到k 个均值代表点(4)对于 X 中的任意数据样本xm (1xmtotal ) ,计算它与 k 个初始代表点的距离,并且将它划分到距离最近的初始代表点所表示的类别中(5)重复 3.4 ,直到各个聚类不再发生变化为止。即误差平方和准则函数的值达到最优精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 4 页