《数据挖掘复习题(共3页).doc》由会员分享,可在线阅读,更多相关《数据挖掘复习题(共3页).doc(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘复习题 1选择题1 某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的_A_问题。 A 关联规则发现 B 聚类 C 分类 D 自然语言处理2 将原始数据进行集成、变换、维度规约、数值规约是在_C_阶段完成的。 A 频繁模式挖掘 B 分类和预测 C 数据预处理 D 数据流挖掘3 Clementine 不能读取的数据文件是_D_。A SPSS文件 B SAS文件 C 文本文件 D PDF文件4 在将“学生成绩.sav”数据文件通过Clementine的数据源(Source)选项卡加载到流中后,浏览此上载数据可用_A_节点。A 表(Tab
2、le) B 类型(Types) C 过滤(Filter) D 导出(Derive)5 在利用多元线性回归进行预测过程中,如果解释变量的数目被控制在十个以内,至少需要_C_个样本才能满足模型估计的基本要求。A 10 B 20 C 30 D 40填空题1 某单位有100个人,他们的平均身高是170cm,标准差为5cm, 根据切比雪夫定理,该单位至少有_75_%的人身高在160cm180cm这个区间里,如果预先知道该单位人的身高服从正态分布,在上述条件不变的情况下,可得出该单位大约有_95_%人的身高在160cm180cm这个区间里的结论。2 Clementine 可视化界面的四个区域分别是_流区域
3、_, _面板区_, _模型管理区_,_项目管理区_。3 Clementine 超节点的建立操作是:首先选中若干个节点,然后右击鼠标,选择弹出菜单中的_创建超节点_选项,要查看超节点中的具体内容,选择超节点弹出菜单中的_放大_选项,如果要取消超节点,选择弹出菜单中的_展开_选项。4 Clementine数据质量的探索主要包括_数据缺失问题_、_数据离群点和极端值两大方面。5 Clementine 输出选项卡中的数据审核节点默认变量值在以均值为中心的3个标准差以外为离群点,5个标准差以外为极端值,默认变量值与上四分位数或下四分位数的绝对差大于1.5倍的四分位差为离群点,大于3倍四分位差为极端值。简
4、答题1 数据流的操作主要包括哪几个步骤?(1) 选择和管理节点(2) 节点连接和连接调整(3) 设置节点参数(4) 执行数据流2 预测与分类的区别是什么?分类是预测数据对象的离散类别,预测是用于数据对象的连续取值3 数据分类由哪几步过程组成?第一步,建立一个模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。4 ID3算法的核心是什么?在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,以使得在每一个叶节点进行测试时能获得关于被测试记录最大的类别信息。5 不完整数据的产生原因有哪些?(1) 有些属性的内容有时没有(2) 有些数据当时被认为是不必要的(3) 由于误解或检测设备失灵
5、导致相关数据没有记录下来(4) 与其他记录内容不一致而被删除(5)历史记录或对数据的修改被忽略了。6. 噪声数据的产生原因有哪些?(1) 数据采集设备有问题(2) 在数据录入过程中发生了人为或计算机错误(3) 数据传输过程中发生错误(4) 由于命名规则或数据代码不同而引起的不一致。7. 对遗漏数据有哪些处理方法?忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。8. Clementine中有哪些对离群点或极端值的修正方法?(1) 用距离离群点或极端值最近的正常数据代替。(2) 剔除离群点或极端值。(3) 用系统缺失值nu
6、ll替代离群点或极端值。(4) 按照(1)修正离群点,剔除极端值。(5) 按照(1)修正离群点,用系统缺失值null替代极端值。9. Clementine中有哪些对数据缺失值的替补方法?(1) 用具体值替补,包括均值、中间值、或一个指定常数。(2) 用正态分布或均匀分布中的一个随机数替补。(3) 用一个指定的算术表达式结果替补。(4) 用分类回归树的预测值替补。10. 说明多元线性回归模型假设检验的步骤?查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量
7、的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。但是,一次只能将最不显著(相应概率最大)的删除。每次删除一个,直至全部显著。计算题杨昭军等利用中国统计年鉴提供的1977 1985 年耐用消费品社会拥有量数据如下:t 0 1 2 3 4 5 6 7 8年度 1977 1978 1979 1980 1981 1982 1983 1984 1985实际值 3.04 3.5 4.06 4.7 5.63 6.63 7.5 8.4 9.4采用迭代算法, 建立了缝纫机平均百人拥有量增长Logistic 曲线回归方程如下:,(1) 试求缝纫机平均百人拥有量的渐增期、快增期和缓增期,(2) 通过该曲线对1977 1985 年缝纫机平均百人拥有量进行预测,(3) 利用公式在置信水平情况下对回归方程进行拟合优度检验,其中是第年的实际值,是第年的预测值,缝纫机平均百人拥有量的实际值及预测值平均百人拥有量的Log ist ic 曲线回归方程拟合得好, 可以用于预测。专心-专注-专业
限制150内