2011年数据挖掘与数据仓库考试题(共2页).doc

资源ID：14157273 资源大小：27KB 全文页数：2页
资源格式： DOC 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2011年数据挖掘与数据仓库考试题(共2页).doc

精选优质文档-倾情为你奉上2011年数据挖掘与数据仓库考试题1 （10分）讨论:：下列每项活动是否是数据挖掘任务?简单陈述你的理由。(a) 根据性别划分公司的顾客。(b) 根据可赢利性划分公司的顾客。(c) 预测投一对骰子的结果。(d) 使用历史记录预测某公司未来的股票价格。2 （10分）列举3种数据挖掘功能，对每种举2个实际应用的例子。3 （10分）比较急切分类（如，判定树、贝叶斯、神经网络）相对于懒散分类（如，k -最临近、基于案例的推理）的优缺点。4 （10分）假定你作为一个数据分析人员，受雇于一家移动通讯公司。通过一个例子说明打算如何使用数据挖掘技术为公司提供帮助。你的例子应包含问题描述，使用何种数据挖掘方法解决该问题，理由和预期效果（不需要定量分析）。5 （10分）假设数据挖掘的任务是将如下的八个点（用(x,y)代表位置）聚类为三个类。A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距离函数是Euclidean函数。假设初始我们选择A1,B1,和C1为每个簇的中心，用k-means算法来给出（a）在第一次循环执行后的三个簇中心（b）最后的三个簇6 （10分）考虑下面的由Big-University的学生数据库挖掘的关联规则major(X,”science”) Þ status(X,”undergrad”) （1）假定学校的学生人数（即，任务相关的元组数）为5000，其中56%的在校本科生的专业是科学，64%的学生注册本科学位课程，70%的学生主修科学(science)。(a) 计算规则(1)的支持度和置信度。(b) 考虑下面的规则major(X,”biology”) Þ status(X,”undergrad”) 17%,80% （2）假定主攻科学的学生30%专业为biology。与规则(1)对比，你认为规则(2)新颖吗？解释你的结论。7 （15分）考虑为产品销售问题建立数据仓库。关注的主题是销售，用销售量、销售价和成本度量（由此可以计算销售金额和利润）。销售涉及销售的产品、时间、客户和销售代理。其中，产品用产品名称、产品类别、产品品牌等描述，时间用日、月、季、年描述，客户信息包括客户ID、客户名、送货地址（省、市、街道、门牌号）、帐号等信息，销售代理包括销售代理姓名、地区、省、市等信息(a) 给出每个维的概念分层。(b) 画出该数据仓库的星型模式图。(c) 由基本方体开始，为列出河南省客户购买的、由国美家电2004年销售的、小天鹅洗衣机，应当执行哪些OLAP操作？8 （15分）下表由雇员数据库的训练数据组成。数据已泛化。例如，年龄“3135”表示31到35的之间。对于给定的行，count表示department, status, age和salary在该行上具有给定值的元组数。departmentstatusagesalarycountsalessalessalessystemssystemssystemssystemsmarketingmarketingsecretarysecretaryseniorjuniorjuniorjuniorseniorjuniorseniorseniorjuniorseniorjunior31.3526.3031.3521.2531.3526.3041.4536.4031.3546.5026.3046K.50K26K.30K31K.35K46K.50K66K.70K46K.50K66K.70K46K.50K41K.45K36K.40K26K.30K3040402053310446设status是类标号属性。(a) 你将如何修改基本决策树算法，以便考虑每个广义数据元组 (即，每一行) 的count？(b) 使用你修改过的算法，构造给定数据的决策树。(c) 给定一个数据元组，它在属性department, age和salary上的值分别为“systems”, “2630 ”和“4650K”。该元组status的朴素贝叶斯分类结果是什么？9 （10分）给定事务数据库D1和D2，最小支持度阈值x和增长率r（>1）。设supD(X)为项集X在数据集合D上的支持度。从D1到D2的eEP是项集X，满足(a) supD1(X) ³ x；(b) ；(c) X的任何子集合都不同时满足(a)和(b)。修改挖掘频繁模式的FP-Growth算法，挖掘所有的从D1到D2的eEP。（只需要给出算法思想）专心-专注-专业

注意事项

本文（2011年数据挖掘与数据仓库考试题(共2页).doc）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。