数据挖掘考试复习资料(共10页).docx
《数据挖掘考试复习资料(共10页).docx》由会员分享,可在线阅读,更多相关《数据挖掘考试复习资料(共10页).docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘考试复习资料一、 名词解释1、 数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合,用来支持管理决策。2、 聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类3、 数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识4、 人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。5、 文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术6、 OLAP:又称联
2、机分析处理,是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。)7、 概念描述:就
3、是对目标类对象的内涵进行描述,并概括这类对象的有关特征。特征化:提供给定数据汇集的简洁汇总比较:提供两个或多个数据汇集的比较描述8、 信息熵:在中,熵被用来衡量一个出现的。它代表了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。二、 简答题1、 数据仓库和传统数据库的区别和联系是什么?(1)区别:数据仓库和数据库是不同的概念 数据仓库是一个综合的解决方案,而数据库只是一个现成的产品。数据仓库需要一个功能十分强大的数据库引擎来驱动,它更偏向于工程。数据仓库系统和传统数据库系统相比,不同点表现在以下几方面。(2)联系:数据库是数据管理技术,是计算机科学的重
4、要分支,其应用已从一般管理扩大到计算机辅助设计、人工智能以及科技计算等领域.数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,是20世纪末到21世纪初数据库市场的一个新的增长点.数据仓库的数据常常来自于多个数据源,存放模式一致,数据一般驻留在单个站点,数据仓库中的数据已经清理、变换、集成于装载,并定期刷新,数据仓库中的数据是海量的,数据仓库所要研究和解决的问题就是从数据库中的获取信息.数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。 2、数据挖掘的主要功能是什么?数据挖掘
5、的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。 (1)自动预测趋势和行为数据挖掘自动在大型数据库中进行分类和预测、寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。 (2)关联分析数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取值之间存在某种规律性,就称为关联。 (3)聚类 聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。 (4)概念描述就是对目标类对象的内涵进行描述,并概括这类对 象的有关特征。 (5)偏差检测数据库中的数据常有一些异常记
6、录,从数据库中检测这些偏差很有意义。3、 简述OLAP在多维数据模型中的几个基本操作?(1)切片:在多维数组的某一维上选定一维成员的动作成为切片。(2)切块:在多维数组的某一维上选定某一区间的维成员的动作。 (3)旋转:旋转既是改变一个报告或者页面的维方向(4)钻取。钻取处理是使用户在数据仓库的多层数据中,能够通过导航信息而获得更多的细节性数据,钻取一般是指向下钻取。 4、 数据挖掘的步骤包括哪些? 理解数据和数据的来源 获取相关知识与技术 整合与检查数据 去除错误或不一致的数据 建立模型和假设 实际数据挖掘工作 测试和验证挖掘结果 解释和应用(1)数据准备:包括数据的选择、净化、推测、转换数
7、据缩减。数据准备包括:选择数据-在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理-进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。(2)数据挖掘:采用的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算了。数据挖掘根据KDD的日标,选取相应算法的参数,得到可能形成知识的模式模型。(3)评估、解释模式模型:上面得到的模式模型,需要评估以确定哪些是有 效的模式。结果分析 对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。 (4) 巩固知识。(5) 运用知识。将分析所得到的知识集成到的组织结构中去。5、 数据挖掘与传
8、统分析方法的区别是什么?数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征. 先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.6、 简述事务处理与分析处理的操作特点的不同? OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此
9、OLAP也可以说是多维数据分析工具的集合。事务处理和分析处理的性能特性不同l 所有联机事务处理强调的是数据更新处理性能和系统的可靠性。在事务处理环境中,用户的行为特点是数据的存取操作频率高,每次操作处理的时间短。l 在分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的决策支持(DSS)应用程序可能需要连续几个小时,从而消耗大量的系统资源。l 联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。 事务处理:存取操作频率高而每次操作处理的时间短。 分析处理;某个DS
10、S应用程序可能需要连续使用几个小时,从而消耗掉大量的系统资源,将具有如此不同处理性能的两种应用放在一个环境中运行,这种行为是不适当的7、 简述数据仓库系统的体系结构?(1)数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;(2)数据的存储与管理。是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从
11、数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为)。 (3)OLAP(联机分析处理)服务器。对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:(关系型在线分析处理)、(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在之中;MOLAP基本数据和聚合数据均存放于中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 (4)前端工具。主要包括各种报表工具、
12、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。8、 OLAP的基本特征和可构造的多维数据模型有哪些?1)基本特征:(1)快速性:用户对OLAP的快速反应能力有很多高的要求。系统应能在5秒内对用户的大部分分析要求作出反应。(2)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。(3)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。(4)信息性:不论数据量有多大,OLAP也不管数据存储在何处,系统应能及时获得信息,并
13、且管理大容量信息。2)多维数据模型:这种模型以星形模式、雪花模式、或事实星座模式形式存在星形模式:它的核心是一个包含主题的事实表,通过事实表将多个包含事实的非正规化描述的维度表连接起来,各个维度表都连接到中央事实表。雪花模式:是对星型模型的扩展,每一个维度都可以向外连接多个对事实进行详细描述的类别表。事实星座:复杂的应用可能需要多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。9、 如何理解数据挖掘功能中的关联分析?数据关联是数据库中存在的一类重要的可被发现的知识,若两个或两个以上变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网,常
14、用的两种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物的相互关联性或相互依赖性;序列模式分析将重点放在分析数据之间的前因后果关系。10、 数据挖掘与神经网络的关系是什么?神经网络是属于人工智能范畴的,但可以用于数据挖掘,比如通过一批样本数据,训练出神经网络模型,然后再去测试新数据。就是对数据挖掘中分类技术的一个应用。数据挖掘就是从大量数据中挖掘有用的知识,神经网络就是一种有学习能力的类似人脑活动的技术,其实也是在提炼知识。三、 论述题1、 试分析数据挖掘技术在金融领域的应用情况?数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:1 )对目标市场(targeted market
15、ing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤方法有助于识别客户组,以及推动目标市场。2 )客户价值分析。在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分析鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 考试 复习资料 10
限制150内