《优秀资料(2021-2022年收藏)数据挖掘与数据仓库复习资料.docx》由会员分享,可在线阅读,更多相关《优秀资料(2021-2022年收藏)数据挖掘与数据仓库复习资料.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘与数据仓库复习资料2010-04-07 16:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。其次,数据库是数据仓库的基础。第三,在技术实现方面,数据库与数据仓库几乎没有差别。第四,不要脱离企业的实际,盲目地、片面地、甚至是赶
2、时髦地去实施数据仓库。第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。数据库与数据仓库将长期共存下去。3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面。1集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。其次,业务数据库缺乏统一的定义与规划,导致数据定义存在歧义。2主题不明确3分
3、析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布到数据集市中。分布式数据仓库结构在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据
4、仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据7数据仓库与数据组织1星形模型 由事实表和多个维度表组成。事实表中 存放大量关于企业的事实数据,对象个数通常都很大,而且非规范化程度很高。为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。优点:星形模型是非规范化的,以增加存储空间的代价,提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。由于事实表的主键由所有的围标的主键组成,这种
5、维度的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。2雪花模型雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。3.第三范式(特点)把事实表和维度表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,表按第三范式组织数据,减少了维度表中的键和不必要的属性。星形模型在进
6、行多维数据分析时,在不超过预定义的维度范围内,速度是很快的,但是在超出了预定义的维度,增加维度将是很困难的事情。第三范式对于海量数据,且需要处理大量的动态业务分析时,就显示了他的优势。4.数据抽取、转换和装载抽取包括1.确认数据源2.数据抽取技术8概念模型设计将需求分析过程中得到的用户需求抽象为信息结构,即为概念模型。是从客观世界到计算机世界的一个中间层次。最常用的表示方法是实体关系法(ER法),用E-R图作为它的描述工具。9逻辑模型设计逻辑模型设计是把概念模型设计好的ER图转换成计算机所支持的数据模型。数据仓库在计算机中的数据模型是星形模型。这样数据仓库的逻辑模型设计主要是将用 ER突表示的
7、概念模型转换成星形模型。主要工作为:(1)主题域进行概念模型(ER图)到逻辑模型(星形模型)的转换;(2)粒度层次分析;(3)关系模式定义;(4)定义记录系统。10物理模型的设计数据仓库的物理模型设计是为了逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。所作的工作是:估计存储容量确定数据的存储计划确定索引确定数据存放位置确定存储分配11维度表维度表的属性内容,是对所依附的事实表的某些信息的描述,这种描述应具有以下特征。 (1) 每个维度表都应该有自己的特定的标题 (如时间、地点等) ,这一标题是对属性内容的抽象,并可作为对事实表进行分析的依据,以满足用户依据不
8、同的需要进行查询分析的要求。 (2) 维度表的属性内容,必须有准确的表述。这种表述的方式可以是离散的,也可以是文字化的,但必须能对被描述物体进行区分。例如,国籍维度表,就是用具体的文字来表述属性的内容,并体现出了彼此之间的区别。12事实表13元数据表(定义、模型、作用)元数据模型 元数据是关于数据的数据,是对数据的结构、内容、键码、索引等的一种描述。类型 元数据按其所描述的内容,可以分为三类。 (1) 关于基本数据的元数据。在数据仓库系统中,基本数据是指数据源、数据集市、数据仓库以及由应用程序所存储和管理的所有数据的总和。关于基本数据的元数据即包含了与上述各部分数据有关的内容。按说明的范围,这
9、部分元数据又可进一步细分为关于全部数据的元数据和关于部分数据的元数据两个子类。 (2) 关于数据处理的元数据。数据处理主要指数据的抽取、转换、加载、更新、数据完整性与一致性的检查、缺失数据的补充等方面的工作。关于数据处理的元数据定义了同这些工作相关联的规则,它包括过滤器、联结器和聚合器等部件,数据仓库的系统日志也属于此类元数据的范畴。 (3) 关于企业组织的元数据。这类元数据比较特殊,它是对企业的组织结构状况的直接反映。如果把企业的组织信息作为基本数据(例如对中小型企业而言),它又可归入“基本数据元数据”一类。所有与企业组织有关的信息,如数据集市数据仓库的所有者、管理者的界定,以及各类用户使用
10、系统的权限范围等,均由此类元数据加以说明。因此,这类元数据对于数据仓库的安全具有特殊意义。 根据用户对数据仓库的认识和使用目的,可将数据仓库划分为两大类。(1)技术元数据(Technical Metadata)。技术元数据将开发工具、应用程序以及数据仓库系统联系在一起,对分析、设计、开发等所有技术环节进行详细说明。技术元数据主要供数据仓库管理人员和应用开发人员使用,它为技术人员维护和扩展系统,提供了一个详细的“说明书”和“结构图”(2)业务元数据(Business Metadata)。业务元数据可以认为是通用业务术语和关于数据仓库的上下文信息的集合,它是联系业务用户和数据仓库中数据的桥梁,为业
11、务用户提供了有关数据仓库整体结构的视图。业务元数据包含有面向应用的文档(系统简介、使用导航等),以及各种术语的定义与所有报表的细节。作用 数据仓库的开发重构是一项复杂的工程,在实施这一工程时,元数据所起的重要作用包括以下内容。描述业务规则与数据之间的映射。作为数据分割的依据。提高系统灵活性的手段。定义标准处理的规则。 元数据定义了数据从被抽取,到清洗、转换,再到导入数据仓库的全部过程。其作用如下。 (1) 确定数据的来源。 (2) 保证数据仓库内容的质量。 (3) 实现属性间的映射与转换。14数据挖掘定义从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在
12、其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。15粒度模型除了构造元数据模型之外,在开发数据仓库的过程中,构造粒度模型也是一项十分重要的工作。所谓粒度,是指数据仓库中记录数据或对数据进行综合时所使用的时间段参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。时间段参数越小,粒度级别越低,数据就越详细、越具体;反之,时间段参数越大,粒度级别越高,就意味着数据综合度越高,同时细节的损失也就越多。传统的业务处理数据
13、库,是面向事务处理的,因此具有非常低的粒度,其数据有着十分详细和具体的细节,它本身并不进行汇总,但-Z-I为汇总准备了条件。在数据仓库中,数据按不同的粒度进行不同层次的汇总,以供分析使用。对当前细节级的数据,一般保留在较低的粒度水平,数据具有较高的细节。随时间的推移,按设定的时间阈值和粒度阈值,数据逐步进行汇总,依次形成轻度综合级、高度综合级的数据,以节约存储空间,降低系统开销。综合程度随粒度的增加而提升,细节的损失也随之增多。在设计数据仓库时,要根据行业的业务特点和决策分析的需求,妥善设定粒度指标,以取得良好的综合效果。16数据挖掘的基本功能(关联、分类、聚类、决策树)数据挖掘的目标是从数据
14、库中发现隐含的、有意义的知识。数据挖掘的功能一般可以分为两大类:描述和预测。描述类挖掘任务刻画了数据库中数据的一般特性。预测类挖掘任务在当前数据上进行推断,以此进行预测。了解了数据挖掘的分类,理解了被挖掘的对象,并在此基础上对挖掘对象按挖掘功能进行分类,有助于我们按照用户需求选择合适的挖掘算法或挖掘工具来辅助企业制定决策,同时也是我们准确地分析问题和解决问题的依据。 一般而言,数据挖掘的功能与挖掘的目标数据类型是相关的。某些功能只能应用在某种特定的数据类型上,而某些功能则可以应用在多个不同类型的数据库上。对于数据挖掘任务的确定,必须综合考虑数据挖掘功能、要挖掘的数据类型和用户的兴趣。关联分析
15、关联分析(Association Analysis)就是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式。数据关联是数据库中存在的一类重要的知识。若两个或多个变量的取值之间存在某种规律性,则称之为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联规则。分类 分类(Classification)在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是找出一组能够描述数据集合典型特征的模型或函数,以便能够识别未知数据的归属或类别。分类模型能够通过数据挖掘分类算法从一组训练样本数据(其类别归属已知)中学习获得。分类和回归都可用
16、于预测。预测的目的是从利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。 数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同类别的一个过程。分类的目标首先是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述,即分类规则,然后使用这些描述,对数据库中的其他数据进行分类。实际上,分类过程包含两步:第一步,建立一个模型,描述指定的数据类集;第二步,使用模型进行分类。模型的建立是基于对训练数据集的分析。模型可以用多种形式表示,如分类规则、判定树、数学公式或神经网络等 分类通常和预
17、测联系起来,这是因为分类可以用来预测数据对象的类标记,也可以用来预测某些空缺的或不知道的数据值,当被预测的值是数值数据时,通常称之为预测。分类挖掘主要的技术有统计方法、机器学习方法和神经网络方法等。聚类 聚类(C1ustering)是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。聚类与分类分析方法不同,聚类分析是在没有给定划分类的情况下(如没有预定的分类表、没有预定的类目),根据信息相似度进行信息聚集的一种方法。所以,聚类分析的输入数据集是一组未标记的对象。聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所以对于
18、相同的数据集合可能有不同的划分。在机器学习中,聚类是无指导学习的一个例子,分类是有指导学习的一个例子,两者所采用的方法相差甚远,并且聚类的时间复杂度要比分类大得多。聚类分析技术包括统计、机器学习、神经网络等方法。在统计方法中,聚类被称为聚类分析,它是多元数据分析的三大方法之一(其他两种是回归分析和判别分析)。统计方法不具有线性的计算复杂度,难以适用于数据库非常大的情况。在机器学习中,聚类称作无监督归纳。决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值建立树的分支。每个分支子集中重复建立树的下层结点和分支的过程。采
19、用决策树,可以将数据规则可视化,也不需要长时间的构造过程,实际应用中的决策树可能非常复杂,但是即使复杂,每一条从根结点到叶子结点的路径的含义仍然是可以理解,精度较高。决策树的这种易理解性对数据挖掘的使用者来说是一个显著的优点。因此,决策树在知识发现系统中应用较广。然而,采用决策树方法也有其缺点,决策树方法很难基于多个变量组合发现规则,不同决策树分支之,间的分裂也不平滑。 决策树是通过一系列规则对数据进行分类的过程。该方法的思路就是从训练集数据中,自动地构造决策树,从而可以根据这个决策树对任意实例进行判定。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。一般的数
20、据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小结点的大小,最大树的深度等等)来限制决策树。决策树作为一棵树,树的根结点是整个数据集合空间,每个分结点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶结点是属于单一类别的记录。构造决策树的过程如下:首先寻找初始分裂,整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。决定哪个属性域作为目前最好的分类指标,一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂,量化的标准是计算每个分裂的多样性(Diversity)指标。其次,重复第一步,直至每个叶结点内的记录都属于同一类,直
21、至增长到一棵完整的树,顾名思义,决策树就像一棵树。它利用树的结构将数据记录进行分类,树的一个结点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层结点和分支,便可生成一颗决策树。决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而达到高潮,最后又演化为能处理连续属性的C45。著名的决策树方法还有CART和Assistant。后来,人们也把决策树方法应用在数据挖掘中,目前决策树方法还主要用于分类。17过程、模型Fayyad 过程模型确定挖掘目标建立目标数据集数据清洗和预处理数据降维和转换选择挖掘算法模式评价和解释CRISPDM过程模型 CRIS
22、P-DM (Cross-Industry Process for Data Mining,交叉行业数据挖掘过程标准) 。CRISPDM过程注重数据挖掘技术的应用,解决了Fayyad模型存在的两个问题。该模型经过不断完善和试验,在1999年发布了CRISPDMI0。CRISPDM过程模型从数据挖掘技术应用的角度划分数据挖掘任务,将数据挖掘技术和应用紧密结合,更加注重数据挖掘模型的质量和如何与业务问题相结合。如何运用挖掘出的模型是数据挖掘实际应用中用户最关心的问题,因此,CRISPDM过程模型从商业的角度给出了对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISPDM标准,将模型的挖
23、掘和模型的部署紧密结合。 CRISP-DM过程模型的基本步骤包括:业务理解、数据理解、数据准备、建立模型、评价和实施。图6-2描述了这些步骤以及它们之间的关系,而表6-2则列出了CRISP-DM过程各阶段的任务以及相应的输出文档。 CRISP-DM过程模型各阶段之间的关系有如炒菜待客,商业理解就是了解顾客的口 味;数据理解则是熟悉每一样原料可以炒什么菜;数据准备则是根据顾客的口味和厨师 的经验,配菜,择菜和洗菜;建模则是靠大厨炒菜的水平;到了评估阶段就是顾客品尝;如果满意则到了最后的阶段,作为招牌菜发布推广。因而,CRISPDM模型的过程就是客户空腹而来,满意而归的完整的服务过程。18文本挖掘
24、(概述) 主要技术、主要应用文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程,文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术。 它的主要用途是从原本未经使用的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简
25、历评审,搜索引擎等等。文本挖掘可以通过下图有个大致理解。它由三部分组成:底层是文本挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。文本提取的应用企业情报? 从竞争对手的网站上提取关键数据 新推出的产品 在价格,促销方面的变化等? 提取竞争对手客户的关键数据 据此采用相应的措施来争取客户文本提取的大规模Web应用? 建立工作职位招聘大全的数据库
26、 扫描各种网站,通过分类,确定哪些网页是关于工作机会的描述 提取 公司/日期/工资/等级/ 将提取的信息填入数据库中? 建立所有网上个人简历的数据库 扫描网站,通过分类,确定哪些是个人简历 然后提取关键的内容,放到数据库的相应字段中,姓名/特长/? 中关村人才招聘网采用的是什么技术?信息服务? BBS上公布的所有讲座通知 提取 时间/地点/讲者/题目 首先也还是得到一段文字的“讲座通知”类别? email消息中公布的会议通知 提取 时间/参加人/地点 总之,我们把对文本数据的分类、融合、压缩、摘要、以及从文本中抽取发现知识与信息都看作是文本数据挖掘。以下我们主要对文本数据挖掘的五大基本技术做一
27、个综述。在五项基本技术中,文本信息抽取和文本数据压缩是文本数据挖掘特有的技术,其它三项技术在其它数据挖掘领域中也会用到。19Web内容挖掘策略直接挖掘文档的内容在其它工具搜索的基础上进行改进Web内容挖掘:提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。20Web结构挖掘:Web结构挖掘研究的是Web文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是Web结构数据。是从WWW的组织
28、结构和链接关系中推导知识。由于文档之间的互连,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。21Web日志挖掘:Web日志挖掘的主要目标则是从Web的访问记录中(Web服务器log日志)抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web access log),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。 Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据数据库方法:半结构化数据Web结构数据用户访问Web数据主要数据自由化文本、HTML
29、标记的超文本HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxy serverlog,Client log表示方法词集、段落、概念、IR的三种经典模型对象关系模型图关系表、图处理方法统计、机器学习、自然语言理解数据库技术机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现Web站点重建,商业决策过程Web挖掘就是从Web文件和Web活动中筛选感兴趣的潜在的有用模式和隐藏的信息。Web挖掘是一项综合技术,涉及Web数据挖掘、计算机语言学、信息论学等多个领域。Web挖掘可以在很多方面发挥功能,如对查找引擎的结构进行挖掘、确定权威页面、Web文件分类、Web Log挖掘、智能型查询、建立Meta-Web数据仓库等。Web挖掘搜索策略1、深度优先(网络蜘蛛)2、广度优先(通用的搜索引擎)1. Web上的数据的特点(1)Web页面的复杂性高于传统的文本(2)Web是一个动态性极强的信息源(3)Web面对的是一个广泛的形形色色的客户群(4)Web上的信息只有很小的一部分是相关的或有用的 综上所述,Web挖掘是一个更有挑战性的课题,它执行的是对Web存取模式、Web结构、规则和动态的Web内容的查找。
限制150内