数据仓库与数据挖掘课程设计44521.docx





《数据仓库与数据挖掘课程设计44521.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘课程设计44521.docx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、通信与信息工程学院数据仓库与数据挖掘分析课程设计班 级:XXXX姓 名:XXX学 号:XXXXXX指导教师:XXXXX设计时间:XXXXX成 绩:评 语: 通通信与信息工工程学院 二一一X年工作完成统计表表:组员完成任务说明自评教师评定XX1、聚类分析和和关联分析建建模2、相关图表分分析3、撰写相关内内容报告2XX1、决策分析和和聚类分析挖挖掘建模2、相关图表分分析3、撰写相关内内容报告4XXX1、 顺序分析与聚类类分析模型和和目标邮递方方案2、 相关图表分析处处理3、 撰写相关内容报报告4XX1、 聚类分析和决策策分析模型2、 撰写相关内容报报告3、 相关图表分析处处理 教师签名名:目录1绪
2、论11.1项目背景景11.2提出问题题12数据仓库与与数据集市的的概念介绍12.1数据仓库库介绍12.2数据集市市介绍23数据仓库33.1数据仓库库的设计33.1.1数据据仓库的概念念模型设计43.1.2数据据仓库的逻辑辑模型设计53.2 数据仓仓库的建立53.2.1数据据仓库数据集集成53.2.2建立立维表84.OLAP操操作105.数据预处理理125.1描述性数数据汇总125.2数据清理理与变换136.数据挖掘操操作136.1关联规则则挖掘136.2 分类和和预测176.3决策树的的建立186.4聚类分析析227.总结2558.任务分配261、 绪论 1.1项目目背景 在现现在大数据时时代
3、,各行各各业需要对商商品及相关关关节的数据进进行收集处理理,尤其零售售行业,于企企业对产品的的市场需求进进行科学合理理的分析,从从而预测出将将来的市场,制制定出高效的的决策,给企企业带来经济济收益。1.2 提出问问题对于超市的商品品的购买时期期和购买数量量的如何决定定,才可以使使销售量最大大,不积压商商品,不缺货货,对不同时时期季节和不不同人群制定定不同方案,使使企业收益最最大,通过数数据挖掘对数数据进行决策策树分析,关关联分析,顺顺序分析与决决策分析等可可以制定出最最佳方案。2、数据库仓库库与数据集的的概念介绍2.1数据仓库库数据仓库介绍: 数据仓仓库是为企业业所有级别的的决策制定过过程提供
4、支持持的所有类型型数据的战略略集合。它是是单个数据存存储,出于分分析性报告和和决策支持的的目的而创建建。 为企业业提供需要业业务智能来指指导业务流程程改进和监视视时间、成本本、质量和控控制。 数据仓仓库是决策系系统支持(ddss)和联联机分析应用用数据源的结结构化数据环环境。数据仓仓库研究和解解决从数据库库中获取信息息的问题。数数据仓库的特特征在于面向向主题、集成成性、稳定性性和时变性。数据集介绍: 数据集集是指一种由由数据所组成成的集合。DData sset(或ddataseet)是一个个数据的集合合,通常以表表格形式出现现。每一列代代表一个特定定变量。每一一行都对应于于某一成员的的数据集的
5、问问题。它列出出的价值观为为每一个变量量,如身高和和体重的一个个物体或价值值的随机数。每每个数值被称称为数据资料料。对应于行行数,该数据据集的数据可可能包括一个个或多个成员员。3、 数据仓库3.1 数据仓仓库的设计 3.1.11数据仓库的的概念模型设设计概念模型的设计计是整个概念念模型开发过过程的三阶段段。设计阶段段依据概念模模型分析以及及分析过程中中收集的任何何数据,完成成星型模型和和雪花型模型型的设计。如如果仅依赖EERD,那只只能对商品、销销售、客户主主题设计成如如图所示的概概念模型。这这种模型适合合于传统的数数据库设计,但但不适合于数数据仓库的设设计。 3.1.2数数据仓库的逻逻辑模型
6、设计计 逻辑建建模是数据仓仓库实施中的的重要一环,因因为它能直接接反映出各个个业务的需求求,同时对系系统的物理实实施有着重要要的指导作用用,它的作用用在于可以通通过实体和关关系勾勒出企企业的数据蓝蓝图,数据仓仓库的逻辑模模型设计任务务主要有:分分析主题域,确确定要装载到到数据仓库的的主题、确认粒度层次次划分、确认认数据分割策策略、关系模模式的定义和和记录系统定定义、确认数数据抽取模型型等。逻辑模型最终设设计成果包括括每个主题的的逻辑定义,并并将相关内容容记录在数据据仓库的元数数据中、粒度度划分、数据据分割策略、表表划分和数据据来源等。3.2 数据仓仓库的建立 3.2.1数据仓库库数据集一般说来
7、,一个个数据集市是是按照某一特特定部门的决决策支持需求求而组织起来来的、针对一一组主题的应应用系统。例例如,财务部部拥有自己的的数据集市,用来进行财财务方面的报报表和分析,市场推广部部、销售部等等也拥有各自自专用的数据据集市,用来来为本部门的的决策支持提提供辅助手段段。数据集市市大都采用多多维数据库技技术,这种技技术对数据的的分析而言也也许是最优的的,但肯定不不适合于大量量数据的存储储,因为多维维数据库的数数据冗余度很很高。为了提提高速度,对对数据集市中中的数据一般般都建立大量量的索引。换换言之,数据据集市中往往往靠对数据的的预处理来换换取运行时的的高速度,当当业务部门提提出新的问题题时,如果
8、不不在原来设计计的范围内,则需要数据据库管理员对对数据库作许许多调整和优优化处理。3.2.2建立立维表维是分析问题的的角度,度量量是要分析的的问题。多维视图:用包包含度量和维维的表的数据据结构可以创创建一个多维维视图,用试试题和维创建建的多维模型型称为星型模模型,星型模模型生成的主主要表格被称称为事实表。事事实表的属性性值几乎都有有连续值。事事实表是规范范化的。与维维表不同不是是随时间的推推移变化,而而是不断变大大。维表:星型模型型也具有非常常小的表,用用来装载描述述信息。维表表是逆规范化化的。如果把把维表置于第第二范式中,这这样的表称为为雪花模型。维表包括主键,通通常对应事实实表的外部键键。
9、如果维表表的主键不在在实事表中,这这个主键字便便被称作退化化的维。维表的分类:(1)结构维维:表示在层层内组成中的的信息量度。如如客户地理位位置维、时间间维、产品维维等。结构维维包含一组相相关的成员,组组成结构维的的属性之间有有一对多的关关系。加法度度量:可以相相加的属性值值(2)信息息维:计算字字段如利润额额、平均值等等(每个商品品的利润)。(3) 分区维:以同一结构构生成两个或或多个维。如如:按时间分分区,预测额额度、实际额额度等。(44)分类维:通过对一个个维的属性值值分组而创建建。如果工资资收入5000-20000;200-4000;5000-7000;等创建维表:有33种方法:星星型
10、模型、雪雪花模型和星星暴模型。星星暴模型含有有两张以上的的事实表。基基本有些充当当维事实表。星型模型:所有有信息维都放放在同一个维维表中。维表表信息包含一一个唯一的标标识符(IDD)和通过这这个维表建立立的所有维所所需的属性。星星型模型由小小的维表与大大的事实表组组成,多称为为“小表和大表表”。事实表一一般是标准表表。雪花模型:把信信息分为3种种标准格式。产产品表、类别别表、子类别别表。把这些些信息放到一一起需要一定定数据的连接接。雪花模型型比星型模型型效率低,占占空间少。所所有的事实表表都有一个与与之相关的时时间维表。4. OLAP操作联机分析处理(OOLAP)系系统是数据仓仓库系统最主主要
11、的应用,专专门设计用于于支持复杂的的分析操作,侧侧重对决策人人员和高层管管理人员的决决策支持,可可以根据分析析人员的要求求快速、灵活活地进行大数数据量的复杂杂查询处理,并并且以一种直直观而易懂的的形式将查询询结果提供给给决策人员,以以便他们准确确掌握企业(公公司)的经营营状况,了解解对象的需求求,制定正确确的方案。OOLAP展现现在用户面前前的是一幅幅幅多维视图。维(Dimennsion):是人们观察察数据的特定定角度,是考考虑问题时的的一类属性,属属性集合构成成一个维(时时间维、地理理维等)。维的层次(Leevel):人们观察数数据的某个特特定角度(即即某个维)还还可以存在细细节程度不同同的
12、各个描述述方面(时间间维:日期、月月份、季度、年年)。维的成员(Meember):维的一个取取值,是数据据项在某维中中位置的描述述。(“某年某月某某日”是在时间维维上位置的描描述)。度量(Meassure):多维数组的的取值。OLAP的基本本多维分析操操作有钻取(DDrill-up和Drrill-ddown)、切切片(Sliice)和切切块(Dicce)、以及及旋转(Piivot)等等。钻取:是改变维维的层次,变变换分析的粒粒度。它包括括向下钻取(DDrill-down)和和向上钻取(DDrill-up)/上上卷(Rolll-up)。Drilll-up是是在某一维上上将低层次的的细节数据概概括
13、到高层次次的汇总数据据,或者减少少维数;而DDrill-down则则相反,它从从汇总数据深深入到细节数数据进行观察察或增加新维维。切片和切块:是是在一部分维维上选定值后后,关心度量量数据在剩余余维上的分布布。如果剩余余的维只有两两个,则是切切片;如果有有三个或以上上,则是切块块。旋转:是变换维维的方向,即即在表格中重重新安排维的的放置(例如如行列互换)5. 数据预处理 5.1描述述性数据汇总总对于许多数据预预处理任务,希希望知道关于于数据的中心心趋势和离中中趋势特征。中中心趋势度量量包括均值(mmean)、中中位数(meedian)、众众数(modde)和中列列数(middrangee),而数
14、据据离中趋势度度量包括四分分位数(quuartilles)、四四分位数极差差(inteerquarrtile rangee, IQRR)和方差(vvariannce)。这这些描述性统统计量有助于于理解数据的的分布。5.2数据清理理与变换数据清理例程通通过填写缺失失的值、光滑滑噪声数据、识识别或删除离离群点并解决决不一致性来来“清理”数据。主要要是达到如下下目标:格式式标准化,异异常数据清除除,错误纠正正,重复数据据的清除。 通过平滑聚聚集,数据概概化,规范化化等方式将数数据转换成适适用于数据挖挖掘的形式。6.数据挖掘操操作 个人的两个作作业:6.1关联规则则挖掘 1) 需求分析 关联规则挖挖掘
15、是数据挖挖掘和知识发发现中的一个个重要问题,自提出以来来得到了广泛泛的研究.目目前关联规则则挖掘算法可可以分为广度度优先算法和和深度优先算算法两大类,每类都有经经典高效的算算法提出.但但是,这些算算法大都是从从其自身的角角度来描述的的,缺乏系统统的分类和比比较.文章从从关联规则挖挖掘的形式化化定义出发,给出频集挖挖掘的解空间间,对两大类类算法中的几几种经典算法法进行了概述述,并分析了了它们的优缺缺点.2) 概要设计关联规则挖掘过过程主要包含含两个阶段:第一阶段必必须先从资料料集合中找出出所有的高频频项目组(FFrequeent Ittemsetts),第二二阶段再由这这些高频项目目组中产生关关
16、联规则(AAssociiationn Rulees)。关联规则挖掘的的第一阶段必必须从chaaoshi集集合中,找出出所有高频项项目组。高频频的意思是指指某一项目组组出现的频率率相对于所有有记录而言,必必须达到某一一水平。一项项目组出现的的频率称为支支持度,以一一个包含A与与B两个项目目的2-ittemsett为例,我们们可以经由公公式求得包含含A,B项目组的支支持度,若支支持度大于等等于所设定的的最小支持度度(Miniimum SSupporrt)门槛值值时,则AA,B称为为高频项目组组。一个满足足最小支持度度的k-ittemsett,则称为高高频k-项目目组(Freequentt k-it
17、temsett),一般表表示为Larrge k或或Frequuent kk。算法并从从Largee k的项目目组中再产生生Largee k+1,直直到无法再找找到更长的高高频项目组为为止。3) 详细设计在准备用于关联联规则模型的的数据时,应应理解特定算算法的要求,其其中包括所需需要的数据量量以及使用数数据的方式。关关联规则模型型的要求如下下: 单个key列每每个模型都必必须包含一个个数值或文本本列,用于唯唯一标识每个个记录。不允允许复合键。 单个可预测列一一个关联模型型只能有一个个可预测列。通通常它是嵌套套表的键列,例例如列出已购购买的产品的的字段。这些些值必须是离离散或离散化化值。 输入列输
18、入列必必须为离散列列。关联模型型的输入数据据通常包含在在两个表中。例例如,一个表表可能包含客客户信息,而而另一个表可可能包含客户户购物情况。您您可以使用嵌嵌套表将该数数据输入到模模型中。有关关嵌套表的详详细信息,请请参阅嵌套表表(Anallysis Serviices 数据挖掘掘)。支持”(有时候候将其称为“频频率”)表示示包含目标项项目或项目组组合的事例的的数目。只有有至少具有指指定支持量的的项目才可包包含在模型中中。“常用项集”指指满足以下条条件的项目集集合:该项目目集合所具有有的支持超过过由 MINNIMUM_SUPPOORT 参数数定义的阈值值。例如,如如果项集为 A,B,C而且每一个
19、MINNIMUM_SUPPOORT 值为为 10,则则每个单个项项目 A、BB 和 C 必须均可在在要包括在模模型中的至少少 10 个个事例中找到到,而且项目目 A,BB,C 的的组合也必须须可在至少 10 个事事例中找到。注意 通过指定定项集的最大大长度(这里里长度指项目目数目),还还可控制挖掘掘模型中项集集的数目。 默认情情况下,对任任何特定项目目或项集的支支持均表示包包含该项目或或项集的事例例的计数。不不过,还可以以将 MINNIMUM_SUPPOORT 表示示为占数据集集的总事例的的百分比,方方法是键入数数字作为小于于 1 的小小数值。例如如,如果指定定 MINIIMUM_SSUPPO
20、RRT 值为 0.03,就就意味着至少少有 3% 的数据集总总事例必须包包含该项目或或项集以包含含在模型中。应应当试用模型型,以确定是是使用计数还还是百分比更更有意义。 恰恰相相反,规则的的阈值不用计计数或百分比比表示,而用用概率(有时时称为“置信信度”)表示示。例如,如如果项集 A,B,CC 和项集集 A,BB,D 均均出现在 550 个事例例中,而项集集 A,BB 出现在在另外 500 个事例中中,则很明显显,A,BB 不是 C 的的强预测因子子。因此,为为了将某个特特定结果对所所有已知结果果加权,Annalysiis Serrvicess 通过以下下方法来计算算单个规则(例例如 If A
21、,B Thenn C)的概率率:用对项集集 A,BB,C的支支持除以对所所有相关项集集的支持。 可以通通过设置 MMINIMUUM_PROOBABILLITY 的的值来限制模模型生成的规规则的数目。Analysiis Serrvicess 为创建的的每个规则输输出一个指示示其“重要性性”(也称为为“提升”)的的分数。项集集和规则的提提升重要性的的计算方法不不同。项集重要性的计计算方法为项项集概率除以以项集中各个个项的合成概概率。例如,如如果项集包含含 A,BB,Anaalysiss Servvices 首先计算包包含此 A 和 B 组组合的所有事事例的数目,并并用此事例数数除以事例总总数,然后
22、将将得到的概率率规范化。 规则重重要性的计算算方法为:在在已知规则左左侧的情况下下,求规则右右侧的对数可可能性值。例例如,如果规规则为 Iff A Then B,则则 Anallysis Serviices 计计算具有 AA 和 B 的事例与具具有 B 但但不具有 AA 的事例之之比,然后使使用对数刻度度将该比率规规范化。功能选择 Miccrosofft 关联规规则算法不执执行任何一种种自动功能选选择,而是提提供参数来控控制其自身使使用的数据。上上述情况可能能包括对每个个项集大小的的限制,或对对将项集添加加到模型中所所需的最大和和最小支持的的设置。 若要筛选出太常常见因而不受受关注的项目目和事
23、件,请请减小 MAAXIMUMM_SUPPPORT 的的值以将常见见项集从模型型中删除。 若要筛选出罕见见的项目和项项集,请增大大 MINIIMUM_SSUPPORRT 的值。 若要筛选出规则则,请增大 MINIMMUM_PRROBABIILITY 的值。 主要步骤:(1)定义多维维数据集在该任务中,将将使用多维数数据集向导来来定义一个初初始 Anaalysiss Servvices 多维数据集集。(2)定义维度度,向维度中添添加属性,在该任务中,将将使用维度向向导来定义维维度。定义维度层次结构构,(3)修改度量量值,和增加加新的度量值值在此任务中,为为多维数据创创建新的命名计算算定义操作,钻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 课程设计 44521

限制150内