书签分享收藏举报版权申诉 / 63

立即下载

当前位置：首页 > 管理文献 > 电力管理 > 数据仓库与数据挖掘课程设计44521.docx

数据仓库与数据挖掘课程设计44521.docx

上传人：you****now

文档编号：48242686

上传时间：2022-10-05

格式：DOCX

页数：63

大小：1.53MB

( 4.5 )

《数据仓库与数据挖掘课程设计44521.docx》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘课程设计44521.docx（63页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、通信与信息工程学院数据仓库与数据挖掘分析课程设计班级：XXXX姓名：XXX学号：XXXXXX指导教师：XXXXX设计时间：XXXXX成绩：评语：通通信与信息工工程学院二一一X年工作完成统计表表:组员完成任务说明自评教师评定XX1、聚类分析和和关联分析建建模2、相关图表分分析3、撰写相关内内容报告2XX1、决策分析和和聚类分析挖挖掘建模2、相关图表分分析3、撰写相关内内容报告4XXX1、顺序分析与聚类类分析模型和和目标邮递方方案2、相关图表分析处处理3、撰写相关内容报报告4XX1、聚类分析和决策策分析模型2、撰写相关内容报报告3、相关图表分析处处理教师签名名：目录1绪

2、论11.1项目背景景11.2提出问题题12数据仓库与与数据集市的的概念介绍12.1数据仓库库介绍12.2数据集市市介绍23数据仓库33.1数据仓库库的设计33.1.1数据据仓库的概念念模型设计43.1.2数据据仓库的逻辑辑模型设计53.2 数据仓仓库的建立53.2.1数据据仓库数据集集成53.2.2建立立维表84.OLAP操操作105.数据预处理理125.1描述性数数据汇总125.2数据清理理与变换136.数据挖掘操操作136.1关联规则则挖掘136.2 分类和和预测176.3决策树的的建立186.4聚类分析析227.总结2558.任务分配261、绪论 1.1项目目背景在现现在大数据时时代

3、，各行各各业需要对商商品及相关关关节的数据进进行收集处理理，尤其零售售行业，于企企业对产品的的市场需求进进行科学合理理的分析，从从而预测出将将来的市场，制制定出高效的的决策，给企企业带来经济济收益。1.2 提出问问题对于超市的商品品的购买时期期和购买数量量的如何决定定，才可以使使销售量最大大，不积压商商品，不缺货货，对不同时时期季节和不不同人群制定定不同方案，使使企业收益最最大，通过数数据挖掘对数数据进行决策策树分析，关关联分析，顺顺序分析与决决策分析等可可以制定出最最佳方案。2、数据库仓库库与数据集的的概念介绍2.1数据仓库库数据仓库介绍: 数据仓仓库是为企业业所有级别的的决策制定过过程提供

4、支持持的所有类型型数据的战略略集合。它是是单个数据存存储，出于分分析性报告和和决策支持的的目的而创建建。为企业业提供需要业业务智能来指指导业务流程程改进和监视视时间、成本本、质量和控控制。数据仓仓库是决策系系统支持（ddss）和联联机分析应用用数据源的结结构化数据环环境。数据仓仓库研究和解解决从数据库库中获取信息息的问题。数数据仓库的特特征在于面向向主题、集成成性、稳定性性和时变性。数据集介绍: 数据集集是指一种由由数据所组成成的集合。DData sset（或ddataseet）是一个个数据的集合合，通常以表表格形式出现现。每一列代代表一个特定定变量。每一一行都对应于于某一成员的的数据集的

5、问问题。它列出出的价值观为为每一个变量量，如身高和和体重的一个个物体或价值值的随机数。每每个数值被称称为数据资料料。对应于行行数，该数据据集的数据可可能包括一个个或多个成员员。3、数据仓库3.1 数据仓仓库的设计 3.1.11数据仓库的的概念模型设设计概念模型的设计计是整个概念念模型开发过过程的三阶段段。设计阶段段依据概念模模型分析以及及分析过程中中收集的任何何数据，完成成星型模型和和雪花型模型型的设计。如如果仅依赖EERD，那只只能对商品、销销售、客户主主题设计成如如图所示的概概念模型。这这种模型适合合于传统的数数据库设计，但但不适合于数数据仓库的设设计。 3.1.2数数据仓库的逻逻辑模型

6、设计计逻辑建建模是数据仓仓库实施中的的重要一环，因因为它能直接接反映出各个个业务的需求求，同时对系系统的物理实实施有着重要要的指导作用用，它的作用用在于可以通通过实体和关关系勾勒出企企业的数据蓝蓝图，数据仓仓库的逻辑模模型设计任务务主要有：分分析主题域，确确定要装载到到数据仓库的的主题、确认粒度层次次划分、确认认数据分割策策略、关系模模式的定义和和记录系统定定义、确认数数据抽取模型型等。逻辑模型最终设设计成果包括括每个主题的的逻辑定义，并并将相关内容容记录在数据据仓库的元数数据中、粒度度划分、数据据分割策略、表表划分和数据据来源等。3.2 数据仓仓库的建立 3.2.1数据仓库库数据集一般说来

7、,一个个数据集市是是按照某一特特定部门的决决策支持需求求而组织起来来的、针对一一组主题的应应用系统。例例如,财务部部拥有自己的的数据集市,用来进行财财务方面的报报表和分析,市场推广部部、销售部等等也拥有各自自专用的数据据集市,用来来为本部门的的决策支持提提供辅助手段段。数据集市市大都采用多多维数据库技技术,这种技技术对数据的的分析而言也也许是最优的的,但肯定不不适合于大量量数据的存储储,因为多维维数据库的数数据冗余度很很高。为了提提高速度,对对数据集市中中的数据一般般都建立大量量的索引。换换言之,数据据集市中往往往靠对数据的的预处理来换换取运行时的的高速度,当当业务部门提提出新的问题题时,如果

8、不不在原来设计计的范围内,则需要数据据库管理员对对数据库作许许多调整和优优化处理。3.2.2建立立维表维是分析问题的的角度，度量量是要分析的的问题。多维视图：用包包含度量和维维的表的数据据结构可以创创建一个多维维视图，用试试题和维创建建的多维模型型称为星型模模型，星型模模型生成的主主要表格被称称为事实表。事事实表的属性性值几乎都有有连续值。事事实表是规范范化的。与维维表不同不是是随时间的推推移变化，而而是不断变大大。维表：星型模型型也具有非常常小的表，用用来装载描述述信息。维表表是逆规范化化的。如果把把维表置于第第二范式中，这这样的表称为为雪花模型。维表包括主键，通通常对应事实实表的外部键键。

9、如果维表表的主键不在在实事表中，这这个主键字便便被称作退化化的维。维表的分类：(1)结构维维：表示在层层内组成中的的信息量度。如如客户地理位位置维、时间间维、产品维维等。结构维维包含一组相相关的成员，组组成结构维的的属性之间有有一对多的关关系。加法度度量：可以相相加的属性值值(2)信息息维：计算字字段如利润额额、平均值等等（每个商品品的利润）。(3) 分区维：以同一结构构生成两个或或多个维。如如：按时间分分区，预测额额度、实际额额度等。(44)分类维：通过对一个个维的属性值值分组而创建建。如果工资资收入5000-20000；200-4000；5000-7000；等创建维表：有33种方法：星星型

10、模型、雪雪花模型和星星暴模型。星星暴模型含有有两张以上的的事实表。基基本有些充当当维事实表。星型模型：所有有信息维都放放在同一个维维表中。维表表信息包含一一个唯一的标标识符（IDD）和通过这这个维表建立立的所有维所所需的属性。星星型模型由小小的维表与大大的事实表组组成，多称为为“小表和大表表”。事实表一一般是标准表表。雪花模型：把信信息分为3种种标准格式。产产品表、类别别表、子类别别表。把这些些信息放到一一起需要一定定数据的连接接。雪花模型型比星型模型型效率低，占占空间少。所所有的事实表表都有一个与与之相关的时时间维表。4. OLAP操作联机分析处理（OOLAP）系系统是数据仓仓库系统最主主要

11、的应用，专专门设计用于于支持复杂的的分析操作，侧侧重对决策人人员和高层管管理人员的决决策支持，可可以根据分析析人员的要求求快速、灵活活地进行大数数据量的复杂杂查询处理，并并且以一种直直观而易懂的的形式将查询询结果提供给给决策人员，以以便他们准确确掌握企业（公公司）的经营营状况，了解解对象的需求求，制定正确确的方案。OOLAP展现现在用户面前前的是一幅幅幅多维视图。维（Dimennsion）：是人们观察察数据的特定定角度，是考考虑问题时的的一类属性，属属性集合构成成一个维（时时间维、地理理维等）。维的层次（Leevel）：人们观察数数据的某个特特定角度（即即某个维）还还可以存在细细节程度不同同的

12、各个描述述方面（时间间维：日期、月月份、季度、年年）。维的成员（Meember）：维的一个取取值，是数据据项在某维中中位置的描述述。（“某年某月某某日”是在时间维维上位置的描描述）。度量（Meassure）：多维数组的的取值。OLAP的基本本多维分析操操作有钻取（DDrill-up和Drrill-ddown）、切切片（Sliice）和切切块（Dicce）、以及及旋转（Piivot）等等。钻取：是改变维维的层次，变变换分析的粒粒度。它包括括向下钻取（DDrill-down）和和向上钻取（DDrill-up）/上上卷(Rolll-up)。Drilll-up是是在某一维上上将低层次的的细节数据概概括

13、到高层次次的汇总数据据，或者减少少维数；而DDrill-down则则相反，它从从汇总数据深深入到细节数数据进行观察察或增加新维维。切片和切块：是是在一部分维维上选定值后后，关心度量量数据在剩余余维上的分布布。如果剩余余的维只有两两个，则是切切片；如果有有三个或以上上，则是切块块。旋转：是变换维维的方向，即即在表格中重重新安排维的的放置（例如如行列互换）5. 数据预处理 5.1描述述性数据汇总总对于许多数据预预处理任务，希希望知道关于于数据的中心心趋势和离中中趋势特征。中中心趋势度量量包括均值（mmean）、中中位数（meedian）、众众数（modde）和中列列数（middrangee），而数

14、据据离中趋势度度量包括四分分位数（quuartilles）、四四分位数极差差（inteerquarrtile rangee, IQRR）和方差（vvariannce）。这这些描述性统统计量有助于于理解数据的的分布。5.2数据清理理与变换数据清理例程通通过填写缺失失的值、光滑滑噪声数据、识识别或删除离离群点并解决决不一致性来来“清理”数据。主要要是达到如下下目标：格式式标准化，异异常数据清除除，错误纠正正，重复数据据的清除。通过平滑聚聚集，数据概概化，规范化化等方式将数数据转换成适适用于数据挖挖掘的形式。6.数据挖掘操操作个人的两个作作业：6.1关联规则则挖掘 1) 需求分析关联规则挖挖掘

15、是数据挖挖掘和知识发发现中的一个个重要问题,自提出以来来得到了广泛泛的研究.目目前关联规则则挖掘算法可可以分为广度度优先算法和和深度优先算算法两大类,每类都有经经典高效的算算法提出.但但是,这些算算法大都是从从其自身的角角度来描述的的,缺乏系统统的分类和比比较.文章从从关联规则挖挖掘的形式化化定义出发,给出频集挖挖掘的解空间间,对两大类类算法中的几几种经典算法法进行了概述述,并分析了了它们的优缺缺点.2）概要设计关联规则挖掘过过程主要包含含两个阶段：第一阶段必必须先从资料料集合中找出出所有的高频频项目组(FFrequeent Ittemsetts)，第二二阶段再由这这些高频项目目组中产生关关

16、联规则(AAssociiationn Rulees)。关联规则挖掘的的第一阶段必必须从chaaoshi集集合中，找出出所有高频项项目组。高频频的意思是指指某一项目组组出现的频率率相对于所有有记录而言，必必须达到某一一水平。一项项目组出现的的频率称为支支持度，以一一个包含A与与B两个项目目的2-ittemsett为例，我们们可以经由公公式求得包含含A,B项目组的支支持度，若支支持度大于等等于所设定的的最小支持度度(Miniimum SSupporrt)门槛值值时，则AA,B称为为高频项目组组。一个满足足最小支持度度的k-ittemsett，则称为高高频k-项目目组(Freequentt k-it

17、temsett)，一般表表示为Larrge k或或Frequuent kk。算法并从从Largee k的项目目组中再产生生Largee k+1，直直到无法再找找到更长的高高频项目组为为止。3）详细设计在准备用于关联联规则模型的的数据时，应应理解特定算算法的要求，其其中包括所需需要的数据量量以及使用数数据的方式。关关联规则模型型的要求如下下：单个key列每每个模型都必必须包含一个个数值或文本本列，用于唯唯一标识每个个记录。不允允许复合键。单个可预测列一一个关联模型型只能有一个个可预测列。通通常它是嵌套套表的键列，例例如列出已购购买的产品的的字段。这些些值必须是离离散或离散化化值。输入列输

18、入列必必须为离散列列。关联模型型的输入数据据通常包含在在两个表中。例例如，一个表表可能包含客客户信息，而而另一个表可可能包含客户户购物情况。您您可以使用嵌嵌套表将该数数据输入到模模型中。有关关嵌套表的详详细信息，请请参阅嵌套表表（Anallysis Serviices 数据挖掘掘）。支持”（有时候候将其称为“频频率”）表示示包含目标项项目或项目组组合的事例的的数目。只有有至少具有指指定支持量的的项目才可包包含在模型中中。“常用项集”指指满足以下条条件的项目集集合：该项目目集合所具有有的支持超过过由 MINNIMUM_SUPPOORT 参数数定义的阈值值。例如，如如果项集为 A,B,C而且每一个

19、MINNIMUM_SUPPOORT 值为为 10，则则每个单个项项目 A、BB 和 C 必须均可在在要包括在模模型中的至少少 10 个个事例中找到到，而且项目目 A,BB,C 的的组合也必须须可在至少 10 个事事例中找到。注意通过指定定项集的最大大长度（这里里长度指项目目数目），还还可控制挖掘掘模型中项集集的数目。默认情情况下，对任任何特定项目目或项集的支支持均表示包包含该项目或或项集的事例例的计数。不不过，还可以以将 MINNIMUM_SUPPOORT 表示示为占数据集集的总事例的的百分比，方方法是键入数数字作为小于于 1 的小小数值。例如如，如果指定定 MINIIMUM_SSUPPO

20、RRT 值为 0.03，就就意味着至少少有 3% 的数据集总总事例必须包包含该项目或或项集以包含含在模型中。应应当试用模型型，以确定是是使用计数还还是百分比更更有意义。恰恰相相反，规则的的阈值不用计计数或百分比比表示，而用用概率（有时时称为“置信信度”）表示示。例如，如如果项集 A,B,CC 和项集集 A,BB,D 均均出现在 550 个事例例中，而项集集 A,BB 出现在在另外 500 个事例中中，则很明显显，A,BB 不是 C 的的强预测因子子。因此，为为了将某个特特定结果对所所有已知结果果加权，Annalysiis Serrvicess 通过以下下方法来计算算单个规则（例例如 If A

21、,B Thenn C）的概率率：用对项集集 A,BB,C的支支持除以对所所有相关项集集的支持。可以通通过设置 MMINIMUUM_PROOBABILLITY 的的值来限制模模型生成的规规则的数目。Analysiis Serrvicess 为创建的的每个规则输输出一个指示示其“重要性性”（也称为为“提升”）的的分数。项集集和规则的提提升重要性的的计算方法不不同。项集重要性的计计算方法为项项集概率除以以项集中各个个项的合成概概率。例如，如如果项集包含含 A,BB，Anaalysiss Servvices 首先计算包包含此 A 和 B 组组合的所有事事例的数目，并并用此事例数数除以事例总总数，然后

22、将将得到的概率率规范化。规则重重要性的计算算方法为：在在已知规则左左侧的情况下下，求规则右右侧的对数可可能性值。例例如，如果规规则为 Iff A Then B，则则 Anallysis Serviices 计计算具有 AA 和 B 的事例与具具有 B 但但不具有 AA 的事例之之比，然后使使用对数刻度度将该比率规规范化。功能选择 Miccrosofft 关联规规则算法不执执行任何一种种自动功能选选择，而是提提供参数来控控制其自身使使用的数据。上上述情况可能能包括对每个个项集大小的的限制，或对对将项集添加加到模型中所所需的最大和和最小支持的的设置。若要筛选出太常常见因而不受受关注的项目目和事

23、件，请请减小 MAAXIMUMM_SUPPPORT 的的值以将常见见项集从模型型中删除。若要筛选出罕见见的项目和项项集，请增大大 MINIIMUM_SSUPPORRT 的值。若要筛选出规则则，请增大 MINIMMUM_PRROBABIILITY 的值。主要步骤：（1）定义多维维数据集在该任务中，将将使用多维数数据集向导来来定义一个初初始 Anaalysiss Servvices 多维数据集集。（2）定义维度度,向维度中添添加属性，在该任务中，将将使用维度向向导来定义维维度。定义维度层次结构构，（3）修改度量量值,和增加加新的度量值值在此任务中，为为多维数据创创建新的命名计算算定义操作，钻

24、取取使用管理角色（7）部署 AAnalyssis Seervicees 项目结果分析关联规则挖掘的的第二阶段是是要产生关联联规则(Asssociaation Ruless)。从高频频产生关联规规则，是利用用前一步骤的的高频k-项项目组来产生生规则，在最最小信赖度的的条件门槛下下，若一规则则所求得的信信赖度满足最最小信赖度，称称此规则为关关联规则。例例如：经由高高频k-项目目组A,BB所产生的的规则AB，其其信赖度可经经由公式求得，若若赖度大于等等于最小信赖赖度，则称AAB为关联规规则。就chaoshhi而言，使使用关联规则则挖掘技术，对对交易资料库库中的纪录进进行资料挖掘掘，首先必须须要设定最

25、小小支持度与最最小信赖度两两个门槛值，在在此假设最小小支持度miin_suppport=5% 且最最小信赖度mmin_coonfideence=770%。因此此符合此该超超市需求的关关联规则将必必须同时满足足以上两个条条件。若经过过挖掘过程所所找到的关联联规则购买买数量，购买商品序序号，满足足下列条件，将将可接受购购买数量，购买商品序序号的关联联规则。从上面的介绍还还可以看出，关关联规则挖掘掘通常比较适适用与记录中中的指标取离离散值的情况况。如果原始始数据库中的的指标值是取取连续的数据据，则在关联联规则挖掘之之前应该进行行适当的数据据离散化（实际际上就是将某某个区间的值对应应于某个值），数数据

26、的离散化化是数据挖掘掘前的重要环环节，离散化化的过程是否否合理将直接接影响关联规规则的挖掘结结果。5）提交结论和执行行结果6.2 分类和和预测 6.2聚类分析析设计内容：根据据超市现有数数据，用决策策树、依赖性性等分析方法法分析出哪些些条件对顾客客会员卡的办办理起着决定定性的影响，哪哪些产品的销销量最好，哪哪些产品应该该摆放在一起起提高销售量量，哪些产品品应该适当促促销提高收入入。同时还做做了会员的丢丢失率和会员员的贡献度，平平均交易间隔隔时间和次数数等问题的分分析，设计思路: 将将数据导入ssqlserrver20008中后，可可以利用annalysiis serrvers对对数据进行操

27、操作，进行多多维数据集的的创建及维度度表等的相关关操作，同时时运用MDXX及sql语语言来发掘数数据的关联，得得到相关问题题的答案。工作流程：1.将chaooshi.xxlx表格中中的数据导入入sqlseerver 2008企企业管理器中中的chaooshi数据据库中；2. 将chaoshhi数据源在在analyysis里面面更新；3.创建chaaoshi多多维数据集； 4.我们采用星星型结构创建建维度，因此此要创建事实实表和维度表表；5. 创建多维数据集集成功后进行行存储设计处处理；6. 处理完成之后，在在“处理进度”和“处理挖掘结结构 - 顺顺序分析和聚聚类分析”对话框中，单单击“关闭”。

28、7. 在，“顺序分析析和聚类分析析”模型已经生生成，可以使使用数据挖掘掘设计器的“挖掘模型查查看器”选项卡中的的 Micrrosoftt 顺序分析析和聚类分析析查看器浏览览该模型了。MMicrossoft 顺顺序分析和聚聚类分析查看看器包括五个个选项卡：“分类关系图图”、“分类剖面图图”、“分类特征”、“分类辨别”和“状态转换”。 8. “分类关系图”选项卡 “分类关系图图”选项卡以图图形方式显示示在数据库中中发现的算法法的分类。关关系图中的布布局表示分类类之间的关系系，其中相似似的分类分在在一起。默认认情况下，节节点颜色的明明暗度表示分分类中所有事事例的密度，节节点越暗，包包含的事例越越多。

29、可以更更改节点明暗暗度代表的含含义，使其表表示属性和状状态。例如，在在“明暗度变量量”列表中选择择“模型”，并在“状态”列表中选择择“购买商品序序号”。9. “分类剖面图”选项卡 “分类剖面图图”选项卡显示示每个分类中中存在的序列列。分类列在在“状态”列右边的单单个列中。在在查看器中，MModel.samplles 行表表示序列数据据，Modeel 行说明明了分类中各各项的总体分分布。Moddel.saampless 行的每个个单元中颜色色序列的每个个线条表示分分类中随机选选中的用户的的行为。单个个序列直方图图中的每个颜颜色代表一个个模型。10. 分类特征”选项项卡 “分类特征”选项卡汇总总了

30、分类中各各状态间的转转换，其中的的各栏说明了了所选分类属属性值的重要要性。例如，在在分类 4 中，其中一一个最重要的的特征是客户户倾向于先在在4月进行购购物。11. 分类辨别”选项项卡使用“分类辨别”选项卡，可可以比较两个个分类，确定定模型及其倾倾向的分类。该该选项卡包括括四个列：“变量”、“值”、“分类 1”和“分类 2”。如果分类类倾向于特定定模型，则在在“变量”列中相应模模型行的“分类 1”或“分类 2”列中将出现现一个蓝条。蓝蓝条越长，模模型越倾向于于该分类。例例如，在查看看器中使用“分类辨别”选项卡，可可以通过在“分类 1”中选择分类类 2 以及及在“分类 2”中选择分类类 5，来

31、比比较分类 22 和分类 5。12. 状态转换”选项项卡在“状态转换”选项卡上，可可以选择分类类并浏览其状状态转换。每每个节点都表表示模型的一一个状态。线线条表示状态态间的转换，每每个节点都基基于转换的可可能性。背景景色表示分类类中节点的频频率。例如，从从“分类”中选中“分类 3”，选中商商品ID节点点，然后将“所有链接”滑块降低几几格。 6.3 聚类分分析设计内容：根据据超市现有数数据，用决策策树、聚类分分析等分析方方法分析出哪哪些条件对顾顾客购买商品品的影响，哪哪些产品的销销量最好，哪哪些产品应该该摆放在一起起提高销售量量，哪些产品品应该适当促促销提高收入入。平均交易易间隔时间和和次数

32、等问题题的分析，设计思路: 将将数据导入ssqlserrver20008中后，可可以利用数据据挖掘教材对对数据进行操操作，进行数数据挖掘，数数据模型设计计等的相关操操作，同时运运用它对数据据的决策树设设计，聚类分分析等分析数数据间的关系系。工作流程：1.将超市exxecel表表格中的数据据导入sqllserveer 20008企业管理理器中的sqqlservver 20008数据库库中；2.将超市数据据源在anaalysiss里面更新；3.创建超市数数据的挖掘模模型。 4.首先是对两两个表销售流流水表和品牌牌表进行模型型设计。 5.创建多维数数据集成功后后进行存储设设计处理； 6.浏览创建好好

33、的数据挖掘掘模型的下钻钻； 7.创建决策树树、聚类分析析的数据挖掘掘模型，分析析超市如何运运用OLAPP和依赖性分分析来了解顾顾客购买习惯惯和商品之间间的关联，正正确的摆放商商品位置以及及如何运用促促销手段对商商品进行销售售。1.销售流水表表（聚类分析）分分类关系图从图中可以看出出只有分类55和分类8只只有最强的关关联性，无论论两个的关系系如何变化，只只要有5商品品则必然有88商品，所有有链接的关系系越大，则他他们的关系越越复杂。各个个商品的关系系也越来越明明确。分类剖面图从分类剖面图可可以看出各个个商品在总的的商品中所占占的比例，为为我们分析数数据提供一定定的方便。分类特征该表展示了所有有

34、商品的属性性在所有类型型中所占的比比例，从而分分析各个属性性的影响因素素。分类对比6.4决策树决策树关系图依赖关系网络表示了商品idd和购买数量量的绝对的关关系，及无论论怎样这两个个都从在一定定的关系。2.品牌表（聚类分析）分分类关系图分类剖面图从图中可以看出出只有分类和和分类3只有有最强的关联联性，无论两两个的关系如如何变化，只只要有2商品品则必然有33商品，所有有链接的关系系越大，则他他们的关系越越复杂。各个个商品的关系系也越来越明明确。分类特征从分类剖面图可可以看出各个个品牌在总的的商品中所占占的比例，为为我们分析数数据提供一定定的分类特征方便分类对比（2）（2）决决策树决策树关系图6

35、.5 顺序分分析和聚类分分析挖掘1.需求分析分类和预预测是两种数据据分析形式，可可以用于提取取描述重要数数据类的模型型或预测未来来的数据趋势势。然而，分分类是预测分分类标号（或或离散值），而而预测建立连连续值函数模模型。2.概要设计相关性分析：数数据中许多属属性可能与分分类和预测任任务不相关。此此外，其它属属性可能是冗冗余的。因此此，可以进行行相关分析，删删除学习过程程中不相关或或冗余属性。理想地，用在相相关分析上的的时间，加上上从“压缩的的”结果子集集上学习的时时间，应当少少于由原来的的数据集合上上学习所花的的时间。因此此，这种分析析可以帮助提提高分类的有有效性和可规规模性。预测的准确

36、率：这涉及模型型正确地预测测新的或先前前未见过的数数据的类标号号的能力。速度：这涉及产产生和使用模模型的计算花花费。强壮性：这涉及及给定噪音数数据或具有遗遗漏值的数据据，模型正确确预测的能力力。可规模性：这涉涉及给定大量量数据，有效效地构造模型型的能力。可解释性：这涉涉及学习模型型提供的理解解和洞察的层层次。3.详细设计数据分类是一个个两步过程。第第一步，建立立一个模型，描描述预定的数数据类或概念念集。通过分分析由属性描描述的数据库库元组来构造造模型。第二二步使用模型型进行分类。首首先评估模型型（分类法）的的预测准确率率，主要步骤：1. 在 Businness IIntellligencce

37、Devvelopmment SStudioo 的解决方方案资源管理理器中，右键键单击“挖掘掘结构”，再再选择“新建建挖掘结构”。系统将打开数据挖掘向导。2. 在“欢迎使用数数据挖掘向导导”页上，单单击“下一步步”。3. 在“选择定义方方法”页中，选择择“从现有关系系数据库或数数据仓库”，再再单击“下一一步”。 4.在“选择数数据挖掘技术术”页的“您要使使用何种数据据挖掘技术?”下，选择择“Mi ccrosofft 顺序分分析和聚类分分析”，再单单击“下一步步”。 “选择数据源视视图”页随即即显示。默认认情况下，“可可用数据源视视图”下的 chaosshi为选中中状态。5在“指定表表类型”页上上

38、，选中 “商品分类表” 旁的“事例”复选选框，选中“品牌表”表旁的“嵌套套”复选框。单单击“下一步步”。6.在“指定定定型数据”页页上，通过按按如下所示复复选框如下图图7.在“指定列列的内容和数数据类型”页页上，验证已已经按如下所所示为每个列列设置了单击下一步8.在“完成向向导”页的“挖掘结结构名称”中中，9.在“挖掘模模型名称”中中，单击“完完成”。此此时将打开数数据挖掘设计计器，显示刚刚创建的商品品信息表挖挖掘结构。处理挖掘模型：在 Bussinesss Inteelligeence DDeveloopmentt Studdio 的“挖挖掘模型”菜菜单上，选择择“处理挖掘掘结构和所有有

39、模型”。此此时将打开“处处理挖掘结构构 - 顺序序分析和聚类类分析”对话话框。单击“运运行”。系统统将打开“处处理进度”对对话框，以显显示有关模型型处理的信息息。模型处理理可能需要一一些时间，具具体取决于您您的计算机。1. 处理完成之后，在在“处理进度度”和“处理理挖掘结构 - 顺序分分析和聚类分分析”对话框框中，单击“关关闭”。浏览顺序分析和和聚类分析模模型现在，“顺序分分析和聚类分分析”模型已已经生成，可可以使用数据据挖掘设计器器的“挖掘模模型查看器”选选项卡中的 Microosoft 顺序分析和和聚类分析查查看器浏览该该模型了。MMicrossoft 顺顺序分析和聚聚类分析查看看器包括五

40、个个选项卡：“分分类关系图”、“分分类剖面图”、“分分类特征”、“分分类辨别”和和“状态转换换”。“分类关系图”选选项卡 “分类关系图图”选项卡以以图形方式显显示在数据库库中发现的算算法的分类。关关系图中的布布局表示分类类之间的关系系，其中相似似的分类分在在一起。默认认情况下，节节点颜色的明明暗度表示分分类中所有事事例的密度，节节点越暗，包包含的事例越越多。可以更更改节点明暗暗度代表的含含义，使其表表示属性和状状态。”。分分类关系图显显示分类，明明暗变量选购购买数量，状状态选平均值值，显示如图图。“分类剖面图”选选项卡 “分类剖面面图”选项卡卡显示每个分分类中存在的的序列。分类类列在“状态态”

41、列右边的的单个列中。行行的每个单元元中颜色序列列的每个线条条表示分类中中随机选中的的用户的行为为。单个序列列直方图中的的每个颜色代代表一个产品品模型。“分类特征”选选项卡 “分类特征征”选项卡汇汇总了分类中中各状态间的的转换，其中中的各栏说明明了所选分类类属性值的重重要性。“分类对比”选选项卡使用“分类类辨别”选项项卡，可以比比较两个分类类，确定模型型及其倾向的的分类。该选选项卡包括四四个列：“变变量”、“值值”、“分类类 1”和“分分类 2”。如如果分类倾向向于特定模型型，则在“变变量”列中相相应模型行的的“分类 11”或“分类类 2”列中中将出现一个个蓝条。蓝条条越长，模型型越倾向于该该

42、分类。“状态转换”选选项卡在“状态转转换”选项卡卡上，可以选选择分类并浏浏览其状态转转换。每个节节点都表示模模型的一个状状态。线条表表示状态间的的转换，每个个节点都基于于转换的可能能性。背景色色表示分类中中节点的频率率。4.总结：分类和预测据库内容丰富，蕴蕴藏大量信息息，可以用来来作出智能的的商务决策。分分类和预测是是两种数据分分析形式，可可以用于提取取描述重要数数据类的模型型或预测未来来的数据趋势势。然而，分分类是预测分分类标号（或或离散值），而而预测建立连连续值函数模模型。数据分类是是一个两步过过程。第一步步，建立一个个模型，描述述预定的数据据类或概念集集。通过分析析由属性描述述的数据库

43、元元组来构造模模型。或对象象。为建立模模型而被分析析的数据元组组形成训练数数据集。训练练数据集中的的单个元组称称作训练样本本，并随机地地由样本群选选取。第二步步使用模型进进行分类。首首先评估模型型（分类法）的的预测准确率率评估分类准确率率的多种方法法。从而对于超市市的商品的购购买时期和购购买数量的如如何决定，才才可以使销售售量最大，不不积压商品，不不缺货，对不不同时期季节节和不同人群群制定不同方方案，使企业业收益最大，通通过数据挖掘掘对数据进行行决策树分析析，关联分析析，顺序分析析与决策分析析等可以制定定出最佳方案案。6.6决策树的的建立二、目标邮递分分析1.需求分析以视图方式建立立数据模型

44、可可简化联机业业务分析，提提高查询性能能。通过创建建数据源视图图，Anallysis Managger 可将将存储在关系系数据库中的的数据转换为为具有实际含含义并且易于于查询的业务务信息。2. 概要设计计(1) 利用给给定的数据库库，新建一个个数据挖掘项项目；(2) 依次建建立数据源，数数据源视图，维维度，多维度度数据集，挖挖掘机构；(3) 选择不不同的算法对对挖掘的结果果进行分析，预预测.(4) 根据以以上分析，提提出可以执行行的决策3.详细设计(1) 在analyssis maanagerr 的解决资资源方案管理理器中右击“挖掘结构”，在列表中中选择“新建挖掘结结构”；在使用数数据挖掘页面

45、面，单击“下一步”；在“选择定义方方法”页面，“使用何种方方法定义挖掘掘结构？”框中选择“从现有关系系数据库或数数据仓库”，单击“下一步”；(2) 在“创建数据挖挖掘结构”页面，“你要使用何何种数据挖掘掘技术”的下拉列表表中选中“Microosoft决决策树”，单击“下一步”；(3) 在“选择数据源源视图”页面确保“可用数据源源视图”框中选中“超市数据”，单击“下一步”；(4) 在“指定表类型型”页面，“输入表”框：“事例”选择“销售流水表表1019”，单击“下一步”；在“指定数据类类型”页面，“挖掘模型结结构”框中，“键”选择“流水号”，“输入”选择“购买商品序序号、商品IID”，“可预测”

46、选择“购买数量、总额，单击下一一步：(5) 在“指定列的内内容和数据类类型”页面，单击击“检测”，单击“下一步”；(6) 在“创建测试集集”页面，单击击“下一步”；(7) 在“完成向导”页面，设置置“挖掘结构名名称、挖掘模模型名称”，“挖掘结构名名称”后选择“允许钻取”，单击“完成”；挖掘结构（17）挖掘模型：（19）购买数量决策树树：(20) 购买数量的依赖赖关系图:总结：决策树分分析法是常用用的风险分析析决策方法。该该方法是一种种用树形图来来描述各方案案在未来收益益的计算。比比较以及选择择的方法，其其决策是以期期望值为标准准的。人们对对未来可能会会遇到好几种种不同的情况况。每种情况况均有出现的的可能，人们们目前无法确确知，但是可可以根据以前前的资料来推推断各种自然然状态出现的的概率。在这这样的条件下下，人们计算算的各种方案案在未来的经经济效果只能能是考虑到各各种自然状态态出现的概率率的期望值，与与未来的实际际收益不会完完全相等。6.

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

30 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据仓库数据挖掘课程设计 44521

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据仓库与数据挖掘课程设计44521.docx
链接地址：https://www.taowenge.com/p-48242686.html