数据仓库与数据挖掘实验报告e.docx





《数据仓库与数据挖掘实验报告e.docx》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘实验报告e.docx(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、上机目的及内容目的:1 .理解数据挖掘的根本概念及其过程;.理解数据挖掘与数据仓库、OLAP之间的关系2 .理解根本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。内容:将创立一个数据挖掘模型以训练销售数据,并使用“Microsoft决策树算法在客户群中找出购 置自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法 识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够 浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求:利用实验室和指导教师提供的实验软件,认真完成规定的实
2、验内容,真实地记录实验中遇到的 各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写 出实验报告。二、实验原理及根本技术路线图(方框原理图或程序流程图)关联分析:关联分析是从数据库中发现知识的一类重要方法。时序模式:通过时间序列搜索出重复发生概率较高的模式。分类:分类是在聚类的根底上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该 类的内涵描述,一般用规那么或决策树模式表示。三、所用仪器、材料(设备名称、型号、规格等或使用软件)1 台 PC 及 Microsoft SQL Server 套件四、实验方法、步骤(或:程序代码或操作过程)及实验
3、过程原始记录(测试数据、图表、计算等) 创立 Analysis Services 工程1. 番羽开 Business Intelligence Development StudiOo2. 在文件菜单上,指向新建,然后选择工程。3. 确保已选中模板窗格中的Analysis Services工程。4. 在名称框中,将新工程命名为AdventureWorkSo5. 单击确定。只要选中至少一个可预测属性,即可启用建议按钮。提供相关列建议对话框将列出与可预测 列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。值大于0.05的列将被自动 选中,以包括在模型中。12 .阅读建议,然后单击取消忽略
4、建议并保存向导设置的原始值。13 . 选中以下各列旁边的输入复选框: Age CommuteDistance EnglishEducation EnglishOccupation FirstName Gender GeographyKey HouseOwnerFlag LastName MaritalStatus NumberCarsOwned NumberChildrenAtHome Region TotalchildrenYearlylncome乙皿1天主RlYI 旧/ 回输入回福0 4HFrenchOccupati onGenderGeographyKeyHouseOwnerFlag0-
5、OJ回W LastNameMari talStatusMi ddleNameNameStyleNumberCarsOwnedNumberChi1drenAtHome 0000000挖掘模型结构S):e6eo i i ierj 1 LJTIbLfnborlgiwarlfftltar NunNunphRespspsuTiTOYe 闫旬 母 s钥 10四口回口口口口回回回*二键00口回口口口口回囱14 . 单击下一步。指定列 的 内容和数据类型指定悟堀结构列的 内 容和数据类型-捺掘模型结构 ):列内容类型数据类型AgeC ont i nxionsLongBike Buyex-C ont i nxi
6、ovLSLongCommute Di stanceDi scieteT extCustomer KeyKeyLongEngl i sh. E du.c at i onDi screteT ex tEngl i sh 0 c cu.p at i onDi screteT ex tFirst NameDi screteT extGenderDi sereteT ex tGaography KeyC ont i niioiisLongHou.se Owner FlDi scireteT ex tLast NameDiscreteTexty检测数值列的连续或离散数据:检测Q)|完成 包)| | 取消1
7、5 .在指定列的内容和数据类型页上,单击检测以运行对数值数据进行取样并确定数值列是否 包含连续或离散值的算法。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整 数,用以表示离散的编码薪金范围(例如1 = $25,000; 2 =从$25,000到$50,000)。16.单击检测后,请查看内容类型和数据类型列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本 处理。例如,GeographyKey应作为文本处理,因为对此标识符进行数学运算是不对的。列内容类型|数据类型_AgeContinuo
8、usLongBikeBuyerDiscreteLongCommuteDistanceDiscreteTextCustomerKeyKeyLongEnglishEducationDiscreteTextEnglishOccupationDiscreteTextFirstNameDiscreteTextGenderDiscreteTextGeographyKeyDiscreteTextHouseOwnerFlagDiscreteTextLastNameDiscreteTextMaritalStatusDiscreteTextNumberCarsOwnedDiscreteLongNumberChil
9、drenAtHomeDiscreteLongRegionDiscreteTextTotalchildrenDiscreteLongYearlylncomeContinuousDouble指定列 的内容和数据类型指定列 的内容和数据类型指定挖掘结构列的内容和数据类型-挖掘模型结构 ):17. 单击下一步。18. 在将数据拆分为定型集和测试集页上,对于测试数据百分比,请保存默认值30o对于测试数据集中的最大事例数,请键入1000。单击下一步。创建测试集指定要为模型测试保留的事例数03QIC %1000测试数据百分比也):测试数据集中的 最大事例数(M):出RR.19. 在完成向导页上的挖掘结构名称
10、中,键入Targeted Mailing。20. 在挖掘模型名称中,键入TM_Decision_Tree021. 选中允许钻取复选框。致据挖掘向导完成向导为挖掘结构提供名称.从而完成数据挖掘向导。挖掘结构名称典):Targeted Mailing挖掘模型名称地):TM_Deci si on_Tr ee预览也):E: Targeted Mailing 日囿列,与 Age22. 单击完成。11 Adventwr eV orkss-匕孥据源 Adventure Works DW. ds 白踏数据源视图Adventure Works DW. dsv 一白多维数据集il维度日挖掘结构、Targeted
11、Mailing. djnm17=缶&测试挖掘模型的准确性映射输入列如果使用外部数据测试挖掘模型,那么必须确保挖掘结构中的列与输入数据中的列匹配。为此,可以使 用指定列映射对话框。如果直接映射列名,那么数据挖掘设计器将自动创立关系。假设要删除两列之间的映射,请选择将挖掘结构表中的列链接到选择输入表表中的列的行,再按 Delete键。还可以通过单击选择输入表中的列并将其拖到挖掘结构中相应的列来手动创立映射。将输入列映射到挖掘结构1. 在数据挖掘设计器中的挖掘准确性图表选项的输入选择选项k中,选择选项指定其他数据集。选择要用于准确性图表的数据集 O使用挖掘模型测试事例(X) O使用挖掘结构测试事例&
12、) 指定苴他数据集i单击指定其他数据集选项右侧的(.)按钮。此时将翻开指定列映射对话框。如果您要测试的结构未显示在挖掘结构窗格中,请单击选择 结构并选择目标邮件。三;6 Targeted Mailing AgeBike BuyerCommute Distance中指定列映射1 (大于)运算符。7. 在同一行单击值框,并键入20odbo_vTarget!ail筛选盎条件:和/或挖掘结构列,一 值图Age司jA8. 单击表达式窗格以刷新该表达式,并验证它是否正确。单击确定。表达式(X):; db o_vT argetMail:(TAge 20 )9. 再次单击确定,关闭筛选数据集对话框。输入选择选
13、项卡中的筛选表达式窗格会显示刚刚创立的筛选表达式vTargetMail: (Age 20)o当制作提升图时,模型将仅使用其年龄大于20的客户进行测试。显示模型的提升1. 在选择要在提升图中显示的可预测的挖掘模型列下,确保已在每个模型的可预测的列名列表中选中Bike Buyer。2. 在预测值列中,选择lo对于具有相同可预测列的每个模型,将自动填充相同的值。显示挖掘模型回 TM_Deci sion_Tree可预测列名称Bike Buyer预测值1显示模型的准确性1. 在选择要在提升图中显示的可预测的挖掘模型列下,确保已在每个模型的可预测的列名列表中选中Bike Buyer02. 将预测值列保存为
14、空。查看提升图假设要查看提升图,请切换到挖掘准确性图表的提升图选项卡。当您单击该选项卡时,便会对效 劳器和数据库的挖掘结构和输入表或测试数据运行预测查询。预测结果随后会与的实际值进行比拟,并 将绘制在图上。有关如何使用该图的详细信息,请参阅提升图Analysis Services -数据挖掘)。挖掘结构的数据挖掘提升图:Targeted Mailing创立查询创立查询创立预测查询的第一步是选择挖掘模型和输入表。选择模型和输入表1.在数据挖掘设计器挖掘模型预测选项卡的挖掘模型框中,单击选择模型。系统将翻开选择挖掘模型对话框。大选择挖掘模型AdventureWorks另 A Targeted Ma
15、iling2. 在整个树中导航到目标邮件结构,展开该结构并选择TM_Decision_Tree,再单击确定。-/jE)Adventur eW orksTargeted MailingATM Decision Tree3. 在选择输入表框中,单击选择事例表。系统将翻开选择表对话框。薪建项目模极(X):模极(X):项目类型国):商业智能项目 其他项目类型Visual S t.-u. di o色前f 集Analysis Servi ces 项目色前f 集Analysis Servi ces 项目Analysis Servi ces (目年工nta gx at ion Servi ces 1页目;为报
16、表祜咨器项目向导闻报表模型项目我的模板.事搜索联机模极工nt a A导入 占报表名称国):名称国):Adventvix- eW orks|日更改存储数据挖掘对象的实例1. 在 Business Intelligence Development Studio 的工程菜单中,选择属性。2. 在属性页窗格的左侧,单击部署。3. 在目标选项局部,验证数据库名称是否为localhosto如果使用的是其他实例,请键入该实例的名称。单击确定。LventureWorks配置(): 活动(Development)配置(): 活动(Development)平台化):不可用e配置属性内部版本 调试部署日目标服务器数
17、据库日选项处理选项事务部署部署模式localhost.Advent. ux eV orks默认值 False 仅部署更改服务器要将项目部署到其中的Aitalysi s Services实例。确定取消应用(A创立数据源4. 在数据源中,选择 Adventure Works DW。L选择表数据源):数据源):Adventure Works DW表/视图名称JjProspectiveBuyer (dbo) 区vkssocSeqLinelterns (dbo)面 vAssocSeqOrders (dbo) vTargetMail (dbo)Fj vTimeSeries (dbo)5. 在表/视图名称中
18、,选择ProspectiveBuyer表,再单击确定。选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创立默认映射。囿鱼II直I011111直昌 FIAddressLinelAddressLine2 BirthDate CityEducati on EmailAddress FirstNameGenderHouseOwnerFlag LastName Mari talStatus删除表 选择事例表生成预测查询1. 在挖掘模型预测选项卡上的网格内的源列中,单击第一个空行中的单元格,然后选择ProspectiveBuyero2. 在 ProspectiveBuyer 行的字段
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 实验 报告

限制150内