《数据仓库与数据挖掘》课程设计报告模板.docx
《《数据仓库与数据挖掘》课程设计报告模板.docx》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》课程设计报告模板.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、江西理工大学应用科学学院数据仓库与数据挖掘课程设计报告题目: 某超市数据集的 OLAP 分析及数据挖掘系别:班级:姓名:二一二年六月目录一、建立数据仓库数据库结构和设置数据源11. 任务描述22. 建立数据仓库数据库 .3. 设置数据源 .二、销售数据 OLAP 分析.1. 任务描述 .2. 设计星型架构多维数据集(Sales) .3. 设计存储和数据集处理 .4. OLAP 分析.三、人力资源数据 OLAP 分析.1. 任务描述.2. 设计父子维度的多维数据集(HR).3. 修改多维数据集(HR)的结构.4. 设计存储和数据集处理.5. OLAP 分析 .四、数据仓库及多维数据集其它操作 .
2、1.任务描述.2.设置数据仓库及多维数据集角色及权限.3.查看元数据.4.创建对策.5.钻取.6.建立远程 Internet 连接.五、数据仓库高级操作 .1. 任务描述 .2. 创建分区 .3. 创建虚拟多维数据集 .4. DTS 调度多维数据集处理.5. 备份/还原数据仓库 .六、数据挖掘 .1. 任务描述 .2. 创建揭示客户模式的决策树挖掘模型.3. 决策树挖掘结果分析 .4. 创建聚类挖掘模型 .5. 聚类挖掘结果分析 .6. 创建基于关系数据表的决策树挖掘模型.7. 浏览“相关性网络”视图 .一、建立数据仓库数据库结构和设置数据源1、任务描述数据仓库数据库是将要在其中存放多维数据集
3、、角色、数据源、共享维度和挖掘模型的一种结构。然后跟预先设置好的 ODBC 数据源建立连接。2、建立数据仓库数据库(1) 展开树视图的 Analysis Servers;(2) 单击服务器名或右击选择连接,与 Analysis Servers 建立连接;(3) 右击服务器名,然后单击“新建数据库”命令;(4) 在“数据库”对话框中输入数据库名“教程 DW”,单击;3、设置数据源(5) 展开刚创建的“教程 DW”数据库,可看到如下项目:数据源、多维数据集、共享维度、挖掘模型、数据库角色(6) 右击“教程 DW”数据库下的“数据源”文件夹,然后单击“新数据源”命令;(7) 在“数据链接属性”对话框
4、中,单击“提供程序”选项卡,选择“Microsoft OLE DB Provider for ODBC Drivers”;(8) 单击“连接”选项卡,选择建好的 ODBC 数据源“FoodMart 2000”;(9) 单击按钮关闭“数据链接属性”对话框图表 1 连接数据源二、销售数据 OLAP 分析1. 任务描述以多维方式建立数据模型可简化联机业务分析,提高查询性能。通过创建多维数据集,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易1于查询的业务信息。2. 设计星型架构多维数据集(Sales)星型架构的多维数据集由一个事实数据表和链接到该事实数据表的多个
5、维度表组成。下面针对 FoodMart 超市 1998 年的销售业务数据,建立一个多维数据集,以便按产品和顾客 2 个主题展开分析。具体操作如下:(1) 展开树窗格的“教程 DW”,右击“多维数据集”,选择“新建多维数据集”“向导”菜单命令,打开如下“多维数据集向导”对话框。(2) 向多维数据集添加度量值(事实) :(3) 单击,在“从数据源中选择事实数据表”步骤中,展开“FoodMart”数据 源,然后单击“sales_fact_1998”;(4) 单击,设置多维数据集的度量值列: store_sales、store_cost、unit_sales; (5)单击,建立维度表。单击,打开“维度
6、向导”对话框;1) 向多维数据集添加时间维:(1)选择维度类型为“星型架构:单个维度表”; (2)单击,选择维度表“time_by_day”; (3)单击,选择维度类型为“时间维度”;(4) 单击,选择时间级别为“年、季度、月”;(5) 单击,单击,输入时间维名称: Time,并设为“共享”方式, 单击,OK!2) 向多维数据集添加产品维:(1) 再次单击,打开“维度向导”对话框;(2) 选择创建维度的方式为“雪花架构:多个相关维度表”; (3)单击,选择维度表“Product”和“product_class”;(4)单击,查看连接方式,在这里可删除不要的连接,添加需要的连接; (5)单击,依
7、次选择 product_category、product_subcategory 和 brand_name三个维度级别;(6)单击,指定成员键列步骤中,不需改变主键列; (7)单击,在“高级选项”步骤中,根据需要选择;(8)单击,输入产品维名称: Product,并设为“共享”方式,单击, OK!3) 向多维数据集添加客户维度:(1)再次单击,打开“维度向导”对话框; (2)选择创建维度的方式为“星型架构:单个维度表”; (3)单击,选择维度表“Customer”;(4) 单击,选择维度类型为“标准维度”;(5) 单击,依次选择 Country、State_Province、City 和 ln
8、ame 四个维度级别;(6) 单击,指定成员键列步骤中,不需改变主键列; (7)单击,在“高级选项”步骤中,根据需要选择;(8)单击,输入客户维名称: Customer,并设为“共享”方式,单击, OK!24) 生成多维数据集:(1) 回到多维数据集向导对话框,这里已到了新建的 4 个维度;(2) 单击,在“是否计算事实数据表行数提问时,单击,开始计算。 (3)计算完成后,命名多维数据集为:Sales,单击,OK!(4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创建的多维数据集。单击蓝色或黄色的标题栏,对表进行排列,使其符合下图所示的样子图表 2“Sales 多维数据集编辑器”窗口3.
9、 设计存储和数据集处理:设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP 或 HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择 MOLAP 作为存储模式,创建 Sales 多维数据集的聚合设计,然后从 ODBC 源中装载数据并按照聚合设计中的定义计算汇总值。(1) 展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜单命令,弹出“存 储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具|设计存储”菜单命令, 打开“存储设计向导”对话框;(2) 单击,然后选择“MOLAP”作为数据存储类型 ;(3) 单击,设
10、置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。(4) 单击,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。(5) 单击,选择“立即处理”,并单击,系统开始进行数据处理, 处理聚合一般要花费较长一些时间。(6) 处理完成后点击,回到 Analysis Manager 窗口。(7)接下来就可浏览多维数据集的数据了。4. OLAP 分析:联机分析处理(OLAP)是使用多维数据表达式 (称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数3据表建立模型,并为客户端应
11、用程序提供完善的查询和分析功能。图表 3OLAP 分析图三、人力资源数据 OLAP 分析1. 任务描述:建立一个人力资源(HR)多维数据集,以进行雇员工资分析。先把 Employee 维度创建为父子维度,然后使用该维度以及常规维度来生成 HR 多维数据集2. 设计父子维度的多维数据集(HR):(1) 展开“教程 DW”,右击“共享维度”,选择“新建维度|向导”菜单命令, 打开“新建维度向导”对话框。(2) 单击,选择维度结构为“父子:单个维度表中相关的两列”; (3)单击,选择维度表 employee;(4) 单击,选择 employee_id 为成员键,选择 supervisor_id 为父
12、键列, 选择 full_name 为成员名。(5) 单击,直到最后一步,输入维度名称: employee;(6) 单击,回到维度编辑器。OK!3. 修改多维数据集(HR)的结构(1) 展开“教程 DW”,右击“多维数据集”,选择“新建多维数据集|向导”菜单命令,打开多维数据集向导对话框。(2) 点击,选择 salary(工资)作事实数据表;(3) 点击,选择 salary_paid、vacation_used 为度量值列;(4) 点击,选择 Employee(雇员)、Store(商店)、Time(时间)作维度;(5) 点击,在提示是否计算事实数据表行数时选“是”。最后输入人力资源多维数据集的名
13、称 NR,点击,OK!(6) 回到编辑器窗口,手工建立 time_by_day 表到 salary 表的联接,再建立 store 表到 employee 表中的联接,删除多余的联接。最后如下图所示。4. 设计存储和数据集处理设计好 Sales 多维数据集的结构之后,需要选择数据的存储模式(MOLAP、ROLAP4或 HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集。本例选择 MOLAP 作为存储模式,创建 Sales 多维数据集的聚合设计,然后从 ODBC源中装载数据并按照聚合设计中的定义计算汇总值。(1) 展开树窗格,右击“Sales”多维数据集,选择“设计存储”菜
14、单命令,弹出“存储设计向导”对话框;也可在多维数据集编辑窗口中选择“工具 |设计存储”菜单命令,打开“存储设计向导”对话框;(2) 单击,然后选择“MOLAP”作为数据存储类型 ;(3) 单击,设置聚合选项为“性能提升达到”,并输入“40”作为指定百分比,以此优化能力平衡查询性能和存储空间大小。(4) 单击,完成后可看到“性能与大小”图,从中可看出增加性能提升对使用额外磁盘空间的需求。图表 4 性能与大小(5) 单击,选择“立即处理”,并单击,系统开始进行数据处理, 处理聚合一般要花费较长一些时间。(6) 处理完成后点击,回到 Analysis Manager 窗口。(7)接下来就可浏览多维数
15、据集的数据了。5. OLAP 分析联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进行快速访问的常用方法。多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能。四、数据仓库及多维数据集其它操作1 任务描述多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。我们要创建Sales 和 HR 角色分别用于访问多维数据集Sal
16、es 和 HR。5Management 角色用于管理整个数据仓库。2 设置数据仓库及多维数据集角色及权限多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。角色是保护多维数据集内对象和数据安全的主要方法,可以在多维数据集的不同粒度级别上设置安全性。要定义安全性必须先创建角色,然后向这些角色授予权限。本例中,我们要创建 Sales 和HR 角色分别用于访问多维数据集Sales 和HR。Management 角色用于管理整个数据仓库。具体操作如下:2.1 创建多维数据集角色:(1) 展开“多维数据集”文件夹,右击“Sales”多维数据集,并选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库与数据挖掘 数据仓库 数据 挖掘 课程设计 报告 模板
限制150内