《2022年数据仓库学习报告 .pdf》由会员分享,可在线阅读,更多相关《2022年数据仓库学习报告 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库及应用课程学习报告学习数据仓库及应用课程两月,专业概念多而晦涩,本小组从商务智能为楔、以时间顺序、逻辑顺序为线,将本课程已学主要概念梳理一遍,以达到加深记忆和理解、了解课程整体结构的目的。关于商务智能的定义 多如牛毛,简而言之,商务智能就是把数据转化成知识,然后再将知识转化成收益的一个过程。与商务智能相关的技术主要有数据挖掘、数据仓库、数据集市、CRM 、ODS 、OLAP 、ETL 等等。 对于企业不同层次不同部门的人员,商务智能均可带来相应的好处:对于高级主管,可以及时监视那些关键的商业性能指标,很快地识别你的商务中的发展趋势和例外;对 IT 主管,可以减少终端用户经常地从数据库中
2、查询、产生报表,能够为终端客户从 IT 部门获得更多的商业利益;对于CFO ,可以方便地管理每月产生的预算报告,节省准备、重整、报告数据所需的时间;对于销售VPs和产品经理,可以对市场和销售数据执行即席分析,有效地监控和跟踪市场和销售激励措施,有效地跟踪客户 / 产品的最佳 / 最坏性能以及监控 / 分析客户/ 产品的利润; 对于产品管理者, 可以有效地检验 MRP 模型,有效地进行成本控制和处理即席分析或报表,有效地估计人员成本、职员预算、处理货物出入和库存控制。商务智能依赖于战略信息系统,战略信息的特征 主要有:综合性,数据完整性,可用性,可靠性和及时性,综合性是指有一个独立的、从企业整体
3、来看的视角;数据完整性是指信息必须是准确的,必须符合商业规则;可用性是指必须是通过直观方法获得的,对于分析是有用的;可靠性是指每个商业因素有且必须有一个值;及时性是指信息必须是在规定时间内准备好的,随时待用。 与操作型信息不同的是 ,战略信息是综合的、提炼的,代表的是过去的数据,同时数据不跟新。战略信息是面向分析的环境,一次操作数据量大,同时一个时刻操作一个集合。提供战略信息的历史途径 有四种,这四种途径都有自身的不足之处 :首先是即席查询报表, IT 部门针对每种报表需求,分别编写专门的程序,这样名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - -
4、 - - - - 名师精心整理 - - - - - - - 第 1 页,共 8 页 - - - - - - - - - 做极其低效, IT 部门无法应对频繁的报表需求。其次是特殊抽取程序,从不同系统中抽取数据,满足预定义的报表,但是这样做数据缺乏可信性,生产率低以及数据转换为信息的不可行性;再次是信息中心,主要是预定义好的报表或大屏幕,最后发展到主管信息系统,主管信息系统会遇到一个瓶颈,就是统一数据平台的问题,随之会产生信息危机,海量的数据不能转化为决策信息, IT 部门接到太多的特别查询请求,无法及时响应,并且用户只能通过 IT 部门来访问信息,自己无法直接访问信息。在解决主管信息系统发展中
5、遇到的瓶颈的过程中,逐渐产生了一种新的解决方案:数据仓库。 数据仓库是数据库系统发展到一定阶段的一种必然要求。数据仓库是在数据库发展的基础上产生的,和数据库有着密不可分的联系,从某种意义上讲,数据仓库可以称为大的数据库,只是按照不同的主题和技术来组织数据建立数据仓库并不是要取代原有的运作数据库系统,建立数据仓库的目的是为了将企业多年来已经收集到的数据按照一个统一的,一致的企业级视图组织、存储,对这些数据进行分析,从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息,帮助企业及时、准确地把握机会。数据库一般是面向业务的, 使用者是企业的一般管理人员,进行企业日常的数据处理和维护工
6、作;数据仓库是面向决策的,使用者是企业的高层管理人员,它也是使用关系数据库,由于在事务型环境中直接构建分析型应用是失败的,分析型处理及其数据必须与操作型处理及其数据相分离,所以必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,而数据仓库是为构建新的单独的分析处理环境而出现的一种数据存储和组织技术,所以数据库进化到数据仓库是必然的趋势。数据仓库是一种信息环境,是因为它是为分析任务而设计的数据库,并且从多种应用程序种获取数据,使用起来十分方便,有益于用户的长时间交互式操作, 此外它能实现大量读取的数据访问,不需要 IT 人员协助, 用户直接与系统互
7、动,内容可靠,定期更新,数据仓库不仅包含当前和历史数据,而且用户可以查询,创建报表,在线得到结果,因此数据仓库是为构建新的单独的分析处理环境而出现的一种数据存储和组织技术,也可以说数据仓库名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 8 页 - - - - - - - - - 是一种信息环境。数据仓库是一个数据集合,它有四个主要特征 :第一,面向主题的,在数据仓库中,数据不是根据操作型应用程序而是根据商业主题来存储的,面向主题的数据组织所生成的数据库模式与实际业务处理流
8、程中涉及的单据或文档有良好的对应关系,其组织形式是对应多个表,通过公共码键把各个表统一联系起来,同一主题的表可存放在不同介质上;第二,集成的,解决数据中存在的不一致性:综合来自不同操作型应用程序中的数据,但是需要进行消除冲突和进行数据的综合和计算;第三,相对稳定的,一般不修改,只追加;过期限的数据可从DW 中移走,还有对 DW ,主要是查询, DWMS 比 DBMS要简单,第四,反映时间变化的,通过码键包含时间项来实现,除此还需不断增加新的数据内容,删去过时的数据以及与时间有关的综合数据分析。数据仓库的部门层常被称为“数据集市”层,数据集市 是小型的、面向部门或工作组的数据仓库,不同的数据集市
9、可以按业务的分类来组织,包含某一特定领域的数据,也可以按主题或数据的地理分布来组织,可以在数据集市的基础上构建分布式数据仓库,不同的数据集市可以分布在不同的物理平台上,也可以逻辑地分布于同一物理平台。数据仓库有 两种建设方式 : “自顶向下” 地建立一个全局数据仓库, 将其中数据调入各部门数据集市中;或“自底向上”地建立局部的数据集市,将它们合并成全局数据仓库。“自顶向下”的数据仓库建设方式是,从整个企业的角度来看待数据。对数据内容唯一、集中的存储,然后逐步完成各个部分。其优点是可以从整个企业的角度来看待数据,是有机的结合,而不是由彼此分离的数据集市组成,坚持了始终控制和集中的规则,对反复的查
10、询能做出快速的反应;缺点是需要花较多的时间来建造,失败的风险很大,需要高水平的综合技能,还有就是费用很高。最后折衷方案是比较理想的选择,从整个公司的角度来定义需求,但将数据仓库作为一个超级数据集市来实施,每次一个。 “自底向上”的数据仓库建设方式是从最关心的部分开始,先以最小的投资,完成企业当前需求,获取最快的回报,然后再不断扩充,不断完善,优点是实施快速而方便,有良好的投资回报率,失败的风险很小,而且是渐进的,可以先建立名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 8
11、 页 - - - - - - - - - 重要的数据集市;缺点是每个数据集市的视角比较窄,都有冗余的数据,都有不一致的数据,增加了无法管理的接口。数据仓库能为一个公司带来巨大的价值,让我们首先来模拟一个常见的情景:一个没有数据仓库的公司在得到一些新的数据后,需要创造一个新的报告,其中步骤包括:寻找历史数据、集成数据、筹备数据、创建报告;而一个拥有数据仓库的公司则可通过数据仓库很快的生成报告。数据显示第一家公司其中所需资金分别为50 万美元至 200 万美元,而后者只需要1000 美元至 2 万 5 千美元,数据仓库为公司带来巨大的成本价值。 同时,完成以上工作前者需要 6 个月至两年,而后者只
12、需30 分钟至 10 天,数据仓库也为公司带来了明显的 时间价值。 数据仓库将数据集成在一起,形成了巨大的集成价值。比如,数据仓库集成了公司各地区的数据,为跨区销售提供了条件;数据仓库可以查看顾客的生命周期,根据顾客的位置、期望进行销售;同时也可以基于顾客本身和其他顾客的关系进行销售(如家庭销售)。在 CRM 中,通过数据仓库可以获得顾客的消费习惯,它会影响顾客的未来消费行为,从中获得 历史价值 。同时,了解顾客的历史,就可以向他们提供更好的产品和服务,如从顾客的购买记录中了解顾客的消费偏好和习惯付款方式,从顾客的住所和驾驶汽车推算出顾客的消费能力和消费档次,这些都是极有价值的信息。数据仓库能
13、为公司创造丰厚的价值, 但对于数据仓库的 投资回报率来 说,我们要分析投资和回报的可比性,投资回报率即为收益现值与成本现值的比值,必须考虑周期和风险两方面因素。数据仓库的前期投入会比较大,包括固定成本和风险成本,但在长远来说,花费的资源会更少,有直接和间接的收益。在不同 行业的企业当中,制造业的ROI 平均值高于其他行业,其中高科技制造业具有最高的ROI,然后是普通制造业和零售业,其中,以业务/ 工程作为主要用户的企业均拥有比较高的ROI。以数据仓库 实现方法 进行回报分析,离散方法比企业方法回报更高更快。数据仓库“自顶向下”的实现方式在功能上有优势,但费用很高,失败风险较大;而“自底向上”的
14、实现方式拥有良好的投资回报率,失败风险较小。与此同时,对数据仓库的实现进行目标分析,可以分为以管理控制为目标,以机会为目标和以核心业务为目名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 8 页 - - - - - - - - - 标,对 RIO中值和投资年限进行分析,以核心业务为目标更胜一筹。对于数据仓库的 最终用户 ,由于制定基于分析的决策,需要以数据仓库作为其唯一的信息源,因此数据仓库可以节省开支。与此同时,最终用户获得的效益大约占总效益的50% ,因此,我们在建立数
15、据仓库的同时应该让最终用户参与进来。数据仓库跟据行为、 需求、工作方式的不同, 可以将其 用户形象的分为:农夫、探险者、矿工、旅游者、操作者五种类型,五种用户 使用数据仓库的方式均不同。农夫一般是技术分析员或市场、销售、金融方面的分析员,就像每天都耕作的农夫一样,他们的行为是可预测的,需求是标准化的,查询模式和执行方式是固定的, 对于所要找的信息有很高的 “命中率”。农夫通过适当整合的、来自源系统的高质量信息,运用可预测的查询程序,修改和定制预定义报表,生成准确的、较小的结果集,并对大部分当前数据都和历史数据做简单比较。探险者是研究员或熟练的技术分析员,他们的工作是创造性的,他们不知道自己要的
16、东西,工作方式是不可预测的, 经常直到目前这步的结果出现,都还不知道下一步是什么。探险者经常找不到自己所要的东西,但偶尔会发现被别人忽略的宝藏!探险者创建复杂的查询过程并通过大容量的细节数据进行分析活动,提供非结构化的、全新的、创新的查询分析并运行分析会话过程。矿工是经过高度专业训练, 具有专业技能的分析员 (顾问) ,矿工经常是接受别人的断言,通过挖掘数据来说明断言是否正确,或者真实度有多高。一般的情况是探险者提出假设,矿工验证假设。矿工访问用来进行分析和挖掘活动的大量数据,获得大容量的多年前的历史数据,将抽取出来的数据以适合专门的挖掘技术的格式存储。旅行者一般是高级主管人员,他们知道到哪里
17、找所要的东西,具有的知识深度不够,但广度绰绰有余。旅行者能轻易识别并选择出用户感兴趣的条目,能够很快地从一个感兴趣的指示器转移到另外一个指示器,只要需要,用户就能轻松地得到和选中的键码指示器有关的附加信息,以便深入地探索这个指示器。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 8 页 - - - - - - - - - 操作者包括部门经理、生产线管理人员、地区主管,他们监控所在部门的运行状况,只对当前的性能和问题感兴趣,不关心历史数据。通过直观的信息界面和导航按钮,获取
18、每天尽可能新的当前数据,或者更频繁地从源系统得到更新的当前数据,并快速分析大部分的当前数据。针对不同的用户,数据仓库提供了不同的信息传递方式。 农夫需要为查询和报表提供的标准用户界面,使用工具应有合理的反应时间,具备商业维度和指标的多维商业模型, 同时拥有创建报表的能力和一定的向下钻取能力。探险者需要多种用来基于大量细节数据的复杂查询和分析的工具,并支持漫长的分析会话,该工具应有合理的反应时间、规范化的数据模型和特殊的体系结构(包括一个有用的勘探型数据仓库) 。矿工需要特殊的数据存储库来数据仓库的数据,同时需要特殊的数据挖掘工具、统计分析工具和数据可视化工具来进行处理。旅行者需要强大的拥有关键
19、字搜索功能的元数据界面和支持 web的用户界面,使用工具能进行直观的导航,同时拥有一定的向下钻取能力。操作者需要简单的用来获取当前信息的用户界面,使用工具应有快速的反应时间和宽泛的数据内容,能进行的简单的查询和创建报表,能够创建菜单引导的简单的应用系统。ODS(Operational Data Store ) 是数据仓库体系结构中的一个可选部分,它的特点 是面向主题的、集成的、细节的、可变的、当前的,用于支持全局业务处理和日常管理控制操作,仍属于操作型环境。ODS的作用总的来说是承上启下。它将数据仓库与数据库隔离开来,在业务系统和数据仓库之间形成一个隔离层,在各分散数据库的基础上建立一致的、面
20、向主题的数据环境,负担数据集成的任务,转移一部分业务系统细节查询的功能,完成数据仓库中不能完成的一些功能, 从而把数据从数据库到数据仓库的转换难度分解了。大致来讲, ODS有四种类型 :I 类 ODS ,与应用系统的数据延迟为12秒,实时或近似实时; II 类 ODS , 与应用系统的数据延迟为24小时;III 类ODS ,与应用系统的数据延迟为1224 小时; IV 类 ODS ,数据仓库中部分决策分析数据回流至ODS 中。数据延迟时间越短, ODS 建设难度越高, 其中 I 类ODS 的建设难度最高,建设成本也是最高的。而且由于I 类 ODS 的实时性,对于技术的要求与其它类型ODS也有所
21、不同,一般来讲需要用到EAI 技术,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 8 页 - - - - - - - - - 但随着当前企业对数据仓库的实时性要求越来越高,以及企业对战术性决策支持的需求越来越大,相信I 类 ODS 会变得越来越重要。通常在企业的EDA中,ODS 是一个可选件,但一旦需要用到ODS 的功能,那么ODS 本身就将变得极为重要。 目前应用的比较多的是IV 类 ODS ,因为一旦将决策分析结果加载到 ODS中,重要决策信息的高性能联机支持将成为
22、可能,如:客户细分与评价、银行客户贷款。最后以 SQL Server 中 Adventure 2008 示例数据库为例,以其关系图的业务子系统和具体分析任务结合来分析数据仓库的业务意义。根据 Adventure Work 2008的关系图,可以把它划分为“个人信息子系统( Person) ” “人力资源子系统(Human Resources) ” “产品管理子系统(Production ) ” “采购子系统( Purchasing ) ” “销售子系统( Sales) ” 。设曾有单笔订单消费超过2000 且有过 10 次以上订单的消费者为潜在优质客户,则可以通过分析找出这样的客户。此分析任务
23、以“顾客”为主题,涉及到了“个人信息子系统”和“销售子系统”。通过分析找出产品的颜色、文化、模型三种属性以及分级综合属性于产品总订单数量的关系。通过分析得到某产品(如自行车)对不同地区的客户在不同时间内的销售业绩,从而确定采购计划。这两个任务以“产品”为主题,涉及到了“销售子系统”“采购子系统”和“产品管理子系统” 。通过分析供应相同零件的供应商的供应价格,排序找出优秀供应商,并制定采购方案和供应商方案。此分析任务以“供应商”为主题,同时涉及到了“采购子系统”和“个人信息子系统” 。通过分析不同售货员的业绩,制定员工奖惩方案和激励方案。此分析任务以“销售”为主题,同时涉及了“销售子系统”“个人信息子系统”和“人力资源管理子系统”。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 8 页 - - - - - - - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 8 页 - - - - - - - - -
限制150内