最新商业分析第5章商业信息的ppt课件.ppt
《最新商业分析第5章商业信息的ppt课件.ppt》由会员分享,可在线阅读,更多相关《最新商业分析第5章商业信息的ppt课件.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库概念: 1990年比尔恩门(Bill Inmon)提出了数据仓库(Data Warehouse)的概念。数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。传统数据库到数据仓库数据库与数据仓库的区别从数据量来说,数据仓库要比数据库更庞大得多在为应用服务的过程中,数据库与数据仓库往往要结合使用。5.2.1 相关概念三层结构 三层体系结构,是在客户端与数据库之间加入了一个中间层。三层体系结构的应用程序将业务规则、数据访问、合法性校验等工作放到
2、了中间层进行处理。通常情况下,客户端不直接与数据库进行交互,而是通过与中间层通讯建立连接,再经由中间层与数据库进行交互。)表示层(Browser)中间层(WebServer)数据层 (DBServer) 表示层位于客户端,一般没有应用程序,借助于Javaapplet、Actives、Javascript、vbscript等技术可以处理一些简单的客户端处理逻辑。 中间层是用户服务和数据服务的逻辑桥梁。它负责接受远程或异地的用户请求,对用户身份和数据库存取权限进行验证,运用服务器脚本,借助于中间件把请求发送到数据库服务器(即数据层),把数据库服务器返回的数据经过逻辑处理并转换成HTML及各种脚本传
3、回客户端。 数据层位于最底层,它负责管理数据库,接受Web服务器对数据库操纵的请求,实现对数据库查询、修改、更新等功能及相关服务,并把结果数据提交给Web服务器。三级模型和二层映射l数据库的设计有一个严谨的体系结构,即:三级模式,它包括外模式、概念模式、内模式。三级模式有效地组织、管理数据,提高了数据库的逻辑独立性和物理独立性。l数据库管理系统在这三级模式之间提供那个了两层映像:外模式/模式映像,模式/内模式映像。数据仓库的生成0505数据字典和元数据0606物理模型设计0404总体分析设计0101逻辑模型设计0303概念模型设计0202总体分析设计确定研究内容 这一环节主要是明确要研究的内容
4、,即要研究的问题,围绕该问题所需要的数据和信息及如何获得这些信息等方面问题进行研究。确定主题 这一步中,需要根据所研究的内容确定相应的主题,并尽可能明确主题之间的关系。以企业为例,当企业在选择促销商品的时候,它可能考虑的主题包括:商品、顾客、供应商。其中商品主题包含商品编号、商品名称、价格、库存、产品、颜色、大小等;顾客主题包含顾客编号、年龄、姓名、性别、职业等;供应商主题包含供应商编号、供应商所在地、供应商品编号、供应商品名称等。在这三个主题中,一个供应商可以供应多种商品,一种商品可以由多个供应商供应,供应商主题和商品主题之间的联系就是商品供应关系;一位顾客可以买多种商品,一种商品可以被多个
5、顾客购买,商品主题和顾客主题之间的联系是购买关系;顾客主题和供应商主题之间没有直接关系,它们之间的关系是通过商品来实现的。技术环境准备在这一阶段,一般包括两个步骤:要根据要处理的问题来确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括: 管理大数据量的能力; 进行灵活数据存取的能力; 根据数据模型重组数据的能力; 数据发送和接收的能力; 周期性成批装载数据的能力; 可设定完成时间的作业管理能力。要根据上面的各项性能指标来确定相应的软硬件配置。2.概念模型设计l将总体分析设计中得到的用户需求抽象为计算机表示的信息结构,即概念模型。它是从客观世界(用户)到计算机世界的一个中间
6、层次,即用户需求的数据模型。l概念模型常用的表示方法是实体-关系法(E-R图法),这种方法用E-R图作为描述工具。3.逻辑模型设计逻辑模型设计描述了数据的形式,是数据仓库需求部分的重要文档,是数据仓库细化的准备工作。主要包括以下几方面内容:分析主题域l主题域是对某个主题进行分析后确定的主题集合的边界。l选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快的实施。如果所选择的主题域很大并且很复杂,可以针对它某个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域分析。粒度层次划分l数据粒度是指数据仓库的数据中保存数据的细化程度
7、或综合程度的级别。细化程度越高,粒度级别就越小;相反,细化程度越低,粒度级别就越高。l数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。l通过估算数据行数和所需的直接存取存储设备数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。确定数据分割策略在选择数据分割的标准时,一般要考虑以下几个方面因素:数据量、数据分析处理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素。数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系
8、的。关系模式定义数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,已经确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述,接下来就要对选定的当前实施的主题进行模式划分,形成多个表,最终确定各个表的关系模式。与概念模型设计中的E-R图相对,逻辑模型设计中需要将其转化为逻辑模型,主要包括星形模型、雪花型模型。星形模型 用星形模型来表示逻辑模型,设计简单,容易被用户理解。星形模型主要包含两部分:指标实体和维度实体。指标实体是位于星形模型中间的实体,它是用户最关心的实体,为用户的商务活动提供定量的数据,指标实体用矩形
9、表示。维度实体是位于星形模型角星上的实体,其作用是限制用户的查询结果,用菱形表示。雪花型模型 雪花型模型是星形模型的进一步细化。与星形模型相比,雪花模型增加了一个详细类别实体,详细类别实体代表维度内的一个单独层次,用结束符号表示。4.物理模型设计物理模型设计主要是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。要实现数据仓库的物理模型,设计人员必须做到以下几点:全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些事对空间和时间效率进行平衡和优化的重要依据。了解外部存储设备的特性,如分块原则、块大小的
10、规定、设备的I/O特性等。根据这些要求,所做的工作包括以下四点: 确定数据的物理存储结构 确定索引策略 确定存储分配5.数据仓库的生成这一环节主要是把数据放入数据仓库中,并进行接口的设计,一旦完成,就可以在其上建立数据仓库的应用。设计接口将操作型环境下的数据装载进数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。在这一过程中,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明。数据装入在这一步里所要进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:确定数据装入的次序。清除无效或错误数据。数据粒度管理。数据刷新等。数据仓库生成完后数据是稳定的,但并
11、不是一成不变的,而是要根据需求在使用过程中不断地维护和更新。6.数据字典和元数据严格来说,这并不是建立数据仓库的一个步骤,而是建立数据仓库过程中所要涉及的特殊数据。数据字典是数据库中各类数据描述的集合,通常包括数据项、数据结构、数据流、数据存储和处理过程五个部分,其中数据项是数据的最小组成单位,若干个数据项可以组成一个数据结构,数据字典通过对数据项和数据结构的定义来描述数据流、数据存储的逻辑内容。数据项数据项是不可再分的数据单位。对数据项的描述通常包括数据项名、数据项含义说明、数据类型、长度、取值范围、取值含义等。数据结构数据结构反映了数据之间的组合关系。一个数据结构可以由若干个数据项组成,也
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新商业分析第5章 商业信息的ppt课件 最新 商业 分析 商业信息 ppt 课件
限制150内