《数据仓库&数据指标&数据治理体系搭建方法论.docx》由会员分享,可在线阅读,更多相关《数据仓库&数据指标&数据治理体系搭建方法论.docx(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据仓库&数据指标&数据治理体系搭建方法论数据仓库1、数据仓库的基本概念数据仓库概念英文名称为可简写为DW或DWH。数据仓库的目的是构建 面向分析的集成化数据环境,为企业提供决策支持(Decisi。nSupport)。它出 于分析性报告和决策支持目的而创立。数据仓库本身并不生产”任何数据,同时 自身也不需要消费任何的数据,数据来源于外部,并且开放给外部应用,这也 是为什么叫“仓库,而不叫“工厂”的原因。基本特征数据仓库是面向主题的、集 成的、非易失的和时变的数据集合,用以支持管理决策。面向主题:传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相 互别离的。而数据仓库那么是面
2、向主题的。主题是一个抽象的概念,是较高层次上企业 信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业 中某一宏观分析领域所涉及的分析对象。集成性:通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数 据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据 仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步, 所要完成的工作有:要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字 长不一致,等等。进行数据综合和计算。数据仓库中的数据综合
3、工作可以在从原有数据库抽取数据 时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的C 下列图说明一个保险公司综合数据的简单处理过程,其中数据仓库中与“保险”主题 有关的数据来自于多个不同的操作型系统。这些系统内部数据的命名可能不同,数据 格式也可能不同。把不同来源的数据存储到数据仓库之前,需要去除这些不一致。及日后的易扩展性等进行选择业务。比方商城,整个商城流程分为商家端,用户 端,平台端,运营需求是总订单量,订单人数,及用户的购买情况等,我们选择 业务过程就选择用户端的数据,商家及平台端暂不考虑。业务选择非常重要,因 为后面所有的步骤都是基于此业务数据展开的。(2)声明粒
4、度先举个例子:对于用户来说,一个用户有一个身份证号,一个户籍地址,多个手 机号,多张银行卡,那么与用户粒度相同的粒度属性有身份证粒度,户籍地址粒 度,比用户粒度更细的粒度有手机号粒度,银行卡粒度,存在一对一的关系就是 相同粒度。为什么要提相同粒度呢,因为维度建模中要求我们,在同一事实表中, 必须具有相同的粒度,同一事实表中不要混用多种不同的粒度,不同的粒度数据 建立不同的事实表。并且从给定的业务过程获取数据时,强烈建议从关注原子粒 度开始设计,也就是从最细粒度开始,因为原子粒度能够承受无法预期的用户查 询。但是上卷汇总粒度对查询性能的提升很重要的,所以对于有明确需求的数据, 我们建立针对需求的
5、上卷汇总粒度,对需求不明朗的数据我们建立原子粒度。(3)确认维度维度表是作为业务分析的入口和描述性标识,所以也被称为数据仓库的“灵魂”。 在一堆的数据中怎么确认哪些是维度属性呢,如果该列是对具体值的描述,是一 个文本或常量,某一约束和行标识的参与者,此时该属性往往是维度属性,数仓 工具箱中告诉我们牢牢掌握事实表的粒度,就能将所有可能存在的维度区分开, 并且要确保维度表中不能出现重复数据,应使维度主键唯一(4)确认事实事实表是用来度量的,基本上都以数量值表示,事实表中的每行对应一个度量, 每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原那么之 一是同一事实表中的所有度量必须具有相
6、同的粒度。这样能确保不会出现 重复计算度量的问题。有时候往往不能确定该列数据是事实属性还是维度 属性。记住最实用的事实就是数值类型和可加类事实。所以可以通过分析 该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列 往往是事实。6、实际业务中数仓分层数仓分层要结合公司业务进行,并且需要清晰明确各层职责,要保证数据层的稳 定又要屏蔽对下游影响,一般采用如下分层结构:数据分层架构数据层具体实现使用四张图说明每层的具体实现数据源层ODS数据源层数据源层主要将各个业务数据导入到大数据平台,作为业务数据的快照存储。数据明细层DW数据明细层事实表中的每行对应一个度量,每行中的数据是一个特定级别
7、的细节数 据,称为粒度。维度建模的核心原那么之一是同一事实表中的所有度量必须具有相 同的粒度。这样能确保不会出现重复计算度量的问题。维度表一般都是单一主键, 少数是联合主键,注意维度表不要出现重复数据,否那么和事实表关联会出现数据 发散问题。有时候往往不能确定该列数据是事实属性还是维度属性。记住最实用 的事实就是数值类型和可加类事实。所以可以通过分析该列是否是一种包含多个 值并作为计算的参与者的度量,这种情况下该列往往是事实;如果该列是对具体 值的描述,是一个文本或常量,某一约束和行标识的参与者,此时该属性往往是 维度属性。但是还是要结合业务进行最终判断是维度还是事实。数据轻度汇总层DM数据轻
8、度汇总层此层命名为轻汇总层,就代表这一层已经开始对数据进行汇总,但是不是完全汇 总,只是对相同粒度的数据进行关联汇总,不同粒度但是有关系的数据也可进行汇总,此时需要将粒度通过聚合等操作进行统一。数据应用层APP数据应用层数据应用层的表就是提供给用户使用的,数仓建设到此就接近尾声了,接下来就 根据不同的需求进行不同的取数,如直接进行报表展示,或提供给数据分析的同 事所需的数据,或其他的业务支撑。7、最后技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的。 所以数仓的建设与业务是息息相关的,公司的业务不同,数仓的建设也是不同的, 只有适合的才是最好的。指标体系 指标体系是什么?如
9、何使用OSM模型和AARRR模型搭建指标体系?如何统一 流程、规范化、工具化管理指标体系?本文会对建设的方法论结合滴滴数据指标 体系建设实践进行解答分析。1、什么是指标体系1 )指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织 起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两局部 组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度 量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。 指标主要分为结果型和过程型:结果型指标:用于衡量用户发生某个动作后所产生的结果,通常是延后知道的, 很难进行干预。结果型指标更多的是监控
10、数据异常,或者是监控某个场景下用户 需求是否被满足过程型指标:用户在做某个动作时候所产生的指标,可以通过某些运营策略来影 响这个过程指标,从而影响最终的结果,过程型指标更加关注用户的需求为什么 被满足或没被满足体系是由不同的维度组成,而维度是指用户观察、思考与表述某事物的“思维角度L 维度是指标体系的核心,没有维度,单纯说指标是没有任何意义的。维度主要分 为定性维度和定量维度,定性维度,主要是偏文字描述类如城市、性别、职业等; 定量维度,主要是数值类描述如收入、年龄等,对定量维度需要做数值分组处理。 2)指标体系生命周期生命周期主要包含定义、生产、消费、下线四个阶段。针 对整个生命周期要持续做
11、指标运维、质量保障,同时为了提高指标数据复用度, 降低用户使用本钱需要做对应的数据运营工作。3)综合使用场景指标体系主要是结合用户的业务场景来进行使用,多个不同的 指标和维度可以组合起来进行业务的综合分析,用户可通过指标的变化看到整体 业务的变化,并能够快速发现问题、定位问题。常用的场景一种是决策分析的场 景,通过数据看清业务现状进行战略决策支持;另一种是运营分析场景,无论是 做用户运营、产品运营还是活动运营都需要各类指标数据的支撑去看清问题、分 析问题和指导解决问题。2、为什么搭建指标体系2)衡量业务开展质量指标体系可以反映业务客观事实,看清业务开展现状,通 过指标对业务质量进行衡量,把控业
12、务开展情况,针对发现的业务问题聚焦解决, 促进业务有序增长2)建立指标因果关系主要明确结果型指标和过程型指标关系,通过结果指标回溯过程指标,找到解决问题的核心原因3)指导用户分析工作目的建立产品评估体系、活动效果评估体系、智能运营分析体系4)指导基础数据 建设明确基础数据建设方向,集中资源,防止过程和结果分析指标数据的遗漏或 缺失5)指导内容产品建设结合用户的业务场景来进行使用,多个不同的指标和 维度可以组合起来进行业务的综合分析,用户可通过指标的变化看到整体业务的 变化,并能够快速发现问题、定位问题6)统一指标消费口径企业内统一关键指 标业务口径及计算口径,统一企业业务目标,实现自上而下目标
13、驱动3.如何搭建指标体系指标体系建设的常用方法是通过场景化进行指标体系的搭建,以用户的视角场景 化思考,自上而下业务驱动指标体系建设,所以要在特定场景下做好指标体系建设,需要先选好指标,然后用科学的方法搭建指标体系。1)科学方法选指标选指标常用方法是指标分级方法和0sM模型。指标分级主要是指标内容纵向的思 考,根据企业战略目标、组织及业务过程进行自上而下的指标分级,对指标进行 层层剖析,主要分为三级丁1、T2、T3O丁1指标:公司战略层面指标用于衡量公司整体目标达成情况的指标,主要是决策类指标,TX指标使用通常服 务于公司战略决策层丁2指标:业务策略层面指标 为达成T1指标的目标,公司会对目标
14、拆解到业务线或事业群,并有针对性做出一系列运营策略,72指标通常反映的是策略结果属于支持性指标同时也是业务线 或事业群的核心指标。丁2指标是T1指标的纵向的路径拆解,便于T1指标的问 题定位,下2指标使用通常服务业务线或事业群T3指标:业务执行层面指标T3指标是对丁2指标的拆解,用于定位T2指标的问题。下3指标通常也是业务 过程中最多的指标。根据各职能部门目标的不同,其关注的指标也各有差异。指标的使用通常可以指导一线运营或分析人员开展工作,内容偏过程性指标,可 以快速引导一线人员做出相应的动作。例如:成交率的指标分级OSM模型(。匕ejcctivc, Strategy, Measurement
15、)是指标体系建设过程中 辅助确定核心的重要方法,包含业务目标、业务策略、业务度量,是指标内容横 向的思考。O用户使用产品的目标是什么?产品满足了用户的什么需求?主要从用户视角和业 务视角确定目标,原那么是切实可行、易理解、可干预、正向有益S为了达成上述目标我采取的策略是什么?M这些策略随之带来的数据指标变化有哪些?以滴滴网约车为例,按照OSM模型,它的指标是什么样的?0:用户来使用滴滴这个产品,需求和目标是什么?用户需求及目标是便捷、快速打到车,平安到达目的地那如何让用户感受到自己的需求被满足了呢?S:滴滴做的策略是:便捷方面,提供了独立APP版本、小程序版本,还可以多渠道打到车,例如在高德、
16、 微信、支付宝都有打车入口;起始、目的地地图智能精准定位;最优路线选择等快速方面,针对不同人群不同诉求提供了多品类产品选择,例如快车、优享、拼车、 出租车等业务,根据早晚高峰提高热点区域运力,减少用户排队时间平安方面,司机准入机制,司机合规机制,司机画像M:我们需要针对这些策略去做指标,在这里面我们的指标分别是结果指标和过程指 标:结果指标:渠道转化完成率、乘客取消率、供需比、司机服务分过程指标:渠道发单数、渠道完单数、排队乘客数、乘客排队时长、司机好评率、司 机接单量、司机取消数等指标选取之后,下面就是最重要的分析维度选择了,前面指标体系定义里讲过维度是 指标体系的核心,没有维度,单纯说指标
17、是没有任何意义的。所以维度选择层面主要 通过数据分析视角结合实际分析业务场景来确定。例如城市维度、商圈维度、渠道维 度、时间维度、用户标签维度等。2)用分析模型搭建指标体系在精益数据分析一书中给出了两套比拟常用的 指标体系建设方法论,其中一个就是比拟有名的海盗指标法,也就是我们经常听 到的AARRR海盗模型。海盗模型是用户分析的经典模型,它反映了增长是系统性地贯穿于用户生命周期各个阶段的:用户拉新(Acquisition)、用户激活(Activatioi).用户留存(Rctc八力,o八)、商业变现(Rcmc八。)、用户推荐(Referrn/)。AARRR模型A拉新 通过各种推广渠道,以各种方式
18、获取目标用户,并对各种营销渠道的效果评估, 不断优化投入策略,降低获客本钱。涉及关键指标例如新增注册用户数、激活率、 注册转化率、新客留存率、下载量、安装量等A活跃活跃用户指真正开始使用了产品提供的价值,我们需要掌握用户的行为数据,监 控产品健康程度。这个模块主要反映用户进入产品的行为表现,是产品体验的核 心所在。涉及关键指标例如DAU/MAU、日均使用时长、启动APP时长、启动APP次数等R留存衡量用户粘性和质量的指标。涉及关键指标例如留存率、流失率等R变现主要用来衡量产品商业价值。涉及关键指标例如生命周期价值(LTV)、客单价、G/W等R推荐衡量用户自传播程度和口碑情况。涉及关键指标例如邀
19、请率、裂变系数等可以根 据实际业务场景,结合使用。SM和AARRR模型,来系统性的选择不同阶段所 需要的核心数据指标。3)场景化搭建指标体系目前阶段互联网业务比拟流行的一种通用抽象场景“人、货、场”,实际就是我们日常所说的用户、产品、场景,在通俗点讲就是谁在什么 场景下使用了什么产品,不同的商业模式会有不同的组合模式。以滴滴实际场景 为例:哪些场景(此处场景定义为终端,如Native,微信,支付宝)的什么人(乘 客)在平台上使用了哪些货(平台业务线,如快车/专车等),进而为评估用户增 长的价值和效果。人的视角从“人”的视角,我们比拟关心的是什么乘客在什么时间打的车,排了多长时间,等了多长时间上
20、车,周期内第儿次打车,打车花了多少钱,是否有投诉和取消行 为,具体到数据指标主要看发单用户数、完单用户数、客单价、周期内完单订单 数、取消订单数、评价订单数等。货的视角从“货”的视角,我们比拟关心的就是成交了多少,交易额多少,花了多少,到具体数据指标主要会看CMV、成交率、取消率指标,在进一步会细分到城市、区域,一级品类、二级品类。数据的效果通过目标比照,横向比照、历史比拟等方式进 行分析确定。场的视角从“场的视角,我们比拟关心的就是哪个渠道用户点击量大曝光率大,带来了多少新用户,完成多少交易订单,客单价是多少;或者是哪个活动拉新或促活效果 怎么样转化率多少,结合场景数据实际情况制定对应策略。
21、以上分别从人、货场”三个角度进行了数据指标和分析维度的提炼,下面我们把三类指标结合指标分级方法进行分解关联。4、怎么管理指标体系1)痛点分析主要从业务、技术、产品三个视角来看:业务视角 业务分析场景指标、维度不明确;频繁的需求变更和反复迭代,数据报表臃肿, 数据参差不齐;用户分析具体业务问题找数据、核对确认数据本钱较高。技术视角指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;指标生产,重复 建设;数据汇算本钱较高;指标消费,数据出口不统一,重复输出,输出口径不 一致;产品视角缺乏系统产品化支持从生产到消费数据流没有系统产品层面打通;2)管理目标技术目标统一指标和维度管理,指标命名、计算
22、口径、统计来源唯一,维度定义规范、维 度值一致业务目标统一数据出口、场景化覆盖产品目标指标体系管理工具产品化落地;指标体系内容产品化落地支持决策、分析、运营例如决策北极星、智能运营分析产品等3)模型架构业务板块定义原那么:业务逻辑层面进行抽象、物理组织架构层面进行细分,可根 据实际业务情况进行层级分拆细化,层级分级建议进行最多进行三级分拆,一级 细分可公司层面统一规范确定,二级及后续拆分可根据业务线实际业务进行拆分。 例如滴滴出行领域业务逻辑层面两轮车和四轮车都属于出行领域可抽象出行业务板块(/we/一级),根据物理组织架构层面在进行细分普惠、网约车、出租车、顺风车(也vR二级),后续根据实际
23、业务需求可在细分,网约车可细分独乘、合乘,普惠可细分单车、企业级。5、规范定义 数据域指面向业务分析,将业务过程或者维度进行抽象的集合。其中,业务过程 可以概括为一个个不拆分的行为事件,在业务过程之下,可以定义指标;维度, 是度量的环境,如乘客呼单事件,呼单类型是维度。为了保障整个体系的生命力, 数据域是需要抽象提炼,并且长期维护更新的,变动需执行变更流程。业务过程 指公司的业务活动事件,如呼单、支付都是业务过程。其中,业务过程不可拆分。时间周期用来明确统计的时间范围或者时间点,如最近3。天、自然周、截止当 日等。修饰类型是对修饰词的一种抽象划分。修饰类型附属于某个业务域,如日 志域的访问终端
24、类型涵盖APP端、PC端等修饰词。修饰词指的是统计维度以外 指标的业务场景限定抽象,修饰词属于一种修饰类型,如在日志域的访问终端类 型下,有修饰词APP、PC端等。度量/原子指标原子指标和度量含义相同,基于 某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业务含 义的名称,如支付金额。维度维度是度量的环境,用来反映业务的一类属性,这 类属性的集合构成一个维度,也可以称为实体对象。维度属于一个数据域,如地 理维度(其中包括国家、地区、省市等)、时间维度(其中包括年、季、月、周、 日等级别内容)。维度属性维度属性隶属于一个维度,如地理维度里面的国家名称、国家/D、省份名称等都属于维
25、度属性。指标分类主要分为原子指标、派生指 标、衍生指标原子指标基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,具有明确业 务含义的名称,如呼单量、交易金额派生指标是2个原子指标+多个修饰词(可选)十时间周期,是原子指标业务统计范围的圈定。派生指标又分以下二种类型:事务型指标是指对业务过程进行衡量的指标。例如,呼单量、订单支付金额,这类指标需要 维护原子指标以及修饰词,在此基础上创立派生指标。存量型指标是指对实体对象(如司机、乘客)某些状态的统计,例如注册司机总数、注册乘 客总数,这类指标需要维护原子指标以及修饰词,在此基础上创立派生指标,对 应的时间周期一般为历史截止当前某个时间L
26、业务系统主题=保险非易失性(不可更新性)数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数 据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据。数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查 询或比拟复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保存。数 据仓库中一般有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成 进入数据仓库后是极少更新的,通常只需要定期的加载和更新。时变性数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星 期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时
27、间业务的 经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数 据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘 出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个 角度讲,数据仓库建设是一个工程,更是一个过程。数据仓库的数据随时间的变化表 现在以下几个方面:(1)数据仓库的数据时限一般要远远长于操作型数据的数据时限。(2)操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。(3)数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。2、数据仓库与数据库的区别数据库与数据仓库的区别实际讲的是OLTP与OLAP的区
28、别。操作型处理,叫联机事务处理 OLTP (。八-Lihc Tra八。八Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记 录进行查询、修改。用户较为关心操作的响应时间、数据的平安性、完整性和并 发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于 操作型处理,像Mgsq/,。匕4c加等关系型数据库一般属于。LTP。分析型处理,衍生指标 是在事务性指标和存量型指标的基础上复合成的。主要有比率型、比例型、统计 型均值。6、模型设计主要采用维度建模方法进行构建,基础业务明细事实表主要存储维度属性集合和 度量/原子指标;分析业
29、务汇总事实表按照指标类别(去重指标、非去重指标)分类 存储,非去重指标汇总事实表存储统计维度集合、原子指标或派生指标,去重指 标汇总事实表只存储分析实体统计标签集合。指标体系在数仓物理实现层面主要 是结合数仓模型分层架构进行指导建设,滴滴的指标数据主要存储在PWM层, 作为指标的核心管理层。7、指标体系元数据管理维度管理包括基础信息和技术信息,由不同角色进行维护管理。基础信息对应维 度的业务信息,由业务管理人员、数据产品或引分析师维护,主要包括维度名称、 业务定义、业务分类。技术信息对应维度的数据信息,由数据研发维护,主要包 括是否有维表(是枚举维度还是有独立的物理维表)、是否是日期维、对应c
30、ode英文名称和中文名称、对应八英文名称和中文名称。如果维度有维度物理表,那么需要和对应的维度物理表绑定,设置code和八40AC对应的字段。如果维度是枚举维,那么需要填写对应的code和八4小6。维度的统一管理,有利于以后数据 表的标准化,也便于用户的查询使用。指标管理包括基础信息、技术信息和衍生 信息,由不同角色进行维护管理。基础信息对应指标的业务信息,由业务管理人 员、数据产品或引分析师维护,主要包括归属信息(业务板块、数据域、业务过程),基本信息(指标名称、指标英文名称、指标定义、统计算法说明、指标类型(去 重、非去重),业务场景信息、(分析维度,场景描述);技术信息对应指标的物理模
31、型信息,由数据研发进行维护,主要包括对应物理表及字段信息;衍生信息对应 关联派生或衍生指标信息、关联数据应用和业务场景信息,便于用户查询指标被 哪些其它指标和数据应用使用,提供指标血缘分析追查数据来源的能力。原子指 标定义归属信息+基本信息+业务场景信息派生指标定义时间周期+修饰词集合+原子指标修饰类型主要包含类型说明、统计算法说明、数据源(可选)8、指标体系建设流程建模流程建模流程主要是从业务视角指导工程师对需求场景涉及的指标进行主题 抽象,归类,统一业务术语,减少沟通本钱,同时防止后续的指标重复建设。分析数据体系是模型架构中汇总事实表的物理集合,业务逻辑层面根据业务分析 对象或场景进行指标
32、体系抽象沉淀。滴滴出行主要是根据分析对象进行主题抽象 的,例如司机主题、平安主题、体验主题、城市主题等。指标分类主要是根据实 际业务过程进行抽象分类,例如司机交易类指标、司机注册类指标、司机增长类 指标等。基础数据体系是模型架构中明细事实表和基础维度表的物理集合,业务 逻辑层面根据实际业务场景进行抽象例如司机合规、乘客注册等,还原业务核心 业务过程。开发流程开发流程是从技术视角指导工程师进行指标体系生产、运维 及质量管控,也是数据产品或数据分析师和数仓研发沟通协调的桥梁。明指标体系图谱建设指标体系图谱概述指标体系图谱也可称为数据分析图谱主要是依据实际业务场景 抽象业务分析实体,整合梳理实体涉及
33、的业务分类、分析指标和维度的集合。建 设方法:主要是通过业务思维、用户视角去构建,把业务和数据紧密关联起来, 把指标结构化分类组织建设目的:对于用户:便于用户能够快速定位所需指标和维度,同时通过业务场景化沉淀指标体系,能 够快速触达用户数据诉求对于研发: 利于后续指标生产模型设计、数据内容边界化、数据体系建设迭代量化和数据资 产的落地1。、指标体系产品化指标体系涉及的产品集主要是依据其生命周期进行相应建设,通过产品工具打通 数据流,实现指标体系统一化、自动化、规范化、流程化管理。因为指标体系建设本质目标是服务业务,实现数据驱动业务价值,所以建设的核心原那么是“轻标准、重场景,从管控式到服务式通
34、过工具、产品、技术和组织的融合提高用户使用数据效率,加速业务创新迭代。其中和指标体系方法论强相关产品就是指标字典 工具的落地,其产品的定位及价值:支撑指标管理规范从方法到落地的工具,自动生成规范指标,解决指标名称混乱、 指标不唯一的问题,消除数据的二义性统一对外提供标准的指标口径和元数据信息业务流程产品功能产品交互流程业胃看块/敷屈域/*务过程/原子指标/修饰网/时间周期/业务场景Stepl:方法论博地指标字典后台配1Step2:指梅定义Step3:敷密罗工场Step4:指标使用工具设计流程(方法论-定义- 生产-消费)播标字)看数据开发(收/指标)*口径插述及由缘信息目严1,口,一nM,黑.
35、子36.*VMM MOT“的;他伪修一 TM 9nOBTNB)指标定义a 后。皿美运人及负黄a“漏工婚SRrduywi ore.geo/twn9rvt gongci guXwMMn(nttWHg H*Wxi CQUTWM我本CM It gMUI 3Bl-MMkKHiNB 1I I (HB1. 1 I fB Mh$MX卷tfl事Sh9Uhwumq hmfeyvi Bcfmng k*nSSffS “ sa方凤生文署7MC9oct)l9G内,CM州岬近夏/狙修便列分区RtH女名pteountCodTuma建mb分区福式vyy-cm-dd指标生产这局部整体介绍了指标体系建设方法论和工具产品的建设情况,
36、目前指标字典 和开发工具已实现流程打通,与数据消费产品的打通后续会通过DataAPI方式 提供数据服务,规划建设中。数据治理1、数据治理 治的是数据”吗?数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态 以及相互关系等进行记载的物理符号或这些物理符号的组合。其实在我看来, 数据可以分为两个局部,一是数字,二是文字。数字是没有意义的抽象符号, 数据是有意义的数字。文字表意,数字表量,当两者结合起来,数据就产生了。 在我们的生活和工作当中,数据无处不在。对企业来讲,有很多数据是无关企 业重大利益的数据,是没有治理的必要的。数据治理的对象必须是重要的数据 资源,是关乎企业重大商业
37、利益的数据资源,这样的数据资源可以称其为“数据 资产正如北大教授王汉生先生所说:“数据治理不是对数据”的治理,而是对“数据资产”的治理,是对数据资产所有相关方利益的协调与规范。”我们需要分开来理解这句话:什么是数据资产?数据资产的相关利益方是谁?协调与规范什么?先说一说什么是数据资产。我们说不是所有数据都是数据资产,那到底什么才 是数据资产呢?企业会计准那么-基本准那么第2。条规定:资产是指企业过去的交易或者事 项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”如 果照猫画虎修改一下,不难获得一个关于数据资产的定义:“数据资产是指企业 过去的交易或者事项形成的,由企业拥有或者控
38、制的,预期会给企业带来经济 利益的数据资源。由此可见,数据要成为数据资产,至少要满足3个核心必 要条件:数据资产应该是企业的交易或者事项形成的;企业拥有或者控制;预期会给企业带来经济利益。数据资产的利益相关方是谁?根据数据资产的定义,数据资产的利益相关方,包括:数据的生产者,即通过业务交易或事项产生数据的人或组织。数据的拥有或控制者,生产数据的人不一定是拥有数据,就像我们天天上网 的各种数据都不归我们自己所有,而是落在了各个互联网公司的数据库中。数据价值和经济利益的收益者。数据治理就是对数据生产者、拥有或控制者, 数据价值获益者的规范和协调。都什么是需要协调和规范?首先是数据的标准化,定义统一
39、的数据标准,写中国字、说普通话“让数据资产的相关利益方在同一个“频道”沟通。数据的标准化包含几个层面:数据模型标准化。核心数据实体的标准化(主数据的标准化)。关键指标的标准化。其次是数据确实权。数据一旦成为资产,就一定有拥有方,或者实际控制人, 可以把他们统称产权人。与实物不同的是,实物的产权是比拟明确的,数据那么 比拟复杂。产品在生产制造过程中,并没有与消费者交易之前,制造商拥有完 全产权。产品生产出来后,消费者通过购买支付相应的货币,便拥有了产品的 产权。而数据的生产过程就不一样了,我们的各种上网行为每天都会产生大量的数据,例如:网上购物、浏览网页、使用地图、评论/评价。这些数据到底归谁所
40、有?控制权该如何治理?这是摆在面前的一个难题!我们看到近几年 一些不良商家,利用我们的上网数据,导致平安隐私泄密的事件也层出不穷。 希望随着技术和商业的进步,尽快能够找到解决方案!第三是流程的优化。数据治理的两个目标:一个是提质量,一个是控平安。互 联网数据确实权目前已经是一个世界级难题,做好企业业务流程的优化可能会 对隐私保护起到一定的作用。通过业务流程优化,规范数据从产生、处理、使 用到销毁的整个生命周期,使得数据在各阶段、各流程环节平安可控,合规使 用。另外,通过一定的流程优化,通过对相关流程进行监管,按照数据的质量规那么进行数据校验,符合“垃圾进、垃圾出”的数据采集、处理、存储原那么,
41、提升数据治理,赋能业务应用。2、数据治理到底在哪里治?数据治理到底应该放在中台,还是后台,我个人的理解是:小数据标准化治理靠人工、大数据预测性分析靠智能,将两者结合起来:“人工+智能”形成了完整的数据治理技术体系。一个企业的数据治理既离不开小数据的标准化治理, 也离不开大数据的预测性分析。这里的小数据,是在承载事物实体的数据,例如:人、财、物等,是企业所有 业务开展的载体。其实说白了就是主数据管理。对于主数据的治理笔者认为是一个后台行为,治理核心是“唯一数据源、统一数据标准L而要到达这一目标是需要从数据的源头抓起的,并且需要大量的人为干预,比方:数据标准的制 定和落实,数据质量的清洗,数据的申
42、请审批,数据的分发和共享等。从这里 也能够看出小数据的治理,追求的是标准化、精确化,应该是一个后台行为。而在大数据时代,得益于大数据技术的突破,大量的结构化、非结构化、异构 化的数据能够得到储存、处理、计算和分析,这一方面提升了我们从海量数据 中获取知识和洞见的能力。对于大数据,传统的一味追求精确的思维受到了挑 战。而对于大数据的治理,允许一定程度上的容错,反而可以在宏观层面拥有更好的知识和洞察力。对于大数据的治理更多的是采用A/技术,例如:知识图谱、语音识别等,对大数据的采集、处理、使用过程加以控制,使其能够合规 使用。所以,大数据的治理放在中台似乎更为合适。3、数据治理到底应该怎么治?1)
43、找病症,明确目标任何企业实施数据治理都不是为了治理数据而治理数据,其背后都是管理和业 务目标的驱动。企业中普遍存在的数据质量问题有:数据不一致、数据重复、 数据不准确、数据不完整、数据关系混乱、数据不及时等。由于这些数据问题的存在对业务的开展和业务部门之间的沟通造成了较大的困 扰,产生了很大的本钱;各异构的系统中数据不一致,导致业务系统之间的应 用集成无法开展;数据质量差无法支撑数据分析,分析结果与实际偏差较大。 然而要实现数据驱动管理、数据驱动业务的目标,没有高质量的数据支撑是行 不通的。目标:企业实施数据治理的第一步,就是要明确数据治理的目标,理清数据治 理的关键点。技术工具:实地调研、高
44、层访谈、组织架构图。输入:企业数据战略规划,亟待解决的业务问题,经营开展需求,业务需求等;输出:数据治理的初步沟通方案,工程任务书,工作计划表;2)理数据,现状分析针对企业数据治理所处的内外部环境,从组织、人员、流程、数据四个方面入 手,进行数据治理现状的分析。某企业数据治理痛点分析组织方面:是否有专业的数据治理组织,是否明确岗位职责和分工。人员方面:数据人才的资源配置情况,包括数据标准化人员、数据建模人员, 数据分析人员,数据开发人员等,以及数据人才的占比情况。流程方面:数据管理的现状,是否有归口管理部门,是否有数据管理的流程、 流程各环节的数据控制情况等;数据方面:梳理数据质量问题列表,例
45、如:数据不一致问题,数据不完整,数 据不准确、数据不真实、数据不及时、数据关系混乱,以及数据的隐私与平安 问题等。目标:分析企业数据管理和数据质量的现状,确定初步数据治理成熟度评估方 案。技术工具:实地访谈、调研表、数据质量问题评议表、关键数据识别方法论(例 如:主数据特征识别法);输入:需求及现状调研表、访谈记录、数据样本、数据架构、数据管理制度和 流程文件;输出:数据问题列表、数据U/C矩阵、数据治理现状分析报告、数据治理评估 方案;叫联机分析处理 OLAP (。八-Line alytical Processing) 一般针对某些主题的历史数据进行分析,支持管理决策。首先要明白,数据仓库的
46、出现,并不是 要取代数据库。数据库是面向事务的设计,数据仓库是面向主题设计的。数据库 一般存储业务数据,数据仓库存储的一般是历史数据。数据库设计是尽量防止冗余,一般针对某一业务应用进行设计,比方一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意 引入冗余,依照分析需求,分析维度、分析指标进行设计。数据库是为捕获数据 而设计,数据仓库是为分析数据而设计。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入 数据库,被记录下来,这里,可以简单地理解为用数据库记账。数据仓库是分析系统 的数据平台,它从事务系统获取数据,并做汇
47、总、加工,为决策者提供决策的依据。 比方,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又 多,消费交易又多,那么该地区就有必要设立ATM 了。显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的, 这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储 很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。 这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据 就到达目的了。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库上3、数据仓库分层架构按照数据流入流出的过程,数据仓库架构可分为:源数据、数据仓库、数据应用3)数据治理成熟度评估数据治理成熟度反映了组织进行数据治理所具备的条件和水平,包括元数据管 理、数据质量管理、业务流程整合、主数据管理和信息生命周期管理。CMMI DMM数据管理能力成熟度评估模型数据治理成熟度评估是利用标准的成熟度评估工具结合行业最正确实践,针对企 业的数据治理现状进行的客观评价和打分,找到企业数据治理的短板,以便制 定切实可行的行动方案。数据治理成熟度结束后形成初步的行动方案,一般包 括数据治理战略,
限制150内