欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2023工业互联网平台数据治理标准.docx

    • 资源ID:94199557       资源大小:997.87KB        全文页数:11页
    • 资源格式: DOCX        下载积分:4金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2023工业互联网平台数据治理标准.docx

    工业互联网平台数据标准化治理规范目 录1. 概述41.1. 编写目的41.2. 适用范围41.3. 数据湖定义52. 数据入湖标准52.1. 明确数据Owner52.2. 发布数据标准62.3. 认证数据源82.4. 定义数据密级92.5. 数据质量评估102.6. 元数据注册113. 数据入湖方式111. 概述根据XXXX公司企业信息化现状和数字化前期建设要求,规划建设XXX公司工业互联网平台,增强业务协同和集中管控能力,实现XXX公司各信息化系统数据的快速接入,构建工业互联网数据湖。打破目前各业务系统之间的数据壁垒,实现数据资源横向集成、纵向贯通,实现XXX公司企业级数据共享,解决数据与业务紧密耦合、数据分析应用重复建设、需要出台数据入湖的标准,指导企业的通过统一的标准开展业务系统数据入湖工作。1.1. 编写目的本文档目的是对工业互联网平台项目建设过程中的数据入湖标准进行详细的介绍,明确数据入湖标准整体思路和流程,对数据进行统一的管理及维护,编写此文档,指导读者开展数据入湖工作。1.2. 适用范围适用于项目组成员、平台设计、开发、维护技术人员及平台管理员。1.3. 数据湖定义数据湖是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储,用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。数据作为一项重要资产,已经成为企业的共识,为了更好地存储数据、挖掘数据,使用数据湖,企业在快速实现企业中各类的数据集成的同时,也能轻松获取企业外部数据,打通产业链上下游数据,实现生态化数据整合,实现全貌数据分析。同时,数据存储量大,支持批量历史数据和实时流数据的处理,能够实现数据的快速查询和高级分析。2. 数据入湖标准数据入湖要遵从6项入湖标准,基于6项标准保证入湖的质量,同时面向不同的消费场景提供两种入湖方式,满足数据使用的要求。数据入湖是数据消费的基础,需要严格满足入湖的6项标准,包括明确数据Owner、发布数据标准、定义数据密级、明确数据源、数据质量评估、元数据注册。通过这6项标准保证入湖的数据都有明确的业务责任人,各项数据都可理解,同时都能在相应的信息安全保障下进行消费。2.1. 明确数据Owner数据Owner由数据产生对应的流程Owner担任,是所辖数据端到端管理的责任人,负责对入湖的数据定义数据标准和密级,承接数据消费中的数据质量问题,并制定数据管理工作路标,持续提升数据质量。如下表梳理:序号系统责任部门责任人1核心业务一体化系统-财务财务张三2全面预算系统财务李四3资金调度中心财务张三4普联报表系统财务李四5财务共享中心财务李四2.2. 发布数据标准入湖数据要有相应的业务数据标准。业务数据标准描述公司层面需共同遵守的“属性层”数据的含义和业务规则,是对某个数据的共同理解。数据标准的信息如下表所示。根据上面要求梳理各个业务系统提供的数据较准要求的内容,提供业务数据资产分类(即数据表属于哪个主题域),数据表字段类型、字段中文名、表间关系。举例如下,下面是财务域二级主题划分,根据业务系统提供的数据信息来分类到具体主题域下,并开展与对应逻辑模型和物理模型的数据入湖对接工作。同时提供详细的业务系统的表台账,如下表所示:2.3. 认证数据源通过认证数据源,能够确保数据从正确的数据源头入湖。认证数据源应遵循公司数据源管理的要求。认证过的数据源作为唯一数据源头被数据湖调用。在开始数据入湖时,确认如下几个内容数据源:Ø 记录数据源的基本信息,例如:URL、用户名、密码等。Ø 确认数据结构及其约束条件。Ø 确认数据源接口和数据交换协议。2.4. 定义数据密级定义数据密级是数据入湖的必要条件,为了确保数据湖中的数据能充分地共享,同时又不发生信息安全问题,入湖的数据必须要定密。数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。数据定级密度在属性层级,根据资产的重要程度,定义不同等级,数据保密级别分为“公开”、“内部”,秘密”和“机密”四个级别,管控级别依次上升。各级别定义如下:类别定义典型示例机密 公司最重要和敏感的商业秘密信息, 只限于特定极少数相关人员获取, 访问权限受到严格限制。 非授权的公开、泄露将直接对公司、客户或者员工造成严重不利影响 (例如:造成重大经济损失、严重破坏公司声誉、造成监管问责,以及发生重大法 律责任等) 的数据。一旦泄露、非法提供或滥用可能危害人身和财产安全、损害个人名誉和身心健康、导致歧视性待遇等 的个人信息。公司重大战略决策用户身份证号 银行卡号 公司核心算法代码等秘密对公司有重要价值的商业秘密信息,只限于与该信息有关的部分人员获取, 访问需确认确实有业务需 要,并经过相应的审批流程。非授权的公开、泄露将直接对公司、客户或者员工造成不利影响 (例如:造成经济损失、破坏公司声 誉、可能发生法律责任等) 的数据。能够单独识别自然人身份或者反映特定自然人活动情况的个人信息。人力资源数据 财务数据 商务合作合同信息产品策划信息等内部可在公司内部进行发放和传播的信息,需要控制信息的公开和披露。非授权的公开、泄露将直接对公司、客户或者员工造成较小不利影响的数据。单独无法识别自然人身份或者反映特定自然人活动情况,但可与附加信息结合能够识别自然人身份 或者反映特定自然人活动情况的信息,或者与个人 直接识别信息结合使用的信息。产品运营指标 内部发布的制度、规范、通知等公开 允许被公共访问和对外发布的信息, 并且公开信息可以自由散布而不会产生任何安全和法律问题。 公司新闻,网站信息 经审批后可对外发布的信息等公司数据分类分级矩阵关系如下:公开内部秘密机密用户数据用户公开数据用户内部数据用户秘密数据用户机密数据业务数据业务公开数据业务内部数据业务秘密数据业务机密数据公司数据公司公开数据公司内部数据公司秘密数据公司机密数据其他数据其他公开数据其他内部数据其他秘密数据其他机密数据2.5. 数据质量评估数据质量是数据消费结果的保证,数据入湖不需要对数据进行清洗,但需要对数据质量进行评估,让数据的消费人员了解数据的质量情况,并了解消费该数据的质量风险。同时数据Owner和数据管家可以根据数据质量评估的情况,推动源头数据质量的提升,满足数据质量的消费要求。可以开展规则算法质量校验,对数据质量进行评估,如下是一些常用的校验规则。2.6. 元数据注册元数据注册是指将入湖数据的业务元数据和技术元数据进行关联,包括逻辑实体与物理表的对应关系,以及业务属性和表字段的对应关系。通过联接业务元数据和技术元数据的关系,能够支撑数据消费人员通过业务语义快速地搜索到数据湖中的数据,降低数据湖中数据消费的门槛,能让更多的业务分析人员理解和消费数据。3. 数据入湖方式数据入湖遵循信息架构,以逻辑数据实体为粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。一个逻辑实体可以有不同的入湖方式:1) 批量集成(ETL)对于需要进行复杂数据清理和转换且数据量较大的场景,采用全量的批量集成,主要有jdbc直连库、文件数据集成等。调度作业每小时或每天执行。批量集成不适合低数据延迟和高灵活性的场景。2) 接口集成(API)通过AP提取数据,适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。接口集成不适合处理大量数据的场景。3) 流数据集成(kafka)主要关注流数据的采集和处理,满足数据实时集成需求,处理每秒数万甚至数十万数据,流数据集成不适合需要复杂数据清理和转换的场景。在制定数据集成策略时,选择数据交换平台进行集成,确定数据集成频率(支持实时、分钟、小时、天、月、年等不同周期频率)和抽取方式(全量和增量)。

    注意事项

    本文(2023工业互联网平台数据治理标准.docx)为本站会员(老朋)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开