DB23_T 3304-2022 大数据平台数据接入规范.docx
《DB23_T 3304-2022 大数据平台数据接入规范.docx》由会员分享,可在线阅读,更多相关《DB23_T 3304-2022 大数据平台数据接入规范.docx(38页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ICS35.020CCSL70DB23黑龙江省地方标准DB23/T33042022大数据平台数据接入规范2022-07-07发布2022-08-06实施黑龙江省市场监督管理局发布1目次前言.II1范围.12规范性引用文件.13术语和定义.13.1数据接入.13.2数据采集.13.3全量采集模式.13.4增量采集模式.13.5轮询采集模式.14缩略语.15总体框架.25.1总体框架描述.25.2数据源的接入和采集方式.36接入要求.36.1关系数据库抽取.36.2数据库实时复制.46.3网关服务.56.4消息队列.66.5文件接收FTP服务.86.6文件拉取FTP服务.96.7文件HTTP服务.
2、116.8文件NFS服务.13附录A(资料性)关系数据库抽取接入说明.16附录B(资料性)网关服务接入说明.17附录C(资料性)消息队列接入说明.18附录D(资料性)文件接收FTP服务接入说明.20附录E(资料性)文件拉取FTP服务接入说明.24附录F(资料性)文件HTTP服务接入说明.27附录G(资料性)文件NFS服务接入说明.31I前言本文件依据GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。本文件由黑龙江省大数据产业协会提出。本文件由黑龙江省工业和信息化厅归口。本文件起草单位:
3、黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限公司。本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰、王阳、陈要武、杨大志、吕猛、王磊、唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。IIDB23/T3304-2022大数据平台数据接入规范1范围本文件规定了大数
4、据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景提供规范要求。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T29262信息技术面向服务的体系结构(SOA)术语GB/T35274信息安全技术大数据服务安全能力要求GB/T35295信息技术大数据术语GB/T37973信息安全技术大数据安全管理指南3术语和定义GB/T29262、GB/T352
5、95和GB/T35274界定的以及下列术语和定义适用于本文件。3.1数据接入将数据传输进入数据平台所采用的形式。3.2数据采集将数据收集进入数据平台所采用的形式。3.3全量采集模式是指一次性将关系数据库中物理表的数据抽取到大数据平台。3.4增量采集模式是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。3.51DB23/T3304-2022轮询采集模式轮询采集模式是增量采集模式的一种。4缩略语下列缩略语适用于本文件。DTS:数据传输服务(DataTransferService)。ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。FT
6、P:文件传输协议(FileTransferProtocol)。HTTP:标准的超文件传输协议(HyperTextTransferProtocol)。JDBC:java数据库连接(JavaDataBaseConnectivity)。NFS:网络文件系统(NetworkFileSystem)。KQS:消息集群数据接入(KafkaQueueStream)。SHA:安全哈希算法(SecureHashAlgorithm)。5总体框架5.1总体框架描述大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数
7、据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。总体框架示意图见图1。2数据源关系数据库接口数据DB23/T3304-2022大数据平台数据接入服务数据仓库关系数据库抽取网关服务文件接收FTP服务结构化数据存储管理信息系统FTP服务文件拉取FTP服务消息队列文件Web接口服务HTTP服务NFS服务文件HTTP服务文件NFS服务非结构化数据存储流数据管理信息系统数据库数据库实时复制图1总体框架示意图5.2数据源的接入和采集方式大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集包含
8、但不限于以下方式:a)关系数据库抽取;b)数据库实时复制;c)网关服务;d)消息队列服务;e)文件接收FTP服务;f)文件拉取FTP服务;g)文件HTTP服务;h)文件NFS服务。6接入要求6.1关系数据库抽取3DB23/T3304-20226.1.1功能要求关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批量抽取功能。关系数据库数据抽取应具备以下主要功能:a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持“全量”和“增量”两种数据抽取模式;c)支持关系数据库中结构化数据抽
9、取到大数据平台,包含结构化数据、半结构数据存储的数据仓库中;d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具体的字段、字段类型格式转换等操作;e)支持数据抽取操作的立即执行、定期调度运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界面;g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;h
10、)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。6.1.2应用场景描述应用场景描述如下:a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信息;b)关系数据库抽取服务配置数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标表;c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。6.1.3应用场景图关系数据库抽取应用场景见图2。4DB23/T3304-2022数据源大数据平台数据抽取服务大数据平台数据仓库a)抽取元数据信息b
11、)配置数据传输任务c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流图2关系数据库抽取应用场景数据流6.1.4应用要求应用要求如下:a)关系数据库抽取服务适用于关系数据库定期批量抽取场景,详细说明见附录A;b)数据源须提供关系数据库的访问链接,包括IP、端口、数据库实例名、用户名、密码;c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。6.2数据库实时复制6.2.1功能要求数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延复制功能,数据实时复制应具备以下主要功能:a)支持对主流的关系型数据库进行低时延增量复制,至少包括O
12、racle、MySQL、PostgreSQL等关系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上,无缝自动切换到增量复制模式;c)支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布式文件存储、实时数据存储及消息队列;d)支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格式转换、时区转换等操作;e)支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤;5DB23/T3304-2022f)支持数据
13、复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;外部触发支持标准webservice接口;g)应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段;h)选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等操作界面。6.2.2应用场景应用过程如下:a)业务系统关系型数据库服务器上部署增量捕获程序;b)增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务;c)大数据平台解析增量数据,并将增量数据存储到大数
14、据平台中;d)大数据平台分发增量数据到目标数据仓库中。6.2.3应用场景图数据库实时复制应用场景见图3。bacTCP/消息队列关系数据库增量捕获程序大数据平台接收、解析服务d大数据平台数据仓库图3数据库实时复制应用场景6.2.4应用要求应用要求包括:a)源数据库应是关系型数据库;b)源数据库表应包含主键或唯一索引;c)源端数据库应开启附加日志和强制归档模式;d)源端数据库的在线日志文件、归档日志文件应存放在文件系统上。6.3网关服务6.3.1功能要求网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。网关服务应具备以下主要功能:a)支持接入webservice、RESTfu
15、l方式的接口;b)支持包括结构化数据、非结构化数据的接口;c)支持接口编排,轻松实现多个接口的功能集成;d)提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置;e)提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事件;6DB23/T3304-2022f)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。6.3.2应用场景网关服务应用场景描述如下:a)数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等接口信息;b)大数据平台根据数据源提供的数据接口进行定义及编排;c)网关服务配置数据传输任务运行策
16、略,包括运行的开始时间、结束时间、运行频度;d)网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。6.3.3应用场景图网关服务应用场景见图4。数据源大数据平台数据网关服务大数据平台数据仓库a)资源申请b)创建数据库、用户,分配权限返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作图4网关服务应用场景6.3.4应用要求网关服务应用要求包括:a)网关服务适用于提供接口类数据的数据源,详细说明见附录B;b)提供数据接口的数据源需做好自身数据操作接口程序的开发。6.4消息队列6.4.1功能要求消息队列
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB23_T 3304-2022 大数据平台数据接入规范 3304 2022 数据 平台 接入 规范
限制150内