DB23∕T 3304—2022 大数据平台数据接入规范(黑龙江省).pdf
《DB23∕T 3304—2022 大数据平台数据接入规范(黑龙江省).pdf》由会员分享,可在线阅读,更多相关《DB23∕T 3304—2022 大数据平台数据接入规范(黑龙江省).pdf(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 ICS 35.020 CCS L 70 DB23 黑龙江省地方标准 DB23/T 33042022 大数据平台数据接入规范 2022-07-07 发布 2022-08-06 实施 黑龙江省市场监督管理局 发 布 I 目 次 前言.II 1 范围.1 2 规范性引用文件.1 3 术语和定义.1 3.1 数据接入.1 3.2 数据采集.1 3.3 全量采集模式.1 3.4 增量采集模式.1 3.5 轮询采集模式.1 4 缩略语.1 5 总体框架.2 5.1 总体框架描述.2 5.2 数据源的接入和采集方式.3 6 接入要求.3 6.1 关系数据库抽取.3 6.2 数据库实时复制.4 6.3 网
2、关服务.5 6.4 消息队列.6 6.5 文件接收 FTP 服务.8 6.6 文件拉取 FTP 服务.9 6.7 文件 HTTP 服务.11 6.8 文件 NFS 服务.13 附录 A(资料性)关系数据库抽取接入说明.16 附录 B(资料性)网关服务接入说明.17 附录 C(资料性)消息队列接入说明.18 附录 D(资料性)文件接收 FTP 服务接入说明.20 附录 E(资料性)文件拉取 FTP 服务接入说明.24 附录 F(资料性)文件 HTTP 服务接入说明.27 附录 G(资料性)文件 NFS 服务接入说明.31 II 前 言 本文件依据GB/T 1.1-2020标准化工作导则 第1部分
3、:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。本文件由黑龙江省大数据产业协会提出。本文件由黑龙江省工业和信息化厅归口。本文件起草单位:黑龙江省大数据产业协会、哈尔滨财富通科技发展有限公司、黑龙江亿林网络股份有限公司、黑龙江省网络空间研究中心、黑龙江省标准化研究院、黑河市特种设备检验研究所、黑龙江大数据产业发展有限公司、黑龙江省信创科技有限公司、黑龙江交投信科科技有限责任公司、黑龙江交投千方科技有限公司、哈尔滨智路开发有限公司、黑龙江农投大数据公司、黑龙江省农投云产业有限公司。本文件主要起草人:李璐昆、孙传友、杜飞、孙甲子、张驰
4、、王阳、陈要武、杨大志、吕猛、王磊、唐丽、赵海洋、李冰冷、叶爽、王克云、李森、周全、何晨龙、叶爽、张新、关哲刚、杨旭、王晶。DB23/T 3304-2022 1 大数据平台数据接入规范 1 范围 本文件规定了大数据平台数据接入规范的术语和定义,缩略语、总体框架和接入要求。本文件适用于黑龙江省内大数据平台进行数据采集功能研发、数据采集工具选型及其数据接入场景提供规范要求。2 规范性引用文件 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T 29262 信
5、息技术 面向服务的体系结构(SOA)术语 GB/T 35274 信息安全技术 大数据服务安全能力要求 GB/T 35295 信息技术 大数据 术语 GB/T 37973 信息安全技术 大数据安全管理指南 3 术语和定义 GB/T 29262、GB/T 35295和GB/T 35274界定的以及下列术语和定义适用于本文件。3.1 数据接入 将数据传输进入数据平台所采用的形式。3.2 数据采集 将数据收集进入数据平台所采用的形式。3.3 全量采集模式 是指一次性将关系数据库中物理表的数据抽取到大数据平台。3.4 增量采集模式 是指根据设置的抽取条件筛选符合条件的数据抽取到大数据平台。3.5 DB2
6、3/T 3304-2022 2 轮询采集模式 轮询采集模式是增量采集模式的一种。4 缩略语 下列缩略语适用于本文件。DTS:数据传输服务(Data Transfer Service)。ETL:将数据从来源端经过抽取、转换、加载至目的端的过程(Extract-Transform-Load)。FTP:文件传输协议(File Transfer Protocol)。HTTP:标准的超文件传输协议(Hyper Text Transfer Protocol)。JDBC:java数据库连接(Java DataBase Connectivity)。NFS:网络文件系统(Network File System)
7、。KQS:消息集群数据接入(Kafka Queue Stream)。SHA:安全哈希算法(Secure Hash Algorithm)。5 总体框架 5.1 总体框架描述 大数据平台支持从关系型数据库、文件、数据流等来源获取数据,实现各类离线数据及实时数据的采集与接入,包括设备采集数据、企业管理业务数据、外部数据等。其中离线数据主要分为关系型数据库所存储的结构化数据及文件系统所存储的非结构化文件数据,实时数据主要是设备采集监控及业务系统产生的实时流数据。总体框架示意图见图1。DB23/T 3304-2022 3 关系数据库接口数据文件流数据管理信息系统FTP服务管理信息系统关系数据库抽取网关服
8、务文件接收FTP服务文件拉取FTP服务消息队列结构化数据存储非结构化数据存储数据源数据接入服务数据仓库大数据平台数据库Web接口服务HTTP服务NFS服务文件HTTP服务文件NFS服务数据库实时复制 图1 总体框架示意图 5.2 数据源的接入和采集方式 大数据平台作为多维数据的处理平台,应支持各类数据源的接入和采集。常用数据源的接入和采集包含但不限于以下方式:a)关系数据库抽取;b)数据库实时复制;c)网关服务;d)消息队列服务;e)文件接收 FTP 服务;f)文件拉取 FTP 服务;g)文件 HTTP 服务;h)文件 NFS 服务。6 接入要求 6.1 关系数据库抽取 DB23/T 3304
9、-2022 4 6.1.1 功能要求 关系数据库抽取应提供管理信息系统关系数据库中的结构化数据到大数据平台数据存储的定期批量抽取功能。关系数据库数据抽取应具备以下主要功能:a)支持对主流的关系数据库进行数据抽取;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持“全量”和“增量”两种数据抽取模式;c)支持关系数据库中结构化数据抽取到大数据平台,包含结构化数据、半结构数据存储的数据仓库中;d)支持对关系数据库数据的采集内容和类型转换操作,至少包括选择具体的数据表、选择表中具体的字段、字段类型格式转换等操作;e)支持数据抽取操作的立即执行、定期调度运
10、行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;f)应提供图形化管理界面,应提供数据抽取模式设置、抽取源关系数据库配置、指定数据表配置、表字段选择配置、字段类型转换配置、大数据平台目标存储位置配置、运行策略配置等操作界面;g)应提供完善的日志和审计能力,可以记录数据抽取操作配置、运行时发生的各种事件;h)应提供完善的监控机制,运行过程中出现异常可快速的定位及解决。6.1.2 应用场景描述 应用场景描述如下:a)关系数据库抽取服务,抽取数据源中数据库的元数据信息,包括数据库用户所属的表、字段信息;b)关系数据库抽取服务配置
11、数据传输任务,包括抽取数据库的源表和大数据平台对应的存储目标表;c)关系数据库抽取服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)关系数据库抽取服务运行数据传输任务,从数据源的数据库抽取数据到平台数据存储中。6.1.3 应用场景图 关系数据库抽取应用场景见图2。DB23/T 3304-2022 5 数据源大数据平台数据抽取服务大数据平台数据仓库b)配置数据传输任务a)抽取元数据信息c)配置数据传输任务运行策略d)平台运行数据传输任务,抽取数据信息流数据流 图2 关系数据库抽取应用场景 6.1.4 应用要求 应用要求如下:a)关系数据库抽取服务适用于关系数据库定期批量抽
12、取场景,详细说明见附录 A;b)数据源须提供关系数据库的访问链接,包括 IP、端口、数据库实例名、用户名、密码;c)数据源提供的数据库访问用户应具备数据库的元数据信息定义表的读取权限。6.2 数据库实时复制 6.2.1 功能要求 数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延复制功能,数据实时复制应具备以下主要功能:a)支持对主流的关系型数据库进行低时延增量复制,至少包括 Oracle、MySQL、PostgreSQL 等关系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期/时间型等数据类型;b)支持秒级时延的关系型数据库增
13、量复制能力;同时支持在全量复制的基础上,无缝自动切换到增量复制模式;c)支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布式文件存储、实时数据存储及消息队列;d)支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格式转换、时区转换等操作;e)支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤;DB23/T 3304-2022 6 f)支持数据复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略,至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策略;外部触发支持标
14、准 webservice 接口;g)应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段;h)选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等操作界面。6.2.2 应用场景 应用过程如下:a)业务系统关系型数据库服务器上部署增量捕获程序;b)增量捕获程序捕获到增量数据通过 TCP 或消息队列发送到大数据平台增量接收服务;c)大数据平台解析增量数据,并将增量数据存储到大数据平台中;d)大数据平台分发增量数据到目标数据仓库中。6.2.3 应用场景图 数据库实时复制应用场景见图3。关系数据库a增量捕获程序bc大数据平台接收、解析服务大数
15、据平台数据仓库TCP/消息队列d 图3 数据库实时复制应用场景 6.2.4 应用要求 应用要求包括:a)源数据库应是关系型数据库;b)源数据库表应包含主键或唯一索引;c)源端数据库应开启附加日志和强制归档模式;d)源端数据库的在线日志文件、归档日志文件应存放在文件系统上。6.3 网关服务 6.3.1 功能要求 网关服务为数据源提供大数据平台中结构化数据或非结构化数据的接口数据接入。网关服务应具备以下主要功能:a)支持接入 webservice、RESTful 方式的接口;b)支持包括结构化数据、非结构化数据的接口;c)支持接口编排,轻松实现多个接口的功能集成;d)提供图形化管理界面,用于接口数
16、据存储位置、操作用户、目标存储位置的配置;e)提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事件;DB23/T 3304-2022 7 f)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。6.3.2 应用场景 网关服务应用场景描述如下:a)数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等接口信息;b)大数据平台根据数据源提供的数据接口进行定义及编排;c)网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度;d)网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中。6
17、.3.3 应用场景图 网关服务应用场景见图4。数据源大数据平台数据网关服务大数据平台数据仓库b)创建数据库、用户,分配权限a)资源申请返回数据访问链接、用户名、密码c)应用程序开发d)配置访问链接参数,建立链接身份认证通过,连接成功e)进行权限范围内数据操作 图4 网关服务应用场景 6.3.4 应用要求 网关服务应用要求包括:a)网关服务适用于提供接口类数据的数据源,详细说明见附录 B;b)提供数据接口的数据源需做好自身数据操作接口程序的开发。6.4 消息队列 6.4.1 功能要求 消息队列采集为管理信息系统提供消息推送和缓存功能。消息队列应具备以下主要功能:a)应提供分布式消息队列的管理功能
18、,支持消息主题的创建、删除、修改;b)应提供支持“点对点”和“发布-订阅”两个消息模式;DB23/T 3304-2022 8 c)应支持消息的持久化存储操作并且支持持久化周期设置;d)应提供消息分布式高可用的发送和消费接口,包括链接建立、消息发送、消息消费、链接关闭,支持消息分区和备份操作;e)具有风格统一的图形化管理界面,支持消息队列主题的创建、删除、测试、授权访问的操作;f)具备完善的日志审计能力,应记录消息发送和消费时发生的各种事件。6.4.2 应用场景 应用场景描述如下:a)管理信息系统应向大数据平台申请消息队列接入服务;b)大数据平台根据申请创建消息队列主题,返回消息队列名称;c)管
19、理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。6.4.3 应用场景图 消息队列应用场景见图5。数据源大数据平台实时消息队列服务大数据平台数据仓库b)创建消息队列主题a)申请实时消息队列接入服务c)业务系统开发业务处理程序,发送或接入消息信息流数据流 图5 消息队列应用场景 6.4.4 应用要求 应用要求如下:a)消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。基于消息队列的消息缓存进行数据分析,详细说明见附录 C;b)发送的消息内容格式支持字符串,发送的数据对象可通过对象序列化机制转换为字符串格式的消息内容;DB23/T 3304-20
20、22 9 c)管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开发。6.5 文件接收 FTP 服务 6.5.1 功能要求 文件接收FTP服务应提供外部系统文件数据的接收并存入到大数据平台数据仓库的功能。文件采集应具备以下主要功能:a)支持标准 FTP 协议接收数据;b)支持顺序型断点续传功能;c)支持接收的文件的重命名及指定存储目录;d)应支持对接收文件的完整性校验;e)应支持对客户端进行认证;f)支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置。6.5.2 应用场景 应用场景描述如下:a)大数据平台配置应用账号、接收参数及存储位置;b)管理信息系统
21、通过标准 FTP 协议连接大数据平台服务;c)管理信息系统检查目标临时文件是否存在;d)管理信息系统发起全量或续传指令;e)管理信息系统发送数据到大数据平台;f)大数据平台接收文件数据;g)管理信息系统发送数据校验文件;h)大数据平台根据校验文件校验数据文件内容;i)大数据平台按配置的规则存储接收到的数据文件;j)大数据平台回写数据存储状态;k)管理信息系统获取数据存储状态。6.5.3 应用场景图 文件FTP服务应用场景见图6。DB23/T 3304-2022 10 数据源大数据平台文件接收FTP服务大数据平台数据仓库a)大数据平台配置应用账号b)业务系统通过标准FTP协议连接大数据平台服务c
22、)业务系统检查目标临时文件是否存在d)业务系统发起全量或续传命令e)业务系统发送数据到大数据平台g)业务系统发送改命令修改文件为带校验的文件名f)大数据平台接收文件数据h)大数据平台校验文件内容i)大数据平台按配置的规则存储接收到的文件j)大数据平台通知后续业务继续处理信息流数据流 图6 文件 FTP 服务应用场景 6.5.4 应用要求 应用要求如下:a)管理信息系统应在大数据平台注册并申请账号;b)管理信息系统应按平台协议规范开发上传功能;c)管理信息系统生成文件数据时应同时生成对应的完整性校验码;d)具体文件接收 FTP 服务 API 接口详细说明见附录 D。6.6 文件拉取 FTP 服务
23、 6.6.1 功能要求 文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文件拉取FTP服务应具备以下主要功能:a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配;b)支持 FTP 服务登录用户名和密码设置;DB23/T 3304-2022 11 c)支持文件压缩传输,提供文件压缩规则设置;d)支持文件加密传输,提供文件加密传输规则设置;e)支持设置文件同步、异步拉取,支持设置拉取并行度;f)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换;g)支持全量文件采集,支持外部数据一次性初始化导入;h)支持定期
24、轮询文件采集,采集新增的文件,支持文件列表规则过滤;i)支持图形管理功能,支持 FTP 连接配置、文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤配置。6.6.2 应用场景 6.6.2.1 基于 FTP 协议的全量文件采集应用场景 应用场景描述如下:a)业务系统应提供初始文件存储位置;b)大数据平台全量文件采集提供基于 FTP 协议的采集任务配置,包括:存储文件位置、采集文件列表方式、是否文件校验、存储目标位置及文件存储命名规则;c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。6.6
25、.2.2 应用场景图 基于FTP协议的全量文件采集应用场景见图7。数据源大数据平台文件拉取FTP服务b)配置基于FTP协议的全量采集任务a)将业务数据写入指定文件区域读取文件数据进行文件校验,写入大数据平台存储c)运行基于FTP协议的全量采集任务大数据平台数据仓库信息流数据流 图7 基于 FTP 协议全量采集应用场景 6.6.2.3 基于 FTP 协议的定期轮询采集应用场景 应用场景描述如下:DB23/T 3304-2022 12 a)业务系统应按照业务需求生成数据文件,存储在指定文件区域;b)业务系统应根据校验算法 SHA1 在相同目录下生成校验文件,校验文件名称与数据文件相同;c)大数据平
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DB23T 33042022 大数据平台数据接入规范黑龙江省 DB23 3304 2022 数据 平台 接入 规范 黑龙江省
限制150内