《第3部分第1篇第3分册:数据即服务(征求意见稿).docx》由会员分享,可在线阅读,更多相关《第3部分第1篇第3分册:数据即服务(征求意见稿).docx(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Q/CSG Q/CSG XXXXX 中国南方电网有限责任公司企业标准中国南方电网有限责任公司 发 布2022-XX-XX 实施南方电网云边融合智能调度运行平台体系化技术标准第3-1部分:调度云平台第3分册:数据即服务(征求意见稿)2022-XX-XX发布Q/CSG XXX目 次前 言II1范围12规范性引用文件13术语和定义14概述35功能性要求36非功能性要求1213前 言为贯彻落实公司体系化、规范化、指标化目标,全面支撑以新能源为主体的新型电力系统运行,承接公司数字化转型与数字南网建设任务,适应电网运行特征从计划性、集中式向开放共享、智能互动的方向转变,构建全面支撑电网安全运行和现货市场高
2、效运营两大业务融合的智能调度运行平台,特制定南方电网云边融合智能调度运行平台(CEP)体系化技术标准。本次发布的体系化技术标准用于指导公司CEP云端系统、边缘端系统的建设。本体系化技术标准分为7部分27篇41分册,第1部分为体系及定义,共2篇,描述了总体架构和术语定义;第2部分为模型及接口,共3篇,描述了边缘集群与边缘网关的模型、协议及交互等要求;第3部分为云端系统,共5篇,描述了调度云平台、云端系统平台、云端应用、云端系统人机交互、云边数据交互等要求;第4部分为边缘端系统,共5篇,描述了边缘集群、边缘网关技术要求及边缘网关应用开发、智能运维、即插即用等要求;第5部分为智能应用,共2篇,描述了
3、各类智能应用技术等要求;第6部分为本质安全,共6篇,描述了云端和边缘端的本质安全技术等要求;第7部分为测试及检验,共4篇,描述了云端系统检验、边缘端系统检验、本质安全检测等要求。本体系化技术标准体系架构如下表所示:部分篇分册编号第1部分:体系及定义第1篇:总体架构和一般要求TS1.1第2篇:术语和定义TS1.2第2部分:模型及接口第1篇:边缘网关即插即用模型TS2.1第2篇:边缘网关即插即用接口及协议TS2.2第3篇:边缘集群接入TS2.3第3部分:云端系统第1篇:调度云第1分册:基础资源即服务TS3.1.1第2分册:平台即服务TS3.1.2第3分册:数据即服务TS3.1.3第4分册:调度云平
4、台与边缘集群协同交互TS3.1.4第2篇:云端系统平台TS3.2第3篇:云端应用开发TS3.3第4篇:云端系统人机交互TS3.4第5篇:云边数据交互TS3.5第4部分:边缘端系统第1篇:边缘集群 TS4.1第2篇:边缘网关TS4.2第3篇:边缘网关应用开发 TS4.3第4篇:边缘网关智能运维TS4.4第5篇:边缘网关即插即用 TS4.5第5部分:智能应用第1篇:预测及分析第1分册:人工智能系统负荷预测TS5.1.1第2分册:人工智能母线负荷预测TS5.1.2第3分册:人工智能新能源功率预测TS5.1.3第4分册:基于区块链的分布式能源交易TS5.1.4第5分册:云边融合统一优化模型TS5.1.
5、5第2篇:协同控制第1分册:电化学储能自动调频控制TS5.2.1第2分册:新能源有功功率自动控制TS5.2.2第3分册:充电设施云边协同自动控制TS5.2.3第4分册:微电网云边协同自动控制TS5.2.4第5分册:可调节负荷云边协同自动控制TS5.2.5第6分册:虚拟电厂云边协同自动控制TS5.2.6第7分册:配电网自动电压控制TS5.2.7第8分册:云边协同控制TS5.2.8第6部分:本质安全第1篇:本质安全技术导则TS6.1第2篇:云端系统本质安全TS6.2第3篇:边缘网关本质安全TS6.3第4篇:边缘集群本质安全TS6.4第5篇:数据安全TS6.5第6篇:基于区块链的数据应用和传递TS6
6、.6第7部分:测试及检验第1篇:云端系统检验TS7.1第2篇:边缘网关检验TS7.2第3篇:边缘集群检验TS7.3第4篇:本质安全检测TS7.4本标准是该系列的第3部分第1篇第3分册。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任。本文件由中国南方电网有限责任公司标准化部归口管理。本文件由中国南方电网电力调度控制中心提出、编制和负责解释。本文件起草单位:中国南方电网电力调度控制中心。本文件参加单位:本文件主要起草人员:本文件在执行过程中的意见或建议反馈至中国南方电网有限责任公司标准化部(广东省广州市黄埔区科翔路11号南网科研基地,510663)。南方电网云边融合智能调
7、度运行平台体系化技术标准第3-1.3部分:数据即服务(征求意见稿)1 范围本技术标准规定了CEP中云端系统数据即服务(DaaS)的技术要求。本技术标准适用于南方电网CEP云端系统DaaS层的规划、设计、建设、改造和检测。2 规范性引用文件下列文件中的条款通过本技术标准的引用而成为本技术标准的条款。凡是标注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本技术标准。凡是不标注日期的引用文件,其最新版本适用于本技术标准。GB/T 31168 信息安全技术云计算服务安全能力要求GB/T 31167 信息安全技术云计算服务安全指南GB/T 32399 信息技术云计算参考架构GB
8、/T 31916 云资源管理技术要求GB/T 31916 信息技术云数据存储和管理YD/T 2806 云计算基础设施即服务(IaaS)功能要求与架构YD/T 3054 云资源运维管理功能技术要求YD/T 3148 云计算安全框架YD/T 5227 云计算资源池系统设备安装工程设计规范YD/T 2807 云资源管理技术要求ISO/IEC17788 信息技术云计算概述和词汇ISO/IEC17789 信息技术云计算参考架构 ISO/IEC19831 云计算基础结构管理接口模型和基于RESTfulHTTP 的协议ISO/IEC27017 信息技术安全技术基于ISO/IEC27002 的云服务信息安全I
9、TU-TX.1601 云计算的安全框架ITU-TX.1642 云计算运行安全指南ITU-TY.3500 信息技术云计算概述和词汇ITU-TY.3501 云计算框架和高级要求ITU-TY.3502 信息技术云计算参考架构ITU-TY.3510 云计算基础结构要求ITU-TY.3511 云计算网络和基础设施云间框架ITU-TY.3512 云计算网络服务的功能性要求ITU-TY.3513 云计算基础设施服务的功能要求ITU-TY.3520 端到端资源管理的云计算框架ITU-TY.3600 基于大数据的云计算的需求和能力ITU-TQ.4040 云计算互用性测试的框架和综述ITU-TQSuppl.65
10、云计算的互操作活动3 术语和定义3.1元数据 meta data指关于数据的数据,是描述具体信息资源或数据对象的数据,包括对数据本身的描述和对数据之间关系的描述,并能对该资源域对象进行识别和管理,实现信息资源或对象的有效发现与获取。3.2元模型 meta model指关于元数据的“元数据”,元模型进一步定义了元数据的语义和结构,是对元数据模型层的进一步抽象。3.3数据标准 data standard指保障数据内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。3.4数据质量 data quality 指数据的完整性、规范性、一致性、准确性、唯一性和关联性,是
11、进行大数据信息挖掘的前提和保障。3.5数据分区 data region又称为分片,是解决大数据存储的常见解决方案,大数据存储量超过了单节点的存储上限,因此需要进行分区操作将数据分散存储在不同节点上。3.6结构化查询语言 SQL, structured query language结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。3.7MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。实现方式是指定一个Map(映射)函
12、数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。3.8图计算 graph computing图(Graph)是用于表示对象之间关联关系的一种抽象数据结构,使用顶点(Vertex)和边(Edge)进行描述:顶点表示对象,边表示对象之间的关系。可抽象成用图描述的数据即为图数据。图计算,便是以图作为数据模型来表达问题并予以解决的这一过程。3.9窗口函数 window function窗口函数也称为OLAP函数。OLAP是online analytical processing的简称,意思是对数据库数据进行实时分析处理。3
13、.10事务 ACIDACID,是指数据库管理系统(DBMS)在写入或更新资料的过程中,为保证事务(transaction)是正确可靠的,所必须具备的四个特性:原子性(atomicity,或称不可分割性)、一致性(consistency)、隔离性(isolation,又称独立性)、持久性(durability)。3.11F1分数 F1 Score统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。3.12AUC指标 AUC indexAUC(Area Under Curve)被定义为RO
14、C曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。3.13KS检验 KS testKolmogorovSmirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布。4 概述DaaS以大数据、计算引擎、人工智能等技术为基础,将数据库、大数据平台、商务智能平台、可视化平台以标准服务的方式提供给应用,为用户提供一个统一的访问服务,它屏蔽了底层技术架构差异,为上层应
15、用提供了简单方便的访问接口,增强了系统的灵活性和健壮性,为增强数据访问控制提供了可能。DaaS提供了计算引擎、人工智能以、作业管理及大数据组件等四部分能力。整体架构如图1所示:图1 DaaS总体架构图5 功能性要求5.1 数据采集5.1.1 数据源管理数据源管理功能要求如下:a) 应支持数据源分类管理功能,支持数据源按目录或其他形式分类展示。b) 应支持数据源配置管理功能,包括数据源名称、连接信息、用户名、密码以及其它可选信息。c) 应支持数据源的添加、删除、修改、授权与回收权限功能。d) 应支持数据源配置信息的导出与导入功能,并支持批量操作。e) 应支持数据源权限管理功能,能够控制数据源操作
16、。f) 应支持数据源连通性测试功能。g) 应支持通过精确搜索或模糊搜索数据源名称等方式得到数据源信息。h) 应支持调度各业务系统(保信、水调、气象、OMS等)数据、计量、营销等企业管理业务系统数据和国民经济、天气等外部数据的接入管理。5.1.2 数据抽取数据抽取功能要求如下:a) 应支持异构数据源的数据抽取功能,包括但不限于关系型数据库、NoSQL数据库、时序数据库、大数据数据库、FTP服务以及对象存储。b) 应具备数据抽取任务的管理功能,包括任务添加、删除、启动、停止以及状态浏览功能。c) 应具备数据抽取任务的模板配置功能,能够快速定义新抽取任务。d) 应支持多种任务执行方式,包括定时抽取、
17、周期抽取以及人工抽取。e) 应支持数据抽取任务的监视与告警功能。f) 应支持数据的全量与增量抽取功能。g) 应支持用户自定义数据抽取功能,实现私有协议及数据格式的数据抽取功能。h) 应支持数据过滤抽取功能。i) 应支持分布式部署功能,可以将数据抽取插件部署于数据源服务器端,执行数据收集工作。j) 应支持数据网络安全传输,满足安全规范需求。5.1.3 数据预处理数据预处理功能要求如下:a) 应支持数据清洗的通用业务规则,包括但不限于:漏点检测、越限检测、跳点检测。b) 应支持数据清洗规则的按需扩展,支持自定义规则。c) 应支持多种异常数据处理方式,包括遗弃并重新采集、遗弃并告警,同时可以定义重采
18、次数。d) 应具备清洗日志记录功能,保存清洗日志和错误提示信息。e) 应支持多种数据转换规则,包括数字类型转换、日期格式转换、公式转换等多种转换方式,并支持自定义转换规则。f) 应支持多种转换规则组合使用功能,将多种转换规则设置成规则组,按照规则组对数据进行转换处理。g) 应具备清洗与转换后的数据验证功能,确保清洗后的数据满足预期的格式。h) 应具备数据传输格式转换功能,满足数据传输需求。5.2 数据治理5.2.1 元数据管理元数据管理功能要求如下:a) 应支持元模型管理,支持创建元模型,内容包括业务元数据、技术元数据和管理元数据等,创建方式包括自动采集和手动采集。b) 应支持元数据采集,支持
19、采集或导入元数据和元模型,采集或导入的方式包括自动、订阅和手动,支持包括数据库、大数据工具、报表工具等方式的采集。c) 支持元数据查询,通过精确搜索或模糊搜索元数据名称等方式得到元数据信息。d) 支持元数据标准管理,对元数据管理涉及的数据标准进行创建、修改、删除管理,标准的内容包括元模型中的元素(业务元数据、技术元数据、管理元数据)等。e) 支持元数据稽核,包括对元数据命名规范、填充率、信息完整性、合规性等方面的稽核验证;支持稽核报告的生成和展示。f) 支持元数据版本管理,创建、修改、删除元数据操作时的变更管理;支持用户查看元数据历史变更信息;支持两个不同版本元数据比对,展示比对结果详细信息(
20、新增、删除和修改)。g) 支持血缘分析,获得并展示数据在数据流中的演化过程,包括上下游表级血缘、上下游字段血缘等;支持字段级的数据血缘,展示全链分析。h) 支持影响分析,用户修改元数据时,自动分析并展示该操作对数据产生的影响,如接口文件、库表、SQL程序、报表、指标等对其他数据或程序的影响,提供可视化的影响分析展示。i) 支持元数据变更订阅,通过订阅邮件等方式发送元数据变更详情。j) 具备全局数据检索、元数据详情查看、数据预览等功能;支持元数据的版本管理。k) 支持元数据的权限管理或白名单设置。5.2.2 主数据管理主数据管理功能要求如下:a) 应支持主数据管理分类展示功能,支持有权限的用户创
21、建主数据分类目录,包括自定义、自动和手动等方式;支持用户浏览主数据目录,并逐层递进;支持主数据按目录分类展示。b) 应支持主数据创建、修改、查询、导入和导出功能,包括但不限于主数据的名称、编码、参考数据等;支持主数据审批,审批后的主数据生效。c) 应支持主数据版本管理,支持创建、导入、修改主数据操作时的主数据版本变更;支持通过查询主数据版本查看主数据的历史版本信息。d) 应支持主数据标准管理,对主数据模板以及模板元素进行标准管理,如主数据编码和代码;支持主数据标准与数据标准的映射和同步。e) 应支持主数据统计分析,支持对主数据的分类、分布和应用做可视化的统计分析展示。5.2.3 数据地图数据地
22、图是在元数据基础上提供的企业数据资产管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。数据地图可以帮助用户更好地查找、理解和使用数据。功能要求如下:a) 展示总项目数、总表数、占用存储量、消耗存储量,占用存储TOP排行等图表总览;b) 展示数据的基本元数据。包括:基础信息、存储信息、权限信息等。展示数据的详细信息。包括:字段信息、分区信息等。可以了解表的结构,甚至可以通过这些基础信息直接获得表的DDL语句。c) 展示数据的血缘信息。包括:上下游表级血缘、上下游字段血缘等。d) 展示数据的产出信息。包括:元数据变更信息、产出数据的任务节点、任务的历史运行时长等。
23、e) 支持对表进行分类目管理,收藏表等操作。f) 可对表的生命周期、表的Owner、表的字段描述等信息进行修改。g) 可对表的权限进行申请,以及审批、收回等操作。h) 支持字段的安全等级设置,支持字段级授权。5.2.4 数据质量数据质量功能要求如下:a) 应提供贯穿数据生命周期全链路的数据质量功能。b) 应提供样本的校验功能,支持固定值校验器、波动校验器、方差校验器等校验器模型,覆盖字段级、表级规则,包含空值、唯一值、离散值、最大值、最小值、平均值、汇总值等采集方法,并支持自定义规则适配多样化业务需求。c) 应支持发现数据的断流、延迟,以及业务自定义的数据问题。d) 应支持在数据加工过程中监控
24、业务数据异常,阻断问题数据对下游的污染,提供通知功能,保障业务的正确性。e) 应提供规则配置与管理工具,并支持数据质量规则的版本管理。f) 应支持数据质量规则库分类目录的建立;支持数据质量规则库与数据质量规则任务执行的关联;g) 应支持数据质量稽核任务的管理,包括设定任务的执行周期、查看任务执行状况等,支持对历史任务执行情况的查看;h) 应支持生成质量报告,支持对稽核的数据质量问题进行记录,并生成报告,包括问题数据、度量规则、检核结果、改进流程和建议、问题趋势等内容;i) 应支持数据质量分析,对数据质量稽核结果进行分析和总结,构建问题数据知识库。知识库包括汇总数据列表、错误汇总列表、质量得分分
25、析、检核规则统计、检核规则分析、问题波动分析等;j) 应根据不同的业务场景设置知识库目录,支持数据质量分析结果的查询。k) 应支持通过拓扑分析、图模互检、状态估计等手段进行数据异常检测与治理技术5.2.5 智能标签智能标签功能要求如下:a) 应支持业务数据OLT(实体、关系、标签)建模功能,提供实体关系的三级类目体系管理,支持标签的绑定、编辑、统一查看使用等功能。b) 应支持标签的生命周期管理功能,包含标签绑定、上线、公开、授权、撤回、下线等功能。c) 应支持查看全部实体关系的图形化布局的实体关系图,支持实体/关系搜索。d) 应支持标签模板导入。e) 应支持调度业务衍生标签配置加工功能。衍生标
26、签用于在已有标签之上做标签类的特征工程工作。f) 应支持离线大数据计算服务和关系型数据库上的原生标签加工生成衍生标签。g) 应支持类SQL方式编写标签方案并加工衍生标签。h) 应支持衍生标签配置关联到实体或关系上。i) 应支持实体关系分散在多个物理表的标签合并同步到一张目标表中。同步多表连接方式支持全连接(full join)和左连接(left join)。5.3 数据服务5.3.1 数据开发数据开发功能要求如下:a) 应提供提供一站式的集成开发环境,包括ETL开发、数据挖掘算法开发、交互式分析任务、数据主题库建设等需求。b) 应支持对数据进行汇聚加工。数据管理和开发人员能够在数据资源平台建立
27、对应的数据中心,进行对应数据的加工。c) 应支持表与视图的创建、删除、重命名及生命周期管理d) 应支持使用自定义函数完成标量函数、聚合函数、表函数和隐式转换e) 应支持常规的 count、sum、avg、max、min 等统计分析函数f) 应支持内建函数体系,支持字符串函数、日期函数、数学函数、正则函数、窗口函数g) 应支持MapReduce计算,支持Map后连接任意多个Reduce操作,支持MapReduce计算的多表输入和输出。h) 应支持RESTful API的方式提供离线数据处理服务,提供JAVA SDK, Python SDK, R SDK等编程接口。i) 应支持基于R语言的科学分析
28、和统计计算,并直接处理计算存储在大数据计算服务中的数据。j) 应支持业务流程设计功能,能够将不同类型业务节点组织在一起开发,让用户能以业务流程为中心组织数据开发逻辑。k) 应支持集成开发环境,具备代码提示、作业展示和数据项目管理功能,包含但不限于以下功能:(1) 支持代码提示,包括语法关键词、元数据信息等,支持代码格式化、折叠、缩略图展示。(2) 支持SQL代码内部结构的可视化展示。(3) 支持以业务流程、解决方案的形式编排任务节点和资源、函数、算法等对象。(4) 支持图形化拖拽的方式编排业务流程,支持输入、输出的方式编排。支持自依赖、跨周期依赖等复杂依赖方式。(5) 应支持多用户协同开发、代
29、码回收操作。(6) 应支持代码版本管理,支持任意两个版本的代码对比。(7) 应支持代码全文检索。(8) 应支持分钟级定时调度,支持即时生成调度实例。(9) 应支持手动触发的手动调度模式(手动业务流程)(10) 应支持业务流程级别、节点级别的参数设置,即用不同的参数输入,运行获得不同的数据分析结果(11) 应支持将SQL逻辑写成模板,提升代码复用性。(12) 应支持发布控制,经过审核后可以将代码发布至生产项目,实现开发环境和生产环境隔离。(13) 支持大数据计算服务相关节点:MapReduce、SQL组件、数据集成节点、Shell节点、虚节点、机器学习节点和跨租户依赖节点,并支持其他引擎扩展(自
30、定义节点)。(14) 应支持流程控制节点:判断分支、循环、遍历、赋值5.3.2 大数据BI大数据BI功能要求如下:a) 应支持海量数据实时在线分析,提供智能化数据建模工具,通过拖拽式的操作和丰富的可视化图表控件,支持数据透视分析、自助取数、业务数据探查、报表制作和搭建数据门户等工作。b) 应支持众多种类的数据源:大数据计算服务、云数据库、分析型数据库、关系型数据库等。c) 应支持柱状图、线图、饼图、雷达图、散点图等多种可视化图表,满足不同场景的数据展现需求,自动识别数据特征,智能推荐可视化方案。d) 应支持基于Web页面的工作环境,通过拖拽式的操作和类似于Excel的页面展示,实现数据的一键导
31、入和实时分析,并可切换数据分析的视角。e) 应支持通过拖拽式操作、强大的数据建模和丰富的可视化图表,支持快速搭建数据门户。f) 应支持海量数据的在线分析。减少数据预处理,提高数据的分析效率。g) 应提供组织成员管理功能,支持行级数据权限,满足不同人查看不同的报表,以及同一份报表,不同的人查看不同的内容。h) 应支持灵活的数据统计功能。能够按电网、电压等级维度对电网的发电规模、变电规模、输电规模、直流规模等模型数据进行统计计算和结果展示功能。5.3.3 数据大屏数据大屏功能要求如下:a) 通过图形化的界面搭建可视化应用,分析并展示庞杂数据。数据大屏支持日常图表组件库,地理相关组件库,提供数据可视
32、化模板的视觉框架。b) 应支持创建、修改、删除可视化应用,可直接使用模板创建,也可以使用空白画布从零开始设计。c) 应支持复制可视化应用,复制的应用继承原应用的配置和数据,生成大屏。d) 应支持拷贝可视化应用,通过用户识别码拷贝给其他用户,实现大屏协作与共享。e) 应支持使用预览功能可预览应用,展示动态效果。f) 应支持可视化应用发布功能,发布功能应至少支持三种方式:公开分享、密码访问、令牌验证免登。g) 应提供行业模版和图表组件,处理与展示百万级的复杂数据。h) 应提供智能主题功能,对大屏进行合理的配色。i) 应提供滤镜配置功能,对大屏中组件的色相、饱和度、亮度、对比度以及透明度等颜色属性进
33、行配置。j) 应支持绘制地理轨迹、地理飞线、热力分布、地域区块、3D地球等效果,支持地理数据多层叠加。k) 应提供一站式开箱即用数据可视化解决方案,以图形化的界面轻松搭建专业的可视化应用。l) 应提供拖拉拽的图形化配置方式完成样式和数据配置,无需编程就能搭建大屏。m) 应支持可视化连线的方式,定义图层与图层之间的交互行为,管理组件之间的交互关系。n) 应支持多种数据源接入,提供多种图表组件支撑多种数据类型的展示,接入包括分析型数据库、关系型数据库、本地CSV上传等数据源,支持动态请求。o) 应提供二次开发环境,二次开发组件也支持拖拽布局与数据接入。p) 应具备对电网运行状态的综合可视化功能,能
34、够从不同专业主题、空间及时间等多角度对电网概况进行统计分析及可视化展示功能。5.3.4 数据总线数据总线功能要求如下:a) 应提供对流式数据的发布、订阅及分发功能,可构建基于流式数据的分析和应用。b) 应支持对各种移动设备、应用软件、网站服务、传感器等产生的大量流式数据进行持续不断的采集、存储和处理。c) 应支持编写应用程序或使用流计算引擎来处理写入到数据总线的流式数据,并可产生实时的数据处理结果。d) 应支持可以使用SQL进行流数据分析。e) 应提供分发流式数据到其它数据处理组件的功能。f) 应支持服务弹性伸缩功能,可根据实时的流量调整分片数量,来应对突发性的流量增长或达到节约资源的目的。g
35、) 应提供数据队列功能,单个数据分片内数据保持顺序,单主题性能以分片数为单位水平扩展。h) 应提供点位存储功能,支持消费应用将消费点位保存到服务,保证消费应用在故障恢复后可从保存的点位进行消费。i) 应提供数据同步功能,支持将数据总线中的数据自动同步到其它服务。j) 应提供提供丰富的SDK包,包括C+、Java、Pyhon、Ruby、Go等语言。k) 支持多种开源插件数据导入。支持丰富的多语言SDK(C+/Java/Python/Go)。兼容Kafka的写数据API。支持结构化(TUPLE)和非结构化数据(BLOB)存储。l) 支持通用流式数据pub/sub功能。支持多种方式写入(Hash/P
36、artitionKey)。支持后台函数计算。支持Topic粒度多租户隔离。m) 可视化的权限管理;支持Web控制台管理(日志、订阅或者同步点的创建删除)。可视化日志管理(新建、删除、创建同步点);可视化的运维(日志扩容、缩容)。可视化的大盘监控(实时流量等参数展示)。5.3.5 数据加密数据加密功能要求如下:a) 支持通过加密服务对密码机进行服务化改造,租户可通过加密服务控制台按需开通或关闭加密服务。b) 支持通过加密服务把密码机实例映射到租户的虚拟专有中,分配虚拟专有私网IP地址,由租户独享使用。c) 支持符合国家密码管理局要求及金融数据加密标准的国产硬件密码机,支持国产加密算法。d) 加密
37、服务应支持密码机设备管理与密钥管理权限分离,云平台只能管理设备,密钥完全由租户管理。5.3.6 敏感数据保护敏感数据保护功能要求如下:a) 提供针对大数据环境下离线大数据产品、表格存储、对象存储、分析型数据库、关系型数据库五类数据产品的敏感数据自动发现与打标功能,内置常见识别算法,支持自定义识别模型。b) 支持根据不同安全等级、不同敏感数据类型的数据资产全局搜索以及分产品搜索,搜索结果分产品展示。c) 支持图形化、级联展示各个产品的敏感数据资产位置、安全等级,支持同产品内同等级敏感数据的结果查询并图形化呈现。d) 提供大数据环境下离线大数据产品、表格存储、对象存储、分析型数据库四类数据产品权限
38、管理能力,能够实现通过数据资产定位权限相关人员/操作能力/操作条件,也能够通过部门定位人员定位账号进而通过账号定位相应数据权限。e) 针对大数据场景中产生的数据流转异常/数据操作异常/权限使用异常事件的智能检测,提供异常事件处理工作台并提供处理结果统计;检测模型参与以及模型适用性支持客户自定义配置。f) 提供大数据环境下常见结构化数据传输工具、流处理数据传输工具的数据传输详情(来源/通道/去向)的管理。g) 提供大数据环境下数据静态脱敏功能。h) 支持对对象存储服务、数据库服务、大数据计算服务的日志审计,可对审计事件进行检索和查看。i) 支持对关系型数据库服务的权限管理功能。5.3.7 数据脱
39、敏数据脱敏功能要求如下:a) 系统支持自定义、图形化操作的脱敏规则和脱敏方式,支持UNICODE标准、中文等字符编码。支持数据库到数据库、数据库到文件、文件到文件、文件到数据库等多种脱敏方式。b) 系统应支持敏感信息的自动发现能力,系统具有内置敏感数据特征库,能对身份证、通用证件号、银行卡号、电话号码(手机、座机)、中文姓名、中文地址、企业名称、日期、税号、email地址、金额、统一社会信用代码、组织机构代码、工商注册号、证券号、海关编号、ip地址、mac地址、车牌号、车架号、军官证、港澳通行证、回乡证敏感信息自动识别。c) 系统能读取数据库或txt、csv等文件内容,根据内容和内置敏感数据特
40、征规则发现敏感数据。d) 支持对脱敏任务进行停止、启动、重启,并且支持任务并发,充分利用系统资源,提高脱敏效率。e) 系统支持基于时间类型字段或自增字段的数据增量脱敏功能。f) 对有特定业务需求的敏感数据可通过自定义发现函数实现和自定义脱敏函数实现。g) 提供系统管理员、安全管理员和审计管理员来管理脱敏设备。h) 具备完善、统一的权限管理体系,可以针对不同用户、不同角色、不同业务系统实现数据行级的权限控制,完成用户建立、用户分配、用户身份验证等管理功能,满足系统用户所有资源信息具备最小颗粒度的可配置、可分配的能力,保证针对具体的使用用户进行分配,每个用户仅能使用其分配的资源。5.4 计算引擎5
41、.4.1 流式计算流式计算功能要求如下:a) 应支持多租户,支持租户资源的动态配置和管理、资源隔离以及资源使用统计。b) 应支持用SQL语义进行实时流计算开发,支持字符串、时间、统计等各类计算函数c) 应支持读取多种外部流式数据数据源,包括消息队列、日志服务。d) 应支持写入多种外部结果数据数据源,包括消息队列、日志服务、表格存储、关系型数据库、分布式关系型数据库等。e) 应支持多种外部静态维表,包括表格存储、关系型数据库、分布式关系型数据库。f) 应支持流数据和静态维表直接关联查询。g) 应支持不同维度聚合计算级联。h) 应支持窗口功能,包括滚动窗口、滑动窗口、会话窗口、OVER窗口等。i)
42、 应支持流式复杂事件处理(CEP)功能,具备复杂事件处理能力。j) 应支持电网海量实时数据的并行流式处理,处理能力能够按需横向扩展。5.4.2 图计算支持图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。适合社交网络、欺诈检测、推荐引擎、实时图谱、网络、IT运营这类高度互连数据集的场景。功能要求如下:a) 标准图查询语言:支持属性图,高度兼容Gremlin和OpenCypher图查询语言。b) 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。c) 实时在线:即时处理海量数据,分析洞察数据价值,满足关键业务应用需求。d) 支持自
43、动机器学习:支持通过算法洞察关系数据规律,产生智能决策。e) 服务高可用:支持高可用实例,节点故障自动切换,保障业务连续性。f) 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。g) 应能够满足电网分析需求,能够有效提升拓扑分析等计算效率。5.4.3 离线计算离线计算功能要求如下:a) 应提供支持水平扩展的分布式计算框架,支持PB级大规模数据存储与计算b) 应支持按需使用、在线弹性伸缩的服务模式,物理机扩容及缩容过程不影响平台正常运行,计算服务不需停止。c) 应支持结构化和非结构化的数据处理,支持引用外部数据源进行多源数据处理。d) 应支持跨域协同计算,实
44、现物理分散、逻辑统一的协同计算。e) 应支持存储容错机制,保障数据高可靠性。f) 应支持基于SQL、MapReduce、图计算、自定义函数等多种编程模型的数据处理方式。g) 应支持资源隔离功能,保障数据高安全性。h) 应支持以RESTful API的方式提供服务。i) 应支持高并发、高吞吐量的数据上传下载,支持增量数据装载。j) 应支持多租户,多个用户可以协同分析数据。k) 应支持用户权限管理,可以配置灵活的数据访问控制策略,防止数据越权访问。l) 应支持多集群部署。m) 应支持列式存储,支持KMS对数据文件的加密。n) 应支持按照用户需要对数据进行加密。支持对所有数据进行加密或部分关键数据进
45、行加密。o) 应支持对审计日志的存储,并自动转存备份,便于长期存储、管理审计日志信息。p) 应支持查询分布式文件系统的存储容量、存储使用量等信息。q) 应支持数据生命周期管理,同时根据数据价值或标签可实现数据存储在不同的存储位置,提高集群资料使用效率。r) 应支持数据压缩功能。s) 应支持对元数据及数据进行备份与恢复,支持全量或增量备份。t) 应支持数据中心间的数据集群备份,满足多中心之间的数据互备需求,并提供可视化管理工具。u) 应支持Spark的增强应用。v) 应支持ElasticSearch的增强应用。5.4.4 数据搜索数据搜索功能要求如下:a) 应支持分布式存储、索引、实时分析和检索。b) 应支持数据导入后实时分析和检索c) 应支持对全文数据库的结构化和文本关键词信息存储,可进行多维度信息匹配及筛选过滤,应支持倒排索引和全文检索。d) 应支持API编程接口,用于大数据搜索服务的数据导入、索引建立和数据检索。e) 应支持通过SQL进行综合搜索,任意条件组合灵活查询。f) 应支持聚合算子下推,提升搜索聚合分析性能g) 应支持智能搜索功能。提供模型数据搜索、图形文件搜索、运行数据搜索、电网资料搜索、地理信息搜索等功能。h) 宜具备电力词库、智能
限制150内