《数据中台建设汇报方案(共60页).docx》由会员分享,可在线阅读,更多相关《数据中台建设汇报方案(共60页).docx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据中台专心-专注-专业目 录1、项目概况1.1、项目背景落实公安部十三五规划公安部公安发展“十三五”重点建设项目实施方案将“深度应用云计算、大数据、物联网等新一代信息技术,打造公安信息化升级版”作为第一项重点任务;江苏省公安厅党委作出实施“数据强警”战略行动的决策部署。这些都为公安机关深入推进云计算、大数据技术条件下的公安信息化建设应用,指明了发展方向,提供了决策依据。实现深化实战应用建设的需求。伴随着数据量的与日俱增,基层民警对业务的理解随着大数据思维的影响越来越活跃,日益复杂的应用需求、应用的个性化要求日益增多、模型的快速个性化开发、应用的实时交流与共享、专项行
2、动支撑等敏捷式交互已成主流,所以目前迫切需要既能贴近公安干警日常各类应用的大数据支撑统一平台。分局目前无数据留存的载体,使每次新建业务系统都需要协调市局或分局各部门的数据未能体现数据共享的原则,随着业务系统的不断深入,分局也迫切打破数据壁垒,能对接各局、委、办的数据加以综合应用。1.2、现状分析高新区分局目前信息化水平已步入全局前列,但是在数据使用和管理上仍然存在诸多问题和矛盾,主要体现在以下几点:分局建设了若干应用系统,系统建设后的每种应用产生的二次加工数据未回流,不知存在哪里,也没有把二次产生的历史数据利用起来。每次建设不同应用系统都会向市局申请数据,相同的数据资源重复申请,本地未能做好备
3、份和数据积累。数据质量无法管控,数据安全性无法保证。信息不全面、不及时、不准确,容易造成管理漏洞。对数据资源价值认识不足缺乏大数据应用经验。应用的规划局限大,应用的建设成效不理想。1.3、建设依据公安云计算建设指导意见、公安警务云大数据平台功能性要求(公科信【2015】119号)公安发展“十三五”规划(2016-2020)(公安部)关于大力推进基础信息化建设的意见(公安部)公安部关于贯彻落实全国公安装备建设“十二五”规划指挥信通装备建设项目的工作意见公安部公安机关信息共享规定公通字【2015】6号公安部关于稳步推进公安云计算中心建设的指导意见公安信息资源服务平台建设任务书(公科信201473号
4、,公安部科信局发布)公安信息中心技术建设总体框架(公科信20144号,公安部科信局发布)公安数据元(GA-T/543)系列标准公安请求服务总线系统技术规范(GA-T/739)资源服务总线系列标准(公安部科信局发布)公安信息系统应用日志采集规范(公安部科信局发布)公安大数据云总线体系架构标准(公安部科信局发布)信息服务应用门户界面设计规范(公安部科信局发布)公安信息化标准汇编(公安部科信局发布)采用PKI/PMI技术的公安应用系统安全建设技术指导书(公安部科信局发布)公安信息通信网边界接入平台安全规范公安信息公网移动接入及应用系统安全管理暂行规定公安信息中心建设总体技术框架国家颁布的相关法律、法
5、规、规范1.4、建设目标通过大数据中台建设,汇集大量公安及社会层面的数据资源,并整理形成数据资源目录,梳理数据的字段结构、数据字典项等内容。为全面推动公安数据标准化工作、促进信息资源的共享,确保数据质量,进一步规范基础数据采集、数据资源共享交换,以“全面整合信息资源、信息高度集成共享、方便基层民警使用、贴近一线实战业务”为指导思想,面向决策与实战的大数据应用和面向公众政府信息共享与部门间业务协同等工作为目标,对虎丘公安内、外部的海量信息进行加工、处理、整合,建设具有高新区公安局特色的大数据管理服务平台。以数据治理为抓手,以共享服务为支撑,以警务实战为唯一检测标准。过程中以“建的精、管的细,用的
6、好”为指导思想推进数据中台建设。建的精:通过建立数据交换平台和渠道,构建“大数据基础”。管的细:通过大数据支撑跨部门跨系统的应用建设,实现“大数 据综合治理”。用的好:通过分析挖掘和营运大数据面向不同业务提供服务,建成“大数据公共服务”。1.5、建设内容结合高新区分局的需求和实际情况,本次规划高新区分局数据中台项目主要从以下几个方面开展建设。1. 建立高新区分局数据标准2. 整理目前所能获取的数据资源3. 高新区分局数据接入服务4. 数据清洗系统5. 建立数据资源目录6. 建立数据监管系统7. 建立统一的数据服务系统8. 建立统一的数据交换系统9. 建设数据可视化服务系统项目建设分三个阶段完成
7、,建设周期9个月。1.6、建设效果1. 打破数据孤岛,形成内部开放的数据格局基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,汇聚内外部数据,形成数据仓库,通过清洗、数据资源目录,开放的数据共享和交换服务,使数据在汇聚的同时,提高数据的准确和有效性,能充分达到内外部系统的方便有序共享。2. 快速响应业务需求,灵活实现数据服务大部分服务都是围绕数据而生,数据中台是围绕向上层应用提供数据服务构建的,中台战略让数据在数据平台和业务系统之间形成了一个良性的闭环,应用与数据之间的关系较之以往更加紧密。从而使敏捷前台开发成为了可能。3. 深度挖掘数据价值,为整合高阶算法打下基础数据资
8、产的最大价值在于分析应用,当下的诸多高阶的算法,其应用场景都是建立在一个相对规范,体量巨大的数据资产之上的。数据中台构建了开放、灵活、可扩展的统一数据管理,将内、外部数据随需关联,打破了数据的系统界限。从而为日后的可视化建模等高阶的分析应用提供了良好的数据基础。因为数据的良好基础,从而使跨维度,带算法的分析成为可能,从而真正能实现大数据分析的“随需而变、数里淘金”。2、项目建设方案2.1、总体架构 数据中台的总体架构以全域大数据建设为中心,覆盖整个大数据获取、治理、建立目录、共享、服务、可视化的全链路环节。架构总体上是一种服务化的架构,各服务模块间弱耦合。每个模块对外的服务是开放性的,这意味着
9、各种不同的模块可以按需使用。不仅如此,合理、恰当、符合逻辑的问题拆解,将每个子问题域控制在合适的粒度大小,这利于展开落地方案的架构设计,并为系统的运行演化奠定了模块化、组件化的指导基础。各层次间的衔接与交互采取“服务化”的设计思路,层次间弱耦合,在层间通信契约稳定的前提下,各层均可独立的进行扩展变更。同时,基于这种松耦合的逻辑设计与实现,在部署架构上,可以支持灵活地按需部署,各种不同的模块部件,可以按需地分布在相同或者不同的进程单元中,并且各层次内也可以根据数据处理规模来横向伸缩扩展。2.2、总体设计原则数据中台的涉及内容众多,技术复杂,使用对象覆盖面广。因此,在建设时,项目规划设计应遵循以下
10、基本原则:先进性原则。本项目整个平台应采用先进的技术,符合技术发展趋势。数据中台采用先进技术,针对不同的业务场景,采用不同的计算和存储技术来对应等。平台采用先进的架构,各个部分之间采用松耦合,一个子系统出现问题不会影响其他系统。易用性原则。平台应注重易用性,方便用户使用。数据中台的各个子系统注重易用性的设计,界面和操作直观、美观、方便, 易理解性,使用户抓住重点,一目了然;易操作性,提供便捷、一致的操作方式,减少用户输入和点击次数;易管理性,缩减安装、配置、实施、备份的时间和难度。安全性原则。应充分保证数据的安全性,提供合理的解决方案。针对数据安全性,采用立体化的安全防范手段,一方面加强对现有
11、安全设备的利用,另一方面应采用安全加密和脱敏系统加强对数据的防护,并结合已有的安全管理制度,共同形成高安全性防护。扩展性原则。平台应考虑技术的发展和未来的应用需求,提供良好的扩展性,确保随着业务的发展能够快速进行系统的扩展。为保证系统的可扩展性设计,在系统架构上,采用系统分层设计实现。保证在设计开发上具有适应业务变化的能力,当系统新增业务功能或现有业务功能改变时(界面的改变、业务实体变化、业务流程变化、规则的改变、代码改变等),应尽可能的保证业务变化造成的影响局部化。整体性原则。要考虑各系统之间的集成,形成一个整体对外提供服务。由于数据中台类项目涉及的子平台和子系统众多,为体现系统的整体性,应
12、提供统一门户,完成各子平台和子系统的身份统一和集成,完成各系统的界面、应用和数据集成,确保各部分形成一个整体统一对外提供服务。2.3、总体建设方案中台技术建设逐步成为构建“大中台、轻应用”的信息化建设格局,加快信息化应用创新和发展,进一步解决现有数据平台瓶颈的重要手段和支撑。数据中台是中台技术的关键内容,数据中台建设主要包括数据存储、数据集成、数据治理、数据服务等方面以及相关的数据实施。数据存储、数据集成、数据治理方面主要是为了加强数据中台的数据处理能力,数据服务则主要是为了支持应用和业务的进一步创新和发展。同时,数据实施服务是数据中台建设能较好落地的基础和保障。2.4、详细建设方案2.4.1
13、、数据资源梳理本次项目需要的梳理的数据资源包括对接市局的数据资源、分局自身拥有的数据资源、调研梳理其他局委办数据资源,市局和分局的数据资源相对比较明确,其他局委办数据相对较模糊需花费一定的时间进行调研。2.4.1.1数据资源梳理方式在梳理信息资源时可以通过以下4种方式进行:l、采取不同的收集手段。A兼容各个电子系统,收集整理数据。近几年,随着信息化建设的推动和发展,各个部门的信息化建设都有不同程度的提高。各个部门或多或少都建立起计算机系统,只是各个部门发展程度不一样,有些部门电子化程度很高,绝大多数数据都纳入到计算机系统中,而有些部门电子化的东西还很少。充分利用现有的各个电子系统,是获得信息资
14、源最有效的途径。但在利用同时还存在一些问题,如各个部门即有自己的办公自动化系统,又有业务系统;既有以前开发的系统,又有新开发的系统;既有可公开的系统,又有密级的系统,几个系统间并不兼容,这样就需要在收集整理这些数据前,先对这些系统进行整合,抽取出符合要求的信息资源。B手工整理资源。各个部门信息化建设时总会有些数据资源被落下,特别是些老数据,像很多年前的档案数据、历史数据,这些数据就需要手工进行整理。2、以信息资源的时间为主线收集。信息资源虽然内容多而杂,但也是有规律地产生的,可以根据信息资源的产生的时间先后进行整理。时间的不同,部门所赋予的职责也会有变化,不同时期部门的名称都会有明显变化,职能
15、的调整就更多,职能对应的资源信息也就有变化。通过时间整理数据,逻辑上比较清楚。3、以信息资源的研究内容为主线。以信息资源的研究内容整理数据,其实就是根据其职能范围来整理数据。根据部门的每个职能,收集相应职能所涉及到的信息资源。由于有些信息资源包含的内容比较多,因此这种整理方式会有重复收集的现象。4、从业务应用出发进行梳理。业务部门在履行职能、办理业务和事项中随时都需要和产生的信息资源,它的存在和分布是跨行业、跨部门、跨地域的,并且大部分信息资源随着业务的开展不断产生和变化,是一种与政府活动相关的动态信息资源。由于各个地区经济发展不同、各个部门职能不同,所拥有的政府信息资源也各不相同。信息资源与
16、业务密切相关的特点要求信息资源整合方法应适应业务和信息的动态产生和变化。信息资源目录体系就是从业务应用出发,梳理业务办理的流程、职责、依据等,编制信息资源目录。如针对案件研判业务,需要通过调查和梳理相关的业务环节和部门,根据业务流程,梳理和分析业务相关的信息,并且根据相关的信息资源描述规范和分类规范描述以及标识信息资源,编制面向业务的信息资源分类目录和共享目录,在目录体系的基础上进行信息资源整合。这样的整合方法为信息资源的动态有机整合建立了基础,可以适应政府信息随业务处理而动态变化的特点。2.4.1.2信息资产梳理与编目工具为实现对信息资产的梳理与编目,我们在信息资源管理与服务平台中提供了信息
17、资产登记与管理系统。通过系统实现:采用标准化工具完成基础信息资源的梳理,资源梳理工具的管理内容包括系统目标、组织结构、业务角色、用户视图等;对业务流程图和数据流程图进行管理,能够识别协同关系和信息共享需求,能够明确职责、整理和挖掘数据资源、规范数据表示;对数据库的主题库、逻辑实体、实体关系图、数据映射图、数据元标准、信息分类编码进行管理;通过梳理明确信息资源的出口、入口、数据间关系;支持信息资源的文档的自动化生成(数据库设计文档、信息资源目录、实体关系图等);支持思维导图等方式的可视化展示。信息资源梳理的成果为数据交换提供数据来源、业务流程、资源目录、标准规范等服务支撑。资源梳理工具的功能包括
18、高阶导图、思维导图、业务架构、数据架构、应用架构、需求管理、文档附件、系统编码、权限管理、项目管理、系统设置等。信息资源梳理平台通过两类视角进行说明:管理视角、维护视角。在管理视角下进行系统编码字典、用户及权限管理、项目模块管理、系统设置等系统管理级别操作。在维护视角下对高阶导图、业务架构、数据架构、应用架构、需求管理等功能模块内容进行编辑和查询操作。信息资产登记信息资产登记系统实现了各类信息资产的注册与维护,实现信息资源的编目功能。信息资产登记系统包括业务架构登记管理、数据架构登记管理和应用架构登记管理、架构资产目录管理功能。信息资产是政府架构里的核心构成和基础,对信息资产的梳理和编目、信息
19、资产登记系统是政府整个信息化工作的灵魂和基石,信息资产登记系统产品用来支持信息资产初始化,并作为有序存储和可持续管控的起点。在信息化工作过程中,将产生大量、复杂的信息,它们数量多、门类广、分布分散、信息资源提供者和信息资源使用者的信息不对称,这些信息只有经过梳理、分类、编目和可视化,才能变得更有价值,从而形成真正的资产,完全依靠手工和纸面管理几乎变成不可能,必须引入资产知识储藏库,通过合理的架构管控,保持定义与理解的一致性,并贯穿信息化建设的始终,对信息从产生、处理、传输、利用的全生命周期进行梳理、规划、设计和实施落地,保证信息和知识记存与使用的无歧义和连续性。为此,必须使用科学、合理、动态、
20、活化的技术文档来存储相关信息,建立此储藏库是一个积累发展过程,首次规划资料的存储,有利于后续开发工作的进行;修订业务架构,优化数据架构和系统架构,都建立在原有知识库的基础上。信息资产登记系统将满足其他组织建立信息资产编目体系而开发的产品,可以辅助这些组织的架构管理机构或信息部门,对业务、数据、应用等进行可视化的信息资产构建工作,并支持彼此之间的关联和可持续改进,形成清晰完整的高阶资产模型。有效支撑信息资产和企业架构开发理论、方法的具体实施。产品的信息资产知识库,存储整个开发过程中的各种资产和资源,管理层、决策层可从不同角度、视点去审视企业的结构和运作,帮助政府或企业有效实现IT战略。该工具软件
21、主要基于企业架构、信息工程、总体数据规划、数据管理等理论,引入高阶的架构开发方法和信息化建设中的标准化核心内容,工具通过中心数据库共享功能将各模块有机联系在一起,集中记录和管理需求,支持多团队协作和各实施阶段成果之间的一致性,同时,支持主流建模标准文档的导出。2.信息资产管理信息资产管理是系统维护人员对登记后的信息资产,实现有效的管理,并通过平台实现对外的可视化展现与信息资源的发布。资产管理包括资源目录的管理、文件的管理和服务的管理。信息资产管理子系统为可视化管理平台。通过该平台,中心管理员可管理整个域内的信息资产情况,部门管理员可管理该相关部门的资产情况。信息资产管理子系统主要包括以下几大部
22、分功能:1、资产总体视图2、组织机构视角3、服务对象视角4、信息资产视角5、协同主题视角2.4.2、建立数据标准和规范建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。数据治理对标准的需求可以划分为两类,即基础性标准和应用性标准。前者主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;后者是为平台功能发挥所涉及的各个环节,提供一定的标准规范,以保证信息的高效汇集和交换,包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。2.4.2.1信息资源标准和管理规范制定标准规范体系是虎丘区
23、公安分局大数据中心标准化工作的核心,也是虎丘区公安局大数据中心总体设计的重要内容。虎丘区公安局大数据中心标准规范体系建设过程将按标准规范办事,使工程建设效果符合最新的行业技术质量标准规范,保证工程的先进性和可靠性,符合国家、省、市电子政务项目建设规范的要求。2.4.2.2标准规范体系和管理规范制定思路建立标准规范体系是实现城市大数据中心对外提供数据服务的重要支撑,是直接导致本项目建设成败的重中之重。具体的建设思路如下:1)符合国家和虎丘公安局信息化规划的相关政策法规项目相关标准规范体系设计及制度的制定,必须在国家和虎丘公安局相关政策的指导下,根据中华人民共和国标准化法,从项目建设的实际需要出发
24、,统筹考虑大数据中心切实利益,进行制定。2)遵循国家相关标准规范和管理规章审查项目相关标准、规范及制度的制定,必须遵循国家信息化建设的相关标准规范,以及标准制定相关规章制度,进行起草、送审和发布。3)从虎丘区公安局信息化建设发展的大局出发项目相关标准、规范及制度的制定,要符合无锡市信息化建设总体思路,进行深入研究、探讨、制定,按需建立信息资源的统一数据标准。4)充分满足本项目建设和发展要求紧密贴合项目的建设目标,充分满足大数据中心的建设和发展要求。2.4.2.3标准规范体系和管理规范制定范围1.数据规范数据标准规范由公共数据元标准、公共代码标准、公共数据存取规范和数据交换规范组成。除国信办20
25、03 62号要求的六项基本信息和十二项应用信息的标准外,基础信息库建设还需其他信息标准的制定。(1)数据分类与编码数据分类与编码标准是信息化建设中标准化的一项基础工作,该类标准规定平台汇集、交换相关信息统一的分类系统和排列顺序以及编码规则,目的是在不同系统和用户之间建立交通数据的一致参照,对提高数据采集、处理和数据交换效率具有重要作用。数据分类与编码标准的制定将有力推进平台标准化及交通信息化建设标准化的进程。(2)数据字典针对实际需求,定义数据集,建立各个领域的数据字典,规范数据概念和数据定义。在此基础上,形成完备的集团单位数据集和数据字典。(3)元数据标准元数据标准是描述数据资源的具体对象时
26、所有规则的集合,它包括了完整描述一个具体数据对象时所需要的数据项集合。针对各种信息资源分别制定适当的元数据标准,可为信息的管理、发现和获取提供一种实际而简便的方法,从而提高数据交换效率。 (4)数据交换标准为了保证数据共享和交换的顺利实现,必须明确定义和规范数据交换的相关标准。数据交换的标准规范是综合信息平台的核心标准。其中应当包括数据交换内容、数据交换格式、数据传输方式、各类中心间数据接口的标准化等方面。 (5)数据质量标准由于数据采集任务通常由其他二级平台完成,数据治理平台的标准方法主要集中在数据的加工和管理上。应该重点开发的一个领域是数据质量控制方法。应当从三个方面对数据质量方法进行研究
27、:“坏数据”或“不可靠数据”的识别,错误数据的编辑方法,以及缺少值的处理。2.技术规范技术规范由如下组成。基础数据库标准规范针对基础信息数据库建库标准制定规范,并为未来其他基础库建设形成体系规范。外部接口规范外部接口规范为其他系统接入提供可执行规范,包括在系统接口定义、交换系统交换方式、部门接入信息字段定义、各类应用层协议等。二次开发规范二次开发规范,明确开发权限定义、数据接口定义、功能挂接定义、平台要求等。测试规范测试规范规定测试条件、范围、选择数据,以及测试案例定义等。3.业务规范业务操作流程规范配合信息资源整体建设,规范业务人员操作各应用系统所确定的业务规范。安全保密规范配合信息资源整体
28、建设,明确应用系统使用安全与保密规范,完善系统保密规范。4.信息化管理规范配合信息资源整体建设,形成信息化管理规范。业务部门数据交换共享机制规范配合数据交换平台相关规范制定,确定业务部门数据共享机制规范,明确业务部门信息共享指南。5.系统运行管理规范。系统运行管理规范,为各级管理员和用户提供运行管理指南与规范。6.数据维护管理规范数据维护管理规范,针对中心数据库的各类数据,进行管理维护的规范等。数据标准对数据集成和信息资源共享具有重要意义:1. 增强业务部门和技术部门对数据定义和使用的一致性。2. 减少数据转换,促进系统集成。3. 促进信息资源共享。促进单一数据视图的形成,支持管理信息能力的发
29、展。4. 消除各部门间的数据壁垒,方便数据的共享,另外数据标准同样对业务流程的规范化有帮助作用。2.4.3、数据接入服务数据接入系统主要实现多源异构数据的跨网络、跨地域的统一接入,为数据资源的汇聚集中、标准化处理和数据资源池构建提供支撑,功能主要有数据抽取、数据库同步、文件导入、数据填报等。主要为了解决各级部门和组织在中心侧的数据落地问题,采集后的数据统一归集到数据湖沧库中的“原始数据区”。需要支持的数据采集方式需包含数据流采集、数据库采集、日志采集、接口采集、应用数据采集、网页爬取、文件交换等多种方式。 数据接入可以分为以下几个部分:执行引擎:依照用户设定的业务流程,完成对变更数据的捕获。通
30、过重做日志采集和对数据库日志的解析,识别出变更数据内容;再通过事务的过滤、合成和加载等流程,实现事务的统一控制,确保事务的一致性和准确性。控制台:控制台负责为用户提供多种管理和监控功能,包括数据采集的性能监控,异常情况的管理,采集任务的调度管理以及元数据的管理等。第三方接口:系统提供了种类丰富的第三方服务接口,包括管理监控类的接口,以及服务集成类的接口等。通过上述服务接口,用户可以在第三方系统中进行产品的集成和二次开发,以满足用户不同业务场景的功能需求。在数据接入过程中采根据建立的数据标准,用数据清洗模型可快速对不同的数据进行整合清洗。数据接入日志:接入数据做好日志记录,可根据要求定制日志需记
31、录的内容。本次规划的数据接入包含如下几种类型:(1)分局现有存量数据的数据接入:该部分数据主要是依托大数据基础平台提供的数据库环境,开展存量数据的抽取、标准化转换和加载工作最终将该类数据整合到公安大数据资源库。(2)现有业务系统不断新增的生产数据的数据治理:该部分数据的处理根据源数据的提供方式不同,分为两部分:一是源数据的业务系统直接开放数据库账号(只读),直接通过数据库直连的方式进行数据抽取整合;二是源数据的业务系统开放webservice接口,设置相关的访问规则,然后通过该数据接口进行数据抽取整合。(3)市公安局同步的数据,根据市局接口的要求,针对性的对每种数据开发对应的接口,根据市局数据
32、同步的周期,可以和数据更新周期,也可以定时抽取同步。同步市局的数据可采用数据抽取、数据库同步、断点续传等多种方式。(4)公安体系外党政单位、社企单位所共享出来的数据资源与社会化采集资源,例如工商数据(法人库)、税务数据、社医保数据、银行数据等,需要利用公安安全边界平台,实现与此类数据的整合作业。通过数据接入服务,建立了部分符合数据标准要求的高新区分局数据仓库。2.4.4、基础信息资源库建设2.4.4.1设计原则城市大数据中心数据库的数据涉及到各类基本信息资源、扩展信息资源,以及多种专业应用等多方位多层次数据和信息。数据类型有数字、文字乃至图片等,主要以表格形式表现,既有实时采集数据,也要包含多
33、年历史数据。对于基于大型关系数据库的核心业务系统,数据库是系统的核心。数据库结构的设计也就是项目成败的关键。设计不好的数据库,会增加编程复杂度、后期维护繁琐、系统性能低下等等问题。由此,数据库设计之初必须遵守如下设计原则。尽量减少数据冗余,实现最低的存储空间、最高的存取速度、确保各数据项间的关系规范,能够展现完整的政务信息视图。数据库的数据规范化设计达到第四范式(4NF)。关系模式规范化设计的基本思想是通过对关系模式进行分解,用一组等价的关系子模式来代替原有的关系模式,消除数据依赖(包括函数依赖和多值依赖)中不合理的部分,使得一个关系仅描述一个实体或者实体间的一种联系。这一过程必须在保证无损连
34、接性、保持函数依赖性的前提下进行,即确保不破坏原有数据,并可将分解后的关系通过自然联接恢复至原有关系。规范化设计的优点包括可有效地消除数据冗余,理顺数据的从属关系,保持数据库的完整性,增强数据库的稳定性、伸缩性、适应性。通常认为规范化设计存在的主要问题是增加了查询时的连接库表运算,导致计算机时间、空间、系统及运行效率的损失。在大多数情况下,这一问题可通过良好的索引设计等方法得到解决。具体地说,规范化设计的过程就是按不同的范式,将一个二维表不断地分解成多个二维表并建立表之间的关联,最终达到一个表只描述一个实体或者实体间的一种联系的目标。目前遵循的主要范式包括1 NF、 2 NF、3 NF、BCN
35、F、4NF和 5NF等几种;在工程中3NF、BCNF应用得最广泛,本次项目采用 4 NF作为标准。此外,数据库系统对信息的处理、获取、发布、存储等提出了很高的性能要求。主要体现在以下几个方面:一、信息的存储,以及日益膨胀的历史数据。二、信息的检索,各种各样的用户如何从一个数据库中快速的查询到所需的信息。三、数据的完整性和一致性如何保证。随着客户/服务器(Client/Server)技术的成熟和大型关系型数据库(LDBMS)技术的发展,出现了Oracle ,Sybase,Informix,DB2,Ms Sqlserver等一些著名的数据库产品,使得这些问题得到完美的解决。但是,一个好的数据库产品
36、不等于就有一个好的应用系统,如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器端程序的编程和维护的难度,而且将会影响系统实际运行的性能。一般来讲,在一个软件系统分析、设计、测试和试运行阶段,因为数据量较小,设计人员和测试人员往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,随着数据的日益膨胀,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而整个系统也不可避免的形成了一个打补丁工程。依据在软件行业信息化应用中的数据库设计和使用经验,以及对项目建设的理解,提出以下一些设计准则:命名规范原则。不同的数据库产品对对象的命名有不同的要求
37、,因此,数据库中的各种对象的命名、后台程序的代码编写应采用大小写敏感的形式,各种对象命名长度不要超过30个字符,这样便于应用系统适应不同的数据库平台。游标的慎用原则。游标提供了对特定集合中逐行扫描的手段,一般使用游标逐行遍历数据,根据取出的数据不同条件进行不同的操作。尤其对多表和大数据表定义的游标(大的数据集合)循环很容易使程序进入一个漫长的等待甚至死机。在有些场合,有时也非得使用游标,此时也可考虑将符合条件的数据行转入临时表中,再对临时表定义游标进行操作,可使得性能得到明显提高。索引(Index)的使用原则。创建索引一般有以下两个目的:维护被索引列的唯一性和提供快速访问表中数据的策略。大型数
38、据库有两种索引即簇索引和非簇索引,一个没有簇索引的表是按堆结构存储数据,所有的数据均添加在表的尾部,而建立了簇索引的表,其数据在物理上会按照簇索引键的顺序存储,一个表只允许有一个簇索引,因此,根据B树结构,可以理解添加任何一种索引均能提高按索引列查询的速度,但会降低插入、更新、删除操作的性能,尤其是当填充因子(Fill Factor)较大时。所以对索引较多的表进行频繁的插入、更新、删除操作,建表和索引时应设置较小的填充因子,以便在各数据页中留下较多的自由空间,减少页分割及重新组织工作的产生的概率。通常,还要根据算法逻辑关系动态调整数据库信息表的索引。数据的一致性和完整性。为了保证数据库的一致性
39、和完整性,设计人员往往会设计过多的表间关联(Relation),尽可能的降低数据的冗余。表间关联是一种强制性措施,建立后,对父表(Parent Table)和子表(Child Table)的插入、更新、删除操作均要占用系统的开销,另外,最好不要用Identify 属性字段作为主键与子表关联。如果数据冗余低,数据的完整性容易得到保证,但增加了表间连接查询的操作,为了提高系统的响应时间,合理的数据冗余也是必要的。使用规则(Rule)和约束(Check)来防止系统操作人员误输入造成数据的错误是设计人员的另一种常用手段,但是,不必要的规则和约束也会占用系统的不必要开销,需要注意的是,约束对数据的有效性
40、验证要比规则快。所有这些,设计人员在设计阶段应根据系统操作的类型、频度加以均衡考虑。事务的陷阱。事务是在一次性完成的一组操作。虽然这些操作是单个的操作,Oracle数据库能够保证这组操作要么全部都完成,要么一点都不做。正是大型数据库的这一特性,使得数据的完整性得到了极大的保证。数据库性能调整。在计算机硬件配置和网络设计确定的情况下,影响到应用系统性能的因素不外乎为数据库性能和客户端程序设计。而大多数数据库设计员采用两步法进行数据库设计:首先进行逻辑设计,而后进行物理设计。数据库逻辑设计去除了所有冗余数据,提高了数据吞吐速度,保证了数据的完整性,清楚地表达数据元素之间的关系。而对于多表之间的关联
41、查询(尤其是大数据表)时,其性能将会降低,同时也提高了客户端程序的编程难度,因此,物理设计需折衷考虑,根据业务规则,确定对关联表的数据量大小、数据项的访问频度,对此类数据表频繁的关联查询应适当提高数据冗余设计。数据库模实体生成后,应根据应用系统的事物大小、服务器的性能调整数据库服务器的系统参数,一般来讲,有两个系统参数锁(Locks)的数量、内存(Memory)和过程高速缓存(Procedure cache)大小应加以提高,可以提高数据库的操作性能。2.4.4.2基础数据库设计数据库设计是建立数据库及其应用系统的核心和基础,它要求对于指定的应用环境,构造出较优的数据库模式,建立起数据库应用系统
42、,并使系统能有效地存储数据,满足用户的各种应用需求。一般按照规范化的设计方法,常将数据库设计分为若干阶段:需求分析阶段需求分析阶段要在用户调查的基础上,通过分析,逐步明确用户对系统的需求,包括数据需求和围绕这些数据的业务处理需求。通过对组织、部门、企业等进行详细调查,在了解现行系统的概况、确定新系统功能的过程中,收集支持系统目标的基础数据及其处理方法。系统规划阶段系统规划阶段主要是确定系统的名称、范围;确定系统开发的目标功能和性能;确定系统所需的资源;估计系统开发的成本;确定系统实施计划及进度;分析估算系统可能达到的效益;确定系统设计的原则和技术路线等。对分布式数据库系统,还应分析用户环境及网
43、络条件,以选择和建立系统的网络结构。概念设计阶段概念设计阶段要产生反映单位各组织信息需求的数据库概念结构,即概念模型。概念模型必须具备丰富的语义表达能力、易于交流和理解、易于变动、易于向各种数据模型转换、易于从概念模型导出与DBMS有关的逻辑模型等特点。逻辑设计阶段逻辑设计阶段除了要把ER图的实体和联系类型,转换成选定的DBMS支持的数据类型,还要设计子模式并对模式进行评价,最后为了使模式适应信息的不同表示,需要优化模式。物理设计阶段物理设计阶段的主要任务是对数据库中数据在物理设备上的存放结构和存取方法进行设计。数据库物理结构依赖于给定的计算机系统,而且与具体选用的DBMS密切相关。物理设计常
44、常包括某些操作约束,如响应时间与存储要求等。系统实施阶段系统实施阶段主要分为建立实际的数据库结构;装入试验数据对应用程序进行测试;装入实际数据建立实际数据库三个步骤。2.4.4.3中心数据库组成中心数据库是大数据中心的核心数据库,根据项目建设要求包括:信息采集库、综合信息库、规则数据库、元数据库和管理数据库。如下所示:图:中心数据库组成举例中心数据库各库间逻辑关系如下所示。1.信息资源采集库中心信息资源采集库部署在交换信息中心,其数据结构与各部门交换的数据源结构相对应。信息资源采集库的内容来源于各个政务部门业务库,是由各业务库通过数据共享与交换平台汇总形成,它是综合信息数据库的生成来源。如上图
45、所示。2.综合信息数据库综合信息库是基于信息采集库生成的信息数据库。包括将信息采集数据库数据经过比对和整合系统进行比对、梳理形成的如法人和人口基础信息库等,和根据应用需求梳理、汇总形成的支撑各类主题的专业数据库。人口信息基础库与法人基础数据库等的设计来源于部门业务资源,根据部门业务信息资源进行结构设计。3.规则数据库该数据库用于存储数据库应用、维护中的各种规则。包括比对整合系统比对规则信息,比对辅助信息,交换系统各类规则信息等。应用系统的运行必须制定相应的规则,包括用户权限设计、比对策论与方法规则,以及应用的调用规则等。4.元数据库元数据库用于存储对数据项的描述信息。根据国家政务信息资源目录体
46、系(GB/T21063-2007)标准的规定,核心元数据的定义包含6个必选的元数据实体和元数据元素,分别是:信息资源名称:缩略描述政务信息资源内容的标题。信息资源摘要:对资源内容进行概要说明的文字。信息资源提供方:信息资源的完整性、正确性、真实性等负有责任的业务部门的名称和地址信息。信息资源分类:说明共享政务信息资源分类方式及其相应的分类信息。信息资源标识符:信息资源的唯一不变的标识编码。元数据标识符:元数据的唯一标识。此外,配合目录体系建设,此次的企业和人口基础信息建设的核心元数据,还包括6个可选的元数据实体和元数据元素。信息资源发布日期:信息资源提供方发布共享政务信息资源的日期。关键字说明
47、:说明共享政务信息资源的关键字内容及其依据。在线资源链接地址:可以获取共享政务信息资源的网络地址。服务信息:描述政务信息资源提供者所提供的计算机服务功能接口的基本信息。元数据维护方:对元数据内容负责的政务部门的名称和地址信息。元数据更新日期:更新元数据的日期。5.管理数据库管理数据库用于存储问题数据、日志及权限等信息。包括比对过程问题数据;面向安全性的用户管理、权限管理和密码管理;面向可用性的节点管理和状态监控;面向运行管理机制的信息管理。2.4.5、数据处理系统2.4.5.1数据清洗、比对和处理步骤在数据经过数据共享交换平台处理完成之后,针对基础数据的入库还需要经过数据处理方能正式入库,以达到数据的统一和标准化,数据入库流程如下:图:数据入库流程接下来围绕数据比对、清洗及建库来展开介绍。数据处理主要包含两个方面:数据清洗、数据比对、数据远管理、规则管理、数据整合流程管理、作业管理,下面分开展述:数据清洗:按照通用或者指定的清洗规则,针对数据本身属性错误的数据进行过滤,例如:身份证号码位数,只有15位或者18位,其他位数即可认定为身份证号错误,通过过滤规则,即可将这类
限制150内