政务大数据平台建设方案.pdf
《政务大数据平台建设方案.pdf》由会员分享,可在线阅读,更多相关《政务大数据平台建设方案.pdf(142页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一章 需求分析和项目建设的必要性1.1 项目建设目标、内容1.1.1 项目建设目标电子政务公共数据开放共享平台项目建设目标是,依托统一的“云”数据中心建设统一的公共数据开放共享平台。集中机关各部门业务应用进行,制定相关的数据规范和信息交换标准,使机关各部门业务系统依托统一的开放平台进行开发建设。确保部门之间系统之间的互联互通、数据共享,为大数据分析提供数据依据。1.1.2 项目建设内容电子政务公共数据开放共享平台项目建设内容包含:一套标准规范、两个数据门户、四大应用平台、四大基础数据库和一个应用支撑平台。具体建设内容包括:1、一个应用支撑平台为了对需要调用电子政务公共数据开放共享平台信息资源
2、的政府部门应用系统进行有效管理,面向各类电子政务应用,规划建设统一的应用支撑平台,统一标准规范,通过用户管理、应用管理、服务管理等核心组件,可以对接入系统有效管理、实现统一认证及单点登录、统一消息服务。-4- 2、两个数据门户针对政府部门用户建设信息资源政务门户,针对企业、公众用户建设信息资源开放门户。3、四大应用系统建设承载电子政务公共数据汇聚平台、数据治理平台、数据运营平台和数据应用平台。4、四大基础数据库通过电子政务信息资源梳理,制定四大基础数据库的建库、入库和管理规则,建立四大基础数据库管理平台,提供基础库内容管理、数据处理、共享和应用功能。四大基础数据库包括人口库、法人库、经济库和地
3、理库。5、一套标准规范形成标准规范体系,包括管理制度、标准规范、数据标准等。1.2 编制依据1、中办、国办 2006-2020年国家信息化发展战略;2、国办关于促进电子政务协调发展的指导意见;3、国务院促进大数据发展行动纲要;4、国家电子政务总体框架;5、国家电子政务“十二五”规划(工信部规 2011567号) ;6、关于印发“十二五”国家政务信息化工程建设规划的通知( 发改高技 20121202号) ;-5- 7、 GB/T 21063-2007 政务信息资源目录体系8、 GB/T 21062-2007 政务信息资源交换体系9、国家电子政务工程建设项目管理暂行办法10、政府信息公开条例1.3
4、 社会问题和政务目标分析1.3.1 社会问题分析作为世界人口大国,理论上我国数据资源储量极为丰富,但大部分政府数据(例如:交通、社保、税收等),属于结构化数据,距离海量 (volume) 、速度 (velocity)和多样性 (variety)的 3V属性还有一定距离,但从战略角度而言差距并不大。从数据规模来说,政府拥有国内最为庞大的数据储量。政府数据广泛存储于各地、各级政府机关院所等不同单位、不同部门、不同系统甚至不同网络环境中,海量超脱于地理空间的政府数据亟待存储与处理。从数据来源来说,由于各行业、各地采用的法律法规和标准并不统一。传统的电子政务信息系统,仅为满足特定功能而生,数据结构差异
5、性大,大量数据存放于历史遗留应用中,委办局间碎片化、零散化、低效率的数据交互和分析普遍存在,导致政府数据来源极为复杂。从数据质量和价值来说,企业的数据种类单一化程度较高,而政府数据涉及工商、税务、交通、医疗、教育等领域,数据种类繁-6- 多,事关百姓生活的方方面面,数据质量较高,数据的潜在价值十分可观。如上所述,政府数据的特点可以概括为:数据规模大、数据来源和结构复杂、数据价值高但利用率低。政府收集了大量有价值的数据,通过这些数据,可以更好地了解国家资源使用情况,政府开支情况,土地交易和管理情况,这些将不仅强化政府责任,提升治理能力,还能提高资金支出效率,为人民提供更多更好的服务选择。1、政府
6、数据体量越来越大截至 2014 年,中国共有664 个城市, 2852 个行政县, 40446 个行政乡。当前,中国中央和省级政务部门主要业务电子政务覆盖率已经达到70% 。据粗略估算,全国政府大数据加起来相当于数百个阿里巴巴的体量。而随着硬件技术的进步,对于数据采集精度、采集频率、数据存储等能力在增强,使得数据规模仍有提升空间,近几年数据中心的新建和扩容呈现井喷式的发展,这是以硬件基础设施带动的变革,促使软件技术也得到了快速发展。随着数据体量的增长,大数据处理、大数据应用分析的门槛将会逐渐提高。2、多部门协作成为常态化复杂的城市治理问题,对跨部门的协作提出了更高的要求,过去个别部门间存在的职
7、责交叉分散、协调运行不畅等问题。随着“大部制”完善,建立健全了部门间协同运行机制,逐步实现“多个部-7- 门、一个政府”目标。随着部门与部门的边界越来越模糊,政府数据跨部门共享共用已不再是亮点和创新,建立常态化共享机制成为政府大数据建设的入门。3、国家治理不能仅仅依靠政府由于时间和技术的局限性,以往国家治理基本是政府下达指令、向下逐层执行的“开环过程”。如今随着互联网发展,人民对于政府的期望越来越高,国家不仅要在政策出台前广泛征求、准确把握民意;出台后还需要获得执行反馈,并适时调整,政府治理变为下达指令执行反馈的“闭环过程”,需要借助社会各方面力量参与到国家治理过程之中。无论是社会自治还是合作
8、共建,政府数据共享开放都是大前提。4、社会普遍开始重视数据安全和隐私数据如同一把双刃剑,在带来便利的同时也带来了很多安全隐患,随着全球各地用户信息安全事件频出,让人们开始感受到“数据”与生活接触如此紧密,数据泄露可以对个人的生活质量造成极大的威胁。数据安全和隐私保护不仅是公民个人的责任,对采集数据和共享数据的政府单位,也有义务保障数据的安全和隐私,此过程中,政策、技术、意识缺一不可。需严格依照相关规范文件,将安全运营意识渗透到政府数据开放中。1.3.2 政务目标分析1、实现政务公开,打造透明政府-8- 电子政务公共数据开放共享促进政府和公众互动,让政务透明,帮助政府进行社会管理和解决社会难题,
9、大数据时代下,政府是整合开放的平台,是一个大数据共享平台,它建立了公众与政府间的沟通渠道,越来越多的国家和组织利用其开展民意调查,通过在线交互让民众成为政务流程的节点,透明政务,让公众参与到政策制定与执行、效果评估和监督之中,使民众参政议政成为可能。大数据推进政府信息资源进一步开放,政府信息开发利用效率倍增,促进经济社会快速发展。2、实现数据融合,打造智慧政府电子政务公共数据开放共享真正跨越了政府内部协同的鸿沟,大大提高工作效率,降低政府运行成本。其一,政府内部协同除思想理念上的障碍外,技术上也存在一定障碍,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的政府将在技术上使政府内部纵向、横
10、向部门得以流畅协同。其二,由于利用大数据技术,数据获取、处理及分析响应时间大幅减少,工作效率明显提高,同时降低了政府开支。例如,政府利用大数据对社会人群进行细分,对不同人群进行针对性服务和政策施行。3、实现科学决策,打造责任政府电子政务公共数据开放共享提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,越来越多的政府摈弃经验和直觉,依赖电子政务的数据和分析进行决策。现在大数据又超越了传统的数据分析方法,不但是对大数据分析挖掘,对言论、图-9- 表等都可以进行深度挖掘、人工智能。大数据的深入及广泛应用会给政府带来科学和精准的决策支持。4、为* 电子政务提供一个安全可靠的信息资源存
11、储中心对各部门的共享交换的数据资源进行统一的规划管理和应用,建设集约化的数据资源存储中心,从而避免了各部门重复建设工作;同时提高数据安全方面的建设,从硬件设备、网络、信息资源、应用系统、管理平台、数据库等方面的全面保证数据的安全性,并根据用户的不同访问需求、防止恶意入侵、病毒防护、分区域的安全设计,并在应用服务上提供安全检测服务。5、为* 电子政务提供一个高效的应用服务平台*电子政务公共数据开放共享平台的建设,为政府应用系统和信息资源的高效管理和服务提供手段,通过对相关的基础信息、业务信息、服务信息进行管理,实现*电子政务公共数据开放共享平台的信息管理和服务功能。城市级交换共享平台则对各部门的
12、信息资源提供交换共享支撑,以提高信息资源的综合利用水平。通过整合各部门数据信息,建设基础信息库,并提供对外服务,实现*电子政务公共数据开放共享平台的服务功能。6、为* 电子政务提供一个长效和可维护的信息服务体系*电子政务公共数据开放共享平台的建设要对*电子政务体系提供长久的服务,因此在管理和运维上必需配备相应的支撑。这一方面取决于管理制度的完善、管理手段的完备和对管理本身的技术支撑,另一方面,也取决于人员的配备和运维体系的建立。-10- 1.4 业务功能、业务流程和业务量分析1.4.1 用户角色分析*电子政务公共数据开放共享平台的用户分为:领导、各部门、企业单位及社会公众。1.4.1.1 政府
13、领导*电子政务公共数据开放共享平台有价值的数据、行政地图、决策方法和应急进行融合,采用大数据分析技术,有利于各级领导、管理决策人员方便、直观、形象地进行各种分析,从而使统计决策的科学化、人性化、智能化管理走上一个新台阶。1.4.1.2 政府部门可以向 *电子政务公共数据开放共享平台提供数据或使用平台提供的数据;业务部门之间可以通过系统平台交换共享数据;遵循标准规范进行业务系统的建造和改进,可实现业务系统和数据开放共享平台的对接。1.4.1.3 社会公众可以依托 *电子政务公共数据开放共享平台提供的应用服务对公众需求做出快速反应,公众可以更直接广泛的获得政府提供的服务,如证照协同、社保电子传递等
14、。1.4.1.4 企业单位通过*电子政务公共数据开放共享平台提供的应用服务可以方-11- 便企业进行业务级信息查询,并可通过业务协同对企业提供事项审批、信息推送服务。1.4.2 业务功能分析1.4.2.1 数据共享在政府部门内部强调的是共享共用。先把政府部门内部及部门之间数据共享的工作做起来。各级政府都以数据应用为导向,需要什么数据就共享什么数据。部门间的信息共享,综合考虑管理难度和技术难度建议分为三个阶段: “ 条线内部门共享 ” 、“ 平级跨部门共享 ” 、“ 跨层级和跨区域的共享 ” ,通过统一规划,逐步推进的策略,打造部门间信息资源共享共用的新格局。1.4.2.2 数据开放对社会的数据
15、开放,先从方便百姓生活又不是很敏感的数据开始。特别是涉及公共安全、公共利益的数据,提供公共服务的机构或企业有义务在一定前提条件下开放,这样一些可以预警、预防的群体性事件就能够避免。按照社会关注程度、数据量大小和具体实施难度,数据开放建议分为三个阶段: “ 业务统计数据 ” 、“ 少量高频数据 ” 、“ 重点业务数据” 。通过以安全为前提,重点关注优先试点,逐步扩大范围为原则,稳步推行数据服务开放。-12- 1.4.2.3 数据融合政务大数据归根结底,还是要面向行业应用的,需要基于不同的业务部门开展,并和现有平台建立联系。融合应用可以分为 “ 数据融合 ” 、“ 业务融合 ” 、“ 产业融合 ”
16、 三个层次:其中,数据融合是把本单位数据、从其他单位共享的数据,以及互联网等社会相关的数据,相互融合,相互比对,建立融合数据资源中心,统一数据标准和口径。业务融合主要围绕各行业的特定业务场景,比如交通出行、医疗保障、民生服务等领域,建设智慧应用,形成行业业务的决策分析体系,支撑城市运行和城市治理的方方面面。产业融合,随着一大批大数据处理、大数据分析、大数据运营企业的兴起,政府数据将不单单是自建自用,通过建设数据运营平台,数据交易平台等形式,引入社会资本共同参与城市建设和社会治理,实现向集约型、服务型、智慧型政府的转变。-13- *政务大数据交换共享平台建设方案1.4.3 业务流程开 始从 缓
17、冲 区 增 量 数 据 表 中 获 取 人 口 增量 数 据根 据 证 件 类 型 判 断 证 件 号 是否 符 合 规 范否通 过 证 件 号 判 断 该 人 是 否 存在 于 人 口 主 表 中将 该 条 增 量 数 据 插 入 异 常 表 中否是将 人 口 库 【 人 口 增 量 数 据 表 】中 该 人 口 记 录 删 除通 过 【 部 门 业 务 系 统 提 供 字 段 配 置表 】 得 到 该 业 务 系 统 需 采 集 的 字 段且 循 环 这 些 字 段判 断 人 口 库 该 字 段 值 的 来 源是 否 是 该 业 务 系 统将 该 人 口 记 录 插 入 到 【 人 口 基
18、础 信 息 表 】 及 【 专 题 表 】是是否根 据 证 件 号 码 和 类 型 更 新【 人 口 基 础 信 息 表 】 及 【 专题 表 】 的 字 段否判 断 新 采 集 的 字 段 值 是 否 为空否将 该 人 口 记 录 字 段 来 源 插 入 到【 字 段 来 源 表 】判 断 人 口 库 库 该 字 段 值 是 否为 空否否判 断 该 业 务 系 统 的 数 据是是 否 是 业 务 上 的 新 增 ? 否是根 据 证 件 号 码 和 类 型 更 新 【 人 口 基础 信 息 表 】 及 【 专 题 表 】 的 字 段 值是判 断 该 业 务 系 统 是 否 为该 字 段 的 权
19、 威 来 源更 新 【 字 段 来 源 表 】 中 该 字 段的 来 源循 环 人 口 库 需 采 集 该 业 务 系统 的 字 段 是 否 结 束将 人 口 库 【 人 口 增 量 数 据 表 】 中 该人 口 记 录 删 除结 束1.4.4 业务量分析业务量分析可以从平台交互量、每天总用户数(个)、每天每个用户平均执行操作数、高峰时段交互量占全天交互量的百分比、高峰时段持续时间(小时)、高峰时段在线用户数(个)等方面指标进行综合估算。 *互联网大数据分析平台的业务量估算如下表所示:表 3-1 业务量估算序号数据名称平台交互量数据量200(日均)100 1 2 3 每天总用户数(个)每天每个
20、用户平均执行操作数高峰时段交互量占全天交互量的百分比1000 4 60% -14- *政务大数据交换共享平台建设方案序号数据名称数据量4(9:00-11:00,15:00-17:00)60(日均)5 6 高峰时段持续时间(小时)高峰时段在线用户数(个)1.5 信息量分析和预测1.5.1 存储量分析本项目中存储的数据主要包括两大部分:系统网站群的在线行为数据和国内外互联网重点渠道、信息源以及政府网站群的在线内容数据。在线用户行为数据以符合W3C 格式标准的日志形式进行存储。网站内容更新数据直接存到关系型数据库或其他非关系型数据库中。1、在线行为数据存储量网站群的在线行为数据存储主要分为三部分:(
21、1)接收数据,是系统储存的原始数据。(2)结构化数据,将原始数据进行数据清洗和去重后进行结构化后存储。(3)分析数据库,将结构化的数据进行分析预计算后存储。按照本项目需要涵盖 * 系统网站群的 500个网站,每个网站的日平均访问按照 10000个 PV 计算,预计每日需要处理的总的PV 数为 500万。接收数据的测算依据及结论其中接收数据库的主要条目占用空间,如下表所示:单个 PV 所要储存的信息空间大小(字节)访问路径信息1600 -15- *政务大数据交换共享平台建设方案来源路径信息1120 其他信息(会话标识、 Cookie标识、时间信息等)256 汇总2976 单个 Session 所
22、要储存的信息 (1个 Session 大约产生 4PV )访问路径信息512 1120 128 来源路径信息客户端信息( IP、浏览器等)其他信息(会话标识、 Cookie标识、时间信息等)256 汇总2016 单个 Cookie所要储存的信息 (1 个 Cookie大约产生1.25Session) 访问路径信息512 256 768 其他信息( Cookie标识、时间信息等)汇总例如:按照其他同类项目的数据估算,PV 和 Session 数量比为 4:1,Session 和 Cookie的数量比为 1.25 :1。则 500万的 PV 会产生 125 万 的Session 以 及 产 生10
23、0 万 的Cookie, 总 占 据 空 间 为5000000*2976+1250000*2016+1000000*768=18G ,包括索引以及其他表占用的空间之后,约为20G 。原始日志存储到SQL Server 中会采用压缩技术,大小将降为5G 。结论:对于接收数据库,采用了压缩和优化技术后,每500 万PV 至少需要 25G 的储存空间。结构化数据的测算依据及结论* 系统政府网站群监测分析调度系统的结构化数据库和原始数据库存储的数据一致,但是经过对原始数据库的数据去冗余以及结构化,用外键压缩了原来直接存储在各表里的信息,大小会变为原始数据的一半,也就是2.5G。-16- *政务大数据交
24、换共享平台建设方案结论:对于结构化数据库,采用了压缩和优化技术后,每500 万 PV 至少需要 2.5GB的储存空间。分析数据的测算依据及结论* 系统政府网站群监测分析调度系统的分析数据库内容基本是结构化数据库的拷贝,大小与结构化数据库基本一致,也为2.5G。结论:对于“决策支持系统”的分析数据库,采用了压缩和优化技术后,每 500万 PV 至少需要 2.5GB的储存空间。综上所述,在不做任何备份的情况下,每500万的 PV ,需要文件存储空间为: 25GB + 2.5GB + 2.5GB=30G。到 2015年底的存储量为 10.5T, 到 2019年底的存储量为 52.5T,具体测算如下表
25、所示:接收日志明细汇总数据合计875G 单月数据量 (G) 保留周期 ( 月) 25*30=750 2.5*30=62.5 2.5*30=62.5 60 60 60 60 一年内需要存储五年内需要存储9000 45000 750 750 10.5T 52.5T 3750 3750 2、在线内容数据存储量国内外互联网重点渠道和信息源按照本项目需要面向国内外互联网重点渠道和信息源进行在线内容采集爬取,按照覆盖包括主流媒体在内的200个信息源,每个信息源爬取 3 级计算,平均每天可以爬取更新的总的页面数约为30 万 个 , 每 个 页 面 按 照100KB 计 算 , 共 需 要 占 用 的 空 间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 政务 数据 平台 建设 方案
限制150内