大大数据平台方案设计.doc
《大大数据平台方案设计.doc》由会员分享,可在线阅读,更多相关《大大数据平台方案设计.doc(118页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除项目技术方案大数据平台方案设计1.1 需求分析1.1.1 采购范围与基本要求建设XX高新区开发区智慧园区的人口库(12万居民)、法人库(1200家企业)、地理信息库(已建设区域35平方公里的3维电子地图、未建设区域80平方公里的航拍电子地图)、视频库(1000个摄像点)、大数据处理平台、数据管理服务平台。1.1.2 建设内容要求1.1.2.1 人口库人口库的基本信息以公安部门户籍和暂住人口信息为基础,整合人社、计生、民政、教育等多个部门信息资源,建设统一规范的人口库和人口信息服务平台。(1)人口库的内容目录序号信息目录(一级)信息目录(二级)可能
2、的信息源单位1人口基本信息人员信息(常驻)公安局2人员信息(暂住)3户籍成员信息4死亡信息5人员车辆信息驾驶人员信息公安局(交警系统)6机动车信息7电动车信息8社居民区服务信息房主信息房管局、村(居)委会9房屋变动信息10社区党建信息党员信息组织人社局、村(居)委会11培养党员信息12党员流入信息13党员流出信息14社居民区服务信息准生证信息社会发展局15婚前检查信息16孕前检查信息17婚育证信息18节育手术信息19计生处罚信息20卫生信息社区卫生服务机构信息社会发展局21医疗机构信息22医疗资源信息23卫生许可信息24民政信息社会组织信息社会发展局25区域地名信息26最低保障收入人员信息27
3、精准扶贫对象信息村居管理委员会28社保基本信息单位信息组织人社局29参保人员信息30养老保险信息退休待遇信息31转移人员信息32失业信息失业登记和失业保险信息33医疗信息城镇职工基本医疗保险账户信息34门慢信息35定点医疗机构和定点零售药店信息36工伤信息伤残认定信息37劳动能力鉴定信息38工伤待遇信息(2)人口信息服务平台功能需求数据库层:能够安全存储人口库的内容目录中列出的信息内容,对居民、企业、政府提供安全的人口信息服务,为人口大数据分析提供基本数据源。应用支撑层:包括门户框架、数据库维护、报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利
4、用大数据平台的计算能力进行分析,对人口库数据进行数据挖掘与发现,提供有价值的分析结果。应用层:包括人口信息服务、人口专题分析、公共服务等。1.1.2.2 法人库法人库以工商部门的企业信息为基础,整合各参建部门系统中的法人信息,如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息,建成标识统一、结构科学、查询快捷、动态管理的法人信息库。制定与交换平台对应的相关标准、制度和规范管理体系,实现工商局、地税局、国税局、质量技术监督局等法人数据相关业务部门之间的网络互联和业务数据的实时交换与应用。(1)法人库的内容目录序号信息目录(一级)信息目录(二级)可能的信息源单位
5、1企业基本信息股东(投资者)信息工商质监局,企业2法人信息3地址与联系信息4工商注册信息工商登记信息工商质监局5工商变更信息6工商注销信息7工商吊销信息8税务信息税务登记信息税务局9税务注销信息10税务登记验换证信息11企业发票信息12企业经营信息组织架构企业13发展战略14品牌15产品与服务信息16人力资源信息17高端技术和设备18财务报表19资质信息20信用信息21荣誉信息22文化23违规处罚等不良信息(2)法人信息服务平台功能需求数据库层:能够安全存储法人库的内容目录中列出的信息内容,对居民、企业、政府提供安全的法人信息服务,为法人大数据分析提供基本数据源。应用支撑层:包括门户框架、数据
6、库维护、统计与报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对法人库数据进行数据挖掘与发现,提供有价值的分析结果。应用层:包括法人信息服务、法人专题分析、公共服务等。1.1.2.3 地理信息库以国土资源部空间地理数据框架作为基础,采用分布式存储并行计算的技术思路统一搭建地理信息库,再与智慧园区建设涉及的各类专题图层进行融合、关联,实现统一共享,逐渐形成XX高新区权威、丰富的地理信息数据库。要求根据不同信息资源类别,提供数据库表结构设计。地理信息库维护文件主要提供地图基本操作、地图测量、图层控制、空间分析等信息服
7、务功能。地理信息库配置一套高性能GIS工具软件,基于高性能云GIS平台搭建,实现空间数据的统一管理,完成空间数据检查、转换、入库、管理、制图显示、服务发布等一系列空间数据分析处理功能。(1)地理信息库的内容目录序号信息目录(一级)信息目录(二级)可能的信息源单位1电子地图数据三维电子地图:已建设区域30平方公里国土资源部、中标单位测量航拍电子地图:未建设区域60平方公里2地理实体数据建筑、道路、水系、绿地、农田等国土资源部、中标单位测量3三维模型数据已建设区域30平方公里,分等级实现重点城区精细三维模型数据和其它地区简易模型数据中标单位测量、建设4城市部件数据路灯、交通灯、屏显、导示牌、标志性
8、行道树、线缆、地下管网等城管等部门5规划数据规划用地数据规划局6POI数据企业(项目)数据规划局、办公室等(2)地理信息库管理平台功能需求数据处理:格式转换、坐标转换、属性编辑、数据裁切。数据质检:矢量数据检查、栅格数据检查、三维模型数据检查、元数据检查。入库更新:矢量数据入库、影像数据入库、三维模型数据入库、元数据入库。数据输出:矢量数据提取、栅格数据提取。查询浏览:地图浏览、数据加载、SQL查询、空间查询、数据对比浏览、元数据查询。历史数据管理:历史版本数据比较、版本数据提取。系统管理:权限管理、日志管理、备份恢复。1.1.2.4 视频库(1)视频库的内容目录序号信息目录(一级)信息目录(
9、二级)可能的信息源单位1视频视频目录视频监控系统数字摄像装置视频文件2视频特征视频特征文件(2)视频库管理平台功能需求与视频监控系统的接口、视频入库、视频目录管理、视频文件管理、视频特征文件生成、视频检索、视频异常发现等。1.1.2.5 大数据处理平台(1)大数据基础平台提供基础管控、基础服务的大数据基础支撑功能。大数据基础平台要充分利用目前先进的大数据处理技术,保证系统技术的前瞻性和先进性。大数据基础平台要求提供海量数据的采集、存储、计算、接口服务能力;需要满足海量、异构的大数据的存储、共享、开放及分析挖掘方面的要求;需要采用主流的大数据的技术架构,全面满足结构化数据、半构化数据及非结构化数
10、据的存储、处理及计算要求;提供多种数据采集工具,支持多种格式数据采集;提供接口服务,供二次开发应用等。大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。数据采集要求大数据处理平台数据主要来自数据资源中心,包括基础库(人口库、法人库、地理信息库、视频库)数据、主题库(业务数据库)数据和互联网数据,同时也支持其他外部系统数据来源。数据采集系统要求提供多种数据采集工具,支持多种格式数据采
11、集。对于结构化数据、非结构化数据以及网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如ETL、FTP、文件导入导出、关系数据库数据等。分布式存储要求平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布式列式数据库存储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服务节点的存储上,保证数据可靠性和提高读写效率。大数据计算引擎要求离线计算引擎(Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,着力于实时性要求不高的海量数据(TB/PB级别)离线处理。支持并行化、容错、数据分布、负载均衡。离线计算引擎需要
12、具有PB级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力。支持Mapreduce等批量数据分布式计算框架。支持分布式内存计算框架。支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。具备高可靠性,支持主控节点双机,避免单点故障不可恢复。具备高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。 支持离线计算组件界面配置化,可以对配置进行查看和修改,并立刻生效。支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。支持多租户权限管理能力,支持不同用户之间的资源隔离。支持多应用多实例并发同时计算并隔离应用数据
13、和程序的能力。内存计算引擎(Spark):基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。由于中间输出和结果可以保存在内存中,从而不再需要读写分布式文件系统,能更好地适用于数据挖掘与机器学习等需要迭代的算法。支持作业查询预处理调度算法,可以根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。支持审计日志可查询,在管理运维的界面中可以进行内存计算引擎日志的查询。支持相关存储目录规整,对内存计算引擎的数据目录进行规整,修改默认配置,并提供界面上的修改配置的地方。支持配置界面化,能够在管理运维界面上对内存计算引擎的配置进行查看和修改,并能够同步到前台立刻生效。支持通过界面展示
14、性能指标,能够在界面上查看内存计算引擎的性能指标数据。支持on Yarn 等方式,在管理运维界面上安装服务,可以在安装的时候,选择On Yarn等的方式安装。支持内存计算引擎的Master的HA等,可以对内存计算引擎的master角色进行HA等部署,以保证该节点的高可用性。实时计算引擎(例如spark streaming、Storm):实时分布式计算需要提供大吞吐量的实时流式数据处理。要求保证高可靠性的前提下让数据处理更加实时,具备低延时、容错和分布计算特性。采用分布式计算框架提供实时计算服务,可按需扩容。支持高并发低延时的数据处理。计算引擎:支持SPARK STREAMING等实时计算框架、
15、STORM分布式流式计算框架两种计算框架功能。支持对流数据的处理,数据可以建立关联处理。高效处理数据:支持消息的分流、合流、聚合的消息处理。数据按业务分析,可支持不同的应用接入,并对应不同的应用输出计算结果。事件监测:对数据处理低延时,满足事件监控等实时性要求很高的场景。具备高可靠性,支持主控节点双机,具备自动容错能力,避免单点故障不可恢复。支持实时计算组件界面配置化,可以对配置进行查看和修改,配置修改立刻生效。支持实时计算组件性能指标界面可视化,通过界面实时监控实时计算组件性能指标。全文搜索引擎(例如solr)提供丰富的查询语言,同时实现可配置、可扩展并对查询性能进行优化,提供一个完善的功能
16、管理界面。可以实现集中式的配置信息、自动容错、查询时自动负载均衡、自动分发的索引和索引分片和事务日志等多种特色功能。可以对搜索引擎集合进行快照,可以周期、定时创建集合快照,对索引数据进行备份。提供搜索引擎数据切换自动化工具,一键式操作实现搜索引擎数据从一个集群切换到另外一个集群,安全可靠。提供搜索引擎节点扩容数据重分布自动化工具,搜索引擎节点扩容后数据均匀的重分布到新增节点上,负载均匀的分担到各节点上。支持搜索引擎服务自动拉起功能,提高可靠性。除管理平台界面手工停止服务之外的异常服务停止后都会自动拉起,保证服务连续可用。资源管理(例如yarn)资源管理要求能够实现调度和分配集群的内存和计算等资
17、源给上层应用和服务,能够管理运行在集群节点上的任务的生命周期和资源使用,提供静态资源池和动态资源池功能。在多用户运行环境中,能够支持计算额度和访问控制,作业优先级和资源抢占,达到在保障公平的前提下,有效地共享集群资源。支持VIP队列管理,支持根据业务需要指定作业在指定的计算节点上运行,隔离重点任务和普通任务,保障重点任务的物理资源。要求给出详细的设计方案。资源管理能够面向海量数据处理和大规模计算类型的复杂应用提供统一的资源管理和调度。提供通用的并行计算框架,要求兼容批量分布式计算、内存分布式计算、流式计算等多种编程模式。具备高可扩展性,支持作业定点调度,支持优先级高的作业优先分配到资源。能够自
18、动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完成。支持作业定点调度,指定作业在哪些主机上运行,隔离重点任务和普通任务。支持队列增加优先级属性,优先级高的作业优先分配到资源。支持白名单功能,限制客户端向集群的resourcemanager提交作业。支持提交权限,限制无权用户提交作业并运行。支持队列属性修改图形化,在图形化界面中配置新增、修改、删除队列属性。支持队列属性增加“最大作业提交数”属性,在图形化界面中新增“最大作业提交数”属性可配置分布式协作服务(例如Zookeeper)分布式协作服务提供分布式、高可用的协作服务,可以用来构建分布式应用。它能为分布式文件系统、分布式列式数据库
19、、离线计算、资源管理与调度、数据仓库等大数据组件提供重要的功能支撑。在分布式应用中,通常需要分布式协作服务来提供可靠的、可扩展的、分布式的、可配置的协调机制来统一各系统的状态。帮助系统避免单点故障,建立可靠的应用程序。 提供分布式协作服务和维护配置信息。安全管理安全管理能够提供以用户为单位的身份认证和授权,能够对集群数据资源和服务进行访问控制,包括系统用户、应用用户的身份和权限管理,日志管理等。运维管理主机管理:可以对已经添加的主机及其运行状态进行查询,可以对单台主机进行全面监控。通过在已添加主机安装代理,支持通过代理访问计算集群提供相关组件服务和操作。要求给出详细的设计方案。服务管理:对大数
20、据平台包含的各个组件服务提供的管理界面,可对各组件运行状态进行监控,可执行启、停操作;除手动停止服务外,系统监测到服务异常终止时可以自动拉起服务,并可以根据需要打开或关闭自动拉起开关。可对具体角色实例进行管理。为避免应用之间在申请组件服务时相互干扰,提升应用的健壮性和可靠性,应支持相同组件的服务既共享物理资源,又相互独立。要求给出详细的设计方案。告警管理:告警管理功能包括告警查看、阀值设置。监控系统各类异常,在管理界面上实时呈现。支持集群内不同节点差异化告警阈值设置。系统管理:包括系统配置、巡检、备份。其中,系统配置包含版本设置和SNMP设置。巡检功能需要支持自动巡检和手动巡检两种方式。提供备
21、份功能,包含快照和集群间备份。支持服务日志级别动态调整,支持组件配置项快速查找功能,并且用户可以根据需要新增自定义组件配置项。展现界面设计详细展示大数据平台的运行情况。界面展示内容包括主页界面、集群界面、主机管理界面、告警管理界面、安装界面、系统管理界面、日志界面、安全界面等。主页界面:可以整体查看集群的整体运行状况,包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。集群界面:包含服务管理、静态资源池、动态资源池等;其中,服务管理界面提供对大数据平台各组件运行状态进行监控,可执行启、停操作;静态资源池界面和动态资源池界面可对根据服务状态对资源进行静态和动态调整。主机界面:可以查
22、询已添加的主机及其运行状态,也可对单台主机进行全面监控。告警界面:主要包含告警查看和阀值设置。安装界面:包括安装集群、安装主机、安装服务、机架管理、升级服务、升级主机。系统管理界面:包含巡检报告、开关设置、版本设置等内容。日志界面:分为操作日志、系统日志、安全日志。可以按照查询条件对日志进行查询操作,并可对日志可以进行分类、删除、过滤、导出。安全界面:包含部门管理、用户管理、角色管理等。集群部署及监控集群部署与监控能够提供整个云操作系统以及上层应用服务的部署、配置管理以及服务的自检和自举。集群部署:支持自动化的安装部署,使用工具进行自动安装,简单快捷。主要功能包括:集群安装、主机安装、服务安装
23、、服务升级、主机升级、机架管理。运行监控:可以整体查看大数据集群的整体运行状况。包括主机、服务等资源的数量、在线情况;运行负载情况;以及告警信息。同时监控大数据平台各组件运行状态、硬件资源占用情况(硬盘、CPU、内存等)等,如果被监控对象出现异常情况,监控系统就会在相关管理告警页面发出告警通知。(2)大数据多维分析查询系统总体要求大数据多维查询系统要求提供超大数据规模数据查询,支持PB级数据量。针对海量数据可以进行任意维度的密集计算与检索, 支持建立OLAP Cube,提供MOLAP能力。支持高并发、低延时的在线数据应用系统,能够提供高并发的实时计算查询服务, 对于百亿行级别的数据可在亚秒级时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大大 数据 平台 方案设计
限制150内