欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    智慧城市大数据平台建设方案.docx

    • 资源ID:27177407       资源大小:16.20KB        全文页数:10页
    • 资源格式: DOCX        下载积分:30金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要30金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    智慧城市大数据平台建设方案.docx

    智慧城市大数据平台建设方案 智慧城市大数据平台建设方案 目录 1大数据平台项目建设方案 (4) 1.1大数据平台建设目标与内容 (4) 1.2大数据平台设计 (4) 1.3大数据平台架构 (6) 1.3.1体系架构 (6) 1.3.2 体系特点 (10) 1.3.3大数据处理技术 (11) 1.4 大数据平台功能 (12) 1.4.1系统功能 (12) 1.4.2管理功能 (14) 1.4.3工程性功能 (15) 2关键挑战和应对举措 (16) 2.1关键技术挑战和应对举措 (16) 2.1.1高效分布式数据管理机制 (16) 2.1.2高性能多表实时复杂关联查询 (18) 2.1.3基于云计算平台的分布式SQL解析 (19) 2.2关键工程化挑战和应对举措 (20) 2.2.1系统可维护性 (20) 2.2.2系统可靠性 (21) 2.2.3系统可移植性 (23) 3构建大数据平台的应用 (25) 3.1保障体系与基础设施 (25) 3.1.1整合基础信息资源 (26) 3.1.2搭建城市公共信息平台 (26) 3.2智慧建设与宜居 (26) 3.2.1城市建设管理 (26) 3.2.2城市功能提升 (28) 3.3智慧管理与服务 (28) 3.3.1政务服务 (28) 3.3.2基本公共服务 (29) 3.3.3专项应用 (32) 3.4智慧产业与经济 (38) 3.4.1产业规划 (38) 3.4.2产业升级 (40) 1大数据平台项目建设方案 1.1大数据平台建设目标与内容 建设目标 国家工信部软件服务业司司长陈伟为大数据概括出四方面特征,“首先在于体量大,是一个数据全集的概念,第二是类型多,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中视频数据在目前占到了90%以上的总额;第三要求速度快,需要以秒级为目标进行实时动态处理。最后在于价值密度,由于大量有用和可能没用的数据并存,遍地是金子,又遍地是沙子”,所以大数据的目的就在于从庞大的数据集合中找寻有价值的数据和知识,通过分析挖掘为各行业提供真正的智慧,“可以说21世纪是数据钻出石油的时代。” 我们要将各种系统的各种有用数据汇集起来,通过一个统一的平台管理与分析,这就是大数据平台的最大优势。 本期建设内容 大数据平台的发展是基于云计算平台不断升级并向数据库大数据应用靠拢的一个过程,可更好的适应关系型计算模式,拥有不同结构数据的综合管理、提供同时支持在线分析处理(OLAP)和在线事务处理 (OLTP) 能力以及多存储模式等,会在未来发挥不可估量的作用。 1.2大数据平台设计 大数据平台的设计原则 大数据平台是一种面向大数据应用的云计算数据存储与管理平台,该平台基于关系数据模型,访问方式也是简化版本的SQL语言规范,对SQL语言规范支持度达到80%以上,可管理的数据规模达到万亿条记录级,容量可达到PB 级,同时该平台支持大数据的OLTP(联机事务处理)和OLAP(联机分析处理),数据入库速度到达每秒千兆字节级,数据关联查询响应时间达到秒级,支持自动容错和动态扩展,在平安城市、智能交通、智能电网、互联网数据处理、移动信令处理等领域构建典型应用并进行大规模产业推广。 数据中心建设遵循以下原则: 1)体系架构 ?分布式并行计算、多副本机制、没有单点的高可靠体系架构 ?面向行业应用的软硬件一体化整合 2)系统功能 ?结构化、半结构化、非结构化数据的管理和搜索 ?主流格式机器数据的实时采集、解析、管理和搜索 ?多存储模式 ?高效的分布式SQL解析器 ?支持事务机制 ?实时及用户行为数据的高效管理和分析 ?创新的多检索引擎机制,提供开放的二次开发接口 3)性能指标 ?PB级的海量数据管理 ?海量用户的高并发实时访问(千万级用户、万级并发) ?相对较低的资源消耗 ?充分释放硬件的潜力(多核、大内存等) 4)管理功能 ?大规模部署的自动化和运行状态监控 ?对核心数据管理服务的高可用技术研究与实施 5)工程性功能 ?高性能分布式环境的构建与部署 ?负载均衡分布式环境的构建与部署 1.3大数据平台架构 1.3.1体系架构 如上图所示,大数据平台有多个层次,其中最主要的是数据处理层和数据存储层,数据存储层使用云存储技术,数据处理层包括多个模块,如下图所示: 图4 大数据平台架构 大数据平台的结构可以分为以下几部分: 用户接口:包括DDL JDBC,DML API,DDL Shell,DML Shell,数据导入API 数据接收模块:单条多条记录入库。 索引模块:索引生成。 SQL解析器:对SQL语句解析为一个大数据平台的一个作业。 任务执行器:处理一个大数据平台作业的子任务。 元数据管理器:大数据平台的元数据是在mysql中进行管理的。 (1)用户接口 用户接口主要有四个:JDBC,数据查询API,Shell,数据导入 API。JDBC 主要执行数据的定义操作,即建立数据库、建表、建分区,对数据库、表和分区的删改等;数据查询API主要执行数据查询的SQL语句,暂不支持增删改;数据立方提供友好的shell交互界面,shell支持数据库、表的增删改以及数 据查询的SQL语句;数据导入 API的作用是表记录的单条多条插入,数据库中数据的导入使用sqoop工具。 (2)数据接收模块 该模块支持表的单条和多条记录的插入,通过使用数据导入 API来实现数据的插入,当需要与数据库进行数据交互时,可以使用sqoop工具来进行相关操作,同时也可以使用HDFS的API来直接进行数据文件的导入导出。 (3)索引模块 数据在插入的同时与数据对应的索引也在同时建立,索引是一颗B树,数据插入到内存的同时,索引B树也在生成,当达到设置上限时,数据和索引会刷新到HDFS上成为文件。 (4)SQL解析器 SQL解析器、执行器完成大数据平台查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。 SQL解析器接收从数据查询 API和SHELL传来的SQL语句,同时对SQL进行词法分析、语法分析、编译、优化以及生成查询作业,接着分析所要处理数据的所在位置,根据数据位置切分查询作业形成子任务,然后将子任务发送给数据所在节点的执行器。 (5)任务执行器 每个子节点的任务执行器接收到SQL解析器发来的子任务,随后执行这些子任务,执行完毕将结果传回SQL解析器。 (6)元数据管理 大数据平台将元数据存储在mysql数据库中。大数据平台中的元数据包括,数据库的名字和属性,数据库中的表,表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等等。 3.2.2 数据立方与Hadoop的关系 (1)数据立方与HDFS的关系 大数据平台是建立在 Hadoop上的分布式数据库。大数据平台是一种可以存储、查询和分析在 Hadoop中海量数据的机制。大数据平台的底层存储是架设在HDFS之上,表的数据和索引均是以文件形式存储在HDFS上,所以当前大数据平台中表的数据还不支持删改。 与HDFS集群相对应,大数据平台主节点与NameNode部署在同一个物理节点上,子节点与DataNode部署在同一个物理节点上,在执行SQL查询语句时主节点的SQL解析器会向NameNode发送请求获取相关表的数据文件的元数据信息,SQL解析器生成子任务发给子节点的任务执行器,任务执行器通过数据文件的数据块ID从DataNode获取该数据块在本地磁盘的绝对路径,然后直接读取本地文件。 (2)大数据平台与MapReduce的关系 同时,因为大数据平台的数据存储在HDFS上,因此也允许MapReduce 开发者的开发自定义的MapReduce程序来处理大数据平台中的数据。 1.3.2 体系特点 1)高可靠分布式存储体系架构的构建 数据存储支持分布式架构,满足海量数据存储的高可靠、高可用、大吞吐率等要求,支持POSIX、SHELL流式数据访问、WEB等多种接口,支持简单一致性模型、多副本机制、回收站机制和主节点热备机制。在硬件上支持符合工业标准的服务器,支持IBM、HP、DELL品牌的国际主流服务器整机产品;支持联想、浪潮、曙光、宝德、长城等品牌的国内主流服务器整机产品;在操作系统层面支持主流LINUX系统,例如:CentOS、RedHat、Fedora 、Debian 、Ubuntu、SuSE等。 2)面向行业应用的资源整合 形成将面向金融、电信行业、公共事业等服务器端应用从传统数据库迁移到大数据平台的迁移移植能力,将原系统的数据库、中间件、应用平台以及业务逻辑单元整体迁移到大数据平台上,并针对其应用场景进行优化增强。 3)支持与传统数据库和NoSQL数据库等多种数据库的整合 大数据平台支持跨平台的应用,在自身基于云平台的同时又可以支持传统数据库和NoSQL数据库等多种数据库的嵌入,提供一系列的中间件和软件总线保证云平台与其他数据库的兼容性并提供数据流与指令流的交互接口,同时提供统一的用户界面和编程接口。 这种多系统的整合能够在一个统一平台上处理不同结构数据、支持不同类型应用、支持不同存储模式并提供丰富的对外接口,这种整合可以使存储在不同数据库系统中的不同类型数据的混合关联处理得以实现,可以让各种数据管 理系统扬长避短,最大限度地发挥优势以取得最大效率。 1.3.3大数据处理技术 MapReduce计算架构把运行在大规模集群上的并行计算过程简单抽象为两个函数:Map和Reduce,也就是分解与规约。简单说,MapReduce就是“任务的分解与结果的汇总”。程序将大数据分解为多个数据块由Map函数处理,Reduce把分解后多任务处理产生的中间结果汇总起来,得到最终结果。适合MapReduce处理的任务特征为:待处理的大规模数据集可以切分为多个小的数据集,并且每一个小数据集都可以完全并行地进行处理。 图1介绍了用MapReduce处理大数据集的过程。一个MapReduce操作分为两个阶段:Map阶段和Reduce阶段。 图1 MapReduce处理大数据集的过程 在映射阶段,MapReduce并行计算架构将用户的输入数据切分为M个数据段,每个数据段对应1个Map任务。每一个Map函数的输入是数据段中的键值对集合, Map函数是用户继承MapReduce并行计算架构而编写的,Map 操作调用此函数,输出一组中间结果,即键值对 集合。接下来,按照中间结果集合的K2将中间结果集进行排序,生成一个新的 集合,使得对应同一个K2的所有值的数据都聚集在一起。然后,按照K2的范围将这些元组分割为R个片断,对应Reduce任务的数目。在规约阶段,每一个

    注意事项

    本文(智慧城市大数据平台建设方案.docx)为本站会员(h****)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开