分布式通用数据库实施方案.pdf
《分布式通用数据库实施方案.pdf》由会员分享,可在线阅读,更多相关《分布式通用数据库实施方案.pdf(140页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1/140核心电子器件、高端通用芯片及基础软件产品核心电子器件、高端通用芯片及基础软件产品20222022 年任务实施方案建议年任务实施方案建议2/140目目录录一、任务目标和主要内容.6(一)任务目标和主要内容简述.61、任务目标.62、主要内容.7(二)达到任务目标和内容所需完成的布局或者调整.181、产品研发.182、成功案例.323、市场布局.37(三)任务目标与本单位发展战略的关系.381、公司发展战略.382、公司产品线.393、公司长远规划.454、本项目在公司发展战略中的位置.45二、任务指标与验收方法.46(一)任务指标.461、技术指标.462、工程化指标.483、产业化指
2、标.54(二)验收方法.551、技术验收.552、应用验收.573、产业化验收.57三、任务实施期限及阶段任务分解.58(一)任务实施期限.58(二)年度任务分解.593/140四、关键挑战和应对举措.61(一)关键技术挑战和应对举措.611、高效分布式数据管理机制.612、高性能多表实时复杂关联查询.623、基于云计算平台的分布式 SQL 解析.644、可靠性.错误!未定义书签。错误!未定义书签。(二)关键工程化挑战和应对举措.651、系统可维护性.652、系统可靠性.663、系统可移植性.68(三)关键产业化挑战和应对举措.70(四)可行性分析.721、项目分析.722、现有条件分析.74
3、3、管理水平.764、技术水平.785、参与人员情况.786、财务状况.78五、产业化目标及实现措施.79(一)目标客户.791、需求产生的背景.792、典型目标客户.79(二)实现措施.85(三)竞争力分析.861、国外竞争对手分析.862、国内相关竞争产品分析.91(四)效益分析.994/1401、经济效益分析.992、社会效益分析.993、市场占有率.1014、对产业链的拉动作用.101六、知识产权策略.102(一)现有知识产权分析.102(二)潜在知识产权壁垒及应对措施.1071、国际大公司的技术壁垒.1072、国内主流大数据处理公司的知识产权壁垒.1143、应对措施.114七、组织实
4、施方式.115(一)建议牵头单位及条件.1151、建议牵头单位及简介.1152、牵头单位条件.118(二)建议负责人及条件.1261、建议负责人及简介.126(三)建议参与和协作单位及条件.错误!未定义书签。错误!未定义书签。1、建议参与协作单位.错误!未定义书签。错误!未定义书签。2、协作单位条件.错误!未定义书签。错误!未定义书签。(四)任务分工及总成.126(五)组织管理措施.1271、组织架构.1272、劳动定员.1283、项目管理措施.129(六)效益分配.130八、经费预算.132(一)任务总投资预算.1325/140(二)中央资金,地方政府配套,自筹比例.132(三)资金概算.1
5、33(四)牵头单位和参与及协作单位的资金分配.134(五)资金投入方式.135(六)资金筹措方法.135(七)资金管理方法.135九、需要的条件.137(一)政策条件.137(二)市场条件.138(三)产业合作条件.139十、其他需要说明的问题.1406/140一、任务目标和主要内容(一)任务目标和主要内容简述(一)任务目标和主要内容简述1、任务目标任务目标通用大数据云计算数据库是一种面向大数据应用的云计算数据存储与管理平台,该平台基于关系数据模型,访问方式也是简化版本的 SQL 语言规范,对SQL 语言规范支持度达到 80%以上,可管理的数据规模达到万亿条记录级,容量可达到 PB 级,同时该
6、平台支持大数据的 OLTP(联机事务处理)和 OLAP(联机分析处理),数据入库速度到达每秒千兆字节级,数据关联查询响应时间达到秒级,支持自动容错和动态扩展,在平安城市、智能交通、智能电网、互联网数据处理、移动信令处理等领域构建典型应用并进行大规模产业推广。该任务主要特点包括:1)体系架构 分布式并行计算、多副本机制、没有单点的高可靠体系架构 面向行业应用的软硬件一体化整合2)系统功能 结构化、半结构化、非结构化数据的管理和搜索 主流格式机器数据的实时采集、解析、管理和搜索 多存储模式 高效的分布式 SQL 解析器 支持事务机制 实时及用户行为数据的高效管理和分析 创新的多检索引擎机制,提供开
7、放的二次开发接口3)性能指标 PB 级的海量数据管理 海量用户的高并发实时访问(千万级用户、万级并发)相对较低的资源消耗 充分释放硬件的潜力(多核、大内存等)7/1404)管理功能 大规模部署的自动化和运行状态监控 对核心数据管理服务的高可用技术研究与实施5)工程性功能 高性能分布式环境的构建与部署 负载均衡分布式环境的构建与部署 对关键业务数据的实时备份与异地容灾2、主要内容主要内容2.1 研发通用大数据云计算数据库研发通用大数据云计算数据库通用云数据库的发展是基于云计算平台不断升级并向数据库大数据应用靠拢的一个过程,可更好的适应关系型计算模式,拥有不同结构数据的综合管理、提供同时支持在线分
8、析处理(OLAP)和在线事务处理(OLTP)能力以及多存储模式等,会在未来发挥不可估量的作用。2.1.1 体系架构体系架构1)高可靠分布式存储体系架构的构建数据存储支持分布式架构,满足海量数据存储的高可靠、高可用、大吞吐率等要求,支持 POSIX、SHELL 流式数据访问、WEB 等多种接口,支持简单一致性模型、多副本机制、回收站机制和主节点热备机制。在硬件上支持符合工业标准的服务器,支持 IBM、HP、DELL 品牌的国际主流服务器整机产品;支持联想、浪潮、曙光、宝德、长城等品牌的国内主流服务器整机产品;在操作系统层面支持主流 LINUX 系统,例如:CentOS、RedHat、Fedora
9、、Debian、Ubuntu、SuSE等。2)面向行业应用的资源整合形成将面向金融、电信行业、公共事业等服务器端应用从传统数据库迁移到通用云数据库的迁移移植能力,将原系统的数据库、中间件、应用平台以及业务逻辑单元整体迁移到通用云数据库系统上,并针对其应用场景进行优化增强。8/1403)支持与传统数据库和 NoSQL 数据库等多种数据库的整合通用云数据库支持跨平台的应用,在自身基于云平台的同时又可以支持传统数据库和 NoSQL 数据库等多种数据库的嵌入,提供一系列的中间件和软件总线保证云平台与其他数据库的兼容性并提供数据流与指令流的交互接口,同时提供统一的用户界面和编程接口。这种多系统的整合能够
10、在一个统一平台上处理不同结构数据、支持不同类型应用、支持不同存储模式并提供丰富的对外接口,这种整合可以使存储在不同数据库系统中的不同类型数据的混合关联处理得以实现,可以让各种数据管理系统扬长避短,最大限度地发挥优势以取得最大效率。2.1.2 系统功能系统功能1)支持不同种类数据的存储通用云数据库支持非结构化、半结构化和结构化数据,即支持图形、图像、声音等多媒体信息的大文件和海量小数据文件存储,支持 XML、结构化记录和Key/Value 键值对的存储,同时支持复杂的结构化多维数据。2)多索引引擎机制通用云数据库支持传统关系数据库的字段索引,同时也支持半结构化数据和非结构化数据的子字段索引、全文
11、索引(英文单词索引和中文单汉字索引)、人工标记索引和中、英文混合索引等方式。此外,配合数据库的格式化语言,可以对同一字段进行若干种不同的索引,以满足特殊检索的需求。支持基于哈希的索引技术,研发适用于海量数据内容管理的存储与索引技术,实现大数据并行访问与查询。3)支持在线分析处理(OLAP)和在线事务处理(OLTP)在处理大数据时,通用云数据库满足一个单表查询或多表关联操作的秒级响应。支持一次返回上百万条以上结果集的海量数据分析查询,支持快速、一致和交互的数据存取,支持基于关系型数据库与多维数据库的混合方式数据分析,支9/140持大量并发用户定期对数据的操作,支持每秒万次的事务操作,支持事务机制
12、的原子性、一致性、孤立性和持续性。4)支持多存储模式通用云数据库同时拥有列式存储和行式存储执行引擎,同时存储半结构化和结构化数据,综合两者的优势以达到更高的效率。传统数据库使用的是行式存储,其读写方式是以一行记录为单位,从第一列开始,到最后一列结束。行存储的写入是一次完成,对于结构化数据这种写入模式非常适合,但对于大数据,这种写入的效率比较低下,并会产生很多冗余数据,导致带宽占用严重。列存储是一种区别于传统行存储的新型数据库读写模式,列存储完全改变了这种模式,列存储数据在写入之前会把一行记录拆分为单列保存,这种打散数据的保存模式能满足大数据的存储需求。5)支持事务机制单个逻辑工作单元执行的一系
13、列操作,同步发生数据更新时,系统确保除非事务性单元内的所有操作都成功完成,否则不会永久更新面向数据的资源。通过将一组相关操作组合为一个要么全部成功要么全部失败的单元,可以简化错误恢复并使应用程序更加可靠。系统能够防止数据的不一致的同时,满足原子性、一致性、隔离性和持久性。6)支持大数据挖掘支持海量数据分析与挖掘云服务应用,以解决分布式分析与挖掘算法、多任务调度、结果展现、服务描述标准等技术问题。提供高效率的、鲁棒的和负载平衡的并行数据预处理、统计分析以支持深度挖掘服务;支持实用、高效的并行数据挖掘算法的并行化策略和算法的扩展;支持数据处理任务调度优化,提出以节点状态、存储能力、活动周期、最近活
14、动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法。2.1.3 性能指标性能指标1)相对较低的资源消耗10/140包括了在线分析处理业务时较低的 CPU、内存、网络资源的消耗、以及在做大并发在线事务处理业务时较低的磁盘 IO 占用。2)实时查询秒级响应系统通过提供支持不同结构数据的索引使得查询能够达到秒级,同时又提供一个支持高并发、高缓存吞吐、高性能分布式的内存缓存系统,该系统将数据源中的数据临时存储于内存中,然后从内存中读取,从而大大提高读取速度。2.1.4 管理功能管理功能1)大规模部署的自动化和运行状态监控支持面向高性能分布式环境的云数据库系统自动化批量安装部署、自动化批量配置
15、、集中监控管理。自动化安装部署工具支持升级软件包、管理配置文件、系统服务、cron 任务以及添加新的配置、修复错误。系统运行状态监控采集服务器的各种性能指标数据,并发送到 Server 端,使网络管理员能实时查看服务器的状态;采集服务器的相关信息,并保存在服务器的日志文件中,供网络管理员进行定期的数据分析。系统运行状态监控支持服务器进程信息的监测、日志文件监控和 Web 服务器监控。2)对核心数据管理服务的高可用技术研究与实施支持对核心数据管理服务的高可用保护,采用对核心服务网络心跳、串口心跳和磁盘心跳三层心跳管理机制,实现核心数据管理系统可靠、计算可靠、应用可靠三个层面的可靠性保护;使用分布
16、式内存缓存系统来执行心跳信号交换,多个节点将各自的心跳信息写入分布式内存缓存,同时读取其他节点写入的信息,共享心跳数据。心跳机制最大的好处就是可以防止集群发生脑裂时,集群中的节点会对共享存储中数据造成破坏。2.1.5 工程性功能工程性功能1)高性能分布式环境的构建与部署11/140面向集分布式结构提供优化支持,支持保证集群内部的全局一致的分布式文件系统视图,支持集群系统内部节点之间的高速通信机制,提供对集群内全部软硬件资源的管理,对外为用户提供统一的数据库管理视图,同时针对高性能计算应用场景,提供多种运行时优化方案。2)负载均衡分布式环境的构建与部署支持面向负载均衡分布式环境的数据库系统自动化
17、批量安装部署、自动化批量配置、集中监控管理。提供基于 IP 的负载均衡、基于虚拟机的负载均衡,以及基于传输会话的负载均衡三级层次化的自适应动态负载均衡机制。3)对关键业务数据的实时备份与异地容灾通过分布式内存缓存系统进行信息交互的技术,将节点的状态信息写入分布式内存缓存,并对所有节点在分布式内存缓存保存的信息进行检测,在节点故障和网络故障时,从正常工作节点中智能选举主控节点,避免高可用系统脑裂发生,保证高可用系统不间断正常运行的功能。实现的服务器之间镜像块设备内容的存储复制解决技术。数据备份实时、透明、同步、异步,备份技术的核心功能通过 Linux 的内核实现。集群备份技术还可以实现增量备份,
18、计划备份,远程容灾备份等。2.2构建适合通用云计算数据库的典型大数据应用构建适合通用云计算数据库的典型大数据应用2.2.1 综合信息化城市综合信息化城市安防工程安防工程近年来,伴随着社会生产的迅速发展,很多社会隐患也随之而来,如何使人民的安全得到保障是我们应该重视的问题,如何构建社会主义和谐社会值得有关部门关注。为了解决这些问题,平安城市作为“3111 工程”的重要部分被提上日程。一台普通摄像机如果每天连续摄像产生的数据量是 5.5 个 GB,如果是高清的话就要 22 到 44 个 GB,这个对于任何磁盘容量来说都是太大了。上万台、几十万台的摄像机联网是很不容易的一个事情,还要做到资源共享,无
19、论从海量数据处理的性能、系统的可靠性,还是系统的稳定性都有很高的要求。很多情况是我12/140们国内没有过,甚至在国外都没有做过。2.2.2 移动网络信令处理移动网络信令处理随着通信技术的不断发展,无线网络技术在人们的日常生活中变得日益重要。根据国家工业和信息化部 2011 年 1 月份公布的统计信息,截止到 1 月份,全国移动电话用户达到8.3亿户,其中3G用户达到4705.1万户,相比去年同期分别增长8.1%和 2.8 倍。通信网络质量将直接影响到人们的工作、生活等方方面面,是企业赖以生存的竞争力与生命力。一直以来,网络优化是通讯公司的重要工作之一。网络优化是一项技术难度大、涉及范围广、人
20、员素质要求较高的工作,并且是一个长期的过程。网络容量的不断发展,网络用户数量的不断增加,网络设备的不断更新给网络优化提出了更高的要求。路测是当前实际网络优化过程中最有效的手段,它可以实现对测试过程中收集的数据进行分析,找出问题所在,不断对系统进行优化,最终达到系统在大业务量时稳定运行的目的。但是由于通信业务的数量和复杂程度的不断加大,海量的路测数据的处理和分析成为制约路测技术的最主要瓶颈。现在很多行业都面临着海量数据的存储和处理,摆在我们面前的是一个非常严峻的考验。2.2.3智能交通大数据处理智能交通大数据处理量的传感器 7*24 小时不停地采集数据,这些海量的数据对传统的数据管理系统造成了巨
21、大的压力,使得人们不得不寻找一种替代方案来解决物联网后台数据的处理问题。基于物联网的智能交通系统采用先进的数据采集手段、综合的数据出来方法、强大的信息处理平台,结合有效的商业模式,能够有力推动智能交通系统产业的蓬勃发展。基于物联网技术的智能交通系统实现了交通管理的“动态化、全局化、自动化、智能化”。2.2.4 国家智能电网系统国家智能电网系统智能电网系统的用户面广量大、终端数量多、用电环境各、加上远程信道不同、现场安装的终端类型不同,所有这些导致了智能电网系统内采集到的数据结13/140构多样,数量庞大,数据流量变化大,上层业务种类众多,访问请求频繁,急需高效的数据管理系统来支撑。在本质上,智
22、能电网是大数据在电力上的应用。如能充分利用这些基于电网实际的数据,对其进行深入分析,便可以提供大量的高附加值服务。智能电网系统是国家电网建设中用电环节的重要组成部分,数字化、自动化、互动化的用电环节以及各项营销业务需要来自智能电网系统的有力支撑。2.2.5 互联网数据处理互联网数据处理互联网应用的海量数据特性,对数据存储和处理提出了新的挑战。这些挑战概括如下:1)TB 级甚至 PB 级的存储系统,以适应海量数据的需求。2)良好的扩展性。在不中断服务的情况下,通过简单添置机器或者磁盘存储来扩展系统,满足不断增长的数据和用户群体需求。3)低时延、高吞吐的存储系统性能。4)丰富的存储类型,以满足互联
23、网应用中结构化、半结构化甚至非结构化数据的存储需求。5)灵活简单的并行编程模型进行海量数据处理,隐藏分布式环境下数据分布、容错等复杂性。在这些挑战下,一些传统技术已经开始不能胜任互联网应用的需求。新兴的海量数据存储、处理系统也相继涌现。在接下来的两个部分,文章将从数据存储和数据处理两个角度,讨论传统技术存在的问题,介绍一些新型系统,并分析这些新型系统在解决海量数据存储和处理时遇到的问题以及相应的解决方案。2.2.6 医疗信息处理医疗信息处理医疗行业产生的数据量主要来自于 PACS 影像、B 超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS 网络存储
24、和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。患者可以通过手机统一查询在不同医院的就诊记录、生化检验结果、处方和14/140收费清单;慢性病患者在家中可以自测血压、血糖等指标并通过无线网络上传到区域医疗数据中心,医生也可以远程分析患者自测数据判断其病情发展;大量的知识和规则从海量数据中自动提取出来,并用来协助社区及基层卫生机构的初级医生对患者作出准确的诊断和用药决策;各个社区居民的医疗数据将会自动汇总,并进行统计分析,用以进行流行病、慢性病的自动筛查、趋势分析和爆发预警,为公共卫生机构制定防治干预计划和行动提供有力的依据和参考;患者的症状、生命体征、检验检测结果、医疗影像
25、、诊断、处方、医嘱、手术、住院和账单等全周期数据将会进行全方位的跟踪和分析,为新药开发、新治疗方案的设计提供支持。卫生部“十二五”卫生信息化建设工程规划确定了我国卫生信息化建设路线图,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理 5 项业务应用,建设健康档案和电子病历2 个基础数据库和 1 个专用网络建设。今后的几年,随着云计算技术的成熟和实用化,大规模区域医疗信息系统和大型数据中心的建立将逐步展开。2.3 产业化推广产业化推广2.3.1 产业化目标产业化目标通过持续的研究开发,形成通用云数据库的各子项目产品系列,满足不同行业的不同需求的产
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 通用 数据库 实施方案
限制150内