分布式通用数据库实施方案.docx
核心电子器件、高端通用芯片及基础软件产品2022年任务实施方案建议任务名称:通用大数据云计算数据库编制单位:南京云创存储科技有限公司编制日期:二0一三年二月六日目 录一、任务目标和主要内容6(一)任务目标和主要内容简述61、 任务目标62、 主要内容7(二)达到任务目标和内容所需完成的布局或者调整201、产品研发202、成功案例243、市场布局30(三)任务目标与本单位发展战略的关系311、公司发展战略312、公司产品线323、公司长远规划384、本项目在公司发展战略中的位置38二、任务指标与验收方法39(一)任务指标391、技术指标392、工程化指标413、产业化指标47(二)验收方法521、技术验收522、应用验收543、产业化验收54三、任务实施期限及阶段任务分解55(一)任务实施期限55(二)年度任务分解56四、关键挑战和应对举措58(一)关键技术挑战和应对举措581、高效分布式数据管理机制582、高性能多表实时复杂关联查询593、基于云计算平台的分布式SQL解析614、可靠性61(二)关键工程化挑战和应对举措631、系统可维护性632、系统可靠性633、系统可移植性63(三)关键产业化挑战和应对举措63(四)可行性分析631、项目分析632、现有条件分析653、管理水平674、技术水平675、参与人员情况686、财务状况68五、产业化目标及实现措施68(一)目标客户681、需求产生的背景682、典型目标客户69(二)实现措施75(三)竞争力分析751、国外竞争对手分析752、国内相关竞争产品分析81(四)效益分析891、经济效益分析892、社会效益分析893、市场占有率914、对产业链的拉动作用91六、知识产权策略92(一)现有知识产权分析92(二)潜在知识产权壁垒及应对措施971、国际大公司的技术壁垒972、国内主流大数据处理公司的知识产权壁垒1043、应对措施105七、组织实施方式105(一)建议牵头单位及条件1051、建议牵头单位及简介1052、牵头单位条件108(二)建议负责人及条件1181、建议负责人及简介118(三)建议参与和协作单位及条件1211、建议参与协作单位1212、协作单位条件122(四)任务分工及总成124(五)组织管理措施1251、组织架构1252、劳动定员1263、项目管理措施127(六)效益分配128八、经费预算130(一)任务总投资预算130(二)中央资金,地方政府配套,自筹比例130(三)资金概算131(四)牵头单位和参与及协作单位的资金分配132(五)资金投入方式133(六)资金筹措方法133(七)资金管理方法133九、需要的条件135(一)政策条件135(二)市场条件136(三)产业合作条件137十、其他需要说明的问题138一、任务目标和主要内容(一)任务目标和主要内容简述1、 任务目标通用大数据云计算数据库是一种面向大数据应用的云计算数据存储与管理平台,该平台基于关系数据模型,访问方式也是简化版本的SQL语言规范,对SQL语言规范支持度达到80%以上,可管理的数据规模达到万亿条记录级,容量可达到PB级,同时该平台支持大数据的OLTP(联机事务处理)和OLAP(联机分析处理),数据入库速度到达每秒千兆字节级,数据关联查询响应时间达到秒级,支持自动容错和动态扩展,在平安城市、智能交通、智能电网、互联网数据处理、移动信令处理等领域构建典型应用并进行大规模产业推广。该任务主要特点包括:1)体系架构 分布式并行计算、多副本机制、没有单点的高可靠体系架构 面向行业应用的软硬件一体化整合2)系统功能 结构化、半结构化、非结构化数据的管理和搜索 主流格式机器数据的实时采集、解析、管理和搜索 多存储模式 高效的分布式SQL解析器 支持事务机制 实时及用户行为数据的高效管理和分析 创新的多检索引擎机制,提供开放的二次开发接口3)性能指标 PB级的海量数据管理 海量用户的高并发实时访问(千万级用户、万级并发) 相对较低的资源消耗 充分释放硬件的潜力(多核、大内存等)4)管理功能 大规模部署的自动化和运行状态监控 对核心数据管理服务的高可用技术研究与实施5)工程性功能 高性能分布式环境的构建与部署 负载均衡分布式环境的构建与部署 对关键业务数据的实时备份与异地容灾 2、 主要内容 2.1研发通用大数据云计算数据库 通用云数据库的发展是基于云计算平台不断升级并向数据库大数据应用靠拢的一个过程,可更好的适应关系型计算模式,拥有不同结构数据的综合管理、提供同时支持在线分析处理(OLAP)和在线事务处理 (OLTP) 能力以及多存储模式等,会在未来发挥不可估量的作用。2.1.1体系架构1)高可靠分布式存储体系架构的构建 数据存储支持分布式架构,满足海量数据存储的高可靠、高可用、大吞吐率等要求,支持POSIX、SHELL流式数据访问、WEB等多种接口,支持简单一致性模型、多副本机制、回收站机制和主节点热备机制。在硬件上支持符合工业标准的服务器,支持IBM、HP、DELL品牌的国际主流服务器整机产品;支持联想、浪潮、曙光、宝德、长城等品牌的国内主流服务器整机产品;在操作系统层面支持主流LINUX系统,例如:CentOS、RedHat、Fedora 、Debian 、Ubuntu、SuSE等。2)面向行业应用的资源整合 形成将面向金融、电信行业、公共事业等服务器端应用从传统数据库迁移到通用云数据库的迁移移植能力,将原系统的数据库、中间件、应用平台以及业务逻辑单元整体迁移到通用云数据库系统上,并针对其应用场景进行优化增强。3)支持与传统数据库和NoSQL数据库等多种数据库的整合 通用云数据库支持跨平台的应用,在自身基于云平台的同时又可以支持传统数据库和NoSQL数据库等多种数据库的嵌入,提供一系列的中间件和软件总线保证云平台与其他数据库的兼容性并提供数据流与指令流的交互接口,同时提供统一的用户界面和编程接口。 这种多系统的整合能够在一个统一平台上处理不同结构数据、支持不同类型应用、支持不同存储模式并提供丰富的对外接口,这种整合可以使存储在不同数据库系统中的不同类型数据的混合关联处理得以实现,可以让各种数据管理系统扬长避短,最大限度地发挥优势以取得最大效率。2.1.2系统功能1)支持不同种类数据的存储 通用云数据库支持非结构化、半结构化和结构化数据,即支持图形、图像、声音等多媒体信息的大文件和海量小数据文件存储,支持XML、结构化记录和Key/Value键值对的存储,同时支持复杂的结构化多维数据。2)多索引引擎机制 通用云数据库支持传统关系数据库的字段索引,同时也支持半结构化数据和非结构化数据的子字段索引、全文索引(英文单词索引和中文单汉字索引)、人工标记索引和中、英文混合索引等方式。此外,配合数据库的格式化语言,可以对同一字段进行若干种不同的索引,以满足特殊检索的需求。支持基于哈希的索引技术,研发适用于海量数据内容管理的存储与索引技术,实现大数据并行访问与查询。3)支持在线分析处理(OLAP)和在线事务处理 (OLTP) 在处理大数据时,通用云数据库满足一个单表查询或多表关联操作的秒级响应。支持一次返回上百万条以上结果集的海量数据分析查询,支持快速、一致和交互的数据存取,支持基于关系型数据库与多维数据库的混合方式数据分析,支持大量并发用户定期对数据的操作,支持每秒万次的事务操作,支持事务机制的原子性、一致性、孤立性和持续性。4)支持多存储模式 通用云数据库同时拥有列式存储和行式存储执行引擎,同时存储半结构化和结构化数据,综合两者的优势以达到更高的效率。传统数据库使用的是行式存储,其读写方式是以一行记录为单位,从第一列开始,到最后一列结束。行存储的写入是一次完成,对于结构化数据这种写入模式非常适合,但对于大数据,这种写入的效率比较低下,并会产生很多冗余数据,导致带宽占用严重。列存储是一种区别于传统行存储的新型数据库读写模式,列存储完全改变了这种模式,列存储数据在写入之前会把一行记录拆分为单列保存,这种打散数据的保存模式能满足大数据的存储需求。5)支持事务机制 单个逻辑工作单元执行的一系列操作,同步发生数据更新时,系统确保除非事务性单元内的所有操作都成功完成,否则不会永久更新面向数据的资源。通过将一组相关操作组合为一个要么全部成功要么全部失败的单元,可以简化错误恢复并使应用程序更加可靠。系统能够防止数据的不一致的同时,满足原子性、一致性、隔离性和持久性。6)支持大数据挖掘 支持海量数据分析与挖掘云服务应用,以解决分布式分析与挖掘算法、多任务调度、结果展现、服务描述标准等技术问题。提供高效率的、鲁棒的和负载平衡的并行数据预处理、统计分析以支持深度挖掘服务;支持实用、高效的并行数据挖掘算法的并行化策略和算法的扩展;支持数据处理任务调度优化,提出以节点状态、存储能力、活动周期、最近活动时间等为评估要素的负载评估模型和基于进化计算的任务调度算法。2.1.3性能指标1)相对较低的资源消耗 包括了在线分析处理业务时较低的CPU、内存、网络资源的消耗、以及在做大并发在线事务处理业务时较低的磁盘IO占用。2)实时查询秒级响应 系统通过提供支持不同结构数据的索引使得查询能够达到秒级,同时又提供一个支持高并发、高缓存吞吐、高性能分布式的内存缓存系统,该系统将数据源中的数据临时存储于内存中,然后从内存中读取,从而大大提高读取速度。2.1.4管理功能1)大规模部署的自动化和运行状态监控 支持面向高性能分布式环境的云数据库系统自动化批量安装部署、自动化批量配置、集中监控管理。自动化安装部署工具支持升级软件包、管理配置文件、系统服务、cron任务以及添加新的配置、修复错误。 系统运行状态监控采集服务器的各种性能指标数据,并发送到Server端,使网络管理员能实时查看服务器的状态;采集服务器的相关信息,并保存在服务器的日志文件中,供网络管理员进行定期的数据分析。系统运行状态监控支持服务器进程信息的监测、日志文件监控和Web服务器监控。2)对核心数据管理服务的高可用技术研究与实施 支持对核心数据管理服务的高可用保护,采用对核心服务网络心跳、串口心跳和磁盘心跳三层心跳管理机制,实现核心数据管理系统可靠、计算可靠、应用可靠三个层面的可靠性保护;使用分布式内存缓存系统来执行心跳信号交换,多个节点将各自的心跳信息写入分布式内存缓存,同时读取其他节点写入的信息,共享心跳数据。心跳机制最大的好处就是可以防止集群发生脑裂时,集群中的节点会对共享存储中数据造成破坏。2.1.5工程性功能1)高性能分布式环境的构建与部署 面向集分布式结构提供优化支持,支持保证集群内部的全局一致的分布式文件系统视图,支持集群系统内部节点之间的高速通信机制,提供对集群内全部软硬件资源的管理,对外为用户提供统一的数据库管理视图,同时针对高性能计算应用场景,提供多种运行时优化方案。2)负载均衡分布式环境的构建与部署 支持面向负载均衡分布式环境的数据库系统自动化批量安装部署、自动化批量配置、集中监控管理。提供基于IP的负载均衡、基于虚拟机的负载均衡,以及基于传输会话的负载均衡三级层次化的自适应动态负载均衡机制。3)对关键业务数据的实时备份与异地容灾 通过分布式内存缓存系统进行信息交互的技术,将节点的状态信息写入分布式内存缓存,并对所有节点在分布式内存缓存保存的信息进行检测,在节点故障和网络故障时,从正常工作节点中智能选举主控节点,避免高可用系统脑裂发生,保证高可用系统不间断正常运行的功能。实现的服务器之间镜像块设备内容的存储复制解决技术。 数据备份实时、透明、同步、异步,备份技术的核心功能通过Linux的内核实现。集群备份技术还可以实现增量备份,计划备份,远程容灾备份等。2.2 构建适合通用云计算数据库的典型大数据应用 2.2.1综合信息化城市安防工程近年来,伴随着社会生产的迅速发展,很多社会隐患也随之而来,如何使人民的安全得到保障是我们应该重视的问题,如何构建社会主义和谐社会值得有关部门关注。为了解决这些问题,平安城市作为“3111工程”的重要部分被提上日程。一台普通摄像机如果每天连续摄像产生的数据量是5.5个GB,如果是高清的话就要22到44个GB,这个对于任何磁盘容量来说都是太大了。上万台、几十万台的摄像机联网是很不容易的一个事情,还要做到资源共享,无论从海量数据处理的性能、系统的可靠性,还是系统的稳定性都有很高的要求。很多情况是我们国内没有过,甚至在国外都没有做过。2.2.2移动网络信令处理随着通信技术的不断发展,无线网络技术在人们的日常生活中变得日益重要。根据国家工业和信息化部2011年1月份公布的统计信息,截止到1月份,全国移动电话用户达到8.3亿户,其中3G用户达到4705.1万户,相比去年同期分别增长8.1%和2.8倍。通信网络质量将直接影响到人们的工作、生活等方方面面,是企业赖以生存的竞争力与生命力。一直以来,网络优化是通讯公司的重要工作之一。网络优化是一项技术难度大、涉及范围广、人员素质要求较高的工作,并且是一个长期的过程。网络容量的不断发展,网络用户数量的不断增加,网络设备的不断更新给网络优化提出了更高的要求。路测是当前实际网络优化过程中最有效的手段,它可以实现对测试过程中收集的数据进行分析,找出问题所在,不断对系统进行优化,最终达到系统在大业务量时稳定运行的目的。但是由于通信业务的数量和复杂程度的不断加大,海量的路测数据的处理和分析成为制约路测技术的最主要瓶颈。现在很多行业都面临着海量数据的存储和处理,摆在我们面前的是一个非常严峻的考验。2.2.3 智能交通大数据处理 量的传感器7*24小时不停地采集数据,这些海量的数据对传统的数据管理系统造成了巨大的压力,使得人们不得不寻找一种替代方案来解决物联网后台数据的处理问题。 基于物联网的智能交通系统采用先进的数据采集手段、综合的数据出来方法、强大的信息处理平台,结合有效的商业模式,能够有力推动智能交通系统产业的蓬勃发展。 基于物联网技术的智能交通系统实现了交通管理的“动态化、全局化、自动化、智能化”。 2.2.4国家智能电网系统 智能电网系统的用户面广量大、终端数量多、用电环境各、加上远程信道不同、现场安装的终端类型不同,所有这些导致了智能电网系统内采集到的数据结构多样,数量庞大,数据流量变化大,上层业务种类众多,访问请求频繁,急需高效的数据管理系统来支撑。 在本质上,智能电网是大数据在电力上的应用。如能充分利用这些基于电网实际的数据,对其进行深入分析,便可以提供大量的高附加值服务。智能电网系统是国家电网建设中用电环节的重要组成部分,数字化、自动化、互动化的用电环节以及各项营销业务需要来自智能电网系统的有力支撑。2.2.5互联网数据处理 互联网应用的海量数据特性,对数据存储和处理提出了新的挑战。这些挑战概括如下:1) TB级甚至PB级的存储系统,以适应海量数据的需求。2) 良好的扩展性。在不中断服务的情况下,通过简单添置机器或者磁盘存储来扩展系统,满足不断增长的数据和用户群体需求。3) 低时延、高吞吐的存储系统性能。4) 丰富的存储类型,以满足互联网应用中结构化、半结构化甚至非结构化数据的存储需求。5) 灵活简单的并行编程模型进行海量数据处理,隐藏分布式环境下数据分布、容错等复杂性。在这些挑战下,一些传统技术已经开始不能胜任互联网应用的需求。新兴的海量数据存储、处理系统也相继涌现。在接下来的两个部分,文章将从数据存储和数据处理两个角度,讨论传统技术存在的问题,介绍一些新型系统,并分析这些新型系统在解决海量数据存储和处理时遇到的问题以及相应的解决方案。2.2.6医疗信息处理医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。 患者可以通过手机统一查询在不同医院的就诊记录、生化检验结果、处方和收费清单;慢性病患者在家中可以自测血压、血糖等指标并通过无线网络上传到区域医疗数据中心,医生也可以远程分析患者自测数据判断其病情发展;大量的知识和规则从海量数据中自动提取出来,并用来协助社区及基层卫生机构的初级医生对患者作出准确的诊断和用药决策;各个社区居民的医疗数据将会自动汇总,并进行统计分析,用以进行流行病、慢性病的自动筛查、趋势分析和爆发预警,为公共卫生机构制定防治干预计划和行动提供有力的依据和参考;患者的症状、生命体征、检验检测结果、医疗影像、诊断、处方、医嘱、手术、住院和账单等全周期数据将会进行全方位的跟踪和分析,为新药开发、新治疗方案的设计提供支持。 卫生部 “十二五”卫生信息化建设工程规划确定了我国卫生信息化建设路线图,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理5项业务应用,建设健康档案和电子病历2个基础数据库和1个专用网络建设。今后的几年,随着云计算技术的成熟和实用化,大规模区域医疗信息系统和大型数据中心的建立将逐步展开。2.3 产业化推广2.3.1 产业化目标 通过持续的研究开发,形成通用云数据库的各子项目产品系列,满足不同行业的不同需求的产品系列。成为通用云数据库系列产品细分市场的主导产品厂商联盟。 建立完备的市场营销体系和服务体系,实现巨大的经济效益,通过两年的产业化实施,实现产值:3亿元以上,上交税收:3000万元以上,实现利润9000万元以上。通过一年的后续产业化实施,实现产值:8亿元以上,上交税收:3000万元以上。请与47页的表格对应起来,表格数据有错! 通过产品的产业化实施,实现巨大社会效益,云数据库系列产品在技术上达到国际先进水平,保证客户的大数据应用能够稳定运行,用户的海量数据得到可靠存储与高效处理。2.3.2 产业化内容 (1)产品的持续研究开发 根据市场需求不断调整和完善产品功能和性能。 (2)建立市场营销体系 目标拥有180+人的市场推广、销售队伍,这些销售支持全公司代理产品、解决方案产品、服务产品和自有产品的销售。目标拥有500+人的服务交付队伍,这支队伍80%的技术工程师都具有各类专业资质认证,能够很好的为产业化提供售前、售中和售后技术服务。这些销售都有自己的固定客户群体,特别是中国移动、中国联通、国家电网、国家气象局、国家地震局等客户,因此,对于这部分销售,我们的策略是这180+名销售主要对他们已有的客户进行通用云数据库系列产品的推广销售,并制定一定的激励销售政策。 在产业化过程中,我们需要额外建立40人的专业内部销售队伍(Internel Sales),积极拓展面向销售体系的内部销售。 渠道销售与支持体系 (3)建立技术支持与服务体系 南京云创存储及通用云数据库产业化联盟拥有完善的技术服务体系,在全国范围内拥有500+人的技术支持与服务队伍,能够很好的满足通用云数据库产品的售前、售中和售后的技术支持和服务。 (4)行销方式 通用云数据库工程集成与产品行销相结合;行业行销、区域行销、渠道行销相结合。2.3.3产业化实施计划 通用云数据库工程产业化实施过程划分位三个阶段,通过三个阶段的实施实现产业化目标:起跑期、助跑期、腾飞期。 (1)2013年12月:产品基础研发(建设期)结束、进入项目产品的“起跑期”,稳扎稳打起好步。 主要任务有:研发成果知识产权保护、市场推广与销售、技术支持与服务、持续的研究开发。 (2)2022年-2015年,进入项目产品的“助跑期”,不断扩大市场分额,提高产品和品牌的知名度。 主要任务有:将项目成果申请相关专利、产品知名度和市场占有率不断扩大、形成相应的标准规范、取得一定的经济效益和社会效益。 (3)20152016年以后,进入项目产品的“腾飞期”,实现经济效益和社会效益的最大化。 主要任务有:继续研发新品、细分行业市场、积极配合招标方进行项目成果的宣传和推广工作。2.3.4项目实施过程持续研发计划 项目各子项产品基本研发完成,并初步实现产业化后,各子项目将继续进行持续完善研发,形成面向不同行业、不同用户全体的产品线系列。项目管理团队充分认识到要抓住商机,不断的提高市场竞争力,满足市场不断增加的新需求。 在产业化的过程中,为确保系统的竞争力,满足客户不断增加的需求,需要持续不断的研发和完善,不断的学习借鉴国内外云数据库先进水平,不断完善系统功能和性能, 满足客户不断增加的需求。 在产业化过程中的持续研发工作主要涉及:产品质量保证研发;产品客户化研发;产品生命周期维护开发。 (1)现有产品的质量保证 在产品完善开发和产品客户化开发方面,继续不断地完善各子项目产品,不断跟踪市场需求,不断满足用户的需求,调整通用云数据库产品的功能性能布局,形成适应不同用户群体的系列产品;加强产品的质量管理,确保产品安全稳定可靠的运行。 建立测试环境,加大测试力度,确保产业化过程中,不出现任何质量问题或出现问题后能够得到及时响应处理。 (2)产品客户化研发 为满足不同客户的需求,定制开发不同行业的产品线。我们将集中优秀技术人员进行技术攻关,力争在短期内开发完成下一代产品,销售一代,跟踪一代,开发一代,使产品始终保持市场上的技术领先地位。 (3)产品生命周期维系 南京云创存储拥有一套完备的项目产品化、产业化的运作体系,确保项目产品技术质量和生命周期。2.3.5 项目管理 南京云创存储及通用云数据库产业化联盟将紧密结合项目产业化目标,严格参照ISO 9000/ISO 20000/ISO 27000/CMMI/信息系统集成一级资质/涉密信息系统集成甲级资质/安全服务管理资质等管理体系,组建一套高质量、高效的项目管理与实施队伍。通过项目管理实现以下五个方面的目标,从而以优异的工作成绩完成工程。 (1)用户满意(产业化产品的服务客户) 这是项目管理追求的首要目标,如果这个目标没有达到,我们认为这个项目就是失败的。既要满足产业化项目管理部门(工业与信息化部)的技术规范书要求,也要最大限度的满足产业化产品服务客户的要求,让客户满意。 (2)实现系统设计目标、按时完成所有任务 按照每个时期不同的系统设计目标,以及系统定制需求,按时完成所有任务,并达到满意效果。 (3)质量控制 遵循ISO9000质量体系要求,使研发、生产、销售、售后等环节都在质量控制中,确保项目的顺利实施。 (4)降低风险 提前做好对各类风险的预估及预防、预警措施,制定风险补救措施,全方位控制风险、降低风险。 (5)符合预算 严格按照预算实施研发、市场推广等,制定专款专用制度,确保在预算范围内完成项目任务。 (6)沟通协调 建立纵向汇报制度、横向协调制度。定期并及时向上级主管部门汇报项目研发、资金、推广等最新进度,协助上级主管部门对项目的监管;定期并及时与合作单位进行沟通,促进项目更合理、更科学、更高质量的完成。(二)达到任务目标和内容所需完成的布局或者调整 1、产品研发1.1 项目背景2012年11月,南京云创存储科技有限公司推出了独立开发的通用云数据库数据立方,该系统是南京云创存储的专有技术,属于当前流行的大数据处理技术。 当前大数据所面临的问题都源自数据的增长与应对增长的技术矛盾,各个厂商推出的大数据分析产品,基本都是以传统数据库或开源软件为内核,负责为客户提炼价值的终端软件产品。然而对以传统数据库为基础的云数据库来说,它继承了传统数据库的一些缺陷,例如:无法支持较高的入库速度和较大的查询并发等;对于以Hadoop为代表的开源软件来说,还没有做到实时性的查询,没有提供良好易用的管理界面和丰富的用户编程接口。 同类产品的不足之处正是数据立方的优势所在,尤其是当前市场上除数据立方之外尚未有一款产品能够将原有系统嵌入到云平台中,因此对于大数据的管理和处理来说,数据立方的优势明显。 大数据的产生一般是来自于各种的数据终端,例如:手机、PC、POS机、各种传感器等等,并且随着物联网和信息化的发展,各种数据终端会呈现爆炸式增长,而由终端采集的数据更是会以指数级膨胀,因此对这些数据的处理需求会持续增长,而这些增长的数据将明显不同于传统数据,非结构化和半结构化数据的增长速度将远远超过结构化数据,对此将会涌现更多的基于这些数据的离线分析和在线应用,而数据立方前瞻性的架构设计正是针对于此。对于越来越多的被大数据处理问题所困扰的行业而言,数据立方将彻底解决这些问题,数据立方的应用场景将迅速增加,具有广泛的应用前景。 目前,数据立方已经得到了广泛的应用,具体实施的项目有:安防工程(平安城市)、铁通互联网数据分析、中国移动信令共享云平台、山东省用电信息采集系统、山东省公安厅综合信息处理系统、山东省地震局地质信息监控平台等等。1.2 技术条件1)自主知识产权分布式存储cStor2)自主知识产权分布式数据库数据立方DataCube3)自主知识产权多任务调度系统JobKeeper1.3通用大数据云计算数据库的技术架构通用大数据云计算数据库包括了多个模块,如下图所示:通用大数据云计算数据库的结构可以分为以下几部分:用户接口:包括DDL JDBC,DML API,DDL Shell,DML Shell,数据导入 API数据接收模块:单条多条记录入库。索引模块:索引生成。SQL解析器:对SQL语句解析为一个DataCube的一个作业。任务执行器:处理一个DataCube作业的子任务。元数据管理器:DataCube的元数据是在mysql中进行管理的。(1)用户接口用户接口主要有四个:JDBC,数据查询API,Shell,数据导入 API。JDBC主要执行数据的定义操作,即建立数据库、建表、建分区,对数据库、表和分区的删改等;数据查询API主要执行数据查询的SQL语句,暂不支持增删改;数据立方提供友好的shell交互界面,shell支持数据库、表的增删改以及数据查询的SQL语句;数据导入 API的作用是表记录的单条多条插入,数据库中数据的导入使用sqoop工具。(2)数据接收模块该模块支持表的单条和多条记录的插入,通过使用数据导入 API来实现数据的插入,当需要与数据库进行数据交互时,可以使用sqoop工具来进行相关操作,同时也可以使用HDFS的API来直接进行数据文件的导入导出。(3)索引模块 数据在插入的同时与数据对应的索引也在同时建立,索引是一颗B树,数据插入到内存的同时,索引B树也在生成,当达到设置上限时,数据和索引会刷新到HDFS上成为文件。(4)SQL解析器SQL解析器、执行器完成 DataCube查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。SQL解析器接收从数据查询 API和SHELL传来的SQL语句,同时对SQL进行词法分析、语法分析、编译、优化以及生成查询作业,接着分析所要处理数据的所在位置,根据数据位置切分查询作业形成子任务,然后将子任务发送给数据所在节点的执行器。(5)任务执行器每个子节点的任务执行器接收到SQL解析器发来的子任务,随后执行这些子任务,执行完毕将结果传回SQL解析器。(6)元数据管理通用大数据云计算数据库将元数据存储在mysql数据库中。通用大数据云计算数据库中的元数据包括,数据库的名字和属性,数据库中的表,表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等等。下图为通用大数据云计算数据库平台架构:通用大数据云计算数据库平台架构图 虚拟资源层:该层可以是IAAS资源层,也可以是物理资源层,为上层提供物理服务器、虚拟服务器和交换机等计算、存储、网络资源,同时也提供操作系统等系统软件,将文件系统、硬件监控系统等提供给上层使用。 存储层:该层是分布式存储层,一般为一个高可靠、高可用、易扩展和大吞吐率的分布式文件系统,例如HDFS,该系统通过有效组织与管理虚拟资源层的存储资源向上层提供了一个统一的文件系统,使得上层可以访问一个可以存储海量数据的数据池。 通用大数据云计算数据库:该系统将数据存储在分布式文件系统之上,对海量数据进行有效管理和处理,并为上层提供JDBC、ODBC等接口 业务层:通过调用通用大数据云计算数据库的API接口实现业务逻辑,并为应用层提供接口 应用层:调用业务层接口,将查询的结果展现给用户 监控协调层:其中Ganglia和zookeeper来实现对整个系统的实时监控并提供一个全局锁1.4 项目实施过程技术路线我们将本项目分解成四个子项目,有四个专业的团队既分工又协作地进行实施完成。根据各子项目的目标、内容和技术特点,我们将按照各子项目的内在规律形成应对的技术路线,规范有序的实施。各子项目的实施技术路线图如下。1.4.1通用大数据云计算数据库模型研究通用大数据云计算数据库模型研究是云数据库产业的关键支撑,是云数据库技术和产品研发的前提和基础。我们将沿着下列技术路线进行研究工作:(1)传统数据库模型研究;(2)云数据库模式技术体系研究;(3)云数据库模式与传统数据库模式差异化研究;(4)云数据库环境下大数据应用模型研究;(5)云数据库环境下安全管理体系框架研究;(6)云数据库环境下技术体系及关键技术研究; (7)云计算环境下数据库产品体系研究;(8)云计算环境下数据库解决方案研究。云数据库模型研究技术路线图形成下列分项研究报告和主主报告:(1)主报告:o 云数据库下大数据应用解决方案建议报告(2)分项报告:o 传统数据库模型研究报告o 云数据库模式及传统数据库模式差异分析报告o 云数据库模型研究报告o 云数据库模型框架报告o 云数据库模型技术分类及关键技术研究报告o 云环境下数据库产品分类建议报告o 云环境下数据库解决方案建议报告1.4.2通用大数据云计算数据库管理平台Cloud-DB研究开发主要研究和开发任务研究云计算数据库模型体系结构,满足大数据应用,具有较高的系统可靠性,解决从传统数据库到云计算数据库的平滑过渡问题,以支持数据的迁移与上层访问的透明。研究适用于云数据库模型的软件架构,应对大数据环境下的潜在应用节点规模和不断变化的用户负载要求,研发云数据库数据存储组织模式及管理技术,从存储容量、I/O性能、可用性、可管理性、可扩展性及降低能耗等多角度综合考虑,研发可扩展的云数据库恢复软件系统,核心技术和产品研究成果要形成自主知识产权。技术路线我们将沿着下列技术路线进行研究开发工作:(1)云数据库管理体系研究;(2)云数据库存储总体设计;(3)云数据库的模块设计研究;(4)云数据库关键技术研究;(5)云数据库的软件实现;(6)云数据库的产品化;(7)云数据库的产业化。形成并交付下列技术成果:(1)技术研究报告及总结报告o 云数据库管理体系研究报告o 云数据库总体设计报告o 云数据库模块设计报告o 云数据库关键技术研究报告o 云数据库产品化总结报告o 云数据库产业化总结报告(2)可销售的制式产品o 云数据库软件系统o 可以销售的制式产品云数据库云数据库管理平台CloudDB研究技术路线图1.4.3通用大数据云计算数据库测评系统CloudDB-SAS研究开发云数据库系统测评工具CloudDB-SAS研发技术路线图本部分的实施是在对云数据库系统质量测评体系进行研究的基础上,设计出系统组成框架、软件平台框架、硬件平台框架、系统部署框架等,再针对各部分的关键技术进行研究,最后综合各项研究成果开发出对应软件,并进行产品化包装和产业化推广。1.4.4通用大数据云数据库配置管理工具CloudDB-Baseline研发云数据库配置管理工具CloudDB-Baseline研发技术路线图该子项目的主要任务在于将一些传统数据库技术在云计算环境下进一步发展,项目将采用如下的研究路线:“模型架构原型应用再提高”的研发步骤,逐步推进研究工作。主要研发基于云数据库的自动部署配置工具、管理工具以及安全管理工具等。在研究策略上,项目采取“立足已有工作,重点突破,以点带面”的策略,综合、总结现有技术在传统应用模式中的优势,研究关键技术,改进应用模式,丰富云计算环境下数据库技术的提供形式,提高安全服务的整体质量,对关键技术问题进行重点攻关,体现适合本项目目的工具软件。并以该平台为依托,研究在云计算各种示范应用下的真实效果,进行验证、改进、提高核心技术能力和丰富应用模式,克服缺陷和弱点,最终形成可复制、可推广的产品形态。1.5 项目实施过程产品化过程1.5.1产品化实施规范序项目描述1产品名称1. 通用大数据云计算数据库管理平台(Cloud-DB)2. 通用大数据云计算数据库测评系统(CloudDB-SAS)3. 通用大数据云数据库配置管理工具(CloudDB-Baseline)2公司名称云创存储/南大通用3版本控制Version 1.0.04产品研发流程与结果n 开发环境n 源代码体系规整n 编译体系建立n Setup制作环境建立n Setup光盘母盘生成n Setup InstallHelp生成5产品测试流程与结果n 测试指南n 测试环境6产品生成流程与结果n 产品化流程手册n 产品光盘设计与制作n 产品包装盒设计与制作n 包装箱设计与制作n 系统安装手册Install Guiden 用户使用手册User Manualn 产品简要介绍Datasheetn 产品白皮书White papern 产品报价手册List price Bookn 解决方案Solutionn 系统维护手册n 宣传彩页/展板7产品附属件n 拆