科研大数据平台项目.pdf
《科研大数据平台项目.pdf》由会员分享,可在线阅读,更多相关《科研大数据平台项目.pdf(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、科研大数据平台项目科研大数据平台项目技术建议书技术建议书目目 录录1.1.概述概述.错误!未定义书签。.项目背景.错误错误!未定义书签。未定义书签。.需求分析.错误错误!未定义书签。未定义书签。.方案简述.错误错误!未定义书签。未定义书签。.方案价值.错误错误!未定义书签。未定义书签。2.2.设计方案设计方案.错误!未定义书签。.设计原则.错误错误!未定义书签。未定义书签。.系统架构.错误错误!未定义书签。未定义书签。.分布式数据库系统.错误错误!未定义书签。未定义书签。MPP+Share Nothing 架构.错误错误!未定义书签。未定义书签。核心组件.错误错误!未定义书签。未定义书签。高可
2、用.错误错误!未定义书签。未定义书签。高性能在线扩展.错误错误!未定义书签。未定义书签。高性能数据加载.错误错误!未定义书签。未定义书签。OLAP 函数.错误错误!未定义书签。未定义书签。.HADOOP集群.错误错误!未定义书签。未定义书签。Hadoop 企业版.错误错误!未定义书签。未定义书签。HIVE 分布式内存分析引擎.错误错误!未定义书签。未定义书签。HBASE 分布式实时在线数据处理引擎.错误错误!未定义书签。未定义书签。Stream 流处理引擎.错误错误!未定义书签。未定义书签。.服务器虚拟化.错误错误!未定义书签。未定义书签。设计理念.错误错误!未定义书签。未定义书签。系统结构.
3、错误错误!未定义书签。未定义书签。服务器虚拟化系统组成.错误错误!未定义书签。未定义书签。.云管理平台.错误错误!未定义书签。未定义书签。浪潮云海 OS 架构图.错误错误!未定义书签。未定义书签。浪潮云海 OS 实现的功能.错误错误!未定义书签。未定义书签。.爬虫软件.错误错误!未定义书签。未定义书签。建设网络爬虫私有云.错误错误!未定义书签。未定义书签。高效的分布式、协同化数据采集模式.错误错误!未定义书签。未定义书签。爬虫路线规划能力.错误错误!未定义书签。未定义书签。爬虫调度和负荷规划能力.错误错误!未定义书签。未定义书签。极致的开放兼容平台.错误错误!未定义书签。未定义书签。.为什么需
4、要开放的可集成的网页抓取软件.错误错误!未定义书签。未定义书签。.集搜客网络爬虫的开放接口.错误错误!未定义书签。未定义书签。3.3.方案优势方案优势.错误!未定义书签。.浪潮 MPP 数据库优势.错误错误!未定义书签。未定义书签。高性能.错误错误!未定义书签。未定义书签。高性价比.错误错误!未定义书签。未定义书签。高易用性.错误错误!未定义书签。未定义书签。.浪潮 HADOOP优势.错误错误!未定义书签。未定义书签。.浪潮云计算优势.错误错误!未定义书签。未定义书签。运营效率提升.错误错误!未定义书签。未定义书签。服务水平提高.错误错误!未定义书签。未定义书签。实现数据中心的绿色节能.错误错
5、误!未定义书签。未定义书签。分工细化使得终端用户只需专注自身业务.错误错误!未定义书签。未定义书签。降低总体拥有成本(TCO).错误错误!未定义书签。未定义书签。可靠性提高.错误错误!未定义书签。未定义书签。性能强大.错误错误!未定义书签。未定义书签。扩展性好.错误错误!未定义书签。未定义书签。可管理性.错误错误!未定义书签。未定义书签。4.4.推荐配置推荐配置.错误!未定义书签。1.1.概述概述1.1.1.1.项目背景项目背景通过本项目的实施与建设,在以服务科研工作为主导的原则下,基于高性能大数据软硬件设施,构建多样化、专业化、柔性化的科研数据服务应用平台。利用大数据技术,满足不同层级用户的
6、需求,达到改善我校的科学研究环境与学科建设、提升我校的科研管理水平、提升我校针对物流行业的科研服务能力等目标。本项目分阶段实施,初期重点在于建立一个能满足业务需求的基于大数据的计算、存储以及通讯的硬件环境平台和数据管理架构。1.2.1.2.需求分析需求分析要构建多样化、专业化、柔性化的科研数据服务应用平台,现有架构很难承担日益增长的数据分析需求。迫切需要寻求一种全新的系统架构帮助我校满足日常业务及数据分析。并有效利用数据的价值,提高系统安全、系统高可用等。需求分析如下:寻求新的系统架构,从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求。从全局及用户长远利益考虑,规划先进的大数据
7、平台底层架构,满足大数据时代的业务需求。保护用户现有资源,考虑系统现状以及现有资源利用等,在系统建设中,充分考虑现有资源利旧。系统多平台整合,建设统一的底层平台,提高系统安全等保级别,规避系统单点风险。1.3.1.3.方案简述方案简述根据对背景及需求的分析,为了帮助我校能够更好地在大数据时代支撑大规模数据的应用,分别从物理架构及数据架构建设科研大数据平台系统。物理架构:采用虚拟化技术,为客户打造 IaaS 底层系统架构。数据架构:采用与客户习惯使用的 SQL 这种更易于理解的、交互性更好的访问接口,架构需要以 MPP 数据库及计算框架为核心,将 MPP 运算调度引擎完全融入非关系型运算调度框架
8、,实现可以同时调度关系运算和非关系运算的调度引擎,构建统一的结构化信息提取和数据类型转换框架,将非结构化数据映射为关系模型,实现面向关系模型的全数据统一视图,从而平滑的实现 MPP 数据库和 Hadoop 的统一调度和处理,为新型的基础软件平台和上层应用提供数据服务。1.4.1.4.方案价值方案价值弹性扩展采用虚拟化技术做为底层资源抽象技术,为科研大数据平台动态提供基础计算、存储、网络资源,同时运用云平台计算技术为云数据中心提供统一的管理和运维平台,实现资源弹性服务、流转和管理。动态资源分配云计算被认为是分布式处理、并行处理以及网络计算的进一步发展,其使用虚拟机力度方式,根据应用的动态对资源进
9、行增删。快速响应以并行计算为核心,按需调度计算任务分配和计算资源,并提供从数据导入整合处理、计算模型设定到计算结果输出、多形式展现、应用 API 等完整的数据处理服务。高可用采用分布式存储系统,数据互备,快速备份和恢复。支持各种数据处理、计算模型,满足不同领域、不同特点的计算需求。多副本容错,数据安全无忧。数据分析构建大数据存储应用平台,围绕大数据应用构建大数据处理基础软件平台的关键问题是如何解决结构化和非结构化不同类型的数据融合,以及实现不同类型数据处理模式的整合。单一的 MPP 数据库或 Hadoop 产品已经很难满足研究所对结构化和非结构化数据融合的业务需求。应用云云计算并不是一个突兀全
10、新的理念,云计算的快速发展,是需求驱动、技术进步和商业模式转变共同发展和促进的结果。随着我校大规模计算和海量数据存储需求的出现,使得科研大数据平台对 IT 基础设施的需求也随之增长。云计算技术的应用能够给我校在节约投资、节省空间、简化管理、数据高度共享和系统高度可靠等方面提供帮助。因此,本方案的核心价值在于将这两种方式的界限在实际应用部署中打破,形成以全数据处理为核心,垂直整合操作系统、MPP 数据库、Hadoop、统一数据服务的基础软件平台解决方案。2.2.设计方案设计方案2.1.2.1.设计原则设计原则为保证科研大数据平台项目建设的成功,在技术方案中我们主要遵循了以下几个原则:先进性与成熟
11、技术的集合:在设备选型设计中,我们要考虑采用当今业界的主流技术,同时要选用在众多关键领域中已经得到充分验证的产品,以保证系统的更高的可靠性和可用性;高效的可管理性:对于日益复杂的 IT 系统架构,对系统的管理要求越来越重,浪潮所推荐的解决方案整体的设计思想是利于以后的管理;性能价格比:保证充分满足用户的性能的同时,考虑最优的性价比;坚持系统建设投资经济合理性的原则;高可靠性:全冗余设计,避免任何的单点故障,以保证系统的可靠性,同时便于维护,减少计划内停机次数;高安全性:保证系统数据的安全,做到重要数据冗余存储,提供备份、容灾及应急设计;平滑扩展性:基于统一标准设计的硬件平台架构,具有平滑扩展的
12、能力,可在未来方便的根据客户需求增添新的硬件;开放性与标准化:采用标准的技术以保证与其他厂家的产品相兼容;产品利用率:考虑现有设备的使用情况,提高产品的利用率。降低总体拥有成本、提升服务水平、管理系统风险是整个硬件平台方案的设计战略思想。本次设计满足当前阶段应用需求的同时,具备升级扩容能力,继续满足下一阶段的应用需求。2.2.2.2.系统架构系统架构2.3.2.3.分布式数据库系统分布式数据库系统2.3.1.2.3.1.MPP+Share NothingMPP+Share Nothing 架构架构分布式数据库采用完全并行的 MPP+Share Nothing 的分布式扁平架构,这种架构中的每一
13、个节点(Node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。2.3.2.2.3.2.核心组件核心组件分布式数据库产品总共包含三大核心组件,即 GCluster、GCware 和 GNode。GCWare用于各节点GCluster和GNode实例间共享信息,GCluster负责集群调度,每个 GNode 就是最基本的存储和计算单元。GCluster:GCluster 负责 SQL 的解析、SQL 优化、分布式执行计划生成、执行调度。GCWare:GCWare 用于各节点 GCluster 和 GNode 实例间共享信息(包括集群结构,节点状态,节点资源状
14、态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare 对于集群的管理工作是以节点为基本单位的。GNode:GNode 是 GCluster 中最基本的存储和计算单元。GNode 是由 GCWare 管理的一个 8a 实例,每个 GCluster 节点上有一个 GNode 实例运行。GNode 负责集群数据在节点上的实际存储,并从 GCluster 接收和执行经分解的SQL 执行计划,执行结果返回给 GCluster。数据加载时,GNode 直接从集群加载服务接收数据,写入本地存储空间。2.3.3.2.3.3.高可用高可用分布式数据库通过
15、 SafeGroup 组内冗余机制来保证集群的高可用特性:每个 SafeGroup 可提供 1 个或 2 个副本数据冗余;SafeGroup 内数据副本自动同步;复制引擎自动管理数据同步;采用扁平架构,每一个节点都可以充当主控节点,避免了 Master 节点产生的瓶颈以及当 Master 与 Stand-by 宕机产生的整个集群不可用。2.3.4.2.3.4.高性能在线扩展高性能在线扩展分布式数据库具备在线扩展技术:通过 SafeGroup 动态扩展集群节点,实际可扩展到 64 3(192)个节点;每个节点可以处理 100 TB 有效数据,同时提供计算和存储能力;GCware 负责新节点的数据
16、同步。因为浪潮分布式数据库采用高性能单节点的 MPP 扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。2.3.5.2.3.5.高性能数据加载高性能数据加载数据加载功能作为浪潮分布式数据库的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。分布式数据库支持数据高效并行加载,数据加载速度随节点的扩展而呈现线性增加。集群加载采用 C/S 架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载
17、服务接收数据入库并保存到本地磁盘。2.3.6.2.3.6.OLAPOLAP 函数函数分布式数据库提供 OLAP 函数,用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。2.4.2.4.HadoopHadoop 集群集群Hadoop 技术给客户提供稳定的、可靠的、易用的大数据设计架构,其组件包括::Hadoop 企业版,HIVE 分布式内存分析引擎,HBASE 分布式实时在线数据处理引擎和Stream 流处理引擎。其特点如下:2.4.1.2.4.1.Ha
18、doopHadoop 企业版企业版Hadoop 企业版具有高模块化和松耦合的五层架构,针对不同的应用领域通过组件之间的灵活组合与高效协作来提供定制化的支撑。数据存储层:基于 HDFS 的大数据存储和在线服务体系,支持 Erasure Code,在副本数降低至倍的情况下,提高了可靠性,可同时容忍四个数据块丢失,支持可靠存储 TB 级到数十 PB 级的数据量。资源管理层:缺省采用下一代资源管理框架 YARN 进行资源的分配和调度,支持同时运行多个计算框架。计算引擎层:采用 Map/Reduce 2 完成大部分离线批处理计算任务。数据分析与挖掘层:支持离线批量 SQL 统计,支持 R 语言以及机器学
19、习算法库 Mahout。数据集成层:Sqoop 支持从 DB 到 Hadoop 的数据迁移,Flume 支持从日志系统采集数据。2.4.2.2.4.2.HIVEHIVE 分布式内存分析引擎分布式内存分析引擎HIVE 内存分析引擎提供大数据的交互式 SQL 统计和 R 语言挖掘能力。它具有以下一些特点:高性能:HIVE 支持将二维数据表缓存入独立的分布式内存(或 SSD)中,建立列式存储、分区/分块和索引,采用改进后的 Apache Spark 作为执行引擎,SQL 执行性能比 ApacheHadoop/Hive 快 10100 倍左右。更强的 SQL 支持:HIVE 同时兼容 Oracle P
20、L/SQL 和 HiveQL 语法,自动识别不同语法,支持存储过程和函数,支持常用 Oracle 扩展函数。完整的 SQL 支持帮助用户平滑地从原有关系数据库迁移到大数据平台。更强的统计分析能力:用户可以通过 RStudio 或者 R 命令行访问存储在分布式内存中的数据,R 语言中数千个统计算法可以和浪潮 HIVE 提供的分布式并行数据挖掘算法交替混合使用,为各行业进行大数据挖掘提供了易用而强大的分析工具。支持广泛的 BI 和报表工具:HIVE 可以和常用的 BI 工具对接,包括 Tableau,SAP Business Objects,OracleOBIEE 等,用户无需编程就可以方便地为大
21、数据创建美丽的报表,通过浪潮 HIVE 提供的高速大数据统计分析能力提高决策效率;高扩展能力:Inceptor 可以随着集群规模的扩展,线性扩展处理能力,可以支持从GB 到数百TB 的数据处理。2.4.3.2.4.3.HBASEHBASE 分布式实时在线数据处理引擎分布式实时在线数据处理引擎HBASE 实时在线数据处理引擎以 Apache HBase 为基础,是企业建立高并发的在线业务系统的最佳选择。它有以下特点:多种数据类型支持:HBASE 支持从 GB 到数十 PB 数据的处理,支持广泛的数据类型,包括对结构化记录、半结构化文本、图数据、非结构化数据(图片、音频、二进制文档等)的存储、搜索
22、、统计和分析。高速数据处理能力:HBASE 支持高速的数据检索、搜索和统计;根据索引进行检索的延时在数毫秒到数百毫秒量级;支持上亿的并发用户同时进行数据插入、修改、查询和检索;支持对文本建立增量全文索引并且支持秒级的全文关键字搜索。高效 OLAP 和批量统计:HBASE 为 HIVE 引擎提供高效数据扫描接口,通过HIVE 的扩展 SQL 语法,充分利用浪潮 HBASE 的内部数据结构以及全局/辅助索引进行 SQL 执行加速,可以满足高速的 OLAP 数据分析应用需求;同时也支持高速的 SQL 离线批处理,性能接近于存储在HDFS 上的相同数据的统计。高效图计算:HBASE 提供构造图形的 A
23、PI,帮助用户构造由上亿顶点组成的复杂大图,同时提供专有的高效图算法,包括关联网络的高速分析。2.4.4.2.4.4.StreamStream 流处理引擎流处理引擎Stream 实时流处理引擎以 Spark Streaming 为基础。Spark Streaming 提供了强大的流计算(Streaming)表达能力,支持 DAG(有向无环图)计算模型;而 Hadoop类的批处理系统只能通过外围组件连接多个批次的作业完成复杂多阶段作业处理,系统复杂而低效。Streaming 中的复杂应用逻辑以 DAG 形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以 Pipel
24、ine 方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到 HBase 等存储集群、告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控、反作弊、实时报表系统等业务。Streaming 支持 Kafka,Flume 等常见消息队列或采集工具。2.5.2.5.服务器虚拟化服务器虚拟化2.5.1.2.5.1.设计理念设计理念浪潮云海服务器虚拟化系统是浪潮云计算解决方案的核心基础,主要负责完成底层物理资源的虚拟融合、按需分配与高效管理,可以显著提高资源交付的敏捷性和灵活性,提升资源的使用效率,为上层业务提供不
25、间断地资源保障与可伸缩的资源供给。浪潮云海服务器虚拟化系统为计算、存储和网络提供了完整的虚拟化解决方案,支持资源的灵活分配、动态组合、在线调整与智能调度,并以虚拟机或虚拟集群的形式将最终资源呈现给用户。该系统既可以单独使用,也可以配合浪潮云计算管理平台来构建更大范围的云数据中心或者 IaaS 系统,同时本系统还提供了开放接口,支持二次开发,方便与其他管理平台整合。在设计理念上,整个系统遵循了以下几个原则:命令查询职责分离(CQRS)CQRS 原则基于一个简单的事实:资源(对象)的行为只有两种,即命令(Command)和查询(Query)。命令可以改变资源的状态,而查询不会。基于这一原则,系统可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 科研 数据 平台 项目
限制150内