(大数据资料)H3C DataEngine MPP Cluster技术白皮书.pdf
《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.pdf》由会员分享,可在线阅读,更多相关《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.pdf(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司IH3CH3C DataEngineDataEngine MPPMPP ClusterCluster技术白皮书技术白皮书杭州华三通信技术有限公司2021年5月第 1 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司II目 录1DataEngine MPP Cluster产品简介.11.1产品简介.11.2产品技术特点.11.3产品功能简介.22DataEngine MPP Cluster产品架构.33DataEngine MPP
2、 Cluster产品平台和指标.43.1支持的操作系统和平台.43.2硬件环境.43.3技术指标.44DataEngine MPP Cluster核心技术.64.1MPP+Shared Nothing架构.64.2核心组件.64.3高可用.74.4高性能扩展能力.84.5高性能数据加载.94.6OLAP函数.104.7行列混合存储.105DataEngine MPP Cluster工具.115.1客户端工具.115.1.1企业管理工具.115.1.2监控系统工具.115.2备份/恢复工具.115.3gcadmin工具.125.4数据重分布工具.125.5数据抽取及加载工具.125.6GCMon
3、it监控工具.135.7DB-Link与透明网关.135.8Hadoop 导入导出工具.146DataEngine MPP Cluster开发接口.146.1DataEngine MPP Cluster ODBC.146.2DataEngine MPP Cluster JDBC.156.3DataEngine MPP Cluster ADO.NET.156.4DataEngine MPP Cluster C API.16第 2 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -1-1 1DataEngineDataEngin
4、e MPPMPP ClusterCluster产品简介产品简介1.11.1 产品简介产品简介H3C大规模分布式并行数据库集群系统,简称:H3C DataEngine MPP Cluster,它是在DataEngine列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。1.21.2 产品技术特点产品技术特点DataEngine MPP Cluster具备以下技术特征:1)低硬件成本:完全使用x86架构的PC Server,不需
5、要昂贵的Unix服务器和磁盘阵列;2)集群架构与部署:完全并行的MPP+Shared Nothing的分布式架构,采用Non-Master部署,节点对等的扁平结构;3)海量数据分布压缩存储:可处理PB级别以上的结构化数据,采用hash分布、random存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少120倍,并相应地提高I/O性能;4)数据加载高效性:基于策略的数据加载模式,集群整体加载第 3 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -2-速度可达2TB/h;5)高扩展、高可靠
6、:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;6)高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;7)高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于300用户;8)行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;9)标准化:支持SQL92标准,支持C API、ODBC、JDBC、ADO.NET等接口规范。1.31.3 产品功能简介产品功能简介功 能描 述结构化查询语言符合SQL 92标准,支持CREATE、ALTER、DROP等DDL语法,支持
7、SELECT、INSERT、UPDATE、DELETE、MERGE等DML语法,支持单表,多表联合查询数据类型INT、TINYINT、SMALLINT、BIGINT、DECIMAL、FLOAT、DOUBLE数值数据类型CHAR、VARCHAR、TEXT字符数据类型DATE、TIME、DATETIME、TIMESTAMP日期类型BLOB二进制数据类型数据库对象提供了数据库,表,索引,视图,存储过程,自定义函数等常用数据库对象的创建,修改和删除操作,支持数据库用户的创建,删除操作,以及用户权限的分配与回收行列混合存储基于创建的物理表,可以实现行存列的创建,修改和删除图形化工具提供了企业管理工具和集
8、群监控工具。接口符合并支持C API、ODBC、JDBC、ADO.NET等接口规范第 4 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -3-功 能描 述外围工具提供数据加载、集群备份/恢复、数据重分布等外围工具第 5 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -4-2 2DataEngineDataEngine MPPMPP ClusterCluster产品架构产品架构图 0-1 DataEngine MPP Cluster系统架构图第 6 页
9、共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -5-3 3 DataEngineDataEngine MPPMPP ClusterCluster产品平台和指标产品平台和指标3.13.1 支持的操作系统和平台支持的操作系统和平台支持如下的操作系统和平台:64位Linux 系列(CentOS、Red Hat、SUSE)3.23.2 硬件环境硬件环境1)支持基于x86_64的标准PC服务器;2)支持本地存储(SATA、SAS、SSD etc);3)支持阵列部署(SAN、NAS);4)支持SSD、Flash存储介质作为二级I/O缓存;
10、5)支持千兆、万兆 Ethernet网络;6)支持InfiniBand网络。3.33.3 技术指标技术指标技术指标描 述集群节点的数据库实例的大小10TB数字精度65表的个数每个数据库 65536每个表中列的个数2000每个表中行的个数247 表中一行的内部长度300000字节一个INTEGER类型列的长度8字节日期类型列中表示年的位数4位用户名包含字符的个数16字符第 7 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -6-技术指标描 述CHAR类型列的长度255字符BLOB列的长度32K字节VARCHAR类型列长度32
11、K字节行存列的长度32KB数据库名长度64字符表名长度56字符列名长度64字符索引名长度64字符别名长度255字符第 8 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -7-4 4DataEngineDataEngine MPPMPP ClusterCluster核心核心技术技术4.14.1 MPPMPP +SharedShared NothingNothing架构架构DataEngine MPP Cluster采用完全并行的 MPP+Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独
12、立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。图 4-1 Shared Nothing+MPP 架构示意图4.24.2 核心组件核心组件DataEngine MPP Cluster产品总共包含三大核心组件,即GCluster、GCware和GNode。GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。GClusterGCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。第 9 页 共 19 页(大数据资料)H3C DataEngine MPP Cl
13、uster技术白皮书杭州华三通信技术有限公司 -8-GCWareGCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNodeGNode:GNode是GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个DataEngine MPP实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL
14、执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。GCMonitGCMonit:GCMonit用于定期监测DataEngine MPP Cluster服务程序的运行状态,一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。4.34.3 高可用高可用DataEngine MPP Cluster通过SafeGroup组内冗余机制来保证集群的高可用特性:1)每个SafeGroup可提供1个或2个副本数据冗余
15、;2)SafeGroup 内数据副本自动同步;3)复制引擎自动管理数据同步。第 10 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -9-图 4-2 SafeGroup高可用性管理示意图4.44.4 高性能扩展能力高性能扩展能力DataEngine MPP Cluster具备高性能扩展能力:1)通过SafeGroup 动态扩展集群节点;2)每个节点可以处理10TB有效数据,同时提供计算和存储能力;3)GCware 负责新节点的数据同步。图 4-3 DataEngine MPP Cluster扩展技术示意图因为DataEng
16、ine MPP Cluster采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。第 11 页 共 19 页(大数据资料)H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司 -10-图 4-4 DataEngine MPP Cluster高性能高扩展示意图4.54.5 高性能数据加载高性能数据加载数据加载功能作为DataEngine MPP Cluster的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。集群加载采用C/S架构,包括数据分发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据资料H3C DataEngine MPP Cluster技术白皮书 数据资料 H3C Cluster 技术 白皮书
限制150内