(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc
《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc》由会员分享,可在线阅读,更多相关《(大数据资料)H3C DataEngine MPP Cluster技术白皮书.doc(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、(大数据资料)H3C DataEngine MPP Cluster技术白皮书H3C DataEngine MPP Cluster技术白皮书杭州华三通信技术有限公司2023年10月目 录1DataEngine MPP Cluster产品简介11.1产品简介11.2产品技术特点11.3产品功能简介22DataEngine MPP Cluster产品架构33DataEngine MPP Cluster产品平台和指标43.1支持的操作系统和平台43.2硬件环境43.3技术指标44DataEngine MPP Cluster核心技术64.1MPP + Shared Nothing架构64.2核心组件64
2、.3高可用74.4高性能扩展能力84.5高性能数据加载94.6OLAP函数104.7行列混合存储105DataEngine MPP Cluster工具115.1客户端工具115.1.1企业管理工具115.1.2监控系统工具115.2备份/恢复工具115.3gcadmin工具125.4数据重分布工具125.5数据抽取及加载工具125.6GCMonit监控工具135.7DB-Link与透明网关135.8Hadoop 导入导出工具146DataEngine MPP Cluster开发接口146.1DataEngine MPP Cluster ODBC146.2DataEngine MPP Clust
3、er JDBC156.3DataEngine MPP Cluster ADO.NET156.4DataEngine MPP Cluster C API16杭州华三通信技术有限公司II1 DataEngine MPP Cluster产品简介1.1 产品简介H3C大规模分布式并行数据库集群系统,简称:H3C DataEngine MPP Cluster,它是在DataEngine列存储数据库基础上开发的一款Shared Nothing架构的分布式并行数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统
4、。1.2 产品技术特点DataEngine MPP Cluster具备以下技术特征:1) 低硬件成本:完全使用x86架构的PC Server,不需要昂贵的Unix服务器和磁盘阵列;2) 集群架构与部署:完全并行的MPP + Shared Nothing的分布式架构,采用Non-Master部署,节点对等的扁平结构;3) 海量数据分布压缩存储:可处理PB级别以上的结构化数据,采用hash分布、random存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少120倍,并相应地提高I/O性能;4) 数据加载高效性:基于策略的数据加载模式,集群整体加载速度可达2TB
5、/h;5) 高扩展、高可靠:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;6) 高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;7) 高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于300用户;8) 行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;9) 标准化:支持SQL92标准,支持C API、ODBC、JDBC、ADO.NET等接口规范。1.3 产品功能简介功 能描 述结构化查询语言符合SQL 92标准,支持CREATE、ALTER、DROP等
6、DDL语法,支持SELECT、INSERT、UPDATE、DELETE、MERGE等DML语法,支持单表,多表联合查询数据类型INT、TINYINT、SMALLINT、BIGINT、DECIMAL、FLOAT、DOUBLE数值数据类型CHAR、VARCHAR、TEXT字符数据类型DATE、TIME、DATETIME、TIMESTAMP日期类型BLOB二进制数据类型数据库对象提供了数据库,表,索引,视图,存储过程,自定义函数等常用数据库对象的创建,修改和删除操作,支持数据库用户的创建,删除操作,以及用户权限的分配与回收行列混合存储基于创建的物理表,可以实现行存列的创建,修改和删除图形化工具提供了
7、企业管理工具和集群监控工具。接口符合并支持C API、ODBC、JDBC、ADO.NET等接口规范外围工具提供数据加载、集群备份/恢复、数据重分布等外围工具杭州华三通信技术有限公司 - 16 -2DataEngine MPP Cluster产品架构图 01 DataEngine MPP Cluster系统架构图3 DataEngine MPP Cluster产品平台和指标3.1 支持的操作系统和平台支持如下的操作系统和平台:64位Linux 系列 (CentOS、Red Hat 、SUSE)3.2 硬件环境1) 支持基于x86_64的标准PC服务器;2) 支持本地存储(SATA、SAS、SSD
8、 etc);3) 支持阵列部署(SAN、NAS);4) 支持SSD、Flash存储介质作为二级I/O缓存;5) 支持千兆、万兆 Ethernet网络;6) 支持InfiniBand网络。3.3 技术指标技术指标描 述集群节点的数据库实例的大小10TB数字精度65表的个数每个数据库 65536每个表中列的个数2000每个表中行的个数247 表中一行的内部长度300000字节一个INTEGER类型列的长度8字节日期类型列中表示年的位数4位用户名包含字符的个数16字符CHAR类型列的长度255字符BLOB列的长度32K字节VARCHAR类型列长度32K字节行存列的长度32KB数据库名长度64字符表名
9、长度56字符列名长度64字符索引名长度64字符别名长度255字符4 DataEngine MPP Cluster核心技术4.1 MPP + Shared Nothing架构DataEngine MPP Cluster采用完全并行的 MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。图 41 Shared Nothing + MPP 架构示意图4.2 核心组件DataEngine MPP Cluster产品总共包含三大核心组件,即GCluster、GCware和GNod
10、e。GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。GCluster:GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。GCWare:GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。GNode:GNode是GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个DataEngine
11、MPP实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。GCMonit:GCMonit用于定期监测DataEngine MPP Cluster服务程序的运行状态, 一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。4.3 高可用DataEngine MPP
12、Cluster通过SafeGroup组内冗余机制来保证集群的高可用特性:1) 每个SafeGroup可提供1个或2个副本数据冗余;2) SafeGroup 内数据副本自动同步;3) 复制引擎自动管理数据同步。图 42 SafeGroup高可用性管理示意图4.4 高性能扩展能力DataEngine MPP Cluster具备高性能扩展能力:1) 通过SafeGroup 动态扩展集群节点;2) 每个节点可以处理10TB有效数据,同时提供计算和存储能力;3) GCware 负责新节点的数据同步。图 43 DataEngine MPP Cluster扩展技术示意图因为DataEngine MPP Cl
13、uster采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。图 44 DataEngine MPP Cluster高性能高扩展示意图4.5 高性能数据加载数据加载功能作为DataEngine MPP Cluster的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下发;各节点调用本地的集群加载服务接收数据入库并保存到本地
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据资料H3C DataEngine MPP Cluster技术白皮书 数据资料 H3C Cluster 技术 白皮书
限制150内