云数据采集中心及大数据计算平台建设方案.pdf
《云数据采集中心及大数据计算平台建设方案.pdf》由会员分享,可在线阅读,更多相关《云数据采集中心及大数据计算平台建设方案.pdf(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、CC 云数据采集中心及大数据计算平台建设方案成都中蓝信息技术有限责任公司联系 QQ:1280986324,欢迎探讨!目录1 引言.51.1 项目背景 .51.2 项目目标 .51.3 建设原则 .61.4 参考规范 .71.5 名词解释 .92 云数据采集中心.10 2.1 需求概述 .10 2.2 总体设计 .13 2.3 核心技术及功能 .18 2.3.1 分布式文件存储技术.18 2.3.2 分布式并行计算技术.27 2.3.3 分布式数据库技术.31 2.3.4 负载均衡.34 2.3.5 数据采集.39 2.3.6 开放平台.45 2.4 部署方案 .48 2.5 实施计划 .50
2、联系 QQ:1280986324,欢迎探讨!3 大数据计算平台.52 3.1 需求概述 .52 3.2 总体设计 .52 3.3 应用建设 .57 3.3.1 收视率统计.57 3.3.2 智能推荐.60 3.3.3 拍立购.63 3.4 部署方案 .69 3.5 实施计划 .72 4 性能及成本分析.73 4.1 运营商网络性能分析.73 4.2 服务器网卡性能分析.73 4.2 服务器内存性能分析.73 4.3 服务器硬盘性能分析.74 4.4 服务器 RAID 模式分析.74 4.5D2B 性能分析 .75 4.4DMQ 平台性能分析 .75 5 存储空间规划表.76 6 机房选型 .7
3、7 联系 QQ:1280986324,欢迎探讨!7 安全设计 .78 8 风险分析 .81 51 引言1.1 项目背景根据 CC 智能战略的规划:做强终端、云平台建设、大数据商业模式,CC 正 迈向大数据时代,当前正面向所有智能终端提供优质的服务,同时通过终端传感器或数据采集服务能够获取海量的数据,并且数据量会以TB 级剧增。因此CC 迫切需要建设一套高性能、高安全性、高可靠性,可扩展性的云数据采集中心,并搭建一个数据中心支撑平台,以满足当今高速增长的数据存储、管理、计算的 需求,同时便于将来拓展和进一步的改造。目前 CC 数据中心是主要基于CC 黑电、白电、浏览器等产品终端传感器采集的海量文
4、本、图片数据以及用户数据,为CC 后续其他数据分析挖掘项目提供数据支撑的信息平台。对应方针终端内容服务、云服务支撑与数据挖掘、个性化数据价值探索。建立统一有效的云数据采集中心有利于CC 大数据的管理,符合CC 新的发 展战略,CC 黑电和白电产品终端传感器采集的数据有用户行为的文本数据(log)、台标等图片数据以及自建的影视知识库的结构化数据、电商平台的海量镜像数据。当CC 的用户量和采集的数据量与日俱增的时候,数据中心必须能通过添加更多服务节点来扩展性能和负载能力,保证高可扩展性和高可用性从而满足CC 业务 发展的需要。1.2 项目目标搭建分布式存储平台(能够存储海量非结构化数据和结构化数据
5、)、分布式并行计算平台等等,满足海量数据的采集、存储、计算的需要,平6台必须具备高可用性,高扩展性,高可靠性要求。为 CC 后面的产品(收视率统计,智能推荐系统,拍立购,开放平台等等)的应用和实施打下坚实的基础,为集团CC 的大数据提供运营支撑。云中心初期建立至少保证可以正常运营12 年,硬件选型,软件开始要考虑到今后大规模扩容的要求。技术平台要有能力支持数据量最高1000W 终端数量的数据存储、数据计算、信息推荐等的能力。1.3 建设原则基于本项目的建设要求,本项目将遵循以下建设原则:前瞻性和高标准整个项目要按照企业对大数据应用的需要的高要求和高标准建设,参考 行业标杆应用,建立满足需求,面
6、向未来的目标,整个项目具有一定前瞻性。经济性和实用性整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架 构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。先进性和成熟性为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。7高性能和安全性规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系统的稳定,向各类服务对象提供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和
7、完整性。1.4 参考规范GB 9361-88 计算站场地安全要求GB 50173-93 电子计算机机房设计规范GB 2887-89 计算站场地技术条件GB 50174-2008 电子信息系统机房设计规范GB 50462-2008 电子信息系统机房施工及验收规范GB 50311-2007 综合布线工程设计规范GB 50312-2007 综合布线系统工程验收规范GB 50395-2007 视频安防监控系统设计规范GB 50263-2007 气体灭火系统施工及验收规范GB 50394-2007 入侵报警系统工程设计规范GB/T 20269-2006 信息安全技术信息系统安全管理要求GB/T 2098
8、4-2007 信息安全技术信息安全风险评估规范GB/T 22239-2008 信息安全技术信息系统安全等级保护基本要求GB/T 22240-2008 信息安全技术信息系统安全等级保护定级指南GA/T 388-2002B 计算机信息系统安全等级保护管理要求GB/T 8567-1988 计算机软件产品开发文件编制指GB/T 11457-1995 软件工程术语8GB/T 11457-2006 信息技术软件工程术语GB/T 16260.1-2006 软件工程产品质量第 1 部分:质量模型GB/T 16260.2-2006 软件工程产品质量第 2 部分:外部度量GB/T 16260.3-2006 软件工
9、程产品质量第 3 部分:内部度量GB/T 16260.4-2006 软件工程产品质量第 4 部分:使用质量的度量GB/T 14394-2008 计算机软件可靠性和可维护性管理GB/T 17544-1998 信息技术软件包 质量要求和测试GB/T 18221-2000 信息技术程序设计语言、环境与系统软件借口独立于语言的数据类型GB/T 18491.1-2001 信息技术软件测量功能规模测量第 1 部分:概念定义GB/T 18492-2001 信息技术系统及软件完整性级别GB/Z 18493-2001 信息技术软件生存周期过程指南GB/T 20157-2006 信息技术软件维护GB/T 2027
10、2-2006 信息安全技术操作系统安全技术要求GB/T 20008-2005 信息安全技术操作系统安全评估准则GB/T 20009-2005 信息安全技术数据库管理系统安全评估准则GB/T 20918-2007 信息技术软件生存周期过程风险管理GB/T 8566-2007 信息技术软件生存周期过程SJ/T 10367-1993 计算机过程控制软件开发规程SJ/T 11234-2001 软件过程能力评估模型SDO(Service Data Object)for Java Specification V2.1 9SCA(Service Component Architecture)Java EE
11、Integration Specification V1.00 Java 2 Platform,Enterprise Edition Capability Maturity Model?Integration(CMMISM),Version 1.1 Extensible Markup Language(XML)1.0(Fifth Edition)Web Services Business Process Execution Language v2.0 1.5 名词解释S2DFS:简单存储分布式文件系统(Simple Storage Distributed File System)D2B:分布式
12、数据库(Distributed Database)JSS:作业调度服务(Job Scheduler Service)DCS:数据计算服务(Data Computer Service)MPS:消息处理服务(Message Process Service)SDS:流数据处理服务(Stream Data Service)DMQ:分布式消息队列(Distributed Message Queue)JGS:作业生成服务(Job Generation Service)ACS:自动清理服务进程(Automatic Cleaning Services)HTTP:超文本传输协定(HyperText Transf
13、er Protocol)SMB:服务器信息块协议(Server Message Block)102 云数据采集中心2.1 需求概述根据 CC 的阶段规划,第一期云数据采集中心的建立至少满足1 至 2 年内的数据存储和计算规模,需要满足200 万台各种智能终端的数据存储和计算规模。今后整个云数据采集中心的技术平台和架构需要轻松扩展到支持1000 万台规模的各种智能终端的数据存储和计算规模。11以下的数据为预估数据(基于小范围的实验数据为依据):数据类别文件(记录)大小 1文件(记录)数量 1文件(记录)大小 2文件(记录)数量 2台标数据(原始数据,1 天周期)约 16KB/台/天(由 200K
14、b/台/天而得)约 36 个文件/台/天约 32GB/200 万台/天约 7200 万个/200 万台/天行为数据(原始数据,1 天周期)约 60KB/台/天(记录)(由 400Kb/台/天而得,加上了 10KB 的索引记录)约 50KB/台/天(文件)(由 400Kb/台/天而得)(平均估值)约 100 条记录/台/天(记录)约 100 个文件/台/天(文件)(平均估值)约 120GB/200 万台/天(记录)约 100GB/200 万台/天(文件)(平均估值)约 2 亿条/200 万台/天(记录)约 2 亿个/200 万台/天(文件)(平均估值)行为数据(原始数据,永久保存,压缩处理)约
15、60KB/台/天(记录)(由 400Kb/台/天而得,加上了 10KB 的索引记录)约 50KB/台/天(文件)(由 400Kb/台/天而得)(平均估值)约 100 条记录/台/天约 100 个文件/台/天(平均估值)约 45TB/200 万台/1 年(文件,加上元数据描述文件)(平均估值)注:记录的大小约为10GB 约 35 万条/200 万台/1 年(记录)约 35 万个/200 万台/1 年(文件)(平均估值)注:128MB/1 个文件行为分析/收视率统计/推荐/电商索引等记录约 10KB/1 条(记录)(平均估值)约 10TB/1 年(记录)(平均估值)约 10-15 亿条记录/1 年
16、(记录)(平均估值)12至少 6 大电商的镜像数据约 30KB/1 个(文件)(平均估值)约 10 亿个/1 年(文件)(平均估值)约 30TB/1 年(文件)(平均估值)13以 1 年为计算周期(数据整合、压缩、清洗后),初步预估:1、数据记录:约为 10-15 亿条;2、文件个数:约为 10-12 亿个;3、记录总大小:约为 10TB;(双份副本:需要约20TB 存储空间)4、文件总大小:约为 75TB;(双份副本:需要约150TB 存储空间)5、总容量大小:约为 85TB;(双份副本:需要约170TB 存储空间)为了数据的高可靠性,为每份(文件/记录)建立镜像副本,所以总容量初步可以规划
17、约为 170TB。2.2 总体设计整个云数据采集中心分为四部分:硬件资源层、软件平台层、软件应用层、智能终端层。硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息(DMQ)/WEB/APP 软件的 WEB 及消息服务器,用来部署用PostgreSQL 关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同时存储非结构化和结构化(台标图片,电商图片
18、等等)和结构化数据(行为数据,索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数14据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服14务器和计算服务器合二为一,所以该服务器同时具有计算和存储数据的功能,前期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件
19、系统(S2DFS)”、“分布式数据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数 据计算服务进程(DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的64 位操作系统 CentOS 6.5(也可以选择 RHEL 6.5 x64);其核心软件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处理服务进程(MPS)、流数据处理进程(SDS)等等。WEB 及应用服务器软件Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采
20、集中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及UI 表达层,功能实现需要基于软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集应用、收视率统计应用、智能推荐应用、拍立购应用,云数据采集中心的资源监控及调度,通过提供标准API,在 CC 的云平台上集成第三方APP 应用,使我们的云平台成为一个开放的平台,围绕CC 的各种智能终端或者第三方的终端,都纳入到平台上来,建立一个完备而丰富的运营生态圈,使CC 在互联网时代的竞15争中占得先机。16智能终端层主要包括CC 黑电、白电、浏览器等产品设备,这些终端设备通过公共数据网(电信、联通、移动)和HTTP 协
21、议,把终端传感器采集的海量文本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用。第一期是单向交互,主要是终端提供数据,云数据采集中心负责计算,并作推荐。第二期会引入终端与云数据采集中心的实时双向交互功能。收视率统计应用智能推荐应用拍立购应用云中心监控第三方应用API存储设备网络设备服务器设备JSSDCSJGSMPSSDS开放平台S2DFSD2BPostgreSQLNginxApacheTomcatDMQCentOS 6.5 x6417云数据采集中心整体架构图云数据采集中心网络结构图17智能终端智能终端智能终端骨干网资源及监控管理资源及权限管理WEB及消息服务器存储/计算服务
22、器存储/计算服务器WEB及消息服务器存储/计算服务器WEB及消息服务器分布式数据库服务器数据公共网联通/电信/移动防火墙分布式数据库服务器分布式数据库服务器负载均衡服务器负载均衡服务器作业调度服务器(主)作业调度服务器(备)182.3 核心技术及功能2.3.1 分布式文件存储技术(1)传统存储技术面临的问题:构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、文件系统难以扩展,容易形成瓶颈。扩展性困难:技术存在瓶颈(Scale-up 架构决定的)、扩展成本无法控制。可用性问题:潜在的单点故障,数据恢复困难,代价高。应用目标差异:主要
23、面临运营商、金融行业的OLTP 应用、很少针对海量的流数据,或者非结构化数据进行设计和优化。异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用x86 部件之上的高可用、高可靠、高可扩展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用服务器、SATA/SAS 硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2)分
24、布式文件系统应对的数据特性和访问特性:19数据量巨大,数百TB 或 PB 级,增长迅速;20类型多样化,包括图像、文本、语音、视频等文件数据;按时间有序生成,数据均带有时间标志;前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记录或者上 GB 量数据;更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类型的数据存在联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性,任意单一节点失效均不会导致数据丢失和数据服务的正常运行;同时,
25、分布式文 件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性,并支持存储容量/性能的在线扩展。相比较于 DAS(直连存储)、SAN(存储区域网络)和NAS(网络存储),应用分布式文件系统构建的网络存储系统更像是一个NAS,提供类似于传统 NAS 的文件级访问接口(SAN 和 DAS 都是块设备级别的访问接口)。(3)分布式文件系统与传统NAS/SAN 设备的比较:比较项高端 NAS FC-SAN 分布式文件系统性能一般双端口,性能受机头影响,难以扩展,出口带宽是瓶颈一般双端口,性能受机头影响,难以扩展,IOPS 较好性能随节点数的增加成线性增长扩展能力性能及容量无法扩展,或
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 中心 计算 平台 建设 方案
限制150内