数据采集处理项目-技术方案(DOC59页).doc
《数据采集处理项目-技术方案(DOC59页).doc》由会员分享,可在线阅读,更多相关《数据采集处理项目-技术方案(DOC59页).doc(62页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、编号:时间:2021年x月x日书山有路勤为径,学海无涯苦作舟页码:第62页 共62页xxx大数据库中心数据库投资商和企业数据采集处理项目项目编号:I5300000000617001206技术方案xxx有限公司 二一七年六月目 录1 引言31.1 项目背景31.2 项目目标31.3 建设原则31.4 参考规范41.5 名词解释52 云数据采集中心72.1 需求概述72.2 总体设计72.3 核心技术及功能103 大数据计算平台343.1 需求概述343.2 总体设计343.3 数据模型设计354 数据运营384.1 数据挖掘分析384.2 数据分析处理的主要工作384.3 数据分析团队组织和管理
2、395 安全设计426 风险分析467 部署方案478 实施计划489 技术规格偏离表4910 售后服务承诺5211 关于运行维护的承诺5512 保密措施及承诺5613 培训计划581 引言1.1 项目背景XXX大数据中心建设出发点考虑从投资者角度涵盖招商全流程,尽可能为投资者解决项目实施过程中的困难和问题,便于招商部门准确掌握全省招商数据,达到全省招商项目数据共享,形成全省招商工作“一盘棋、一张网、一体化”格局。大数据中心将充分发挥大数据优势,加强对企业投资项目、投资轨迹分析,评估出其到XX投资的可行性,为招商过程留下痕迹、找到规律、明辨方向、提供“粮食”、提高效率,实现数据寻商、数据引商、
3、数据助商,实现数据资源实时共享、集中管理、随时查询,实现项目可统计、可监管、可协调、可管理、可配对、可跟踪、可考核。本次数据运营服务主要是为大数据平台制定数据运营规范及管理办法 ,同时为“企业数据库”提供数据采集、存储与分析服务,并根据运营规范要求持续开展数据运营服务。1.2 项目目标l制定招商大数据运营规范及管理办法。l制定招商大数据相关元数据标准,完成相关数据的采集、整理与存储。l根据业务需求,研发招商大数据招商业务分析模型,并投入应用。l根据运营规范及管理办法的要求持续开展数据运营工作。1.3 建设原则基于本项目的建设要求,本项目将遵循以下建设原则:l前瞻性和高标准 整个项目要按照企业对
4、大数据应用的需要的高要求和高标准建设,参考行业标杆应用,建立满足需求,面向未来的目标,整个项目具有一定前瞻性。l经济性和实用性 整个项目以现有需求为基础,充分考虑未来发展的需要来确定系统的架构,既要降低系统的初期投入,又能满足服务对象的需求,同时系统设计应充分考虑对已有投资的保护,对已建立的数据中心、基础平台、应用软件应提供完备的整合方案。l先进性和成熟性 为了确保项目具有较长的生命周期,应充分考虑到管理创新、技术发展需要,按照先进的建设理念,选择先进的技术架构和成熟技术,满足业务需求。l高性能和安全性 规范地进行系统建设和开发,提供合理且经济有效的应急方案,确保系 统的稳定,向各类服务对象提
5、供可靠的服务。具有安全性,在系统遭到攻击或崩溃时能快速恢复,确保重要数据的机密性和完整性。1.4 参考规范lGB/T 20269-2006 信息安全技术信息系统安全管理要求lGB/T 20984-2007 信息安全技术信息安全风险评估规范lGB/T 22239-2008 信息安全技术信息系统安全等级保护基本要求lGB/T 22240-2008 信息安全技术信息系统安全等级保护定级指南lGA/T 388-2002B 计算机信息系统安全等级保护管理要求lGB/T 8567 -1988 计算机软件产品开发文件编制指lGB/T 11457-1995 软件工程术语lGB/T 11457-2006 信息技
6、术 软件工程术语lGB/T 16260.1-2006 软件工程 产品质量 第 1 部分:质量模型lGB/T 16260.2-2006 软件工程 产品质量 第 2 部分:外部度量lGB/T 16260.3-2006 软件工程 产品质量 第 3 部分:内部度量lGB/T 16260.4-2006 软件工程 产品质量 第 4 部分:使用质量的度量lGB/T 14394-2008 计算机软件可靠性和可维护性管理lGB/T 17544-1998 信息技术 软件包 质量要求和测试1.5 名词解释l S2DFS:简单存储分布式文件系统(Simple Storage Distributed File Syst
7、em)l D2B:分布式数据库(Distributed Database)l JSS:作业调度服务(Job Scheduler Service)l DCS:数据计算服务(Data Computer Service)l MPS:消息处理服务(Message Process Service)l SDS:流数据处理服务(Stream Data Service)l DMQ:分布式消息队列(Distributed Message Queue)l JGS:作业生成服务(Job Generation Service)l ACS:自动清理服务进程(Automatic Cleaning Services)l H
8、TTP:超文本传输协定(HyperText Transfer Protocol)l SMB:服务器信息块协议(Server Message Block)2 云数据采集中心2.1 需求概述根据规划,云数据采集中心的建立至少满足 1 至 2 年内的 数据存储和计算规模,需要满足:l 数据采集范围包括但不限于世界500强、全国500强、行业20强企业相关数据。l 总数据容量至少达到30T。2.2 总体设计整个云数据采集中心分为三部分:硬件资源层、软件平台层、软件应用层。硬件资源层主要指实体硬件设备,包括用来存储数据的光纤阵列柜和存储服 务器,用来作统计、分析以及搜索用的计算服务器,用来部署分布式消息
9、(DMQ)/WEB/APP 软件的 WEB 及消息服务器,用来部署用 PostgreSQL 关系数据库软件的应用数据库服务器,用来部署作业调度服务进程(JSS)的作业调度服务器。 作为数据通信用的全千兆三层交换机等等。其中光纤阵列柜主要用来存储统计分 析后的粗颗粒度数据。存储服务器用来部署分布式文件系统和分布式数据库,同 时存储非结构化和结构化(台标图片,电商图片等等)和结构化数据(行为数据, 索引数据,log 数据,清理后的细颗粒度数据等等)。计算服务器主要用来完成数 据的清理、统计、搜索等计算任务。为了节省成本和减少通信代价,建议存储服务器和计算服务器合二为一,所以该服务器同时具有计算和存
10、储数据的功能,前 期也可以考虑把作业调度服务进程(JSS)进程部署在存储/计算服务器上。由于 云数据采集中心需要面对多种宽带用户(电信、移动、联通),所以,数据中心 的对外的网络需要直连上电信、移动、联通三家公司的网络,保证以上三家公司间的通信性能高速和可靠。软件平台层是云数据采集中心的核心支撑层,也是我们这次方案设计和实施的主体部分,在核心技术章节会对“分布式文件系统(S2DFS)”、“分布式数 据库(D2B)”、“分布式消息服务(DMQ)”“作业调度服务进程(JSS)、数 据计算服务进程(DCS)”主要部分加以详细的描述。软件平台层的所有服务器都统一部署的 64 位操作系统 CentOS
11、6.5(也可以选择 RHEL 6.5 x64);其核心软 件或者进程有:分布式文件系统(S2DFS)、分布式数据库(D2B)、作业调度服 务进程(JSS)、数据计算服务进程(DCS)、作业生成服务进程(JGS)、消息处 理服务进程(MPS)、流数据处理进程(SDS)等等。WEB 及应用服务器软件 Apache&Tomcat,消息队列软件分布式消息(DMQ)。还要实现整个云数据采集 中心的资源管理及监控管理系统。软件应用层是云数据采集中心的功能实现及 UI 表达层,功能实现需要基于 软件平台层的支撑,后期设计和实施的主体。该层的主要功能应用有:数据采集应用、数据统计应用、云数据采集中心的资源监控
12、及调度。通过公共数据网(电信、联通、移动)和 HTTP 协议,把采集的海量文本、图片数据以及用户行为数据存储在云数据采集中心里,以供后期分析计算用。 云数据采集中心整体架构图云数据采集中心网络结构图2.3 核心技术及功能2.3.1 分布式文件存储技术(1) 传统存储技术面临的问题:n构建成本高:大容量及高网络带宽的高端存储系统架构昂贵。n文件系统功能和性能差强人意:难以实现全局命名空间的文件共享、 文件系统难以扩展,容易形成瓶颈。n扩展性困难:技术存在瓶颈(Scale-up 架构决定的)、扩展成本无法 控制。n可用性问题:潜在的单点故障,数据恢复困难,代价高。n应用目标差异:主要面临运营商、金
13、融行业的 OLTP 应用、很少针 对海量的流数据,或者非结构化数据进行设计和优化。n异构设备繁杂:不同时期、不同公司、不同操作系统的异构设备纷 繁复杂,无法整合,资源利用率极低。分布式文件系统主要为解决以上问题而出现的一种新型大规模数据存储技 术架构。主要为非结构化数据(视频/文件/文档/图像/音频等非结构化数据)提 供海量的存储平台,以集群的方式提供线性横向扩展能力。分布式文件系统是一种构建于通用 x86 部件之上的高可用、高可靠、高可扩 展的新型分布式文件系统。应用分布式文件系统,用户可以采用廉价可靠的通用 服务器、SATA/SAS 硬盘以及以太网络来构建媲美企业级存储产品的存储系统。(2
14、) 分布式文件系统应对的数据特性和访问特性:n数据量巨大,数百 TB 或 PB 级,增长迅速;n类型多样化,包括图像、文本、语音、视频等文件数据;n按时间有序生成,数据均带有时间标志 ;n 前端数据写入速度很高,每秒钟写入数据可达几万甚至几十万条记 录或者上 GB 量数据 ;n 更新操作极少:追加方式写入,一旦写入,几乎没有数据修改,查 询涉及大量的磁盘读操作,查询处理产生大量的临时结果,不同类 型的数据存在联合分析查询;分布式文件系统的基本原理是采用集群方式来整合物理上独立的多个存储 资源,以软件方式提供单一的名字空间;采用多副本的方式保证数据的高可用性, 任意单一节点失效均不会导致数据丢失
15、和数据服务的正常运行;同时,分布式文 件系统通过良好设计的系统结构和数据分布策略,可保证系统性能的高可扩展性, 并支持存储容量/性能的在线扩展。相比较于 DAS(直连存储)、SAN(存储区域网络)和 NAS(网络存储), 应用分布式文件系统构建的网络存储系统更像是一个 NAS,提供类似于传统 NAS 的文件级访问接口(SAN 和 DAS 都是块设备级别的访问接口)。(3) 分布式文件系统与传统 NAS/SAN 设备的比较:比较项高端 NASFC-SAN分布式文件系统性能一般双端口,性能受机头影响,难以扩展,出口带 宽是瓶颈一般双端口,性能受机头影响,难以扩展, IOPS 较好性能随节点数的增加
16、成线性增长扩展能力性能及容量无法扩展,或者有限扩展能较好扩展,但成本高昂性能及容量按需扩展,动态均衡可用性RAID 方式保护, 双机保护,停机 RAID Rebuid,耗 时RAID 方式保护,双机保 护 , 停 机 RAID Rebuid,耗时基于灵活的多副本机制,自动检测,自动故障恢复, 无需停机数据管理企业级功能需要单独购买企业级功能需要单独购买(还需要单独的文件系统,100 多万一套)内嵌多种企业级应用:快照、镜像、回收站成本专有的硬件平台,软件拥有成本高,扩展成本高专有的硬件平台,软件拥有成本高,扩展 成本高开发通用的硬件平台,一体化的软件,成本低,扩 展成本低可维护性专门的技术支持
17、服务,需要培训结构异常复杂,需要大量培训,厂商服务 昂贵内嵌多种自动化的故障检测和恢复功能,国内开发, 技术支持快速用户使用分布式文件系统如同使用本地文件系统。所不同的是,传统 NAS 通常以单一节点的方式实现,容量和性能的扩展能力有限,易于成为性能瓶颈和 单一故障点。而分布式文件系统则有多个节点集合地提供服务,由于其结构特征, 分布式文件系统的性能和容量均可在线线性扩展,并且系统内不存在单一故障点。 对比参看下面两幅示意图:传统存储架构图分布式文件系统架构图分布式文件系统的设计应用特别适合海量非结构化数据存储,大量客户端并发的 I/O 密集型应用。目前,分布式文件系统已经被应用于政府、医疗影
18、像、 勘查数据计算、视频服务以及动画制作等领域。这些领域的数据访问特征均为: 数据量巨大,I/O 吞吐率高,数据增长迅速以及数据可用性要求高。经过长时间 的实际生产环境使用,分布式文件系统已被证明是该类型应用的有效解决方案。布式文件系统的服务器端程序运行于 Linux x64 系统之上,支持多种 Linux64 位发行版,包括 Redhat、CentOS 等。分布式文件系统客户端则支持 Linux 和 Windows,同时分布式文件系统还可以通过第三方软件输出 CIFS 和 NFS 接口, 可以兼容大多数应用。(4) 分布式文件系统的核心技术及特征:n 扩展性和高性能:分布式文件系统利用双重特
19、性来提供几 TB 至数 PB 的高扩展存储解决方案。Scale-Out 架构允许通过简单地增加资源 来提高存储容量和性能,磁盘、计算和 I/O 资源都可以独立增加, 支持 10GbE 和 InfiniBand 等高速网络互联。分布式文件系统弹性哈 希(Elastic Hash)解除了分布式文件系统对元数据服务器的需求, 消除了单点故障和性能瓶颈,真正实现了并行化数据访问。n 高可用性:分布式文件系统可以对文件进行自动复制,如镜像或多 次复制,从而确保数据总是可以访问,甚至是在硬件故障的情况下 也能正常访问。自我修复功能能够把数据恢复到正确的状态,而且 修复是以增量的方式在后台执行,几乎不会产生
20、性能负载。分布式 文件系统没有设计自己的私有数据文件格式,而是采用操作系统中 主流标准的磁盘文件系统(如 XFS/EXT4/ZFS)来存储文件,因此 数据可以使用各种标准工具进行复制和访问。n 全局统一命名空间:全局统一命名空间将磁盘和内存资源聚集成一 个单一的虚拟存储池,对上层用户和应用屏蔽了底层的物理硬件。 存储资源可以根据需要在虚拟存储池中进行弹性扩展,比如扩容或 收缩。当存储虚拟机映像时,存储的虚拟映像文件没有数量限制, 成千虚拟机均通过单一挂载点进行数据共享。虚拟机 I/O 可在命名 空间内的所有服务器上自动进行负载均衡,消除了 SAN 环境中经常 发生的访问热点和性能瓶颈问题。n
21、弹性哈希算法:分布式文件系统采用弹性哈希算法在存储池中定位 数据,而不是采用集中式或分布式元数据服务器索引。在其他的 Scale-Out 存储系统中,元数据服务器通常会导致 I/O 性能瓶颈和单 点故障问题。分布式文件系统中,所有在 Scale-Out 存储配置中的存 储系统都可以智能地定位任意数据分片,不需要查看索引或者向其 他服务器查询。这种设计机制完全并行化了数据访问,实现了真正 的线性性能扩展。n弹性卷管理:数据储存在逻辑卷中,逻辑卷可以从虚拟化的物理存,不会导致应用中断。逻辑卷可以在所有配置服务器中增长和缩减,可以在不同服务器迁移进行容量均衡,或者增加和移除系统, 这些操作都可在线进
22、行。文件系统配置更改也可以实时在线进行并 应用,从而可以适应工作负载条件变化或在线性能调优。n 完全软件实现(Software Only):分布式文件系统认为存储是软件问 题,不能够把用户局限于使用特定的供应商或硬件配置来解决。分 布式文件系统采用开放式设计,广泛支持工业标准的存储、网络和 计算机设备,而非与定制化的专用硬件设备捆绑。对于商业客户, 分布式文件系统可以以虚拟装置的形式交付,也可以与虚拟机容器 打包,或者是公有云中部署的映像。开源社区中,分布式文件系统 被大量部署在基于廉价闲置硬件的各种操作系统上,构成集中统一 的虚拟存储资源池。简而言之,分布式文件系统是开放的全软件实 现,完全
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 采集 处理 项目 技术 方案 DOC59
限制150内