欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    某集团教育大数据解决方案.docx

    • 资源ID:69485162       资源大小:871.44KB        全文页数:65页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    某集团教育大数据解决方案.docx

    文档编号密级集团教育大数据解决方案(文档版本:V1.0)集团解决方案部3针对性的解决方案3.1方案概述搭建全新一代的高性能、高可用、安全可靠的大数据平台,提供面 向海量结构化、半结构化、非结构化数据混合架构的大数据采集、存 储、计算、分析挖掘、管理服务,为数据创新提供统一的数据整合及存 储能力,涵盖离线计算、实时计算、流式计算、分析挖掘与机器学习方 案,有效支撑全局大数据处理流程。大数据教育平台建设内容前期主要是大数据基础环境的建设,包 括大数据平台管理、数据集成、数据存储、数据计算访问与分析挖掘、 数据安全等部分,实现一站式服务为一体的大数据分析处理平台,满 足在大型数据的数据挖掘和机器学习领域的高效研究,满足师生的教 学及科研等需要。平台将建立以分布式文件系统、NoSQL数据库为基础、适用于云计 算和大数据处理的新型框架,实现大规模分布式计算,提高面向海量 数据的任务执行效率,保证任务执行的可靠性,满足大数据处理的需 要,提升各院系学科大数据采集、组织、存储、计算、数据共享、综合 分析与深度应用能力。平台建设重点:1)在海量数据和高并发模式下,确保系统的高可用性大数据设备等项目建设将面向教育机构所有相关用户提供大数据 服务,用户规模势必较大,必然出现海量数据的处理和高并发。海量数 据操作必然引起每次操作时间变长,同时由于系统用户激增,必然带 来高并发访问。如何解决海量数据的处理和高并发,是平台建设的重 点难点。2)构建统一的应用支撑、服务、运行、工作平台大数据平台架构复杂、内容较多,需要在保护现有投资的要求下, 从业务、数据、应用、数据交换各个方面进行整体规划。3)精准执行项目进度并把握实施、培训、应用创新效果高校大数据创新应用目前处于新领域的研究与试行阶段,需要保 障该项目能够按照项目进度精准执行以及把握项目的整体效果,并且 保障平台长期稳定运行,真正实现基于高校业务的创新。4)构建统一的标准规范体系,保证平台的开放性与可扩展性面对一个大型综合与分布式相结合的信息与网络化系统,需要实 现数据、应用和系统的集成,实现互联互通,并最大限度地进行互操 作。3.2 总体架构逻辑架构大数据平台采取“集中搭建、服务全网”的建设模式,通过云计 算、大数据等多种技术,以数据为中心,秉承“平台化管理、资源共享、 数据创新”的设计理念,构建以分布式文件系统、数据库为核心,具有 分布式、高安全、高可用、高扩展等能力特性,且适合大数据处理需求 的新型框架,能够实现超大规模存储、超快计算以及超强数据分析的 大数据平台。平台汇聚来自不同院系、不同应用系统的数据信息,能够 实现数据的多维度综合分析,同时保障系统的数据质量。对高校的相 关数据建立统一的分析模型,形成统一的数据源,以便实现数据的交 互、共享。平台涵盖了离线计算、实时计算、流式计算等各类数据处理 场景,可以帮助用户更容易、更方便地构建全生命周期的数据湖,让原 始数据源到数据的加工利用、再到衍生数据的产生和再利用的整轮循 环过程变得有序、透明化、可控,从而发掘数据的更大价值。整个系统 架构包含基础设施层、信息资源层、应用支撑层、应用层、接入层、标 准规范体系、信息安全保障体系和运行维护与技术服务体系八个部分:门户服务层标准规范体系教育大数据平台业务 应用层应用 支撑层I 05®I (应用辜缭匪)(耳虺荒抿江)IJ(故融市)05,化ST里)学生学习行为分析校园一充瞿大数据 校情大数据分析信息资源层基础设施层基于云计算、大数据的软硬件F化环境信息安全与运维管理体系功能架构大数据处理平台,通过利用云计算、大数据等多种技术,以数据为 中心,秉承“平台化管理、资源共享、数据创新”的设计理念,构建以 分布式文件系统、数据库为核心,具有分布式、高安全、高可用、高扩 展等能力特性,且适合大数据处理需求的新型框架,实现超大规模存 储、超快计算以及超强数据分析。平台涵盖了离线计算、实时计算、流 式计算等各类数据处理场景,可以帮助用户更容易、更方便的构建全 生命周期的数据湖,从原始数据的源头到数据的加工利用,再到衍生 数据的产生和再利用的整轮循环过程变得有序、透明化、可控,从而实 现数据的更大价值。功能架构包括平台管理、数据集成、数据存储、数据计算与访问、 数据安全等部分,架构示意如下:数据集成数据计算与分析挖掘数据传输引擎SqQQP日志收集引擎Flume消息总线KafkaSQL查询PhoenixPig分析挖掘Mahout批处理MapReduceTez内存Spark数据仓库 Hive工作流 Poize搜索SolrStorm资源调度YARN数据存储Nosfll 数据库 Iffiase分布式文件系统HDFS数据安全;集群管理i.认证1*11*11 .1 *1* 11 *1 1管理授权111 1皿丘防护11部署Kerberos11*ManagerRanger11ZooKeeperEncryption111 .1*1111* 111*1.3.3 计算资源设计计算虚拟化是计算资源池化提供计算即服务的主要技术手段,也 是软件定义计算最主要的解决途径。依托计算虚拟化技术,虚拟机成 为计算调度和管理的单位,可以在数据中心内部甚至跨数据中心的范 围内动态迁移而不用担心服务中断。计算资源主要以物理机及虚拟机两种方式提供服务。其中,物理 机主要承载数据库服务的部署;虚拟机主要承载应用中间件、WEB服务 器等服务。在部署业务时,首先考虑使用虚拟化平台,优先采用虚拟主机满 足,对于虚拟主机不能满足的应用,则采用物理服务器满足。对内存容 量、10、扩展性的要求都不高,且有节约空间和能源的应用,我们推荐 采用虚拟化计算资源来满足;对于高性能计算,大容量存储,大容量内 存和高10的需求,虚拟化不能满足应用需求,则采用4路或者8路 X86服务器等高性能物理主机满足;采用虚拟主机能节约计算资源、 机架空间、能源;数据库服务器需要承担大量实时并发处理和数据分 析能力,对10和计算要求都非常高,为了保证数据安全和系统稳定, 建议采用物理机。3.4 存储资源设计在生产内网,分别部署集中式存储和海量存储,推荐配置高端集 中式存储和海量存储,集中式存储用来承担各业务系统的核心数据库, 海量存储通过FC光纤网络或IP以太网和云管平台连接,用来存储各 业务系统虚拟机文件,海量存储用来存储视频安防监控系统的视频流。生产网络存储本地数据保护方式使用存储同步镜像方式实现,保 证备份存储数据与主存储数据的完全一致性,当主存储系统出现故障 后,可以快速切换应用至备份存储系统并持续对外提供业务访问。存储设计指导原则如下: 按照数据重要性级别进行有效分类,区分块级、应用的需求按需区分性能和容量,将投资回报率有效提高 存储系统包含多协议融合、分布式技术,可以按需提高性能集中式企业级高端存储具有高可靠、高扩展、高性能、功耗低、尽 量节省部署空间等产品特性,可以提供数十万1(5及99.9999%以上 的可靠性支撑,发生故障时更换配件尽量不降低性能、不需要停机进 行维护。同时,存储双活镜像技术实现数据的同步,当主存储系统出现 故障后,可以在极短的时间内将业务切换到备用存储系统并持续对外 提供业务访问。主存储中数据与备存储实时同步或根据链路可调整为 异步复制方式,RPO约等于0。海量存储面向云计算、大数据、视频监控应用等海量数据业务,支 持 NAS、Object. SAN 存储功能,融合 iSCSI、Infiniband 及 10Gb 万 兆主机接口,囊括了目前主流的存储网络架构及主机连接方式。支持 海量存储,在线横向扩展,控制器集群体系架构,所有控制器并行承担 数据10、保障系统整体负载均衡,数据分散存储,避免单控制器故障 带来的风险和性能的瓶颈,支持控制器在线横向扩展,满足持续增长 的容量和性能需求;模块化设计,人性管理,客户按需选择,维护、升 级、管理简单方便;绿色节能,全系统选取节能降耗的处理器、芯片 组、风扇和散热片等部件,提高系统的能效利用率;支持在线扩容/缩 减时数据自动迁移,确保系统按需配置,同时支持Maid磁盘节能技术, 降低磁盘能耗,节约开支;支持自动精简技术,大大提高存储资源利用 率。3.5 网络资源设计网络设计规划整个网络分为互联网环境、校园内网有线环境和无线网环境三大 部分。校区购置两台支持IPv6的万兆核心三层交换机,放置于校区内, 实现校园骨干万兆连接。扩充接入端口,满足现有及新建网络的接入 需求。现有的核心千兆交换机,下移至关键区域,实现校区内的分布式 管理。随着网络技术的发展,笔记本电脑的不断普及,建设覆盖全校办 公、学生公寓、公共场所、广场、厅堂的无线网络,实现教师、学生的 笔记本、PDA设备的无线网上办公、学习需求已变得十分现实和必要。校园无线网络的建设建议方案:允许运营商投资建设各自独立的 校内无线网络,但必须实现与校园网的链接,建成为学校校园网的延 伸,师生既可以选择通过校园认证成为校园网用户,接受校园网管理、 访问校园网资源、通过学校出口访问Internet资源;也可以选择通过 运营商的认证成为其用户,接受运营商管理、通过运营商出口访问 Internet资源,运营商必须按照学校网络安全管理规定进行安全管理, 对这部分用户的信息安全管理负责。运营商可独立运营并每年向学校缴纳市场资源占用费,但必须向 学校开放信息安全管理查看权限。3.5.1 网络安全设计依据国家等级保护的有关标准和规范,结合信息系统的建设目标, 为地铁建立一个完整的安全保障体系,有效保障其系统业务的正常开 展,保护敏感数据信息的安全,保证地铁行业信息系统的安全防护能 力达到信息安全技术信息系统安全等级保护基本要求中第三级的 相关技术和管理要求。安全域的划分是网络防护的基础,事实上每一个安全边界所包含 的区域都形成了一个安全域。这些区域具有不同的使命,具有不同的 功能,分域保护的框架为明确各个域的安全等级奠定了基础,保证了 信息流在交换过程中的安全性。在平台建设过程中,将严格按照信息系统的重要性和网络使用的 逻辑特性划分安全域,根据校园网络与信息系统各节点的网络结构、 具体的应用以及安全等级的需求,按照技术体系中网络安全规划,将 校园网络划分为八个安全域。依据安全域划分原则,同一安全域拥有相同的安全等级和属性, 互联网接入区域、核心交换安全域、对外服务器区域、内部服务器区 域、远程接入区域、安全管理域、用户终端区域内部是相互信任的, 安全风险主要来自不同的安全域互访,需要加强安全域边界的安全防 护。区域之间依据业务及安全的需要配置安全策略,有效实现信息系 统合理安全域划分。鼻勺远程接入区SSLVPN集群全网态势感知终端检测响日志审计 扇数据库审计安全管理域互联网接入域ISPISP上网行为管理安全服务云办公终端办公终端办公终端POE交蝴AP 邑 R.无线办公用户终端域图3-1网络分区架构互联网接入区域:提供统一的对互联网威胁的防护能力,通过链 路负载均衡、下一代应用防火墙(包含入侵防御、防病毒网关等功能模 块)上网行为管理等设备进行网络边界的安全防护,提供外网用户对 网内数据访问的安全保障。对外服务器区域:是指对外网访问者提供服务的网站、WAP、短信 平台、微信、外部门户等系统,通过Web防火墙(包含网页防篡改模 块)和服务器负载对服务器的安全保护。安全管理域:网络安全管理安全域是指通过安全管理平台、日志 审计、运维审计、数据库审计等系统对全网进行安全管理的区域。文档版本管理文档版本号文档负责人文档审核人负责人联系方式完成日期具体修改内容V1.0阮航2018/12/13创建核心交换安全域:核心交换安全域是指对全网进行提供数据交换 的核心区域,包括核心交换机及部分汇聚交换机。内网服务器区域:校园内网服务器区域,包括信息系统所在的服 务器群,同时包括系统所涉及的配套基础,如数据库、存储等设备。跟 进等级保护建设基本要求,对重要区域进行划分和防护,如果服务器 就直接接在核心交换机上,将会存在很大的安全风险。内网终端区域:校园网络中的各个终端区域,包括接入网络中的 PC和移动终端、笔记本等。另外,随着移动办公和无线热点的不断发 展,人们上网对无线的使用越来越多,所以对外无线网络的用户,也需 要进行隔离划分,并能进行审计和控制远程接入区域:随着互联网的不断发展,不断出现网络架构的调整 的,同时第三方协同办公、运维、移动办公的普及,数据的安全传输是 一个比较重要的问题,所以对于远程接入的部分重点进行划分,做数 据的加密传输,保障整个网络的安全性。3.6 物理架构未完全结合实际环境,以上描述为简图。网络部分计算节点需要 双千兆、双万兆网卡间bonding解决单点故障,双网卡上联至不同交 换机。交换机间实现堆叠。如控制区域需要融合存储亦需万兆卡两张,如计算区域不需要融合存储,不需要万兆卡。端口绑定千兆物理网络千兆交换机千兆物理网络计算存储融合 节点 (开源池)计算存储融合 节点 (开源池)“外部访问+ r租户访问计算存储融合计算妄蝉合节占T»点(开赢)(开源池)千兆物理网口千兆物理网口图3-2物理架构3.7 基础环境配置主要软件配置:序号名称版本备注1OpenStack管理套件InCloud OpenStack L云平台管理框架及组件2KVM实现计算资源虚拟化3Ceph分布式存储Hammer分布式存储网络规划设计整个云平台构建中如下的网络,其中管理网络和业务网络将使用 现有的千兆交换网络,而Ceph存储将使用新采购的万兆交换机实现万 兆交换,本次建设的网络物理拓扑如下图所示: 管理网络:用于管理所需的网络传输通道存储数据网络:用于镜像存储、虚拟机的块设备存储的网络 通道 存储集群网络:用于存储集群内部数据同步的网络通道虚拟机业务网络:用于用户创建的虚拟机之间内部通讯与外 网访问网络流量的通道 IPMI网络:用于带外管理物理机RACK 14-3RACK 14-3ZB.«-TJ-HV/E200-BM02RACK 14-10ZB.'-TJ-HV/S6720-S03RACK 14-8ZB.«-n-HV/S6720-S04RACK 14-100网络(10GB) J业务&言理网络(1GB) J图3-3云平台网络物理拓扑图控制节点、计算节点和存储节点考虑到各种流量的相互影响,把 物理机各种网络流量分布到不同的物理网卡及网口上。控制节点将由 1Gb网卡的两个网口做bond然后接入管理网络,计算节点为一个1Gb 网卡和1块10Gb网卡(4个网口,其中1Gb网口分别用于业务和管理 网络,10G网卡做双网口冗余用于存储Public和Cluster网络)。存储节 点为一个1Gb网卡和2块10Gb网卡(6个网口,其中1Gb网口分别 用于管理网络,10G网卡做双网口冗余,两个万兆网卡分别用于存储 Public和Cluster网络)。主要解决了在虚拟化环境中网络规划和网络分 配的问题。在虚拟机网络方面,采用交换机的物理网关作为上行链路。 这样可以有效的提高VM的网络出网带宽能力。在租户隔离方面,采 用VLAN的方式,采用VLAN隔离的方式隔离租户的网络。由于采用 VLAN的模式,虚拟机内部网络的上行链路需要在交换机设置成trunk, 允许物理机内部不同租户网络能正常的出网。以下配置参考资源现状需求统计(下发版)-汇总20160825,部 分配置有所改动。控制节点网卡配置:网卡速率bond模式交换机端口配置接口情况网络说明ethO1Gbbond4LACPtrunkVian管理网络ethl1Gb0 Vs 接口业务网络计算节点网卡配置:网卡速率bond模式交换机端口配置接口情况网络说明ethO1Gbbond4LACPtrunkVian管理网络ethl1GbOVS 接口业务网络融合节点网卡配置:各网络具体规划,如下表所示:网卡速率bond模式交换机端口配置接口情况网络说明ethO1Gbbond4LACPtrunkVianOVS 接口管理网络业务网络ethl1Gbeth210Gbbond4LACPAccessVian存储eth310Gb网络名称IP地址段VLAN ID网关说明管理网络业务网络多 VLANCeph PublicCeph Cluster分布式存储设计本次构建的分布式存储(Ceph)将使用非融合部署架构,Ceph集 群为InCloud OpenStack提供存储资源,单个节点配置2块系统盘(RAIDl)o根据本次项目实施规模,集群将部署3个Ceph Monitor服 务进程(使用R720服务器进行部署),每个CephOSD服务进程管理一 块硬盘。每个硬盘包含两个分区:分区一作为OSD的日志(Journal)分区, 大小为10GB;分区二作为OSD的数据分区。Ceph集群划分两个pool: Glance Pool:用于存放镜像、快照Cinder Pool:用于创建云硬盘3.7.1 存储(融合)节点磁盘规划设计 存储(融合)节点磁盘划分磁盘用途磁盘容量RAID磁盘号备注系统 CentOS7.2虚机系统盘900G*2 ( SAS )RAID 1/dev/sdaCeph OSD900G*20240G*2不做RAID或颗 RAID1存储(融合)节点磁盘分区分区VGLV容量备注/osroot150G/var/logoslog200Gswap不推荐使用3.7.2 控制节点部署设计云控制节点上会安装部署配置管理软件,用以管理虚拟化、管理 分布式存储、网络链接、数据存储和资源调度等。控制器的部署组件如 下图所示:控制节点(master)horizonzabbix zabbix-server zabbix-agentheatglanceglance-api glance-registrycindercinder-api cinder-scheduler cinder-backup cinder-volumeneutronneutron-server neutron-ovs-agent neutron-dhcp-agentceilometerceilometer-agent-central ceilometer-agent-notification ceilometer-apiceilometer-collectorELKelasticsearch logstash kibanakeystonenovanova-apinova-schedulernova-certnova-conductor nova-consoleauthnova-novncproxyInflux OVS Mariadb RabbitMQ dnsmasq mongoCentOS 7.2图3-4控制器的部署组件云控制节点通过管理网络与各个服务器节点通信,实现对整个基 础架构资源池的控制和管理。控制节点高可用HA的实现包括消息队 列服务、数据库、管理平台入口等模块,为保证业务的可靠运行。控制 节点的服务将基于HTTP的RESTfulAPI和基于AMQP的RPC消息通讯。 采用Pacemaker+HAProxy这样的组合来解决高可用的问题。在每个控 制节点部署一套API用HAProxy做均衡负载,最后用VIP的方式暴露给 需要调用的应用程序°数据库和消息服务器,使用RabbitMQ本身内置 的集群功能解决高可用设计。对于数据库Mysql,采用Mysql/Galera的 方式解决高可用,项目中建议采用mysql主备的方式来做Mysql的高 可用性,并通过仲裁节点来方式脑裂。每个控制节点都安装HAProxy, 通过VIP暴露给外部用户访问,内部HAProxy分别接入到控制节点的 每个service提供均衡负载。RabbitMQ提供Active/Active的方式工作, 提供消息服务。通过分布式存储(Ceph)统一存储VM的镜像云控制平台集成Zabbix对物理节点的性能和OpenStack服务状态 提供监控和告警。可以通过WEBUI界面友好的展现监控数据,导出监 控数据的报表。在出现故障时,可以通过email、短信等方式通知管理 员。3.7.3 控制节点磁盘规划设计控制节点磁盘划分磁盘用途磁盘容量RAID磁盘号备注系统900G*2 (SAS)RAID 1/dev/sdaInCloud OpenStack控制组件控制节点磁盘分区分区1VGLV容量备注/osroot100G/var/logoslog200Gswap不推荐使用3.7.4 计算节点部署设计计算节点主要提供计算资源,需安装如下图所示的的OpenStack组件以及监控组件:计算节点nova-compute neutron-ovs-agentlogstash zabbix-agent ceilometer-agentKVM Libvirtd OVSCentOS 7.23.7.5 计算节点磁盘规划设计计算节点磁盘划分磁盘用途磁盘容量RAID磁盘号备注系统 CentOS7.2900G*2 ( SAS )RAID 1/dev/sda计算节点磁盘分区分区VG容量备注/osroot100G/var/logoslog200Gswap不推荐使用4针对性公司产品4平台建设内容4.1.1 平台管理管理平台 Manager统一管理平台为大数据平台提供高可靠、安全、容错、易用的集群 管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限 管理、审计、服务管理、健康检查、问题定位、升级、补丁等。部署服 务过程中,支持一键式安装和无人值守安装,能够容忍某些组件启动、 更新失败。安装部署Hadoop生态系统部署时,组件之间具备依赖性,包括配置、版本、 启动顺序、权限配置等问题。并且随着集群规模的不断增加,机器出现 问题概率也会增加,在部署或更新中可能会出现故障。这些为部署 Hadoop系统带来了极大的挑战和困难,因此需要相应的管理平台能够 对部署过程进行监控跟踪,展示部署过程中每个步骤的状态及相关信 息,降低部署和运维的复杂性,实现平台组件的统一管理。配置管理统一管理平台可以对各个组件的配置信息进行持久化,并且支持 历史版本配置信息管理,平台部署运维过程中可以自动获取相关的配 置信息。在大数据时代,用户的的行为习惯很容易通过一些数据分析推测 出来。一些教育及培训机构可以通过数据分析,将用户进行锁定进行 广告的投放。譬如用户打开手机的频次以及用户在某一时间段的习惯 性行为。通过大数据可以将自己的广告精准投放给需求的用户。除此之外,互联网和大数据的发展,还给我们带来发展个性化的 机会,可以说在教育学上是有非常大的意义的。那些所谓的学习不好 的学生,如果他们在某些方面有一定的特长,同样发挥其特长,不再 是标准化的教育。大数据技术可以在教育平台上跟踪和关注老师和学生的教学、学 习过程,记录老师和学生的课堂表现以及课下行为的数字化痕迹,通 过在教育活动中点滴微观行为的捕捉,为教育管理机构、学校、老师 和家长提供最直接、客观、准确的教育结果评价等服务状态展示、监控统一管理平台通过预先定义好关键的运维指标,后续可以持续跟踪 Hadoop核心组件的健康状况。统一管理平台支持作业与任务执行的可 视化与分析,能够更好地查看依赖和性能。并集成了现有的运维工具, 通过一个完整的RESTful API把监控信息暴露出来,从而使用户可以 轻松有效地查看信息并控制集群,用户界面非常直观。完善的告警体系统一管理平台为用户提供界面化的系统运行环境自动检查服务,帮助用户实现 一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用 户查看检查结果后,还可导出检查报告用于存档及问题分析。数据集成大数据特征表现在全量、实时、交互、海量等方面,并且以半结构 化、非结构化数据为主,价值密度低,为了更好地“让数据说话“,并 充分发挥大数据价值效应,应坚持“能采尽采”的原则,应考虑数据源 的涵盖范围要尽量大。大数据涉及到的数据种类多、来源丰富,包括学 校内部数据、科研数据、政府开放数据及互联网数据等。为保证这些数 据的有效汇集,需针对各类数据进行分析,以提供相适应的数据采集 技术,满足现在及未来的数据采集需求。针对多种数据来源,平台在数据采集方面具备如下功能: 支持不同数据源的采集,平台根据不同数据来源,提供相应的数据采集技术和相应工具。 支持不同内容格式数据的采集,大数据来源众多,内部应用、社会应 用、互联网应用等,不同的应用采用的数据格式、存储方式等都不一定相同, 面对这种情况,平台提供基于统一的数据标准实现对不同内容格式数据的采集 工具及接口。 支持定时、实时数据采集,对于监测等实时性要求比较高的数据,系 统应提供实时采集技术。对于一些月度、年度等统计汇总数据,系统可提供定 时采集技术。 采用抽取的方式可按照业务应用场景灵活控制数据获取频率,但需要 与数据源建立完善的数据获取策略与规范,否则极易造成对数据源系统环境的 性能影响及“脏数据”获取,使用Sqoop可高效的完成对Oracle等主流数据源 的结构化数据抽取,同时对于日志等半结构化和非结构化数据,可利用Flume 进行数据抽取。4.1.3 大数据传输引擎Sqoop大数据传输引擎主要用来在Hadoop和关系数据库、数据仓库、 NoSql系统中传递数据。通过大数据传输引擎我们可以方便的将数据从 关系数据库导入到HDFS、HBase. Hive,或者将数据从HDFS导出到关 系数据库。大数据传输引擎支持通过JDBC和关系数据库进行交互,理论上支 持JDBC的Database都可以使用Sqoop和HDFS进行数据交互。大数据传输引擎整合了 Hive、HBase和Oozie,通过Map任务来 传输数据,Map负责数据的加载、转换,存储到HDFS、HBase或者 Hive中。Sqoop与Oozie集成,可以定义自动导入/导出任务。4.1.4 1. 4 S志收集引擎Flume日志收集引擎是一个分布式、高可靠、高可用的日志收集系统,它 能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存 储到一个中心化的数据存储系统中。日志收集引擎的核心是把数据从数据源收集过来,再送到目的地。 为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真 正到达目的地后,删除自己缓存的数据。日志收集引擎自带了很多组件可以直接使用,包括各种Source (Avro, Spooling Directory 等),Channel,Sink( HBase, HDFS,Kafka 等), 用户也可以根据需要添加自己的Source, Channel或者Sinko分布式消息总线Kafka分布式消息总线提供一种高吞吐量、可容错、分布式、弹性伸缩的 消息总线服务,具备成为全局统一数据管道的能力,各个业务系统都 可以向其发送数据或者从中获取数据。可以支撑海量的、活跃的流式 数据场景,可以为实时应用程序提供低延时数据传输,可以对数据进 行缓冲或持久化。分布式消息总线支持资源隔离的服务实例管理,并允许用户在自 己的服务实例内自主创建和管理消息队列、设置不同分区策略和分区 数、设置消息的存活时间,对消息队列的生命周期进行灵活管理。同时 可对消息队列进行监控,包括:分区分布情况、副本分布情况等。4.1.5 数据存储数据通过不同渠道采集集成到平台之后,平台根据数据的使用方 式等采用不同的分布式存储技术进行存储,使得整个数据环境具备高 度的伸缩性和扩展性,满足未来快速增长的数据规模,并充分保证数 据存储方式的合理性及将来软硬件的扩展能力。除了原来的关系型数 据库外,大数据平台还提供如下两种存储方式:分布式文件系统涉及海量的结构化数据和非结构化数据,传统的集群模式已经不能管理和存储 这么大的海量数据,而分布式文件系统,可以管理PB级的数据,可以存储、管理 上百万文件,而且存储容量可以线性扩展。分布式文件系统将一个文件分为多个数 据块,分别存储在多个节点上,通过任务调度模块,将一个大的任务分解到多个节 点上执行,这样可以大大提升系统的计算、传输等性能。 NoSQL数据库NoSQL数据库采用面向列的存储方式,其存储结构保证了数据表 的列可扩展性和读写I/O的高吞吐性,能支持海量数据存储和高并发 访问,更加适合大规模密集型数据分析应用。4.1.6.1 分布式文件系统HDFS分布式文件系统支持高安全性、高可靠性、高扩展性、高性能和可 管理性的大规模海量数据存储服务。实现了大规模数据的快速读写功 能;实现了文件并行操作的高效机制;支持海量非结构化数据存储和 海量结构化归档数据存储;拥有存储系统状态的监视机制以及故障诊 断和恢复高效算法。具备数据安全防护,包括数据加密技术,冗余存储 和自动恢复技术,多租户,用户隔离,访问控制技术,为数据存储提供 安全保障。分布式文件系统拥有高可扩展性,支持上亿个文件和PB以上量级 的文件存储。系统的设计目标是将大量通用机器的存储资源聚合在一 起,为用户提供大规模、高可靠、高可用、高吞吐量和可扩展的存储服 务,是Hadoop分布式集群中的一个重要组成部分。分布式文件系统保证数据高可靠性,保证所有数据存储在处于不 同机架的多个节点上面(通常设置为3),保证数据和元数据是持久保 存并能够正确访问的。即使集群中的部分节点出现硬件和软件故障, 系统能够检测到故障并自动进行数据的备份和迁移,保证数据的安全 存在。分布式文件系统保证数据高吞吐量,运行时系统I/O吞吐量能够 随机器规模线性增长,保证响应时间。分布式文件系统保证架构高可扩展性,系统的容量能够通过增加 机器的方式得到自动扩展。分布式文件系统假设系统故障(服务器、网 络、存储故障等)是常态,而不是异常,需采用多种技术以保证数据的 可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制 策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据 的校验,一旦发现数据校验错误将重新进行复制;HDFS系统在后台自 动连续的检测数据的一致性,并维持数据的副本数量在指定的复制水 平上。4.1.6.2 NoSQL 数据库 HBase随着信息系统的快速发展,各类数据不断累积增大,这么多的海 量数据不仅需要可靠地存储,还要能被大量的并发用户快速地访问, 传统的关系型数据库存储方案已经从架构上越来越难以适应近几年来 的信息系统业务的飞速发展,成为了业务发展的瓶颈。因此大数据平 台在基于Hadoop的分布式集群中提供了一种主流的NoSQL型数据库 服务HBase。区别于传统关系型数据库面向行的存储,HBase数据存储采用面 向列的存储方式,其存储结构保证了数据表的列可扩展性和读写I/O 的高吞吐性,更加适合云中心数据表的字段扩充特性和密集型数据分 析应用,避免了后续表结构改变带来的维护压力,有效提高密集型数 据分析的吞吐性能。同时,HBase支持ColumnFamily特性,能将多个 Column并为一个ColumnFamily,这样做的好处是能将相似Column归 类存储,从而提高这些Column的读写效率,有效节省I/O资源。基于HBase的列式数据存储,往往把同类型的数据放在一起压 缩,由于数据有共性,因此可获得较大的压缩比。HBase采用Key- Value 存储结构, 结构化数据需要转换成Key-Value格式进行存储,同 时支持压缩编码,在海量数据存储时能有效减少I/O损耗,大大提高 吞吐性能。支持丰富的HBaseAPI查询接口。由于HBase采用分布式的数据存储方式,通过高效的调度算法保 证各节点数据能做到尽量在本节点内进行计算,有效避免网络拷贝数 据带来的额外开销。数据计算访问与分析挖掘大数据平台涵盖了大数据场景下常用的计算场景,包含离线计 算、实时计算、流式计算、数据挖掘与机器学习等。可以更容易、更 方便的构建全生命周期的数据湖,使数据的加工、处理、创新过程更 加丰富,从而实现数据的更大价值。离线计算离线计算场景主要是处理那些允许一定的数据处理时间的需求, 业务中的批量数据非实时处理可看作是离线计算的代表。离线计算方 案要具备处理PB级海量数据的能力,为了将海量数据计算能在可控 时间内完成,需要用到分布式计算架构。分布式计算是通过将一个大 的任务划分成多个部分,分别交给多个计算节点进行处理,综合得到 最终结果的计算技术,是进行数据挖掘和数据分析的有效工具。大数据处理资源池采用MapReduce作为分布式离线计算框架。实时计算实时计算又称交互式计算,指的是能在用户接受的时间内能返回 数据结果的计算过程,也称其为即席计算,此类运算动作往往要求能 在秒级得到响应。在计算场景上含统计动作及查询搜索动作,统计场 景下以BI需求为主,查询搜索场景下以用户输入检索词系统快速返回 结果为主。为应对实时BI类场景要求,大数据平台采用内存计算引擎Spark 来提供实时计算方案。采用Spark中缓存数据的方式,利用Spark内存 计算的能力,将数据存储到Spark集群内存中,通过Spark-SQL统一对 应用开发者提供计算服务,将计算任务分布到不同的Spark节点,利用 内存的高吞吐能力应对全表扫描的高10需求,实现计算结构的毫秒或 秒级响应,满足实时计算的要求;对于实时查询搜索类场景要求,传统手段是基于关系型数据库提 供方案,通过在结构化表上不同的字段中建立索引,满足通过全匹配、 模糊匹

    注意事项

    本文(某集团教育大数据解决方案.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开