《某集团企业大数据分析场景与平台建设方案.docx》由会员分享,可在线阅读,更多相关《某集团企业大数据分析场景与平台建设方案.docx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、文档编号密级集团企业大数据分析场景与平台方案集团解决方案部接,结合软件和大数据分析,重构钢铁工业、激发生产力,实现 供需链上下游企业间的业务互联、形成跨供应链和跨行业的产业 集群的生态互联,让钢铁行业生产更加安全、绿色环保,同时提 升钢铁行业的经济效益。钢铁是工业的粮食,钢铁行业进一步推进“AI”和“大数据”, 不仅可以帮助整个行业快速提高生产和流通效率,实现更快的转 型升级,还能够推动下游各个以钢铁为主要原料的行业更快、更 高效发展。在新的形势下,钢铁行业必须持续创新,继续深入挖 掘大数据价值和应用,完善全产业链生态闭环,优化供应链结构, 才能为钢铁行业的提质增效提供真正的价值和意义。三、集
2、团企业大数据分析平台方案定位大数据时代,各行各业时时刻刻都在产生海量多样的数据, 数据正在成为一种生产资料,对于挖掘行业新的经济增长点大有 益处,大数据已经成为行业发展新的推动力。在海量数据场景下, 传统数据库技术已无法满足其海量存储、高效处理和实时挖掘数 据潜在价值的要求,迫切需要一套成熟稳定、高效便捷的大数据 基础软件产品。为了应对行业转型和产业升级的需要,政府和企业客户开始 越来越多的向大数据运营模式转型,将Hadoop技术平台引入到IT建设中,使其逐步成为IT系统中核心级平台级的组成部分。而开源版本的Hadoop,各个组件更新升级频繁,品质不稳定,缺 乏技术支持,距离落地为企业级产品仍
3、然有很大差距。这些问题 会导致整个大数据基础环境总体稳定性和性能指标不高,总体拥 有成本不低反高。集团基于丰富的行业大数据实践经验,选择符合主流技术发 展方向的开源组件,并进行功能增强、性能优化、统一管理、安 全保障等,发布了企业级Hadoop大数据平台云海Insight HDO集团云海Insight HD产品将业界主流的新型大数据处理技术、 架构框架、算法模型等内置在产品中,结合多年行业大数据实践 经验,研发推出面向海量数据场景的通用型大数据基础软件产品, 可以支撑PB级别数据的采集、存储、计算、分析挖掘等处理全 过程。云海Insight HD完美实现了 Hadoop的核心元素 可扩展 的存
4、储和分布式的计算,以及所有必需的企业级支持能力比如安 全、高可用性和广泛的硬件软件方案相集成。对那些寻找一个稳 定的、有历史经验证明的及开源的大数据管理方案,并且避免专 有供应商锁定的政府部门或企业单位来说,云海Insight HD是使 得其用户组织既可以在生产中可靠地使用Hadoop,同时又可以 从开源社区借助到持续无穷创新的最佳方案。云海Insight HD是集团企业级大数据基础软件,集合业界主 流的新型大数据处理技术,包含Hadoop生态中的20+主要组件, 提供统一的平台化管理运维,实现深度功能增强和性能优化,能 够帮助客户轻松应对海量数据的采集、存储、计算、分析挖掘和 数据安全等应用
5、场景。作为业界领先的企业级分布式大数据处理环境,云海Insight HD除了包含业界流行的基于开源Hadoop及其生态组件构建的 核心,还包含了很多为支撑企业级业务的高级管理特性。借助于 云海Insight HD成熟的整体方案,政府或企业可以放心将数据整 合在云海Insight HD进行数据创新,进而专注于自己的业务能力。3.1 总体框架基于钢铁行业的集团大数据处理平台,通过利用云计算、大 数据等多种技术,以数据为中心,秉承“平台化管理、资源共享、 数据创新的设计理念,构建以分布式文件系统、数据库为核心, 具有分布式、高安全、高可用、高扩展等能力特性,且适合大数 据处理需求的新型框架,实现超大
6、规模存储、超快计算以及超强 数据分析。平台涵盖了离线计算、实时计算、流式计算等各类数 据处理场景,可以帮助用户更容易、更方便的构建全生命周期的 数据湖,从原始数据的源头到数据的加工利用,再到衍生数据的 产生和再利用的整轮循环过程变得有序、透明化、可控,从而实 现数据的更大价值。集团企业大数据平台是以数据为核心、应用为导向,集数据 管理、数据建模、人工智能、可视化分析工具为一体的数据应用平台,不但可以作为企业管理者的实体抓手,使企业得以快速实 现数字化管理,管理层及时了解企业运营情况,而且更加有利于 企业高管战略决策提供有力的分析结果数据支撑。总体架构包括平台管理、数据源预处理、数据采集、数据加
7、 工治理(数据分析、数据计算、数据存储)、数据服务(创新应 用)等部分,架构示意如下:数据源数据采集创新应用数据分析!即解询;:多堆分析;:窈陶崛!:机畔与 111ISJEi十算数据加工治理,数据服务3.2 平台解析云海Insight HD包含Hadoop生态中的20+主要组件,提供 海量数据的采集、存储、计算、分析挖掘、数据操作、管理监控、 和数据安全等能力。多源数据的高效集成云海Insight HD提供多源数据(包含结构化、半结构化和非结 构化数据)的集成能力,提供高吞吐、可扩展的数据总线和数据 分发功能,支持批量加载、实时加载、数据库加载、文件加载等 多种加载方式。异构数据的海量存储云海
8、Insight HD提供基于分布式文件系统和并行架构的大数 据存储能力,支持PB级数据规模的高可靠和高可用存储,支持 存放多种文件格式,例如关系数据库等结构化数据,日志、网页 等半结构化数据,以及视频、图片、文档等非结构化数据。场景丰富的计算框架面向不同业务场景,云海InsightHD提供离线计算、流式计算、 内存计算、图计算等丰富的计算框架,支持计算任务流程编排、 计划安排,提供标准SQL的数据访问能力。海量数据的实时分析挖掘云海InsightHD提供涵盖多源数据接入、数据特征提取、算法 模型训练、算法模型评估和结果预测等完整机器学习过程的大数 据分析功能。支持SVM、朴素贝叶斯、协同过滤、
9、线性回归等算 法,预测过程基于内存进行迭代式计算,并且支持分布式计算, 具备极强的扩展性,可以应对海量数据分析。统一的平台化管理监控云海Insight HD提供针对全部20+组件的自动化安装部署,并 提供平台级的配置管理、监控告警等统一运维管理能力。便捷易用的数据操作云海Insight HD提供图形化交互式数据操作工具和客户端, 用户可以方便的通过WebUI界面访问数据、定义和提交作业任 务、查看组件和任务运行状态、分配数据空间、隔离和共享数据 资源等。立体化的数据安全云海Insight HD提供统一的用户认证、授权体系,完善的数 据安全和资源分配机制,实现了数据资源的安全性、可维护性、 可用
10、性、可信性。3.3 建设思路集团大数据平台以搭建全新一代的高性能、高可用、安 全可靠的平台标准为目标,提供面向海量结构化、半结构 化、非结构化数据混合架构的大数据采集、存储、计算、分 析挖掘、管理服务,为数据创新提供统一的数据整合及存储 能力,涵盖离线计算、实时计算、流式计算、分析挖掘与机器学习方案,有效支撑全局大数据处理流程。平台将建立以分布式文件系统、NoSQL数据库为基础、适 用于云计算和大数据处理的新型框架,实现大规模分布式计 算,提高面向海量数据的任务执行效率,保证任务执行的可 靠性,满足大数据处理的需要,提升各院系学科大数据采 集、组织、存储、计算、数据共享、综合分析与深度应用能
11、力。3.3.1 建设原则建设原则应遵循以下四个方面:遵循主流技术体系遵循国际主要的云计算和大数据相关技术标准和事实标准, 并采用当前主流的技术架构体系,与关键技术的长期发展方向保 持一致性。通过统一的平台建设,提供接口式、可视化的能力, 降低使用门槛,加速新技术的落地。以共享为中心建设一个统一的大数据存储和计算平台,减少大数据基础环 境的重复建设,降低成本,实现资源的高效利用,通过资源和数 据的共享,激发更多的数据创新能力。关注安全与隐私平台提供安全、可靠的数据支撑能力,实现不同用户间的资源隔离,确保数据在平台中的安全与权限可控的使用。 一体化交付模式由于大数据平台建设过程比较复杂,涉及的软硬
12、件技术众多, 平台建设过程要尽量采用业界成熟的产品和方案,通过一体化交 付模式,将众多的技术和组件在交付之前都进行预集成、预测试、 预优化,缩短建设周期,提升建设效率。技术路线大数据平台的建设,需要遵循国内外主要的云计算和大数据 相关技术标准或事实标准,并采用当前主流的技术架构体系,与 关键技术的长期发展方向保持一致性,确保技术实用性和先进性。分布式架构技术:分布式架构是为高并发和大数据处理的需 求而设计,为各种应用提供分布式计算、分布式存储、大数据分 析、统一消息引擎、统一资源管理等基础支撑服务能力。3.5建设内容依据企业行业客户大数据平台的建设原则,建设内容主要是 大数据基础环境的搭建,包
13、括大数据平台管理、数据集成、数据 存储、数据计算访问与分析挖掘、数据安全等部分,实现一站式 服务为一体的大数据分析处理平台,满足在大型数据的数据挖掘 和机器学习领域的高效分析处理,满足行业内的企业客户的采购、生产和营销等战略决策支撑的需要。3.5.1 平台管理管理平台 Manager统一管理平台为大数据平台提供高可靠、安全、容错、易用 的集群管理能力,支持大规模集群的安装部署、监控、告警、用 户管理、权限管理、审计、服务管理、健康检查、问题定位、升 级、补丁等。部署服务过程中,支持一键式安装和无人值守安装, 能够容忍某些组件启动、更新失败。安装部署Hadoop生态系统部署时,组件之间具备依赖性
14、,包括配置、 版本、启动顺序、权限配置等问题。并且随着集群规模的不断增 加,机器出现问题概率也会增加,在部署或更新中可能会出现故 障。这些为部署Hadoop系统带来了极大的挑战和困难,因此需 要相应的管理平台能够对部署过程进行监控跟踪,展示部署过程 中每个步骤的状态及相关信息,降低部署和运维的复杂性,实现 平台组件的统一管理。配置管理统一管理平台可以对各个组件的配置信息进行持久化,并且 支持历史版本配置信息管理,平台部署运维过程中可以自动获取 相关的配置信息。服务状态展示、监控统一管理平台通过预先定义好关键的运维指标,后续可以持 续跟踪Hadoop核心组件的健康状况。统一管理平台支持作业与 任
15、务执行的可视化与分析,能够更好地查看依赖和性能。并集成 了现有的运维工具,通过一个完整的RESTfulAPI把监控信息暴露 出来,从而使用户可以轻松有效地查看信息并控制集群,用户界 面非常直观。完善的告警体系统一管理平台为用户提供界面化的系统运行环境自动检查 服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系 统的正常运行,降低系统运维成本。用户查看检查结果后,还可 导出检查报告用于存档及问题分析。3.5.2 数据集成大数据特征表现在全量、实时、交互、海量等方面,并且以 半结构化、非结构化数据为主,价值密度低,为了更好地“让数 据说话”,并充分发挥大数据价值效应,应坚持“能采尽采”的原
16、则,应考虑数据源的涵盖范围要尽量大。大数据涉及到的数据种 类多、来源丰富,包括学校内部数据、科研数据、政府开放数据 及互联网数据等。为保证这些数据的有效汇集,需针对各类数据 进行分析,以提供相适应的数据采集技术,满足现在及未来的数 据采集需求。针对多种数据来源,平台在数据采集方面具备如下功能:一、钢铁行业情况概述-1-1.1 发展现状-2-1.2 存在问题-2-1.3 未来方向-3-二、解决方案的价值主张-5 -2.1 产业政策环境-5-2.2 方案建议概述-7 -三、集团企业大数据分析平台-8-3.1 方案定位-8-3.2 总体框架-10-3.3 平台解析-11-3.4 建设思路-13-建设
17、原则-14-3.4.1 技术路线-15-3.5 建设内容-15-平台管理-16-3.5.1 数据集成-17-数据存储-20-354数据计算访问与分析挖掘-23-数据安全-36-四、针对性公司产品-38-4.1 组合产品概述-38-4.2 高密148服务器简介-39-产品定位-39-4.2.1 产品特征-40-适用范围-42-424技术规格-43-五、典型应用场景-46 -5.1 应用场景综述-46 -5.2 应用场景举例-47-扑匕处理 ETL-47-5.2.1 在线服务应用-48-实时数据分析-49-六、方案价值与客户收益-50 -6.1 方案价值-50-6.2 客户收益-51-七、部分成功
18、案例-54-7.1 税务行业案例-54-7.2 气象行业案例-56-7.3 教育行业案例-58 -支持不同数据源的采集,平台根据不同数据来源,提供相应的数据采集技术和相应工具。支持不同内容格式数据的采集,大数据来源众多,内部 应用、社会应用、互联网应用等,不同的应用采用的数 据格式、存储方式等都不一定相同,面对这种情况,平 台提供基于统一的数据标准实现对不同内容格式数据的 采集工具及接口。支持定时、实时数据采集,对于监测等实时性要求比较 高的数据,系统应提供实时采集技术。对于一些月度、 年度等统计汇总数据,系统可提供定时采集技术。采用抽取的方式可按照业务应用场景灵活控制数据获取 频率,但需要与
19、数据源建立完善的数据获取策略与规 范,否则极易造成对数据源系统环境的性能影响及“脏 数据”获取,使用Sqoop可高效的完成对Oracle等主流 数据源的结构化数据抽取,同时对于日志等半结构化和 非结构化数据,可利用Flume进行数据抽取。3.5.2.1 大数据传输引擎Sqoop大数据传输引擎主要用来在Hadoop和关系数据库、数据仓 库、NoSql系统中传递数据。通过大数据传输引擎我们可以方便 的将数据从关系数据库导入到HDFS、HBase. Hive,或者将数据 从HDFS导出到关系数据库。大数据传输引擎支持通过JDBC和关系数据库进行交互,理 论上支持JDBC的Database都可以使用S
20、qoop和HDFS进行数据 交互。大数据传输引擎整合了 Hive、HBase和Oozie,通过Map任 务来传输数据,Map负责数据的加载、转换,存储到HDFS、HBase 或者Hive中。Sqoop与Oozie集成,可以定义自动导入/导出任 务。3.5.2.2 日志收集引擎Flume日志收集引擎是一个分布式、高可靠、高可用的日志收集系 统,它能够将不同数据源的海量日志数据进行高效收集、聚合、 移动,最后存储到一个中心化的数据存储系统中。日志收集引擎的核心是把数据从数据源收集过来,再送到目 的地。为了保证输送一定成功,在送到目的地之前,会先缓存数 据,待数据真正到达目的地后,删除自己缓存的数据
21、。日志收集引擎自带了很多组件可以直接使用,包括各种 SourceCAvro, Spooling Directory 等),Channel,Sink(HBase, HDFS,Kafka等),用户也可以根据需要添加自己的Source, Channel 或者 Sinko布式消息总线Kafka分布式消息总线提供一种高吞吐量、可容错、分布式、弹性 伸缩的消息总线服务,具备成为全局统一数据管道的能力,各个 业务系统都可以向其发送数据或者从中获取数据。可以支撑海量 的、活跃的流式数据场景,可以为实时应用程序提供低延时数据 传输,可以对数据进行缓冲或持久化。分布式消息总线支持资源隔离的服务实例管理,并允许用户
22、 在自己的服务实例内自主创建和管理消息队列、设置不同分区策 略和分区数、设置消息的存活时间,对消息队列的生命周期进行 灵活管理。同时可对消息队列进行监控,包括:分区分布情况、 副本分布情况等。数据存储数据通过不同渠道采集集成到平台之后,平台根据数据的使 用方式等采用不同的分布式存储技术进行存储,使得整个数据 环境具备高度的伸缩性和扩展性,满足未来快速增长的数据规 模,并充分保证数据存储方式的合理性及将来软硬件的扩展能 力。除了原来的关系型数据库外,大数据平台还提供如下两种 存储方式:分布式文件系统涉及海量的结构化数据和非结构化数据,传统的集群模式 已经不能管理和存储这么大的海量数据,而分布式文
23、件系 统,可以管理PB级的数据,可以存储、管理上百万文件,而 且存储容量可以线性扩展。分布式文件系统将一个文件分为多个数据块,分别存储在多个节点上,通过任务调度模块, 将一个大的任务分解到多个节点上执行,这样可以大大提升 系统的计算、传输等性能。 NoSQL数据库NoSQL数据库采用面向列的存储方式,其存储结构保证了数 据表的列可扩展性和读写I/O的高吞吐性,能支持海量数据存 储和高并发访问,更加适合大规模密集型数据分析应用。分布式文件系统HDFS分布式文件系统支持高安全性、高可靠性、高扩展性、高性 能和可管理性的大规模海量数据存储服务。实现了大规模数据的 快速读写功能;实现了文件并行操作的高
24、效机制;支持海量非结 构化数据存储和海量结构化归档数据存储;拥有存储系统状态的 监视机制以及故障诊断和恢复高效算法。具备数据安全防护,包 括数据加密技术,冗余存储和自动恢复技术,多租户,用户隔离, 访问控制技术,为数据存储提供安全保障。分布式文件系统拥有高可扩展性,支持上亿个文件和PB以 上量级的文件存储。系统的设计目标是将大量通用机器的存储资 源聚合在一起,为用户提供大规模、高可靠、高可用、高吞吐量 和可扩展的存储服务,是Hadoop分布式集群中的一个重要组成 部分。分布式文件系统保证数据高可靠性,保证所有数据存储在处 于不同机架的多个节点上面(通常设置为3),保证数据和元数据 是持久保存并
25、能够正确访问的。即使集群中的部分节点出现硬件 和软件故障,系统能够检测到故障并自动进行数据的备份和迁移, 保证数据的安全存在。分布式文件系统保证数据高吞吐量,运行时系统I/O吞吐量 能够随机器规模线性增长,保证响应时间。分布式文件系统保证架构高可扩展性,系统的容量能够通过 增加机器的方式得到自动扩展。分布式文件系统假设系统故障 (服务器、网络、存储故障等)是常态,而不是异常,需采用多 种技术以保证数据的可靠性。数据在写入时被复制多份,并且可 以通过用户自定义的复制策略分布到物理位置不同的服务器上; 数据在读写时将自动进行数据的校验,一旦发现数据校验错误将 重新进行复制;HDFS系统在后台自动连
26、续的检测数据的一致性, 并维持数据的副本数量在指定的复制水平上。3.53.2 NoSQL 数据库 HBase随着信息系统的快速发展,各类数据不断累积增大,这么多 的海量数据不仅需要可靠地存储,还要能被大量的并发用户快 速地访问,传统的关系型数据库存储方案已经从架构上越来越 难以适应近几年来的信息系统业务的飞速发展,成为了业务发 展的瓶颈。因此大数据平台在基于Hadoop的分布式集群中提供 了 一种主流的NoSQL型数据库服务HBaseo区别于传统关系型数据库面向行的存储,HBase数据存储采 用面向列的存储方式,其存储结构保证了数据表的列可扩展性 和读写I/O的高吞吐性,更加适合云中心数据表的
27、字段扩充特 性和密集型数据分析应用,避免了后续表结构改变带来的维护 压力,有效提高密集型数据分析的吞吐性能。同时,HBase支 持ColumnFamily特性,能将多个Column并为一个 ColumnFamily,这样做的好处是能将相似Column归类存储,从 而提高这些Column的读写效率,有效节省I/O资源。基于HBase的列式数据存储,往往把同类型的数据放在一起 压缩,由于数据有共性,因此可获得较大的压缩比。HBase采 用Key-Value存储结构,结构化数据需要转换成Key-Value格 式进行存储,同时支持压缩编码,在海量数据存储时能有效减 少I/O损耗,大大提高吞吐性能。支持
28、丰富的HBase API查询 接口。由于HBase采用分布式的数据存储方式,通过高效的调度算 法保证各节点数据能做到尽量在本节点内进行计算,有效避免网 络拷贝数据带来的额外开销。数据计算访问与分析挖掘大数据平台涵盖了大数据场景下常用的计算场景,包含离线 计算、实时计算、流式计算、数据挖掘与机器学习等。可以更 容易、更方便的构建全生命周期的数据湖,使数据的加工、处理、创新过程更加丰富,从而实现数据的更大价值。 离线计算离线计算场景主要是处理那些允许一定的数据处理时间的需 求,业务中的批量数据非实时处理可看作是离线计算的代表。 离线计算方案要具备处理PB级海量数据的能力,为了将海量数 据计算能在可
29、控时间内完成,需要用到分布式计算架构。分布 式计算是通过将一个大的任务划分成多个部分,分别交给多个 计算节点进行处理,综合得到最终结果的计算技术,是进行数 据挖掘和数据分析的有效工具。大数据处理资源池采用MapReduce作为分布式离线计算框 架。 实时计算实时计算又称交互式计算,指的是能在用户接受的时间内能 返回数据结果的计算过程,也称其为即席计算,此类运算动作往 往要求能在秒级得到响应。在计算场景上含统计动作及查询搜索 动作,统计场景下以BI需求为主,查询搜索场景下以用户输入 检索词系统快速返回结果为主。为应对实时BI类场景要求,大数据平台采用内存计算引擎 Spark来提供实时计算方案。采
30、用Spark中缓存数据的方式,利 用Spark内存计算的能力,将数据存储到Spark集群内存中,通 过Spark-SQL统一对应用开发者提供计算服务,将计算任务分布 到不同的Spark节点,利用内存的高吞吐能力应对全表扫描的高10需求,实现计算结构的毫秒或秒级响应,满足实时计算的要求;对于实时查询搜索类场景要求,传统手段是基于关系型数据 库提供方案,通过在结构化表上不同的字段中建立索引,满足通 过全匹配、模糊匹配或分段匹配实现对信息检索的要求。大数据 平台实时计算方案中为满足海量数据下的查询搜索类需求,提供 两类解决方案:基于HBase的查询和基于全文索引的搜索。1)基于全文搜索引擎Solr实
31、现的搜索,能满足对随机检索条 件的搜索需求。2)基于HBase的查询,应对于确定查询条件的数据明细查询 需求。此类方案的特点是,查询时的输入条件是明确的、 条件的顺序是确定的,可用于在全文检索之后,确定数据 条目的明细查询或数据管理查询场景。 流式计算由于数据价值具有时效性,数据价值随着时间的流逝而降低 的应用场景,最好数据出现时便立刻对其进行处理,发生一个事 件进行一次处理,而不是缓存起来成一批处理。流式计算就是专 门针对实时数据处理准备的。在流数据不断变化的运动过程中实 时地进行分析,捕捉到可能有用的信息,并把结果发送出去。大数据平台采用Storm、Spark Streaming流式计算框
32、架进行 流式计算处理。 分析挖掘与机器学习数据挖掘就是试图从海量数据中找出有用的知识,它主要利 用机器学习界提供的技术来分析海量数据,利用数据库界提供 的技术来管理海量数据。在大数据平台中Spark、Mahout等组 件都提供了数据分析挖掘和机器学习相关的实现。3.5.4.1 资源管理框架Yarn大数据平台中具备多种计算框架,提供不同场景下的计算能 力。Yarn作为大数据平台的统一资源管理器,实现了多种计算框 架的统一管理,可为上层应用提供统一的资源管理和调度。Yarn 对可伸缩性、可靠性和集群利用率进行了提升。通过统一的资源管理,实现了不同计算框架的共享管理模式, 降低了运维成本,只需要少数
33、管理员即可完成复杂多个框架平台 的统一管理。另外,这种共享管理模式,通过多种框架共享资源,大大提 升了资源有效利用率,使得集群中的资源得到更加合理充分。如 果每个框架一个集群,则往往由于应用程序数量和资源需求的不 均衡性,使得在某段时间内,有些计算框架的集群资源紧张,而 另外一些集群资源空闲。3.5.4.2 分布式计算引擎MapReduceMapReduce是一个分布式计算框架,主要由两部分组成:编 程模型和运行时环境。其中,编程模型为用户提供了非常易用的 编程接口,用户只需要像编写程序一样实现几个简单的函数即可 实现一个分布式程序,而其他比较复杂的工作,如节点间的通信、 节点失效、数据切分等
34、,全部由MapReduce运行时环境完成,用 户无须关心这些细节。MapReduce能够解决的问题有一个共同特点:任务可以被分 解为多个子问题,且这些子问题相对独立,彼此之间不会有牵制, 待并行处理完这些子问题后,任务便被解决。在实际应用中,这 类问题非常庞大,MapReduce的一些典型应用,包括分布式grep、 URL访问频率统计、Web连接图反转、倒排索引构建、分布式排 序等。流式计算引擎Storm流式计算引擎是分布式实时计算系统,基于消息驱动,实现 了一个消息队列和消息处理的分布式处理模型,大大简化了对于 实时处理业务的编程复杂度。它支持多种编程语言,简化了流数 据的可靠处理。具备简单
35、易用、处理速度快、安全可靠等特点, 一个测试在单节点上可实现每秒一百万的组处理。它的适用场景 包括流数据处理、分布式Rpc、持续计算等。支持多样处理模式,可以用来处理消息和更新数据库(消息的 流处理),对一个数据量进行持续的查询并将结果返回给客户端 (连续计算),对于耗费资源的查询进行并行化处理(分布式方 法调用)一、钢铁行业情况概述钢铁行业作为关系国计民生的国家支柱产业,其本身工业生 产系统具备工艺流程复杂、配套设施繁多、生产难度较大、技术 要求较高等特点,客观来讲,钢铁工业既是资源密集型和资本密 集型行业,在某种程度上也是技术密集型行业,信息化的技术手 段作为核心生产力必不可少。但同时钢铁
36、行业作为典型周期性行业,在世界经济稳健复苏、 国内经济架构不断调整的背景下,钢铁行业预计在未来几年将继 续维持稳定增长、效率提升的运行态势。值得注意的是,我国钢 铁市场主要以满足国内需求为主,虽然国际需求环境有所好转, 但由于逆全球化思潮下国际贸易摩擦频繁,钢材出口形势能否触 底好转尚待观察,因此对促进我国钢铁需求增长作用有限;同时, 随着国内经济调结构、转方式,下游行业不断深化供给侧结构性 改革也会带来钢铁市场需求的显著变化,以往对需求规模增长的 关注将逐步转向对需求结构变迁的重视,由此也将导致钢铁企业 通过何种多维IT信息化的技术手段和创新的管理方式,驱动发 展战略及竞争策略的重大调整。3
37、.5.4.4 内存计算框架SparkSpark是基于内存计算的大数据并行计算框架,兼容HDFS、 Hive等分布式存储层。它将中间数据放在内存中,因此提高了在 大数据环境下数据处理的实时性,同时保证了高容错性和高可伸 缩性,可以用做很多类型的数据处理:如批处理、实时处理应用、 SQL的即席查询、机器学习、图计算和数学计算等。Spark采用的方式是减少对磁盘的读写次数,它把中间处理 数据存储在内存中,可以在内存上透明地存储数据并只有在需要 的时候才传输给磁盘。这将减少大多数数据处理的磁盘读写,而 这正是最消耗时间的因素。Spark允许你用Java、Scala或是Python快速编写应用程序, 它
38、自带一个内置指令集,支持80多个高级操作符。我们可以用 它在shell中对数据进行交互式的查询。除了简单的map和reduce 操作,还支持SQL查询,流数据,还有诸如机器学习和开箱即用 的图形算法之类的复杂分析。不仅如此,用户还可以在一个单独 工作流中将所有这些功能无缝地结合在一起。Spark可以独立运行,也可以在Yarn集群管理器上运行,并 且能读取任何已有Hadoop数据,如HBase, HDFS等等。 Spark Streaming对实时数据流进行高通量、容错处理提供流式处理能力,可 以对多种数据源(如Kdfka、Flume Twitter Zero和TCP套接字)进行类似Map、Re
39、duce和Join等复杂操作,并将结果保 存到外部文件系统、数据库或应用到实时仪表盘。 Spark SQL提供处理结构化数据的能力,它提供了被称为DataFrames 的编程抽象,并能作为一个分布式的SQL查询引擎。 MLlib专注于机器学习的部分,让机器学习的门槛更低,让一些可 能并不了解机器学习的用户也能方便地使用MLIiboGraphX提供用于图和图并行计算的API, GraphX在Spark之上提供 一栈式数据解决方案,可以方便且高效地完成图计算的一整套 流水作业。 R语言支持支持R语言进行快速数据分析。可在R语言中访问HDFS, NoSQL数据库或者数据仓库中的数据以及能够在R中通过
40、SQL进 行数据的抽取清洗转换预处理。支持在R语言中创建所需的分布 式计算集群,并提供并行化R语言统计与机器学习基础算法库。3.5.4.5 全文检索引擎SolrSolr提供企业级搜索引擎能力,具备可配置、可扩展强、可 快速构建应用、多种客户端支持、完善的可视化功能管理等特性。 对外提供了类似于Web-service的API接口,用户可以通过http请求,也可以通过HttpSoIrGet操作提出查找请求,并可提供以 下功能:1)索引管理索引管理提供了索引的新增、删除、更新的功能,其内部处 理行为包括索引去重、语言侦测、确定事务的提交方式、记录事 务日志、监听索引管理事件。2)数据检索数据检索提供
41、对索引内容查询的接口,接口包含查询关键字、 自定义过滤器、结果排序、偏移查询等,并针对查询数据做一些 可选的额外处理,包括对关键字进行高亮、拼写检查、大小写转 换等。3)分词处理分词处理是将待索引的数据通过一定的规则进行拆分,并根 据分词进行分类索引。也可以通过分词来反向查找源数据。分词 规则定义在schema中,可以对域(field)、域类型(fieldType)、 动态域(dynamicField)等进行定义,并且可以针对不同的域类型 配置多种不同的分词器。4)索引存储Solr的索引以文件的形式存在,可以保存在普通的文件系统中,也可以保存在HDFS或其他分布式文件系统上,以提高检索 效率。
42、3.5.4.6 分布式数据仓库HiveHive是建立在Hadoop上的数据仓库基础构架,可以存储、 查询和分析存储在HDFS或HBase上的大规模数据。Hive定义 了简单的类SQL查询语言,它允许熟悉SQL的用户直接以SQL方 式查询数据;同时也允许熟悉MapReduce开发者的开发自定义 的Mapper和Reducer来处理内建的Mapper和Reducer无法完 成的复杂的分析工作。3.5.4.7 数据挖掘引擎MahoutMahout提供强大的数据挖掘能力,是分布式机器学习算法 的集合,包括:Taste的分布式协同过滤的实现、分类、聚类等, 可以帮助开发人员更加方便、快捷地创建智能应用程
43、序。Mahout内置了丰富的算法库,如下:算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann有限波尔兹曼机Machines聚类算法111Canopy ClusteringCanopy聚类K-means ClusteringK均值算法Fuzzy K-means模糊K均值ExpectationMaximizationEM聚类(期望最大化聚类)Mean Shift Clustering均值漂移聚类Hi
44、erarchicalClustering层次聚类DirichletProcessClustering狄里克雷过程聚类LatentDirichletAllocationLDA聚类Spectral Clustering谱聚类关联规则挖掘Parallel FP GrowthAlgorithm并行FP Growth算法回归LocallyWeightedLinear Regression局部加权线性回归降维/维约简SingularValueDecomposition奇异值分解Principal Components主成分分析AnalysisIndependent ComponentAnalysis独立成
45、分分析GaussianDiscriminativeAnalysis高斯判别分析进化算法并行化了 Watchmaker 框架推荐/协同过滤4Non-distributedrecommendersTaste(UserCF,ItemCF, SlopeOne)DistributedRecommendersItemCFk量相似度计 算RowSimilarityJob计算列间相似度VectorDistanceJob计算向量间距离非 Map-Reduce算法Hidden Markov Models隐马尔科夫模型集合方法扩展Collections扩展了 java的Collections 类并且Mahout其本
46、身是围绕着可扩展的算法和接口特殊设计的,可以很方便的扩展新算法。Mahout把很多以前运行于单机上的算法,转化为MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。大数据平台在HBase之上构建了 SQL中间层Phoenix,提供 了可嵌入的JDBC驱动来操作HBase数据。Phoenix查询引擎会 将SQL查询转换为一个或多个HBasescan查询,并编排执行以 生成标准的JDBC结果集。Phoenix直接使用HBase的API、协处 理器和过滤器,对于简单查询来说,其性能量级是毫秒,对于 百万级别的行数来说,其性能为秒级。1)支持自定义函数和MapReduce模型。2)通过
47、增加在HBase Region上查询的并行度,提高查询性能。3) Phoenix能够追踪SQL语句中的每一步在集群中执行情况。4)本地索引:索引和数据分布在相同服务器上,避免了网络开 销。5)视图功能:允许基于同一张HBase表创建多张Phoenix视 图。6)通过嵌入式的JDBC驱动,实现了大部分的java.sql接口,支 持序列、join和分页查询等操作。7) DDL 支持:通过 CREATETABLE. DROPTABLE 及 ALTERTABLE 来 添加、删除列。8) Phoenix支持CSV格式文件批量导入。3.5.4.9 SQL 查询引擎 PigPig为大数据集的处理提供了高层次的抽象,为MapReduce计算引擎实现了 一套类SQL的数据处理脚本,简化了计算任务编 写的过程。Pig具备加载数据,表达转换数据以及存储最终结果 的能力。Pig使编码过程大大简化,只要几行代码就能处理TB级别的 数据。并且是它支持在输入数据中有代表性的小的数据集上试 运行,从而在处理大数据集前检查我们的程序是不是有错误 的。Pig支持对加载出来的数据进行排序、过滤、求和、分组 (group by),关联(Joining),也可以由用户自定义一些函数对数据 集进行操作。3.5.4.10
限制150内