大数据技术基础与实战全书电子教案完整版课件.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据技术基础与实战全书电子教案完整版课件.pptx》由会员分享,可在线阅读,更多相关《大数据技术基础与实战全书电子教案完整版课件.pptx(374页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、高等学校信息技高等学校信息技术术人才能力培养系列教材大数据技术基础与实战BigDataTechnologyFoundationandPractices主讲人目录1.大数据的概念与基本特性2.大数据处理流程3.Hadoop大数据技术4.实践环境准备大数据的概念与基本特性1BigDataBigData大数据的概念与基本特性当前各行各业都尝试通过大数据技术对产业进行升级、改造,从而出现了工业大数据、金融大数据、环境大数据、医疗健康大数据、教育大数据等新概念。在实际使用大数据的过程中,人们对大数据的概念及价值有了新的认识。本章在介绍大数据的概念与基本特性的基础上,介绍大数据处理流程及Hadoop大数据
2、技术,并对实践开发需要的VirtualBox的安装与配置进行介绍。BigDataBigData大数据的概念与基本特性大数据是指在一定时间内,无法用常规软件工具对其内容进行抓取、处理、分析和管理的数据集合。大数据中的数据一般会涉及两种以上的数据形式。大数据有4个特性规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value),简称4V特性。BigDataBigData大数据的概念与基本特性(2)多样性:指大数据承载信息的数据形式多样、繁杂。可将大数据分为结构化、非结构化和半结构化数据。结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据
3、间因果关系强;非结构化的数据,如图片、音频、视频等,其特点是数据间没有因果关系;半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。(1)规模性:指大数据的规模大。大数据的存储单位已经从过去的GB、TB,发展到PB、EB。随着网络和信息技术的高速发展,数据开始爆发式增长。不仅社交网络、移动网络、各种智能终端等都成为数据的来源,企业也面临着自身数据的大规模增长。BigDataBigData大数据的概念与基本特性(4)价值性:指大数据的信息密度低,而价值高。大数据最大的价值在于可从大量不相关的多样数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方
4、法或数据挖掘方法深度分析,发现新规律和新知识并将之运用于农业、金融、医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的目的。(3)高速性:指大数据被创建、移动、使用的速度快。为满足企业快速创建数据、处理与分析数据、实时反馈的需求,大数据越来越依赖高速处理器或服务器。大数据处理流程2BigDataBigData大数据处理流程一般而言,我们可以将大数据处理流程分为4个步骤:数据采集、数据导入与清洗处理、数据统计与数据分析、数据挖掘和应用,如图所示。这4个步骤看起来与一般的数据处理分析没有太大区别,但实际上大数据的数据集更多、更大,数据相互之间的关联也更多,需要的计算量更大,通常
5、依赖分布式系统采用分布式计算的方法完成。BigDataBigData大数据处理流程1数据采集数据采集数据采集强调数据全体性、完整性,而不是抽样调查。需要依靠合理的分流、公有云等架构方法,才能保证每一个数据准确和有用。在大数据的采集过程中,其主要特点和挑战是并发数高其主要特点和挑战是并发数高。2数据导入与清洗处理数据导入与清洗处理采集好的数据,其中肯定有不少是重复的或无用的数据,此时需要通过技术手段对数据进行处理,将这些来自前端的数据导入集中的大型分布式数据库,并进行简单的清洗和预处理工作。而这个过程中最大的挑战是导入的数据规模十分庞大最大的挑战是导入的数据规模十分庞大。BigDataBigDa
6、ta大数据处理流程3数据统计与数据分析数据统计与数据分析数据统计与数据分析需要用工具来处理,比如可视化工具、SPSS工具、一些结构算法模型,并进行分类、汇总以满足企业的数据分析需求。这个过程最大的特点最大的特点是目的清晰,按照一定规则去分类、汇总,才能得到有效的分析结果目的清晰,按照一定规则去分类、汇总,才能得到有效的分析结果,这也很耗费系统资源。4数据挖掘和应用数据挖掘和应用采集数据的最终目的无疑是通过挖掘数据背后的联系,分析原因并找出规律,然后将之应用到实际业务中。数据挖掘是指在通过各种算法对前面几个步骤中的数据进行计算分析后,预测结果、大胆假设,使用数据验证并得出结论。数据挖掘过程的主要
7、挑战是挖掘算法复杂,计算涉及的数据量和计算量都很大主要挑战是挖掘算法复杂,计算涉及的数据量和计算量都很大。大数据处理的实现至少需要上述4个基本步骤,不过有关细节、工具的使用、数据的完整性等需要结合业务、行业特点和时代变化等不断更新。Hadoop大数据技术3BigDataBigDataHadoop大数据技术大数据技术涉及大数据处理的各个阶段,包括采集、存储、计算处理和可视化等,而Hadoop则是一个集合了大数据不同阶段技术的生态系统。1.3.1Hadoop简介Hadoop来自ApacheLucene搜索引擎子项目Nutch。Google公司为了解决其搜索引擎中大规模Web网页数据的处理问题,提出
8、了MapReduce大规模数据并行处理技术。2006年,关键技术从Nutch项目中分离出来,成为一套独立的大规模数据处理软件系统,并命名为“Hadoop”。Hadoop生态圈不仅包含HadoopCommon、HDFS、HadoopYARN、HadoopMapReduce等组件,还包含Ambari、Avro、Cassandra、Chukwa、HBase、Hive、Flume、Mahout、Pig、Spark、Tez、MLlib、Tachyon、ZooKeeper等。下面简单介绍Hadoop大数据技术核心组件。BigDataBigDataHadoop大数据技术核心组件1HDFSHadoop分布式文
9、件系统(HadoopDistributedFileSystem,HDFS)源于Google公司发表于2003年10月关于Google文件系统(GoogleFileSystem,GFS)的论文,是Hadoop体系中数据存储管理的基础。HDFS是一个高度容错的系统,能检测和应对硬件故障,能够运行在低成本的硬件上。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序的数据访问功能,适合带有大型数据集的应用程序。HDFS提供了一次写入、多次读取的机制,数据以块的形式,同时分布在集群的不同物理机上,具有很高的读取效率和很强的容错性。HDFS的架构是基于一组特定的节点构建的,这是由它自身
10、的特点决定的。这些节点包括一个NameNode和若干个DataNode。其中,NameNode在HDFS内部提供元数据服务,DataNode为HDFS提供存储块服务。BigDataBigDataHadoop大数据技术核心组件2MapReduceMapReduce是一种用于大数据计算的分布式计算框架,源于Google公司在2004年12月发表的MapReduce论文。MapReduce屏蔽了分布式计算框架的细节,将计算抽象成映射(Map)和规约(Reduce)两部分。其中Map对数据集上的独立元素进行指定的操作,生成键值(KeyValue)对形式的中间结果。Reduce则对中间结果中相同“键”的
11、所有“值”进行规约,以得到最终结果。MapReduce非常适合在大量计算机组成的分布式并行环境里处理数据。BigDataBigDataHadoop大数据技术核心组件3HBaseHBase是一个建立在HDFS之上,面向列并针对结构化数据的可伸缩、高可靠、高性能、分布式的动态模式数据库,源于Google公司在2006年11月发表的Bigtable论文。HBase采用增强的稀疏排序映射(键值对)表,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读/写访问。HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。HBase是Goog
12、leBigtable的开源实现,将HDFS作为其文件存储系统,利用MapReduce处理HBase中的海量数据,将ZooKeeper作为协同服务。4YARN另一种资源协调者(YetAnotherResourceNegotiator,YARN)是由第一代经典MapReduce演变而来的,主要是为了解决原始Hadoop扩展性较差、不支持多计算框架而提出的。YARN是一个通用的运行时框架,用户可以编写自己的计算框架,在该运行环境中运行。BigDataBigDataHadoop大数据技术核心组件5HiveHive是Facebook公司开源的、基于Hadoop的一个数据仓库,最初用于解决海量结构化的日志
13、数据统计问题。Hive使用类结构化查询语言(StructuredQueryLanguage,SQL)的Hive查询语言(HiveQueryLanguage,HQL)实现数据查询,并将HQL转化为在Hadoop上执行MapReduce任务(Task)。Hive用于离线数据分析,可让不熟悉MapReduce的开发人员使用HQL实现数据查询分析,降低了大数据处理应用的门槛。Hive本质上是基于HDFS的应用程序,其数据都存储在Hadoop兼容的文件系统(例如,AmazonS3、HDFS)中。6FlumeFlume是Cloudera公司开源的日志收集系统,具有分布式、高可靠、高容错、易于定制和扩展的特
14、点。Flume将数据从产生、传输、处理并最终写入目标路径的过程抽象为数据流。在具体的数据流中,数据源支持在Flume中定制数据发送方,从而支持收集各种不同协议数据。同时,Flume不仅能对日志数据进行过滤、格式转换等简单处理,也能够将日志写入各种数据目标。BigDataBigDataHadoop大数据技术核心组件7SparkSpark是一个更快、更通用的数据处理平台。最早Spark是加州大学伯克利分校AMP实验室(UCBerkeleyAMPLab)开源的类MapReduce的通用并行计算框架。和Hadoop相比,Spark可以让程序在内存中运行的速度提升约100倍,或者在磁盘上运行的速度提升约
15、10倍。8SparkStreamingSparkStreaming支持对流数据的实时处理,以“微批”的方式对实时数据进行计算。它是构建在Spark上处理流数据的框架,基本原理是将流数据分成小的时间(几秒)片断,以类似批量(Batch)处理的方式来处理小部分数据,也可以用于准实时计算。BigDataBigDataHadoop大数据技术核心组件9MLlib机器学习库(MachineLearningLibrary,MLlib)提供了多种常用算法,这些算法用来在集群上处理分类、回归、聚类、协同过滤等。MLlib是Spark常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。Spark的设计初衷
16、就是为了支持一些迭代的作业(Job),这正好符合很多机器学习算法的特点。10TachyonTachyon是以内存为中心的分布式存储系统,诞生于加州大学伯克利分校AMP实验室。它拥有高性能和容错能力,并具有类Java的文件应用程序接口(ApplicationProgramInterface,API)、插件式的底层文件系统、兼容MapReduce和ApacheSpark等特征,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。Tachyon充分使用内存和文件对象之间的“血统”(Lineage)信息,速度很快,官方称最高比HDFS吞吐量高约300倍。BigData
17、BigDataHadoop大数据技术1.3.2Hadoop的发行版本的发行版本Hadoop版本包括ApacheHadoop(又称社区版)和第三方发行版Hadoop,其中ApacheHadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架。第三方发行版Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改。很多厂家在ApacheHadoop的基础上开发自己的Hadoop产品。公司公司Hadoop产品品ClouderaCDHMapRMapRAmazonAmazonElasticMapReduce华为FusionInsightBigDataBigData
18、Hadoop的发行版本1Cloudera公司的公司的CDH在Hadoop生态系统中,规模最大、知名度最高的公司之一则是Cloudera。Cloudera公司提供的CDH拥有强大的Hadoop部署、管理和监控工具,以及众多的部署案例,Cloudera公司开发、贡献了可实时处理大数据的Impala项目。2MapR公司的公司的MapRMapR与其竞争产品相比,使用了一些不同的概念,特别是为了获取更好的性能和易用性,支持本地UNIX文件系统而不是HDFS。可以使用本地UNIX命令来代替Hadoop命令。除此之外,MapR的产品还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其竞争产品相区别
19、。3Amazon公司的公司的AmazonElasticMapReduceAmazonElasticMapReduce(EMR)是一个托管的解决方案,其运行在由Amazon弹性计算云和Amazon简易存储服务组成的云基础设施之上。如果需要一次性或不常见的大数据处理,选择EMR可能会节省大笔开支。EMR默认只包含了Hadoop生态系统中的Pig和Hive项目,并优化为使用S3中的数据。EMR上的文件I/O相比于物理机上Hadoop集群或私有EC2集群来说会慢很多,并有更大的延时。BigDataBigDataHadoop的发行版本4华为公司的华为公司的FusionInsight华为公司的Fusion
20、Insight大数据平台,能够帮助企业快速构建海量数据信息处理系统,通过对企业内部和外部的巨量信息数据进行实时与非实时的分析挖掘,发现全新价值点和企业商机。FusionInsight是完全开放的大数据平台,可运行在开放的x86架构服务器上。它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、通信等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及运营管理系统(OperationManagementSystem,OMS),让企业可以更快、更准、更稳地从各类繁杂、无序的海量数据中发现价值。FusionInsight还集成了企业知识引擎和实时决策支持中心等
21、功能。丰富的知识库和分析套件工具、全方位企业实时知识引擎和决策中心,能够帮助运营商在瞬息万变的数字商业环境中快速决策,实现敏捷的商业成功。开发者合作伙伴可以在华为FusionInsight上,基于大数据的各类商业应用场景,比如增强型商务智能(BusinessIntelligence,BI)、客户智能和数据开放,为金融、通信等行业的客户实现数据的价值效率提升和收入提升。BigDataBigDataHadoop的发行版本FusionInsight整体架构BigDataBigDataHadoop的发行版本第三方发行版针对社区版的不足以及自身企业优势进行优化,有以下优点。(1)基于Apache协议,1
22、00%开源。(2)版本管理清晰。(3)在兼容性、安全性、稳定性上有所增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量地运行到各种生产环境。(4)版本更新快。通常情况,比如CDH每个季度会有一个更新,每一年会发布一个新版本。(5)基于稳定版ApacheHadoop,并应用了最新的bug修复或Feature的补丁。(6)提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。(7)运维简单。提供了管理、监控、诊断、修改配置的工具,管理配置方便,定位问题快速、准确,使运维工作简单、有效。尽管第三方发行版有诸多优势,本书依然采用社区版作为教学环境,旨在帮助学
23、生深入理解Hadoop的基本知识。实践环境准备4BigDataBigData实践环境准备VirtualBox是一个很受欢迎的开源虚拟机软件,可以在其官方网站下载最新版本,如图所示。本书实践的物理机使用Windows操作系统,选择Windowshosts选项下载VirtualBox的Windows版本安装文件(VirtualBox-5.2.18-124319-Win.exe),并从CentOS官网下载CentOS7的Minimal镜像文件(CentOS-7-x86_64-Minimal-1804.iso)。BigDataBigData实践环境准备(1)安装VirtualBox之前,首先需要确认B
24、IOS中的Virtualization选项已经开启。双击VirtualBox安装文件以完成安装,并启动VirtualBox,VirtualBox主界面如图所示。(2)单击左上角的“新建”按钮新建虚拟机。如图所示,在弹出的对话框中填写名称,并选择类型和版本。名称填写为hadoop,类型选择Linux,版本选择RedHat(64-bit),单击“下一步”按钮。注意,如果版本中没有64位的选项,首先确定当前主机是否支持64位系统;如果不支持,则只能安装32位系统。BigDataBigData实践环境准备(3)设置虚拟机内存为2048MB,可以拖动滑动条改变内存大小,单击“下一步”按钮。(4)设置虚拟
25、硬盘,选择“现在创建虚拟硬盘”选项,单击“创建”按钮。(5)虚拟硬盘文件类型选择VDI,如所示。VDI是VirtualBox的基本格式,目前仅VirtualBox软件支持这种文件类型。设置好后单击“下一步”按钮。(6)设置虚拟硬盘文件的存放方式。如果磁盘空间较大,就选择“固定大小”,这样可以获得较好的性能;如果硬盘空间比较“紧张”,就选择“动态分配”。单击“下一步”按钮。(7)设置虚拟硬盘文件的位置和大小。选择一个容量充足的磁盘来存放虚拟硬盘文件,因为该文件通常都比较大,然后单击“创建”按钮。BigDataBigData实践环境准备(8)这样,一个“空壳”虚拟机就创建好了,其基本信息如图所示。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 基础 实战 全书 电子 教案 完整版 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内