大数据技术原理与应用(第3版)-第2章-大数据处理架构.ppt
《大数据技术原理与应用(第3版)-第2章-大数据处理架构.ppt》由会员分享,可在线阅读,更多相关《大数据技术原理与应用(第3版)-第2章-大数据处理架构.ppt(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 厦门大学计算机科学系 2020年版本第第2章章 大数据处理架构大数据处理架构Hadoop(PPT版本号:版本号:2020年年12月版本)月版本) http:/ 博士博士/副教授副教授厦门大学计算机科学系厦门大学计算机科学系E-mail: 主页:主页:http:/ 厦门大学计算机科学系 林子雨 本章配套教学视频http:/www.icourse163.org/course/XMU-1002335004大数据技术原理与应用(第3版)在线视频观看地址大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 提纲2.1 概述概述2.2
2、Hadoop项目结构项目结构2.3 Hadoop的安装与使用的安装与使用2.4 Hadoop集群的部署与使用集群的部署与使用欢迎访问大数据技术原理与应用教材官方网站:http:/ (2021年1月第3版)ISBN:978-7-115-54405-6厦门大学 林子雨 编著,人民邮电出版社大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1 概述 2.1.1Hadoop简介 2.1.2Hadoop发展简史 2.1.3Hadoop的特性 2.1.4Hadoop的应用现状大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.1 Hadoop简介 Hadoop是Apach
3、e软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.2 Hado
4、op发展简史 Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目一个开源的网络搜索引擎并且也是Lucene项目的一部分 在2004年,Nutch项目也模仿GFS开发了自己的分布式文件系统NDFS(Nutch Distributed File System),也就是HDFS的前身 2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想 2005年,Nutch开源实现了谷歌的MapReduceHadoop的标志大数据技术原理与应用(第3版) 厦门大学计
5、算机科学系 林子雨 2.1.2 Hadoop发展简史 到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时,Doug Cutting加盟雅虎 2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用 2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用一个由910个节点构成的集群进行运算,排序时间只用了209秒在2009年5月,Hadoop更是把1TB数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分
6、布式开发平台,并成为事实上的大数据处理标准大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.3 Hadoop的特性 Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性: 高可靠性 高效性 高可扩展性 高容错性 成本低 运行在Linux平台上 支持多种编程语言大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.3 Hadoop的应用现状 Hadoop凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地 2007年,雅虎在Sunnyvale总部建立了M45
7、一个包含了4000个处理器和1.5PB容量的Hadoop集群系统 Facebook作为全球知名的社交网站,Hadoop是非常理想的选择,Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面 国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的Hadoop集群比较大大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.3 Hadoop的应用现状Hadoop在企业中的应用架构大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.4 Apache Hadoop版本演变Apache Hadoop版本分为两代,我们将第一
8、代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的重大特性第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性Hadoop 2.0是基于JDK 1
9、.7开发的,而JDK 1.7在2015年4月已停止更新,于是Hadoop社区基于JDK1.8重新发布一个新的Hadoop版本,也就是Hadoop3.0大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.4 Apache Hadoop版本演变大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 Apache Hadoop Hortonworks Cloudera(CDH:Cloudera Distribution Hadoop) MapR 2.1.5 Hadoop各种版本选择 Hadoop版本的考虑因素:是否开源(即是否免费)是否有稳定版是否经实践检验是否有强大的社区支
10、持大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.1.5 Hadoop各种版本大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.2 Hadoop项目结构Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统资源调度管理框架资源调度管理框架大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.2 Hadoop项目结构组件组件功能功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系
11、型的分布式数据库Pig一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig LatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据Spark类似于Hadoop MapReduce的通用并行框架大数据技术原理与应用(
12、第3版) 厦门大学计算机科学系 林子雨 2.2 Hadoop项目结构大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3Hadoop的安装与使用详细安装教程请参考厦门大学数据实验室建设的中国高校大数据课程公共服详细安装教程请参考厦门大学数据实验室建设的中国高校大数据课程公共服务平台上的技术文章:务平台上的技术文章:大数据技术原理与应用(第大数据技术原理与应用(第3版)版) 第二章第二章 大数据处大数据处理架构理架构Hadoop 学习指南学习指南,给出了每步安装命令和效果截图,给出了每步安装命令和效果截图访问地址:访问地址:http:/ Hadoop安装之前的预备知识2.3.2
13、安装Linux虚拟机2.3.3 安装双操作系统2.3.4 详解Hadoop的安装与使用大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.1 Hadoop安装之前的预备知识(一)Linux的选择(1)选择哪个Linux发行版?在Linux系统各个发行版中,CentOS系统和Ubuntu系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以建议使用CentOS 或Ubuntu在学习Hadoop方面,虽然两个系统没有多大区别,但是推荐使用Ubuntu操作系统(2)选择32位还是64位?如果电脑比较老或者内存小于2G,那么建议选择32位系统版本的Linux如果内存大于4G,那么
14、建议选择64位系统版本的Linux大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.1 Hadoop安装之前的预备知识(二)系统安装方式:选择虚拟机安装还是双系统安装建议电脑比较新或者配置内存4G以上的电脑可以选择虚拟机安装电脑较旧或配置内存小于等于4G的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行LInux虚拟机,系统运行速度会非常慢鉴于目前教师和学生的计算机硬件配置一般不高,建议在实践教学中采用双系统安装,确保系统运行速度大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.1 Hadoop安装之前的预备知识(三)关于Linux的一些基础知
15、识Shell是指“提供使用者使用界面”的软件(命令解析器),类似于DOS下的command和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序sudo命令sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码输入密码在Linux的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应输入法中英文切换linux中英文的切换方式是使用键盘“shift”键来切换,也可以点击顶部菜单的输入法按钮进行切换。Ubuntu自带的Sunpi
16、nyin中文输入法已经足够读者使用Ubuntu终端复制粘贴快捷键在Ubuntu终端窗口中,复制粘贴的快捷键需要加上 shift,即粘贴是 ctrl+shift+v大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.1 Hadoop安装之前的预备知识(四)Hadoop安装方式Hadoop包括三种安装模式:单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;伪分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
17、大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.2 安装Linux虚拟机一、材料和工具1、下载VirtualBox虚拟机软件https:/download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe2. 下载Ubuntu LTS 16.04(或18.04) ISO映像文件Ubuntu LTS 16.04下载:https:/ LTS 18.04下载:https:/ 厦门大学计算机科学系 林子雨 2.3.2 安装Linux虚拟机二、步骤(一)确认系统版本如果选择的系统是64位Ubuntu系统,
18、那么在安装虚拟机前,我们还要进入BIOS开启CPU的虚拟化大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.2 安装Linux虚拟机(二二)安装前的准备安装前的准备1.打开VirtualBox,点击“创建”按钮,创建一个虚拟机2.给虚拟机命名,选择操作系统,版本3.选择内存大小,这里设置的1024M4.创建虚拟硬盘5.选择虚拟硬盘文件类型VDI6.虚拟硬盘选择动态分配7.选择文件存储的位置和容量大小8.点击创建大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.2 安装Linux虚拟机(三三)安装安装Ubuntu大数据技术原理与应用(第3版) 厦门大学计算
19、机科学系 林子雨 2.3.3 安装双操作系统第一步:制作安装U盘具体可参考百度经验文章http:/ 16.04(或18.04)都可以用,默认windows优先启动可以在电脑启动时,选择进入Ubuntu系统而不是 Windows系统大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 2.3.4 Hadoop的安装与使用(单机/伪分布式)Hadoop基本安装配置主要包括以下几个步骤:创建Hadoop用户SSH登录权限设置安装Java环境单机安装配置伪分布式安装配置 详细安装配置过程请参考厦门大学数据库实验室出品教程Hadoop安装教程安装教程_单机单机/伪分布式配置伪分布式配置_Hado
20、op3.1.3/Ubuntu18.04http:/ 厦门大学计算机科学系 林子雨 创建Hadoop用户如果安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户首先按 ctrl+alt+t 打开终端窗口,输入如下命令创建新用户 :$ sudo useradd m hadoop s /bin/bash上面这条命令创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell接着使用如下命令设置密码,可简单设置为 hadoop,按提示输入两次密码:$ sudo passwd hadoop可为 hadoop 用户增加管理员权限,方便
21、部署,避免一些对新手来说比较棘手的权限问题:$ sudo adduser hadoop sudo大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 SSH登录权限设置配置配置SSH的原因的原因:Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式,因此,为了能够顺利登录每台机器,需要将所有机器配置为名称节点可以无密码登录它们SSH是什么?是什么?SSH 为 Secure Shell 的缩写,是建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠、专为远程登录会话和其
22、他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。SSH最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。 SSH是由客户端和服务端的软件组成,服务端是一个守护进程(daemon),它在后台运行并响应来自客户端的连接请求,客户端包含ssh程序以及像scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)等其他的应用程序大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 安装Java环境Java环境可选择 Oracle 的 JDK,或是 OpenJDK建议采用手工方式安装Java环境 具体请参考网络教程:http:/ 到J
23、ava官网下载安装文件jdk-8u162-linux-x64.tar.gz在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):$cd /usr/lib$sudo mkdir jvm #创建创建/usr/lib/jvm目录用来存放目录用来存放JDK文件文件$cd #进入进入hadoop用户的主目录用户的主目录$cd Downloads #注意区分大小写字母,刚才已经通过注意区分大小写字母,刚才已经通过FTP软件把软件把JDK安装安装包包jdk-8u162-linux-x64.tar.gz上传到该目录下上传到该目录下$sudo tar -zxvf ./jdk-8
24、u162-linux-x64.tar.gz -C /usr/lib/jvm #把把JDK文件文件解压到解压到/usr/lib/jvm目录下目录下大数据技术原理与应用(第3版) 厦门大学计算机科学系 林子雨 下面继续执行如下命令,设置环境变量:安装Java环境$cd $vim /.bashrc请在这个文件的开头位置,添加如下几行内容:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/libexport PATH=$J
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 原理 应用 数据处理 架构
限制150内