大数据处理技术简介.ppt
《大数据处理技术简介.ppt》由会员分享,可在线阅读,更多相关《大数据处理技术简介.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据处理技术简介大数据处理技术简介 三、大数据开源软件三、大数据开源软件HadoopHadoop简介简介 二、大数据处理实现技术二、大数据处理实现技术 一、大数据背景一、大数据背景目目 录录 1.Hadoop 1.Hadoop 简介简介简介简介 2.2.实例演示实例演示实例演示实例演示 1.1.定义定义定义定义 2.2.数据的来源数据的来源数据的来源数据的来源 1.1.分布式储存系统(分布式储存系统(分布式储存系统(分布式储存系统(GFSGFS/HDFSHDFS)2.2.分布式计算模型(分布式计算模型(分布式计算模型(分布式计算模型(MapReduceMapReduce)一、大数据背景一、大
2、数据背景我我们正正处在信息爆炸的年代在信息爆炸的年代20002000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/420072007年年 所有数据中只有所有数据中只有7%7%是存是存储在在报纸、书籍、籍、图片等媒介上的模片等媒介上的模拟数据,其余数据,其余93%93%全是数全是数字数据(二字数据(二进制数据)制数据)Google Google 单日日数据数据处理理量量超超过 24 PB24 PBFacebook Facebook 单日日照片更新量超照片更新量超过 1 1千万千万张淘宝网淘宝网 单日数据日数据产生量超生量超过 5 5万万 GBGB大数据背景大数据背景 定义定义大
3、数据定大数据定义 “大数据大数据”是指一个是指一个数据集(数据集(DatasetsDatasets),它的尺寸它的尺寸大到已大到已经无法由无法由传统的数据的数据库软件件去采集、去采集、储存、存、管理和分析。管理和分析。大数据背景大数据背景 定义定义数据的分数据的分类l结构化数据:构化数据:行数据行数据,存储在数据库里存储在数据库里,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表l半半结构化数据:构化数据:自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如:XML、HTML等。l非非结构化数据:构化数据:除去以上两种类型
4、除去以上两种类型例如:音视频、图片等。大数据背景大数据背景 定义定义2000200020002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景大数据背景 数据的来源数据的来源从非从非结构化数据到构化数据到结构化数据构化数据视频、音视频、音视频、音视频、音频识别技频识别技频识别技频识别技术等术等术等术等大数据背景大数据背景 数据的来源数据的来源网页爬虫网页爬虫网页爬虫网页爬虫视频识别视频识别视频识别视频识别语音识别语音识别语音识别语音识别等等等等大数据背景大数据背景 数据的来源数据的来源 传统关系数据库,如传统关系数
5、据库,如传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)将会导致出错(类型不严格)传统方法失效方法失效 !如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:存成文件(存成文件(File SystemFile System)大数据背景大数据背景 数据的来源数据的来源某搜索引擎搜索日志某搜索引擎搜索日志大数据背景大数据背景 数据的来源数据的来源
6、二、大数据二、大数据处理理实现技技术大数据大数据处理技理技术面面对的的第一个第一个问题 如何高效存如何高效存储大大规模文件?模文件?大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS数据数据读取取问题1 T1 T100M/S100M/SOH NO!大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS2.5小时小时 谷歌文件系谷歌文件系统(GFSGFS)大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS 分而治之分而治之大数据处理实现技术大数据处理实现技术
7、 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS谷歌文件系谷歌文件系统(GFSGFS)解决方案解决方案.10G1分分30秒秒100M/S大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS10G10G10G10G 可靠性可靠性问题 大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS大数据大数据处理技理技术面面对的的第二个第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%备份备份 一份数据至少做三个备份一份数据至少做三个备份大数据处理实现
8、技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS谷歌谷歌解决方案解决方案10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G心跳心跳心跳心跳(HeartBeat HeartBeat)MasterMasterMasterMaster(主管)(主管)(主管)(主管)Secondary Secondary Secondary Secondary mastermastermastermaster(副主管)(副主管)(副主管)(副主管)ClientCli
9、entClientClient(用户程序)(用户程序)(用户程序)(用户程序)读取元数据读取元数据读取元数据读取元数据读取数据读取数据读取数据读取数据云(Cloud)MasterMasterMasterMaster作用:作用:作用:作用:l l储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)l l储存节点的日常维护储存节点的日常维护储存节点的日常维护储存节点的日常维护储储存存存存节节点点点点10G10G10G10G10G10G10G10G数据位置信息数据位置信息数据位置信息数据位置信息读取数据读取数据读取数据读取数据Google File
10、 System架构架构大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce大数据大数据处理技理技术面面对的的第三个第三个问题 数据运算数据运算问题 分布式计算(并行计算)分布式计算(并行计算)大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS谷歌谷歌解决方案解决方案谷歌提出谷歌提出 Map/Reduce Map/Reduce 模型模型大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型
11、 MapReduceMapReduce MapMap函数:函数:函数:函数:接受接受接受接受一个键值对一个键值对一个键值对一个键值对(key-value pairkey-value pair),),),),产生产生产生产生一组中间键值对一组中间键值对一组中间键值对一组中间键值对。mapmap函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给ReduceReduce函数。函数。函数。函数。ReduceReduce函数:函数:函数:函数:接受接受接受接受一个键一个键一个键一个键,以及相关的,以及相关的,以及相关的
12、,以及相关的一组值一组值一组值一组值,将这组值进行,将这组值进行,将这组值进行,将这组值进行合并合并合并合并产生产生产生产生一组一组一组一组规模更小的值规模更小的值规模更小的值规模更小的值(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduceKey-ValueKey-Value(键-值)模型)模型 键(KeyKey):):l l键键必必必必须须是唯一的,而是唯一的,而是唯一的,而是唯一的,而值值并不一定是唯一的并不一定是唯一的并不一定是唯一的并不一定
13、是唯一的l l每个每个每个每个值值必必必必须须与与与与键键关关关关联联,但,但,但,但键键可以没有可以没有可以没有可以没有值值l l必必必必须须对键进对键进行明确定行明确定行明确定行明确定义义。他决定了。他决定了。他决定了。他决定了计计数是否区分大小写数是否区分大小写数是否区分大小写数是否区分大小写(键键由由由由HashHashHashHash值值唯一确定唯一确定唯一确定唯一确定)。键值对举键值对举例例例例 :l l通通通通讯录讯录中的姓名(中的姓名(中的姓名(中的姓名(KeyKeyKeyKey)和)和)和)和联联系方式(系方式(系方式(系方式(ValueValueValueValue)l l
14、计计算机中各种根据文件名(算机中各种根据文件名(算机中各种根据文件名(算机中各种根据文件名(KeyKeyKeyKey)访问访问各各各各类类文件,如文本、文件,如文本、文件,如文本、文件,如文本、图图片(片(片(片(ValueValueValueValue)l l年份(年份(年份(年份(KeyKeyKeyKey)温度(温度(温度(温度(valuevaluevaluevalue)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce气象站气象数据的处理(找出最高气温)气象站气象数据的处理(找出最高气温)大数据处理实现技术大数据处理实现技术 分布式计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 技术 简介
限制150内