大数据处理技术简介课件.ppt
《大数据处理技术简介课件.ppt》由会员分享,可在线阅读,更多相关《大数据处理技术简介课件.ppt(52页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 HadoopHadoop 目目 录录 1.Hadoop 简介简介 2.实例演示实例演示 1.定义定义 2.数据的来源数据的来源 1.分布式储存系统(分布式储存系统(GFS/HDFS)2.分布式计算模型(分布式计算模型(MapReduce)2 一、大数据背景一、大数据背景3我们正处在信息爆炸的年代我们正处在信息爆炸的年代20002000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/420072007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、是存储在报纸、书籍、图片等媒介上的模拟数据,其余书籍、图片等媒介上的模拟数据,其余93%93%全是全是数字数据(二进制数据
2、)数字数据(二进制数据)Google Google 单日单日数据处理数据处理量量超过超过 24 PB24 PBFacebook Facebook 单日单日照片更新量超过照片更新量超过 1 1千万千万张张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB大数据背景大数据背景 定义定义4大大数据定义数据定义 “大数据大数据”是指一个是指一个数据集(数据集(DatasetsDatasets),它的它的尺寸大到已经无法由尺寸大到已经无法由传统的数据库软件传统的数据库软件去采集、储去采集、储存、管理和分析。存、管理和分析。大数据背景大数据背景 定义定义5数据的分类数据的分类l结构化
3、数据:结构化数据:行数据行数据,存储在数据库里存储在数据库里,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表l半结构化数据:半结构化数据:自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如:XML、HTML等。l非结构化数据:非结构化数据:除去以上两种类型除去以上两种类型例如:音视频、图片等。大数据背景大数据背景 定义定义62000200020002000年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分年以后非结构化数据占绝大部分大数据背景大数据背景 数据的来源数据的来源7从非结构化
4、数据到结构化数据从非结构化数据到结构化数据非非结结构构化数据化数据行行业业技技术术结结构化构化半半结结构构化数据化数据视频、音视频、音频识别技频识别技术等术等大数据背景大数据背景 数据的来源数据的来源8网页爬虫网页爬虫网页爬虫网页爬虫视频识别视频识别视频识别视频识别语音识别语音识别语音识别语音识别等等等等大数据背景大数据背景 数据的来源数据的来源9 传统关系数据库,如传统关系数据库,如传统关系数据库,如传统关系数据库,如:OracleOracle、MYSQLMYSQLl无法储存几亿行长,几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩
5、溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)将会导致出错(类型不严格)传统方法失效传统方法失效 !如何解决?如何解决?大数据处理技术的解决办法:大数据处理技术的解决办法:大数据背景大数据背景 数据的来源数据的来源10某搜索引擎搜索日志某搜索引擎搜索日志大数据背景大数据背景 数据的来源数据的来源11 二、大数据处理实现技术二、大数据处理实现技术12大数据处理技术面对的大数据处理技术面对的第一个问题第一个问题 如何高效存储大规模文件?如何高效存储大规模文件?大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS13数据数据读取问
6、题读取问题1 T1 T100M/S100M/SOH NO!大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS2.5小时小时 14大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS15 分而治之分而治之大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS16.10G1分分30秒秒100M/S大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS10G10G10G10G17 可靠性问题可靠性问题 大数据处理实现技术
7、大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS大数据处理技术面对的大数据处理技术面对的第二个问题第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%18 备份备份 一份数据至少做三个备份一份数据至少做三个备份大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS1910G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10GMasterMasterMasterM
8、aster(主管)(主管)(主管)(主管)Secondary Secondary Secondary Secondary mastermastermastermaster(副主管)(副主管)(副主管)(副主管)ClientClientClientClient(用户程序)(用户程序)(用户程序)(用户程序)读取元数据读取元数据读取元数据读取元数据读取数据读取数据读取数据读取数据云(云(Cloud Cloud)MasterMasterMasterMaster作用:作用:作用:作用:l l储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)储存元数据(数据位置信息)l l储
9、存节点的日常维护储存节点的日常维护储存节点的日常维护储存节点的日常维护10G10G10G10G10G10G10G10G数据位置信息数据位置信息数据位置信息数据位置信息读取数据读取数据读取数据读取数据20Google File System架构架构大数据处理实现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS21大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce大数据处理技术面对的大数据处理技术面对的第三个问题第三个问题 数据运算问题数据运算问题22 分布式计算(并行计算)分布式计算(并行计算)大数据处理实
10、现技术大数据处理实现技术 分布式储存系统分布式储存系统GFS/HDFSGFS/HDFS23大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce24 MMapap函数:函数:函数:函数:接受接受接受接受一个键值对一个键值对一个键值对一个键值对(key-value pairkey-value pair),),),),产生产生产生产生一组中间键值对一组中间键值对一组中间键值对一组中间键值对。mapmap函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给函数将中间键值对里键相同的值传递给Reduce
11、Reduce函数。函数。函数。函数。R Reduceeduce函数:函数:函数:函数:接受接受接受接受一个键一个键一个键一个键,以及相关的,以及相关的,以及相关的,以及相关的一组值一组值一组值一组值,将这组值进行,将这组值进行,将这组值进行,将这组值进行合并合并合并合并产生产生产生产生一组一组一组一组规模更小的值规模更小的值规模更小的值规模更小的值(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)(通常只有一个或零个值)大数据处理实现技术大数据处理实现技术 分布式计算模型分布式计算模型 MapReduceMapReduce25 键(键(KeyKey):):l l键必须是唯
12、一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的键必须是唯一的,而值并不一定是唯一的l l每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值每个值必须与键关联,但键可以没有值l l必须必须必须必须对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写对键进行明确定义。他决定了计数是否区分大小写(键由键由键由键由HashHashHashHash值唯一确定值唯一确定值唯一确定值唯一确定)。键值对举例键值对举例键值对举例键
13、值对举例 :l l通讯录中的姓名(通讯录中的姓名(通讯录中的姓名(通讯录中的姓名(KeyKeyKeyKey)和联系方式()和联系方式()和联系方式()和联系方式(ValueValueValueValue)l l计算机中各种根据文件名(计算机中各种根据文件名(计算机中各种根据文件名(计算机中各种根据文件名(KeyKeyKeyKey)访问各类文件,如文本、图片()访问各类文件,如文本、图片()访问各类文件,如文本、图片()访问各类文件,如文本、图片(ValueValueValueValue)l l年份(年份(年份(年份(KeyKeyKeyKey)温度(温度(温度(温度(valuevaluevalu
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 技术 简介 课件
限制150内