大数据存储与处理-第二讲5113606.pptx
《大数据存储与处理-第二讲5113606.pptx》由会员分享,可在线阅读,更多相关《大数据存储与处理-第二讲5113606.pptx(51页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据的三个关键问题Google的大数据技术Google的业务:PageRank三大法宝1第二讲 大数据的关键技术文件存文件存储储数据分析数据分析数据数据计计算算数据存数据存储储平平台台管管理理数据集成数据集成数据源数据源Database Web Log现现代数据代数据处处理理能力能力组组件件现代数据处理框架 三大关键问题3V计算存储容错三大关键问题存储计算容错存储问题 解决大数据存储效率的两方面:容量 吞吐量 容量 单硬盘容量提升:MB GB TB 系统整体容量提升:DAS、NAS、SAN 吞吐量=传输数据量/传输时间 单硬盘吞吐量提升:转速、接口、缓存等 节点吞吐量提升:RAID、专用数据
2、库机提升吞吐量 RAID:Redundant Array of Inexpensive Disks,冗余磁盘阵列 把多块独立的硬盘按一定的方式组合起来形成一个硬盘组,从而实现高性能和高可靠性 RAID0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,提升吞吐量三大关键问题存储计算容错多核技术 Moor定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。采用多核(Multi-core)技术提升IPC,从而突破性能提升瓶颈。指令数主频IPS MF IPC 多处理器技术 多处理器技术的核心:按处理器之间的关系可以分为两类:1 F 1 F/N 非对称
3、多处理器架构(ASMP)不同类型计算任务或进程由不同处理器执行简单,操作系统修改小低效早期过渡性架构对称多处理器架构(SMP)所有处理器完全对等计算任务按需分配高效普遍采用并行模式独立并行两个数据操作间没有数据依赖关系可以采用独立并行的方式分配给不同的处理器执行例:两个独立数据集的Scan操作流水线并行多个操作间存在依赖关系,且后一个操作必须等待前一个操作处理完后方可执行将多个操作分配给不同处理器,但处理器间以流水线方式执行例:Scan Sort Group分割并行数据操作的输入数据可以分解为多个子集,且子集之间相互独立分割为若干独立的子操作,每个子操作只处理对应的部分数据,并将这些子操作配到
4、不同的处理器上执行例:Scan Merge并行系统架构共享内存(Shared Memory,SM)多个处理器,多个磁盘,一个共享内存,通过数据总线相连处理器间共享全部磁盘和内存结构简单,负载均衡数据总线成为瓶颈,可扩展性较差,共享内存单点故障适合处理器较少(8)的小规模并行数据库共享磁盘(Shared Disk,SD)多个处理器,每个处理器拥有独立内存,多个磁盘,处理器与磁盘通过数据总线相连处理器间共享全部磁盘容错性提高共享磁盘成为性能瓶颈,需要额外维护内存与磁盘间的数据一致性无共享(Shared Nothing,SN)每个处理器拥有独立的内存和若干磁盘,通过高速网络相连处理器独立处理所管理的
5、数据数据传输量小,效率高可扩展性强节点间交换数据开销较大适合处理器数量较大的大规模并行系统后期发展的主流三大关键问题存储计算容错数据容错 RAID单节点数据冗余存储 集群多节点数据冗余存储计算任务容错 计算任务容错的关键问题:故障监测 计算数据定位与获取 任务迁移Google是如何解决其大数据处理的三个关键性问题的?我们需要先了解Google的业务特点。14Google的大数据技术1995199619971999200120032005200720092011.19982000200220042006200820102012当佩奇遇见布林合作开发BackRub搜索引擎命名GoogleGoogl
6、e公司成立首名专用厨师入职建立10亿网址的索引图片搜索+30亿网址索引商品+新闻+API开始收购+Google图书80亿网址索引+上市+学术搜索地图+Talk+分析YouTube+GoogleAppsGmail+街景+AndroidHealth+iPhone应用社交网络搜索+实时 地图导航+搜索 收购Moto手机+投 平板电脑资能源+Google应用商店 眼镜GoogleGoogle最重要的业务?搜索AdWords Google发展史Google之前的搜索 目录型搜索:Yahoo!收集:人工分类 索引:主题 使用:目录结构 优点:准确率高 缺点:覆盖率低 索引型搜索:AltaVista 收集:
7、自动爬取(Scooter)索引:自动标记 使用:输入关键词搜索 优点:覆盖率高 缺点:准确率低 覆盖率 VS.准确率:鱼与熊掌不可兼得?GoogleGoogle的自我揭秘!核心算法 Lawrence Page,Sergey Brin,et.al.,The PageRank Citation Ranking:Bringing Order to theWeb.Technical Report,Stanford InfoLab,1999.(6881)三大法宝 Sanjay Ghemawat,Howard Gobioff,et.al.,The Google file system,Proceeding
8、s of theNineteenth ACM Symposium on Operating Systems Principles,2003.(3911)Jeffrey Dean,Sanjay Ghemawat,MapReduce:Simplified Data Processing on Large Clusters,Sixth Symposium on Operating System Design and Implementation,2004.(9569)Fay Chang,Jeffrey Dean,et.al.,Bigtable:A Distributed Storage System
9、 for Structured Data,Seventh Symposium on Operating System Design and Implementation,2006.(2558)灵魂血肉 搜索结果如何排序!佩奇(Page),斯坦福 整个互联网就像一张大的图,每个网站就像一个节点,每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做篇博士论文。算法的图论表述01/201/20001/201/200010000011/31/31/300n1n2n3 n4 n5PageRank(9)算法的计算问题如何计算10亿、100亿个网页?行列数以亿为单位的矩阵相
10、乘!Google三大法宝之一:MapReduce矩阵乘法串行实现1:for i=1;i=N;i+2:for j=1;j=N;j+3:4:5:6:for k=1;k#(5 8 9 8 5)(reduce#+#(5 8 9 8 5)-35Lisp中的Map和Reduce操作MapReduce原理MapReduce机制 主控程序(Master):将Map和Reduce分配到合适的工作机上 工作机(Worker):执行Map或Reduce任务MapReduce不仅仅是编程模型!让程序员在使用MapReduce时面对以下细节问题?大数据如何分割为小数据块?如何调度计算任务并分配和调度map和reduce
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 存储 处理 第二 5113606
限制150内