2022年大数据综 .pdf
大数据综述1.摘要随着云时代的来临,大数据(Big data )也吸引了越来越多的关注。著云台的分析师团队认为,大数据(Big data )通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。如何应用大数据对我们的生产,经济发挥重大作用就成为一个非常重要的课题。Key words: 大数据Big data 分布式存储分布式缓存分布式文件系统2.大数据定义大数据已经出现,因为我们生活在一个社会中有更多的东西。有46 亿全球移动电话用户有 1 亿美元和 20 亿人访问互联网。基本上,人们比以往任何时候都与数据或信息交互。1990 年至 2005 年,全球超过1 亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013 年,在互联网上流动的交通量将达到每年667 艾字节。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的 4 个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB 级别,跃升到PB级别; 第二, 数据类型繁多。 前文提到的网络日志、视频、 图片、 地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。 1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为 4 个“V” Volume ,Variety ,Value ,Velocity 。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC 以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。3.大数据研究意义“ 数据 ” 是什么?数据就是资源,它像空气和水、石油和煤炭一样,就在你的周围自然而然的存在着,你每一次点击鼠标,每一次刷卡消费,其实就已经参与到了数据的生成,可以说,每一个人既是数字的生产者,也是数据的消费者。数据一直存在, 随着技术手段的发展,当前的技术手段为“ 大数据 ” 的收集和分析提供了保障。在这个大数据时代,第一次有了如此精细的观测手段, 我们可以非常精细的知道一个人或者一辆车每时每刻在什么地方出现,然后就可以产生非常精细化的数据,可以用来描述各种物体、社会和整个环境的行为,有了这些数据,大大减少了减少社会的复杂度。谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年全球经济发展的制高点。但是目前,我国大数据应用刚刚起步,基于大数据的商业模式还在萌芽阶段,从需求来看,很多产业对大数据的使用还没有意识,而供给一方, 由于技术和人才储备上的落后,也缺乏深厚的数据分析手段来支撑需求。从商业价值来看,大数据究竟能往哪些方面挖掘出巨大的商业价值呢?根据IDC 和麦肯锡的大数据研究结果的总结,大数据主要能在以下4 个方面挖掘出巨大的商业价值:对顾客群体细分, 然后对每个群体量体裁衣般的采取独特的行动;运用大数据模拟实境,发掘名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 4 页 - - - - - - - - - 新的需求和提高投入的回报率;提高大数据成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率;进行商业模式、产品和服务的创新。4.大数据研究技术Big Data 是近来的一个技术热点,是一个相对概念。历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、 移动和物联网的迅猛发展。无所不在的移动设备、RFID 、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互, 要处理的数据量实在是太大、增长太快了, 而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。在这种情况下,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、基于MPP 的分布式数据库、分布式文件系统、各种NoSQL 分布式存储方案等。4.1 分布式缓存分布式缓存系统是为了解决数据库服务器和web 服务器之间的瓶颈。如果一个网站的流量很大, 这个瓶颈将会非常明显,每次数据库查询耗费的时间将会非常可观。对于更新速度不是很快的网站,我们可以用静态化来避免过多的数据库查询。对于更新速度以秒计的网站,静态化也不会太理想,可以用缓存系统来构建。其一般工作流程如下: (1) 检查用户请求的数据是缓存中是否有存在,如果有存在的话,只需要直接把请求的数据返回,这时候跟数据库就完全扯不上关系了。(2)如果请求的数据在缓存中找不到, 这时候再去查询数据库。返回请求数据的同时,把数据存储到缓存中一份。(3)保持缓存的“新鲜性” ,每当数据发生变化的时候(比如,数据有被修改,或被删除的情况下),要同步的更新缓存信息,确保用户不会在缓存取到旧的数据。4.2 分布式数据库分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS 的一份完整拷贝副本,并具有自己局部的数据库,位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的、全局的大型数据库。随着传统的数据库技术日趋成熟、计算机网络技术的飞速发展和应用范围的扩充,数据库应用已经普遍建立于计算机网络之上。这时集中式数据库系统表现出它的不足:数据按实际需要已在网络上分布存储,再采用集中式处理,势必造成通信开销大;应用程序集中在一台计算机上运行,一旦该计算机发生故障,则整个系统受到影响,可靠性不高;集中式处理引起系统的规模和配置都不够灵活,系统的可扩充性差。在这种形势下,集中式DB 的“集中计算”概念向 “分布计算”概念发展。分布式数据库是数据库技术与网络技术相结合的产物,在数据库领域已形成一个分支。分布式数据库的研究始于20 世纪 70 年代中期。 世界上第一个分布式数据库系统SDD-1 是由美国计算机公司(CCA )于 1979 年在 DEC 计算机上实现。 20 世纪 90 年代以来,分布式数据库系统进入商品化应用阶段,传统的关系数据库产品均发展成以计算机网络及多任务操作系统为核心的分布式数据库产品,分布计算主要体现在客户机 /服务器模式和分布式数据库体系结构两个方面。4.3 分布式文件系统分布式文件系统(Distributed File System )是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 4 页 - - - - - - - - - /服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。例如, 用户可以 “ 发表 ” 一个允许其他客户机访问的目录, 一旦被访问, 这个目录对客户机来说就象使用本地驱动器一样,下面是三个基本的分布式文件系统。最初的分布式文件系统应用发生在20 世纪 70 年代,之后逐渐扩展到各个领域。从早期的 NFS 到现在的Lustre,分布式文件系统在体系结构、系统规模、性能、可扩展性、可用性等方面经历了较大的变化。文件系统是操作系统的一个重要组成部分,通过对操作系统所管理的存储空间的抽象,向用户提供统一的、对象化的访问接口,屏蔽对物理设备的直接操作和资源管理。根据计算环境和所提供功能的不同,文件系统可划分为四个层次,从低到高依次是:单处理器单用户的本地文件系统,如DOS 的文件系统;多处理器单用户的本地文件系统,如OS/2 的文件系统;多处理器多用户的文件系统,如Unix 的本地文件系统;多处理器多用户的分布式文件系统。本地文件系统(Local File System )是指文件系统管理的物理存储资源直接连接在本地节点上,处理器通过系统总线可以直接访问。分布式文件系统( Distributed File System )是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。高层次的文件系统都是以低层次的文件系统为基础,实现了更高级的功能。随着层次的提高, 文件系统在设计和实现方面的难度也会成倍提高。但是,现在的分布式文件系统一般还是保持与最基本的本地文件系统几乎相同的访问接口和对象模型, 这主要是为了向用户提供向后的兼容性,同时保持原来的简单对象模型和访问接口。 但这并不说明文件系统设计和实现的难度没有增加。正是由于对用户透明地改变了结构,满足用户的需求, 以掩盖分布式文件操作的复杂性,才大大增加了分布式文件系统的实现难度。在计算机性能不断提升的同时,计算机部件的平均价格却在不断下降。用户可以用更低的成本, 购买更好、 更快、 更稳定的设备。 存储系统、 文件系统面临的新挑战也随之而来:如何管理更多的设备,提供更好的性能,更加有效地降低管理成本等。各种新的存储技术和分布式文件技术层出不穷,以满足用户日益增长的需求。因此, 有必要分析对比当前主流的分布式文件系统在体系结构、缓存一致性、可扩展性、安全等方面的长处和不足。4.4 分布式存储系统分布式存储系统, 就是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点, 不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。在一个视频监控系统中,选择什么样的存储解决方案直接决定了整个系统的系统架构以及系统的性能和稳定程度,目前视频监控系统中的存储方案大致上有两种。视频监控系统存储方案一种是在摄像监控前端采用有一定存储容量(如1.2T)的 DVR 设备,所有需要的数据均保存在前端DVR 的存储设备中, 比较好的方案中,后台软件可以管理和维护多台的DVR设备,包括这些DVR 设备的存储数据,如录像的转存、删除和回放等功能。这种方案中所有数据主要保存在DVR 中,后台主要负责维护和必要的存储。另一种是在摄像监控前端采用DVR 或者网络视频服务器,而存储主要在远端通过后台的 PC 或者服务器软件来将数据保存在后台的存储设备上。上述两种存储方案均有很多弊端,尤其当监控点很多,需要的存储量又很大的情况下,这些可能的弊端包括:由于存储分散导致难以维护;由于存储的专业程度不高导致存储的可靠性不高,进而导致整个系统的可靠性不高;存储的利用率不高;存储的扩展性不好。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 4 页 - - - - - - - - - 为了克服这些弊端, 现在有推荐使用基于分布式存储、集中管理思路的、 以及基于 iSCSI技术的 IPSAN 来作为视频监控的存储解决方案,这个方案的主要特点包括:(1)分布式存储,集中管理; (2)基于 iSCSI 技术的 IPSAN(STorageAreaNetwork ) ;(3)流媒体网关可以作为存储解决方案的核心设备。随着现代 IT 系统的发展 ,数据的规模越来越庞大,并且增速也越来越快, 根据市场研究公司 IDC 的一项调查显示,全球数字数据量每2 年便翻一番。 2011 年的数据量已经8 泽字节(ZB) ,也就是1.8 万亿 G 字节,此传统的存储系统遇到了前所未有的挑战。目前,已经有很多公司和组织使用分布式存储系统对其海量数据进行存储和管理,并且越来越多的其他用户也希望能够将其应用于云存储系统中,从而获得更好的性能和更低廉的价格。分布式存储系统作为云存储技术的基础得到了越来越广泛的应用,其中存储虚拟化常常被用于私有云存储的方案中 ,而面向对象的存储和分布式文件系统被更多地应用于公有云的系统中。5.参考文献【1】王珊、王会举、覃雄派架构大数据 :挑战、现状与展望计算机学报2011-10-15 【2】覃雄派、王会举、杜小勇大数据分析 RDBMS 与 MapReduce 的竞争与共生软件学报2011-09-09 【3】周亮基于粗糙集的大数据集挖掘算法研究与实现江苏大学2010-05-01 【4】张林广大数据量 GIS 网络分析算法的实现和优化研究中国科学院研究生2006-04-01 【5】李基亮大数据时代智谋未来信息化建设2012-01-15 【6】刘军吕俊峰大数据时代及数据挖掘的应用国家电网报2012-05-15 【7】李书鹏分布式文件系统在云存储环境下若干问题研究中国科学技术大学2011-04-01 【8】赵黎斌面向云存储的分布式文件系统关键技术研究西安电子科技大学2011-01-01 【9】魏青松大规模分布式存储技术研究电子科技大学2004-03-01 【10】高国强对等网络分布式缓存机制研究华中科技大学2011-05-01 【11】蔡小龙基于分布式缓存技术的文档管理系统应用研究安徽大学2010-03-01 【12】李想分布式数据库数据分配策略研究大连理工大学2009-12-01 【13】张杨分布式数据库查询优化算法的研究中国石油大学2010-05-01 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 4 页 - - - - - - - - -