大学计算机基础(第8章)大数据基础.pptx
《大学计算机基础(第8章)大数据基础.pptx》由会员分享,可在线阅读,更多相关《大学计算机基础(第8章)大数据基础.pptx(259页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、过渡页 TRANSITION PAGE 第8章 大数据基础18.1 大数据概述28.2 大数据处理架构Hadoop38.3 分布式文件系统HDFS48.4 分布式数据库HBase58.5 NoSQL数据库68.6 云数据库78.7 Spark与Scala88.8 流计算概述过渡页 TRANSITION PAGE 8.1 大数据概述8.1.1 大数据的概念8.1.2 大数据的来源8.1.3 大数据对现代社会的影响8.1.4 大数据的应用场景8.1.5 大数据的关键技术8.1.6 大数据和云计算3 8.1.1 大数据的概念 8.1.1 大数据的概念大数据(Big Data)指的是海量数据或巨量数据
2、,其规模巨大到无法通过目前主流的计算机系统在合理的时间内获取、存储、管理、处理并提炼以帮助使用者决策。2004年,全球数据总量是30 EB,2005年达到50 EB,2015年达到惊人的7 900 EB;预计到2020将达到35 000 EB。这个增长速度符合1998年图灵奖获得者杰姆格雷(Jim Gray)提出的“新摩尔定律”,即人类有史以来的数据总量,每隔18个月就会翻一番。4 8.1.1 大数据的概念 8.1.1 大数据的概念单位位换算关系算关系Byte(字节)1 Byte=8 BitKB(KiloByte,千字节)1 KB=1 024 ByteMB(MegaByte,兆字节)1 MB=
3、1 024 KBGB(GigaByte,吉字节)1 GB=1 024 MBTB(TrillonByte,太字节)1 TB=1 024 GBPB(PetaByte,拍字节)1 PB=1 024 TBEB(ExaByte,艾字节)1 EB=1 024 PBZB(ZettaByte,泽字节)1 ZB=1 024 PB表8-1 数据存储单位之间的换算关系提示 数据存储单位之间的换算关系如表8-1所示。5 8.1.1 大数据的概念 8.1.1 大数据的概念那么,大数据具有什么特征呢?目前工业界普遍认为大数据具有4V+1C的特征。(1)数据量大(Volume)。存储的数据量巨大,PB级别是常态。(2)多样
4、(Variety)。数据的来源及格式多样。数据格式除了传统的结构化数据外,还包括半结构化或者非结构化数据(如用户上传的音频和视频等内容)。此外,随着人类活动的进一步拓宽,数据的来源更加多样。6 8.1.1 大数据的概念 8.1.1 大数据的概念(3)快速(Velocity)。数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快,以便能够从数据中及时地发现、提取有价值的信息。(4)价值密度低(Value)。由于需要对大量的数据进行处理,挖掘其潜在的价值,因而,大数据对我们提出明确的要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体
5、系架构。(5)复杂度(Complexity)。对数据的处理和分析的难度大。7 8.1.2 大数据的来源 8.1.2 大数据的来源大数据怎么来的呢?无非是通过各种数据采集设备、原有各类数据库的日积月累、开源的数据发布平台数据累积(如BBS、推特、微信等)、GPS信息、网络痕迹(如购物、搜索历史等)、用户上传的结构化或者非结构化的信息等汇聚而成,来源非常广泛。下面从大数据来源的主体、来源的行业、数据存储的形式三方面对大数据的来源进行分析。8 8.1.2 大数据的来源 8.1.2 大数据的来源(1)少量企业应用产生的数据。如关系型数据库和数据仓库中的数据等。(2)大量人产生的数据。如推特、微信、通信
6、软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据、广播、电视数据等。(3)巨量机器产生的数据。如应用服务器日志、各类传感器日志、声音、图像和视频监控数据、二维码和条形码扫描数据等。按产生数据的主体进行划分1 19 8.1.2 大数据的来源 8.1.2 大数据的来源(1)互联网公司。例如,百度公司数据总量超过了千PB级别,数据涵盖了中文网页、百度推广、百度日志、UGC等多个部分,并以70%以上的搜索市场份额坐拥庞大的搜索数据;阿里巴巴公司保存的数据量超过了百PB级别,拥有90%以上的电商数据,数据涵盖了点击网页数据、用户浏览数据、交易数据、购物数据等;腾讯公司总存储数据量经压
7、缩处理以后仍然超过了百PB级别,数据量月增加达到10%,包括大量社交、游戏等领域积累的文本、音频、视频和关系类数据。按数据来源的行业划分2 210 8.1.2 大数据的来源 8.1.2 大数据的来源(2)电信、金融、保险、电力、石化系统。电信行业数据包括用户上网记录、通话、信息、地理位置数据等,运营商拥有的数据量将近百PB级别,年度用户数据增长超过10%。金融与保险包括开户信息数据、银行网点数据、在线交易数据、自身运营的数据等,金融系统每年产生的数据超过数十PB,保险系统的数据量也超过了PB级别。电力与石化方面,仅国家电网采集获得的数据总量就达到了数十PB,石油化工领域每能年产生和保存下来的数
8、据量也将近百PB级别。11 8.1.2 大数据的来源 8.1.2 大数据的来源(3)公共安全、医疗、交通领域。一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。(4)气象、地理、政务等领域。中国气象局保存的数据将近10 PB,每年约增数百TB:各种地图和地理位置信息每年约数十PB:政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多为结构化数据。12 8.1.2 大数据的来源 8.1.2 大数据的来源(5)制造业和其
9、他传统行业。制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数据为主。其中,产品设计数据以文件为主,是非结构化数据,对共享要求较高,保存时间较长;企业生产环节的业务数据主要是结构化数据。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮食品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大,多则达到PB级别,少则数十TB或数百TB级别。13 8.1.2 大数据的来源 8.1.2 大数据的来源大数据不仅仅体现在数据量大,还体现在数据类型多。其中,有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。结
10、构化数据简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等数据。非结构化数据包括所有格式的办公文档、文本、图片、网页、各类报表、图像和音频、视频等数据。按数据存储的形式划分3 314 8.1.2 大数据的来源 8.1.2 大数据的来源大数据的价值不在于存储数据本身,而在于如何挖掘数据,只有具备足够的数据源才可以挖掘出数据背后的价值,因此,获取数据是非常重要的基础。就数据获取而本言,大型互联网企业由于自身用户规模庞大,可以把自身用户产生的交易、社交、搜索等数据充分挖掘,拥有稳定安全的数据资源。对于其他大数据公司和大数据研究机构而言,日前获取大
11、数据的方法有如下4种:按数据存储的形式划分3 315 8.1.2 大数据的来源 8.1.2 大数据的来源(1)系统日志采集。可以使用海量数据采集工具用于系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需求。(2)互联网数据采集。可以通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将数据从网页中抽取出来,并将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,而且附件与正文可以自动关联。除了采集网站中包含的内容之外,还可以使用DPI或DFI等带
12、宽管理技术实现对网络流量的采集。16 8.1.2 大数据的来源 8.1.2 大数据的来源(3)APP移动端数据采集。APP是获取用户移动端数据的一种有效方法。APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应用的数量和类型等。虽然单个APP用户的数据量有限,但如果有数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量级。(4)与数据服务机构进行合作。数据服务机构通常具备规范的数据共享和交易渠道,人们可以在其平台上快速、准确地获取自己所需要的数据。对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可
13、以通过与企业或研究机构合作,使用特定系统接口等方式采集数据。17 8.1.2 大数据的来源 8.1.2 大数据的来源不管数据是怎样一个来源,人类社会正经历第二次“数据爆炸”(第一次可以认为发生在造纸术和印刷术发明的时期)。各种数据源源不断的从我们的社交平台、移动互联网、物联网、各类媒介、各类传感设备上产生,种类之多,数量之大已经超出传统技术手段可以控制的范围。18 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响大数据对科学研究、思维方式和社会发展都具有重要而深远的影响。在科学研究方面,大数据使得人类科学研究在经历了科学实验、模型归纳、模拟仿真3种范式之后,迎来了第四种范
14、式数据密集型;在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全覆了传统的思维方式;在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现。此外,在就业市场方面,大数据的兴起使得数据科学家成为热门人才;在人才培养方面,大数据人才需求将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。19 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响人类在科学研究上先后历经了实验、理论、计算和数据四种范式,如图8-1所示:大数据对科学研究的影响1
15、1图8-1 科学研究的四种范式20 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响1)第一种范式:科学实验在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例。1590年,伽利略在比萨斜塔上做了“两个铁球同时落地”的实验,得出了重量不同的两个铁球同时下落的结论,从此推翻了亚里士多德“物体下落速度和重量成比例”的学说,纠正了这个持续了1900年之久的错误结论。21 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响2)第二种范式:模型归纳实验科学的研究会受到实验条件的限制,难以完成对自然现象更精确的理解。随着科学的进
16、步,人类开始采用各种数学、几何、物理等理论,构建问题模型和解决方案。例如,牛顿第一定律、牛顿第二定律、牛顿第三定律构成了牛顿力学的完整体系,奠定了经典力学的概念基础,它的广泛传播和运用对人们的生活和思想产生了重大影响,在很大程度上推动了人类社会的发展和进步。22 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响3)第三种范式:模拟仿真随着1946年人类历史上第一台计算机ENIAC的诞生,人类社会开始步入计算机时代,科学研究也进入了一个以“计算”为中心的全新时期。在实际应用中,计算科学主要用于对各问题进行计算机模拟和其他形式的计算。通过设计算法并编写相应程序输入计算机运行,
17、人类可以借助于计算机的高速运算能力去解决各种问题。计算机具有存储容量大、运算速度快、精度高、可重复执行等特点,是科学研究的利器,推动了人类社会的飞速发展。23 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响4)第四种范式:数据密集型随着数据的不断累积,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了数据发展从量变到质变的转变,使人类社会开启了全新的大数据时代。这时,计算机将不仅仅能做模拟仿真,还能进行分析总结。在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。大数据将成为科学工作者的宝藏,从数据中可以挖掘未知模式和有价值的信息,
18、服务于生产和生活,推动科技创新和社会进步。24 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响虽然第三种方式和第四种方式都是利用计算机来进行计算,但是二者还是有本质区别的。在第三种研究范式中,一般先提出可能的理论,再搜集数据,然后通过计算来验证。而第四种研究范式,则是先有了大量已知的数据,然后通过计算机得出之前未有的理论。25 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响美国科学家维克托迈尔舍恩伯格在大数据时代:生活、工作与思维的大变革)一书中明确指出,大数据时代最大的转变就是思维方式的3种转变:全样而非抽样、效率而非精确、相关而非因果。大数据
19、引发思维方式的转变2 226 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响1)全样而非抽样过去,由于数据存储和处理能力的限制,在科学分析中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。通常,样本数据规模要比全集数据小很多,因此,可以在可控的代价内实现数据分析的目的。27 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响现在,我们已经迎来大数据时代,大数据技术的核心就是海量数据的存储和处理,而分布式文件系统和分布式数据库技术提供了理论上近乎无限的数据存储能力,分布式并行编程框架Mapreduc
20、e提供了强大的海量数据并行处理能力。因此,有了大数据技术的支持,科学分析完全可以直接针对全集数据而不是抽样数据,并且可以在短时间内迅速得到分析结果。例如:谷歌公司的Dremel(交互式数据分析系统)可以在23 s内完成PB级别数据的查询。28 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响2)效率而非精确过去,我们在科学分析中采用抽样分析方法,就必须追求分析方法的精确性,因为抽样分析只是针对部分样本的分析,其分析结果被应用到全集数据以后,误差会被放大,这就意味着,抽样分析的微小误差被放大到全集数据以后,可能会变成一个很大的误差。因此,为了保证误差被放大到全集数据时仍然处
21、于可以接受的范围,就必要确保抽样分析结果的精确性。正是由于这个原因,传统的数据分析方法往往更加注重提高算法的精确性,其次才是提高算法效率。29 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响现在,大数据时代采用全样分析而不是抽样分析,全样分析结果就不存在误差被放大的问题。因此,迫求精确性已经不是其首要目标;相反,大数据时代具有“秒级响应”的特征,要求在几秒内就迅速给出针对海量数据的实时分析结果,否则就会丧失数据的价值,因此,数据分析的效率成为关注的核心。30 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响3)相关而非因果过去,数据分析的目的,一方
22、面是解释事物背后的发展机理。例如,一个大型超市在某个地区的连锁店在某个时期内净利润下降很多,这就需要IT部门对相关销售数据进行详细分析并找出问题的原因。另一方面是用于预测未来可能发生的事件。例如,通过实时分析微博数据,当发现人们对雾霾的讨论明显增加时,就可以建议销售部门增加口罩的进货量,因为人们关注雾霾的一个直接结果是,大家会想到购买一个口罩来保护自己的身体健康。不管是哪个目的,其实都反映了一种“因果关系”。31 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响但是,在大数据时代,因果关系不再那么重要,人们转而追求“相关性”而非“因果性”。例如,我们去淘宝网购物时,当我们
23、购买了一个汽车防盗锁以后,淘宝网还会自动提示你,与你购买相同物品的其他客户还购买了汽车坐垫,也就是说,淘宝网只会告诉你“购买汽车防盗锁”和“购买汽车坐垫”之间存在相关性,但是并不会告诉你为什么其他客户购买了汽车防盗锁以后还会购买汽车坐垫。32 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响1)对社会发展的影响大数据将对社会发展产生深远的影响,具体表现在以下几个方面:大数据决策成为一种新的决策方式,因为它可以面向类型繁多、非结构化的海量数据进行决策分析,弄清数据中隐含的事实和事物发展趋势,协助个人、组织和政府实现决策;大数据应用还促进了信息技术与各行业的深度融合,现在就不
24、难看出,大数据将在未来改变几乎每个行业的业务方式和功能;同时,大数据的开发也推动了新技术和新应用的不断涌现,在不远的将来,原来那些依靠人类自身判断的应用领域,将逐渐被各类基于大数据的应用所取代。大数据对社会各方面的影响3 333 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响2)大数据对就业市场的影响在未来5到10年,我国大数据市场规模年均增速将超过30%。未来5年,国内大数据人才缺口将突破150万。在BAT(百度、阿里巴巴和腾讯)发布的招聘职位中,目前大数据岗位占比已经超过60%。与此同时,大数据人才的薪资水平也在水涨船高,Hays亚洲薪酬指南指出,数据专家的年薪范畴
25、为20 000人民币至500 000人民币之间。34 8.1.3 大数据对现代社会的影响 8.1.3 大数据对现代社会的影响3)大数据对人才培养的影响大数据的兴起将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制。首先,数据科学家是一个需要掌握统计、数学、机器学习、可视化、编程等多方面知识的复合型人才;其次,数据科学家需要大数据应用实战环境,在真正的大数据环境中不断学习、实践并融会贯通,将自身技术背景与所在行业业务需求进行深度融合,从数据中发现有价值的信息。但是目前大多数高校还不具备这种培养环境,不仅缺乏大规模基础数据,也缺乏对领域业务需求的理解。35 8.1.3 大数据对现代社会
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学计算机 基础 数据
限制150内