大数据专题.ppt
《大数据专题.ppt》由会员分享,可在线阅读,更多相关《大数据专题.ppt(43页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Big Data 大数据 什么是大数据?什么是大数据?什么是大数据?什么是大数据?海量数据本身海量数据本身海量数据本身海量数据本身+处理方法处理方法处理方法处理方法大数据的产生及概念大数据的产生及概念大数据的产生及概念大数据的产生及概念*facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联 21世纪是数据信息大开展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网社交、搜索、电商、移动互联网微博、物联网传感器,智慧地球、车联网、GPS、医学影像、平安监控、金融银行、股市、保险、电信通话、短信都在疯狂产生着数据。“大数据的诞
2、生 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充满着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据这个概念。如今,这个概念几乎应用到了所有人类开展的领域中。大数据时代的背景大数据时代的背景大数据时代的背景大数据时代的背景指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据网上网上1分钟,人间分钟,人间1万年万年物联网加速大数据的开展物联网加速大数据的开展指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据指数型增长的
3、海量数据指数型增长的海量数据指数型增长的海量数据所有研究都说明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院所有研究都说明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院MGI估计,全估计,全球企业球企业2021年在硬盘上存储了超过年在硬盘上存储了超过7EB1EB等于等于10亿亿GB的新数据,而消费者在的新数据,而消费者在PC和笔记和笔记本等设备上存储了超过本等设备上存储了超过6EB新数据。新数据。1EB数据相当于美国国会图书馆中存储的数据的数据相当于美国国会图书馆中存储的数据的4000多倍。多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供事实
4、上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的商会处理掉他们所产生的90%的数据比方手术过程中产生的几乎所有实时视频图像。的数据比方手术过程中产生的几乎所有实时视频图像。GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2021 年,这个数字到达了。而有市场研究机构预测:到2021 年,整个世界的数据总量将会增长44 倍,到达1ZB=10 亿TB!1PB=250字节1EB=260字节1ZB=270字节指数型增长的海量数据
5、指数型增长的海量数据指数型增长的海量数据指数型增长的海量数据TBPBZBEB大量新数据源的出现那么导致了非结构化、半结构化数据爆发式的增长根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临.大数据时代到来大数据时代到来大数据时代到来大数据时代到来大数据的概念与构成大数据的概念与构成大数据的概念与构成大数据的概念与构成大数据是指社会生产生活和管理效劳过程中形
6、成的,依托现代信息技术采集、传输、汇总的,超过传统数据系统处理能力的数据,具有数据量大、数据类型多、处理速度快的特点,通过整合共享、交叉复用、提取分析可获取新知识,创造新价值。大数据=海量数据+复杂类型的数据处理方法海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数
7、据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。大数据的大数据的大数据的大数据的4V4V特征特征特征特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低Value就是“大数据的显著特征,或者说,只有具备这些特点的数据,才是大数据。理解大数据理解大数据理解大数据理解大数据商业模式驱动应用需求驱动云计算本身也是大数
8、据的一种业务模式云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云效劳,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和效劳,是大数据核心议题,也是云计算的最终方向。密不可分的大数据与云计算密不可分的大数据与云计算大数据是落地的云理解大数据理解大数据理解大数据理解大数据*大数据不仅仅是大数据不仅仅是“大大多大?至少PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值理解大数据理解大数据理解大数据理解大数据*软件是大数据的引擎软件是
9、大数据的引擎理解大数据理解大数据理解大数据理解大数据*大数据的应用不仅仅是精准营销大数据的应用不仅仅是精准营销通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共效劳领域具有广阔的应用前景消费行业金融效劳食品平安医疗卫生军事交通环保电子商务气象理解大数据理解大数据理解大数据理解大数据理解大数据理解大数据理解大数据理解大数据如何让大数据更有意义是重点;对非结构化数据的内容理解是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访
10、谈之后发现:运用大数据做决策的那些行业领先企业,比其竞争对手在产能上高5%,利润上高6%。大数据相关技术大数据相关技术大数据相关技术大数据相关技术分析技术:数据处理:自然语言处理技术统计和分析:A/B test;top N排行榜;地域占比;文本情感分析数据挖掘:关联规那么分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等根底架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于
11、检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:HadoopMapReduce技术流计算twitter的storm和yahoo!的S4能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等等,都在大数据分析时获得应用。图文转换技术、模式识别技术、地理信息技术等等,都在大数据分析时获得应用。大数据相关技术大数据相关技术大数据相关技术大数据相关技术 大数据的展现方式大数据的展现方式大数据的展现方式大数据的展现方式大数据的展
12、现方式大数据的展现方式大数据的展现方式大数据的展现方式新模式正在出现新模式正在出现新模式正在出现新模式正在出现基于基于SQL语言语言:面对OLAP的传统行和列不基于不基于SQL或或map-reduce的的:由谷歌率先由谷歌率先发起发起数据流数据流:基于运行商数据直接生成任意图形新平台技术新平台技术数据入数据入口口/会聚会聚数据平台数据平台分析分析不同范围的服务不同范围的服务前提:前提:传统交付模式-单片或基于设备的解决方案云云:能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKob
13、ielus新的传输方案新的传输方案大数据的组成局部大数据的组成局部大数据的组成局部大数据的组成局部大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有现有IT系统改造商:大数据咨询公司、集成商、系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;展现方式:大型控制中心、移动终端展现方式:大型控制中心、移动终端
14、展现方式:大型控制中心、移动终端展现方式:大型控制中心、移动终端在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。移动终端,实现数据的实时处理和快速决策。大数据为什么重要?决定企业大数据为什么重要?决定企业大数据为什么重要?决定企业大数据为什么重要?决定企业是否有未来、业务可延伸范围是否有未来、业务可延伸范围是否有未来、业务可延伸范围是否有未来、业务可延伸范围大数据的重要性大数据的重要性大数据的重要性大数据的重要性更高一层数据层面整合企业内外部更高一
15、层数据层面整合企业内外部更高一层数据层面整合企业内外部更高一层数据层面整合企业内外部挖掘内部需求挖掘内部需求挖掘内部需求挖掘内部需求经过大数据改造的经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务开展,挖掘不再是一个冷冰冰的系统,而变成了推动业务开展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。产生新的用户量、给用户产生行为指纹产生新的用户量、给用户产生行为指纹产生新的用户量、给用户产生行为指纹产生新的用户量、给用户产生行为指纹用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网用
16、户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户录和分析,形成用户“行为指纹,从而洞悉用户的潜在的、真实的需求,形成预判。这行为指纹,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。台级公司的附庸。国外开展情况:万马奔腾,抢国外
17、开展情况:万马奔腾,抢国外开展情况:万马奔腾,抢国外开展情况:万马奔腾,抢占大数据高地占大数据高地占大数据高地占大数据高地大数据国外发展情况大数据国外发展情况大数据国外发展情况大数据国外发展情况衍生于亚马逊、衍生于亚马逊、衍生于亚马逊、衍生于亚马逊、GoogleGoogle等互联网公司等互联网公司等互联网公司等互联网公司前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者
18、的典型那么是,后者的典型那么是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了行为、喜好等信息也免费的送给了Google。因此。因此Google的产品线越丰富,他对用户的理的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 专题
限制150内