2022年大数据概述 .pdf
《2022年大数据概述 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据概述 .pdf(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据概述名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 14 页 - - - - - - - - - 目录第一章大数据的定义 . 3 1、大数据时代的背景. 32、大数据时代的到来. 33、大数据的特征. 4第二章大数据的相关技术 . 5 1、对现有技术的挑战. 52、大数据处理技术. 53、大数据与云计算. 64、大数据与分布式技术. 8第三章大数据在各个领域的应用 . 10 1、大数据在互联网企业的应用. 10 2、大数据在政府机构的应用. 11 3、银行业在大数据
2、的应用. 11 第四章大数据在未来的展望. 14 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 14 页 - - - - - - - - - 第一章大数据的定义1、大数据时代的背景半个世纪以来, 随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。 它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,创造出了“大数据( Big Data) ”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。Big Data是近来的一个技术热
3、点,历史上,数据库、数据仓库、数据集市等信息管理领域的技术, 很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在 20 世纪 90 年代就经常提及Big Data 。2011 年 5 月,在“云计算相遇大数据”为主题的 EMC World 2011 会议中, EMC 抛出了 Big Data 概念。21 世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。2、大数据时代的到来近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户
4、的互联网服务时时刻刻在产生巨量的交互。互联网(社交、搜索、电商)、移动互联网(微博) 、物联网(传感器,智慧地球)、车联网、 GPS 、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据:1)全球每秒钟发送2.9 百万封电子邮件;2)每天会有2.88 万个小时的视频上传到Youtube; 3 )推特上每天发布5 千万条消息;4)每天亚马逊上将产生 6.3 百万笔订单;4)每个月网民在Facebook 上要花费7 千亿分钟;5)Google 上每天需要处理24PB 的数据。根据 IDC 作出的估测,数据一直都在以每年50% 的速度增长,也就是说每两年就增长一倍(大
5、数据摩尔定律),并且大量新数据源的出现则导致了非结构化、半结构化数据爆发名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 14 页 - - - - - - - - - 式的增长,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020 年,全球将总共拥有35 亿 GB 的数据量,相较于2010 年,数据量将增长近30 倍。这不是简单的数据增多的问题,而是全新的问题。大数据时代的到来,使我们要处理的数据量实在是太大、增长太快了, 而业务需求和竞争压力对数据
6、处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。3、大数据的特征1)数据量大( Volume)大数据的起始计量单位至少是P( 1000 个 T) 、E( 100 万个 T)或 Z(10 亿个 T) 。非结构化数据的超大规模和增长,比结构化数据增长快10 倍到 50 倍,是传统数据仓库的10 倍到 50 倍。2)类型繁多( Variety)大数据的类型可以包括网络日志、音频、视频、图片、地理位置信息等等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。3)价值密度低(Value)大数据价值密度相对较低。如随着物
7、联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、 人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。4)速度快时效高(Velocity)处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、 处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。面对大数据的全新特征,既有的技术架构和路线,已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。 可以说, 大数据时
8、代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 14 页 - - - - - - - - - 第二章大数据的相关技术1、对现有技术的挑战1) 对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Data
9、base) ,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2) 对经典数据库技术的挑战经典数据库存并没有考虑数据的多类别(variety) ,SQL (结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3)实时性的技术挑战传统的数据仓库系统和各类BI 应用,对处理时间的要求并不高。因此这类应用往往运行 1、2 天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、 BI 技术的关键差别之一。4)对网络架构、数据中心、运维的挑战人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量
10、首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。2、大数据处理技术面对大数据时代的到来,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 14 页 - - - - - - - - - 基于 MPP 的分布式数据库、分布式文件系统、各种NoSQL 分布式存储方案等。充分地利用这些技术, 加上企业全面的用以分析的数据,可更好地提高分析结果的真实性。大数据分析意味着企业能够从这些新的数据中获取新的洞
11、察力,并将其与已知业务的各个细节相融合。以下是一些目前应用较为广泛的技术:1)分析技术:数据处理:自然语言处理技术;统计和分析: A/B test; top N 排行榜;地域占比;文本情感分析;数据挖掘:关联规则分析;分类;聚类;模型预测:预测模型;机器学习;建模仿真;2)大数据技术:数据采集: ETL工具;数据存取:关系数据库;NoSQL ;SQL等;基础架构支持:云存储;分布式文件系统等;计算结果展现:云计算;标签云;关系图等;3)数据存储技术结构化数据:海量数据的查询、统计、更新等操作效率低;非结构化数据:图片、视频、word 、pdf、ppt 等文件存储;不利于检索、查询和存储半结构化
12、数据:转换为结构化存储;按照非结构化存储;4)解决方案:Hadoop(MapReduce 技术)流计算( twitter 的 storm 和 yahoo!的 S4)3、大数据与云计算云计算的模式是业务模式,本质是数据处理技术。大数据是资产,云为数据资产提供存储、访问和计算。大数据与云计算是相辅相成的。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 14 页 - - - - - - - - - 1)云计算及其分布式结构当前云计算更偏重海量存储和计算,以及提供的云服务,运行云
13、应用, 但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据; 它工作的速度非常快速:实际上几乎实时;它具有普及性: 因为它所用的都是最普通低成本的硬件, 而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、 存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这
14、样的低成本硬件+低成本软件 +低成本运维,更加经济和实用,使得大数据处理和利用成为可能。2)云数据库NoSQL被广泛地称为云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘, 因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求, 但是还无法彻底解决大数据存储管理需求。云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系
15、统及电子商务技术的发展和系统的运行模式。基于关系型数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库 ( CloudDB) ,提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理(OLAP)和在线事务处理 (OLTP) 能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它是一个高度可扩展、安全和可容错的软件,客户能通过整合降低IT 成本,管理位于多个数据,提高所有应用程序的性能和实时性做出更好的业务决策服务。因此,云数据库要能够满足:A海量数据处理:对类似搜索引擎和电信运营商级的经营分析系统这样大型的应用而言,需要能够处理PB级的数据
16、,同时应对百万级的流量。B大规模集群管理:分布式应用可以更加简单地部署、应用和管理。C低延迟读写速度:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 14 页 - - - - - - - - - 快速的响应速度能够极大地提高用户的满意度。D建设及运营成本:云计算应用的基本要求是希望在硬件成本、软件成本以及人力成本方面都有大幅度的降低。所以云数据库必须采用一些支撑云环境的相关技术,比如数据节点动态伸缩与热插拔、对所有数据提供多个副本的故障检测与转移机制和容错机制、SN (S
17、hare Nothing)体系结构、中心管理、 节点对等处理实现连通任一工作节点就是连入了整个云系统、与任务追踪、 数据压缩技术以节省磁盘空间。4、大数据与分布式技术1)分布式数据库支付宝公司在国内最早使用Greenplum 数据库,将数据仓库从原来的Oracle RAC平台迁移到 Greenplum 集群。 Greenplum 强大的计算能力用来支持支付宝日益发展的业务需求。Greenplum 数据引擎软件专为新一代数据仓库所需的大规模数据和复杂查询功能所设计,基于 MPP(海量并行处理)和 Shared-Nothing(完全无共享) 架构, 基于开源软件和x86商用硬件设计(性价比更高)。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据概述 2022 数据 概述
限制150内