2022年大数据及其在各领域的应用 .pdf
《2022年大数据及其在各领域的应用 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据及其在各领域的应用 .pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据及其在各领域的应用引言:随着互联网的飞速发展,特别是近年来社交网络、物联网和云计算的飞速发展和大量应用,人们所接触和关注的数据量出现爆炸式增长,使得数据的极大丰富和复杂成为当今社会的重要特征。对大数据分析和处理的技术也随之建立完善并丰富起来。主要介绍大数据的概念和特点,分析了实现大数据处理的关键技术和大数据的应用领域,列举了几种大数据在现实生活中的典型应用。首先,全球数据量出现爆炸式增长,数据成了当今社会增长最快的资源之一。根据国际数据公司IDC 的监测统计, 即使在遭遇金融危机的2009 年, 全球信息量也比2008年增长了 62% ,达到 80 万 PB (1PB等于 10GB ),
2、到 2011年全球数据总量已经达到1.8ZB(1ZB等于 1 万亿 GB ),并且以每两年翻一番的速度飞速增长,预计到2020 年全球数据量总量将达到40ZB,10 年间增长20 倍以上,到2020 年,地球上人均数据预计将达5247GB 。在数据规模急剧增长的同时, 数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 9 页 - - - - -
3、 - - - - 量的 75% 。如此增长迅速、 庞大繁杂的数据资源, 给传统的数据分析、处理技术带来了巨大的挑战。为了应对这样的新任务,与大数据相关的大数据技术、大数据工程、 大数据科学和大数据应用等迅速成为信息科学领域的热点问题,得到了一些国家政府部门、 经济领域以及科学领域有关专家的广泛关注。虽然大数据日益升温,但与大多数信息学领域的问题一样, 大数据的基本概念及特点,大数据要解决核心问题,目前尚无统一的认识,大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议,大数据概念有过度炒作的嫌疑。 欧洲的一些企业甚至认为大数据就是海量数据存储,仅将大数据视作是可以获取更多信息的平台。 本文
4、分析当前流行的几种大数据的概念,讨论其异同,从大数据据有的典型特征角度描述大数据的概念和特点,从整体上分析大数据要解决的相关性分析、实时处理等核心问题, 在此基础上, 最后讨论大数据可能要面临的多种挑战。大数据的概念和特点大数据是个较为抽象的概念,正如信息学领域但是面对以视频、图片、文字等非结构化数据为主大多数新兴概念样,大数据至今尚无确切、统的定义。来自维基百科的定义为:大名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 9 页 - - - - - - - - - 数据指
5、数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、手机、存储、搜索、共享、传递、分析与可视化等。 IDC 在对大数据作出的定义为:大数据一般会涉及2 种或 2 种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长 60% 以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据处理技术一、大数据技术为何能提高数据
6、的处理速度大数据的并行处理利器MapReduce大数据可以通过MapReduce这一并行处理技术来提高数据的处理速度。 MapReduce 的设计初衷是通过大量廉价服务器实现大数据并行处理,对数据一致性要求不高,其突出优势是具有扩展性和可用性,特别适用于海量的结构化、半结构化及非结构化数据的混合处理。MapReduce将传统的查询、 分解及数据分析进行分布式处理,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 9 页 - - - - - - - - - 将处理任务分配到不
7、同的处理节点,因此具有更强的并行处理能力。作为一个简化的并行处理的编程模型,MapReduce还降低了开发并行应用的门槛。MapReduce是一套软件框架,包括 Map (映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。二、大数据在数据采集方面采用了那些新技术系统日志采集方法很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如 Hadoop的 Chukwa , Cloudera 的 Flume, Facebook的 Scribe等,这些工具均采用分布式架构,能满足每秒数百 MB的日志数据采集和传输需求。网络数据采集方法:对
8、非结构化数据的采集网络数据采集是指通过网络爬虫或网站公开API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网络中包含的内容之外,对于网络流量的采集可以使用DPI 或 DFI 等带宽管理技术进行处理。其他数据采集方法名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 9 页 - - - - - - - - - 对于企业生产经营数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据及其在各领域的应用 2022 数据 及其 领域 应用
限制150内