知识点5-网络与新媒体数据环境—大数据.pdf
1 Chapter 5 第五节 网络与新媒体应用的 数据环境大数据 2 目前,信息海洋已经将我们团团围住,单一数 据集容量超过几十TB 甚至数PB 已不罕见,其规模 大到无法在容许的时间内用常规软件工具对其内容 进行抓取、管理和处理,人类已经从小数据时代进 入大数据时代。 3 一、大数据概述 所谓大数据是指那些大小已经超出传统意义上 的尺度,已有的一般软件难以捕捉、存储、管理和 分析的数据。 一般意义上,大数据是指无法在可容忍的时间 内用传统IT技术和软硬件工具对其进行感知、获取、 管理、处理和服务的数据集合。但不同的研究机构 和学者对大数据的定义不尽相同。 4 归纳起来,大数据的概念和内涵可以从广义和 狭义两个方面进行诠释: 广义的大数据概念,除了大数据技术及其应用 之外,还包括大数据工程和大数据科学。 狭义的大数据概念,主要是指大数据技术及其 应用,是指从各种各样类型的数据中,快速获得有 价值信息的能力。 5 大数据的特点可以总结为4个“V”,即体量浩 大(Volume)、模态繁多(Variety)、生成快速 (Velocity)、价值巨大(Value)。 6 大数据主要来自于:人们在互联网活动中,以 及使用移动互联网过程中,所产生的各类数据, 包括文字、图片视频等信息,各类计算机信息系 统产生的数据,以及各类数字设备所采集的数据, 如摄像头产生的数字信号、医疗物联网中产生的 人的各项特征值、天文望远镜所产生的大量数据 等。 7 二、大数据的关键技术 大数据的处理技术主要包括数据的采集、管理、 分析与展示技术。具体来说,大数据的关键技术主 要包括两个方面:非关系数据管理技术和云计算技 术。 一方面,关系数据库技术(RDBMS)经过了 将近40 年的发展,成为一门成熟的、同时仍在不断 演进的主流数据管理和分析技术。 8 但是,关系数据管理技术在大数据时代丧失了互 联网搜索这个机会,其主要原因是关系数据管理系统 (并行据库)的扩展性遇到了前所未有的障碍,不能 胜任大数据分析的要求。在这种情况下,非关系数 据管理技术应运而生。 代表性的技术主要包括“映射归约”(Map Reduce)技术、“海杜普”(Hadoop)技术、华 为 “SmartVision”技术和非关系型数据库 (NoSQL)技术。 9 另一方面,据统计,云计算与大数据的深度融 合位列2013 年大数据发展趋势的第三名,大数据 能为云计算大规模和分布式的计算能力提供广阔的 应用空间,云计算正在进入以“分析即服务(AaaS)” 为主要标志的Cloud 2.0时代。 10 一是云计算基础设施可以作为有效平台来处理 大数据分析应用的计算和数据存储需求。 二是开发人员和研究人员可以采用软件即服务 (SaaS)、平台即服务(PaaS)和基础设施即服务 (IaaS)的架构模型来实现在云中的大数据分析解 决方案。 11 三、大数据带来的主要挑战 总之,收集、保存、维护、管理、分析和共享 正在呈指数级增长的数据是人类必须共同面临的挑 战。具体来说,主要包括三个方面。 首先,大数据中劣质数据带来的挑战。随着大 数据的爆炸性增长,劣质数据也随之而来,导致数 据质量低劣,能极大地降低数据的可用性。 12 二是大数据对信息安全的挑战。大数据对信息 安全的挑战主要包括两个方面。(1)如何防止数 据被窃取或篡改。(2)如何防止个人信息泄漏。 三是大数据的复杂性、不确定性和涌现性所带 来的挑战。(1)复杂性造成网络大数据存储、分 析、挖掘等多个环节的困难。(2)网络大数据的 不确定性不确定性使得网络数据难以被建模和学习, 从而难以有效利用其价值。(3)网络大数据的涌 现性是网络数据有别于其它数据的关键特性。 13 如何做到既深入挖掘数据给人类带来利益的智 慧部分,又充分保护个人隐私不被滥用,找到信息 开放和保护的平衡点,将是大数据时代面临的巨大 挑战。 我们需要科学认识大数据的价值,恰当分析大 数据的分析结果,才能够有效防止陷入大数据分析 的陷阱。 在互联网时代,在大数据时代,任何数据资源, 都将拥有了全然不同的价值内涵,在我们生活中, 一切被记录的,都将会是有意义的。 有缘学习更多+ 谓y g d 3 0 7 6 考证资料 14 四、发展现状 大数据在美国的研究和应用起步较早。2011 年, Facebook 首次公开新数据处理分析平台(PUMA), 相比之前单纯采用 “海杜普”(Hadoop) 和 “Hive”进行处理的技术,效率提高数万倍。 近几年大数据的研究和应用在中国蓬勃发展。 2012 年 6 月 9 日,中国计算机学会常务理事会决定 成立大数据专家委员会。