大数据技术原理与应用 (1).pdf
《大数据技术原理与应用 (1).pdf》由会员分享,可在线阅读,更多相关《大数据技术原理与应用 (1).pdf(48页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据技术原 林子雨林子雨 厦门大学计算机科学系厦门大学计算机科学系 E-mail: 主页:主页: 第第1讲讲 大数据概述大数据概述 大数据技术原理与应用大数据技术原理与应用 https:/www.icourse163.org/course/XMU-1002335004 中国大学MOOC 2018年春季学期 大数据技术原理与应用 厦门大学计算机科学系 林子雨 中国大学MOOC大数据技术原理与应用课程地址: https:/www.icourse163.org/course/XMU-1002335004 大数据技术原理与应用 厦门大学计算机科学系 林子雨 课程重要资料 重要提示:读者在学习大数据技
2、术原理与应用MOOC课程时,在中国大学 MOOC课程的栏目中,有一个名称为“大数据软件安装和编程指南”的子栏目, 进入这个栏目,可以帮助读者顺利完成大数据上机环境的安装和开展基础编程实践 。在观看每个章节的MOOC视频时,可以充分利用该栏目辅助自己完成上机实验 操作。 大数据技术原理与应用 厦门大学计算机科学系 林子雨 欢迎访问教材官网获取教学资源 大数据技术原理与应用大数据概念、存储、处理、分析与应用 厦门大学 林子雨编著,人民邮电出版社,2017年1月第2版 ISBN:978-7-115-44330-4 国内高校第一本系统介绍大数据知识专业教材 京东、当当等各大网店畅销书籍 大数据入门教材
3、精品 国内多所高校采用本教材开课 配套目前国内高校最完备的课程公共服务平台 福建省精品在线开放课程 教材官网:教材官网: 大数据技术原理与应用 厦门大学计算机科学系 林子雨 提纲 1.1 大数据时代大数据时代 1.2 大数据概念大数据概念 1.3 大数据的影响大数据的影响 1.4 大数据的应用大数据的应用 1.5 大数据关键技术大数据关键技术 1.6 大数据计算模式大数据计算模式 1.7 大数据产业大数据产业 1.8 大数据与云计算、物联网的关系大数据与云计算、物联网的关系 欢迎访问大数据技术原理与应用教材官方网站,免费 获取教材配套资源: 本PPT是如下教材的配套讲义: 大数据技术原理与应用
4、概念、存储、处理、分析与应用 (2017年1月第2版) 厦门大学 林子雨 编著,人民邮电出版社 ISBN:978-7-115-44330-4 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1大数据时代 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.1第三次信息化浪潮 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革 信息化浪潮信息化浪潮 发生时间发生时间 标志标志 解决问题解决问题 代表企业代表企业 第一次浪潮 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹 果、微软、联想、戴 尔、惠普等 第二次浪潮 1995年前后 互联
5、网 信息传输 雅虎、谷歌、阿里巴 巴、百度、腾讯等 第三次浪潮 2010年前后 物联网、云计 算和大数据 信息爆炸 将涌现出一批新的市 场标杆企业 表表1-1 三次信息化浪潮三次信息化浪潮 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.2信息科技为大数据时代提供技术支撑 图1-1 存储价格随时间变化情况 1. 存储设备容量不断增加存储设备容量不断增加 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.2信息科技为大数据时代提供技术支撑 来自斯威本科技大学(Swinburne University of Technology)的研究团队,在2013年 6月29日刊出的自然通讯
6、(Nature Communications)杂志的文章中,描述了一 种全新的数据存储方式,可将1PB(1024TB)的数据存储到一张仅DVD大小的聚合 物碟片上。 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.2信息科技为大数据时代提供技术支撑 图1-3 CPU晶体管数目随时间变化情况 2. CPU处理能力大幅提升处理能力大幅提升 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.2信息科技为大数据时代提供技术支撑 图1-4 网络带宽随时间变化情况 3. 网络带宽不断增加网络带宽不断增加 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.3数据产生方式的变革
7、促成大数据时代的来临 图1-5 数据产生方式的变革 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.1.4 大数据的发展历程 阶段阶段 时间时间 内容内容 第一阶段:萌芽 期 上世纪90年代 至本世纪初 随着数据挖掘理论和数据库技术的逐步成熟,一批 商业智能工具和知识管理技术开始被应用,如数据 仓库、专家系统、知识管理系统等。 第二阶段:成熟 期 本世纪前十年 Web2.0应用迅猛发展,非结构化数据大量产生, 传统处理方法难以应对,带动了大数据技术的快速 突破,大数据解决方案逐渐走向成熟,形成了并行 计算与分布式系统两大核心技术,谷歌的GFS和 MapReduce等大数据技术受到追捧,
8、Hadoop平台 开始大行其道 第三阶段:大规 模应用期 2010年以后 大数据应用渗透各行各业,数据驱动决策,信息社 会智能化程度大幅提高 表1-2 大数据发展的三个阶段 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.2大数据概念 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.2.1 数据量大 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增 长一倍(大数据摩尔定律) 人类在最近两年产生的数据量相当于之前产生的全部数据量 预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近 30倍 大数据技术原理与应用 厦门大学计
9、算机科学系 林子雨 1.2.2 数据类型繁多 大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中 90%的非结构化数据,它们与人类信息密切相关 科学研究 基因组 LHC 加速器 地球与空间探测 企业应用 Email、文档、文件 应用日志 交易记录 Web 1.0数据 文本 图像 视频 Web 2.0数据 查询日志/点击流 Twitter/ Blog / SNS Wiki 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.2.3 处理速度快 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同 大数据技
10、术原理与应用 厦门大学计算机科学系 林子雨 1.2.4 价值密度低 价值密度低,商业价值高价值密度低,商业价值高 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高 的商业价值 继续装ing 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.3大数据的影响 图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后 历经了实验、理论、计算和数据四种范式 实验 理论 计算 数据 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.3大数据的影响 在思维方式方面,大数据完全颠覆了传统的思维方式: 全样而非抽样 效率而非精确 相关而
11、非因果 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.3大数据的影响 在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据 应用有力促进了信息技术与各行业的深度融合,大数据开发大大推 动了新技术和新应用的不断涌现 在就业市场方面,大数据的兴起使得数据科学家成为热门职业 在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信 息技术相关专业的现有教学和科研体制 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.4大数据的应用 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务 、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印 迹 大数据技术原理与应
12、用 厦门大学计算机科学系 林子雨 典型的大数据应用实例 Kevin Spacey David Fincher 英国同名小说纸牌屋 风靡全球的美剧纸牌屋 大数据分析 大数据技术原理与应用 厦门大学计算机科学系 林子雨 典型的大数据应用实例 从谷歌流感趋势看大数据 的应用价值 “谷歌流感趋势”,通过跟踪 搜索词相关数据来判断全美地 区的流感情况 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.5大数据关键技术 表1-5 大数据技术的不同层面及其功能 技术层面技术层面 功能功能 数据采集 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数 据文件等,抽取到临时中间层后进行清洗、转换
13、、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础; 或者也可以把实时采集的数据作为流计算系统的输入,进行实时处 理分析 数据存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云 数据库等,实现对结构化、半结构化和非结构化海量数据的存储和 管理 数据处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算 法,实现对海量数据的处理和分析;对分析结果进行可视化呈现, 帮助人们更好地理解数据、分析数据 数据隐私和安全 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐 私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 大数
14、据技术原理与应用 厦门大学计算机科学系 林子雨 1.5大数据关键技术 分布式存储 分布式处理 GFSHDFS BigTableHBase NoSQL(键值、列族、图形、文档数据库) NewSQL(如:SQL Azure) MapReduce 大数据 两大核心技术 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.6大数据计算模式 大数据计算模式大数据计算模式 解决问题解决问题 代表产品代表产品 批处理计算 针对大规模数据的批量 处理 MapReduce、Spark等 流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、 Puma、DStream、Super Mar
15、io、银 河流数据处理平台等 图计算 针对大规模图结构数据 的处理 Pregel、GraphX、Giraph、 PowerGraph、Hama、GoldenOrb等 查询分析计算 大规模数据的存储管理 和查询分析 Dremel、Hive、Cassandra、Impala 等 表1-3 大数据计算模式及其代表产品 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.7大数据产业 大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经 济活动的集合 产业链环节产业链环节 包含内容包含内容 IT基础设施层 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如 ,提
16、供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化 管理软件的微软、思杰、SUN、Redhat等 数据源层 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通 大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门 )、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信 、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 数据管理层 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如 Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatic
17、a、Datastage、Kettle等)、数据库和 数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) 数据分析层 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算 框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau 、BI工具(MicroStrategy、Cognos、BO)等等 数据平台层 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴 巴、谷歌、中国电信、百度等 数据应用层 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业
18、、机构或政府部门,比 如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.8大数据与云计算、物联网的关系 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相 辅相成,既有联系又有区别 大数据技术原理与应用 厦门大学计算机科学系 林子雨 1.8.1云计算 云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具 备网络接入条件的地方,就可以随时随地获得所需的各种IT资源 图1-7 云计算的服务模式和类型 1. 云计算概念云计算概念 公有云公有云混合云混合云私有云私有云 应用层应用层 软件即服务软件即服务(SaaSS
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能导论
限制150内