1-2大数据技术及未来教学课件PPT.pptx
《1-2大数据技术及未来教学课件PPT.pptx》由会员分享,可在线阅读,更多相关《1-2大数据技术及未来教学课件PPT.pptx(30页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1-2大数据技术及未来弘 德 明 志 博 学 笃 行大数据技术主讲人:马学强弘 德 明 志 博 学 笃 行Contents目录01什么是大数据?什么是大数据?具有4V或5V特征02大数据时代大数据时代ITDT,数据作为战略性资源03大数据处理的基本流程大数据处理的基本流程数据抽取和集成、分析、解释04大数据的关键技术大数据的关键技术从数据采集到数据的完美呈现、应用弘 德 明 志 博 学 笃 行01什么是大数据?运营数据库数据运营数据库数据(银行交易、超市销售)互联网数据互联网数据(社交媒体)物联网数据物联网数据(各类传感器)-人类社会数据产生方式的巨大变化弘 德 明 志 博 学 笃 行大数据(
2、Big Data)本身是一个抽象的概念。目前还没有统一的定义。一般来说,大数据是指无法在有限时间内使用常规软件工具对其进行获取、存储、管理和处理的数据集合。这样的海量数据,需要一种新的处理模式才能具有更强的决策力、洞察力和流程优化能力,使之成为一种高增长率、多样化的信息资产。大数据的定义大数据的定义弘 德 明 志 博 学 笃 行商业价值高数据价值密度低时效性要求高,流处理模式数据输入/输出速度快数据速度快文本|图像|音频|视频结构化、半结构化、非结构化数据类型、来源繁多由GB级、TB级PB级、EB级、ZB级,如视频监控(TB)、导航(PB)数据体量巨大大大数据的特征:达成的共识数据的特征:达成
3、的共识VolumeVolumeValueValueVarietyVarietyVelocityVelocityBigData2013年,IBM白皮书分析:大数据在现实世界中的应用中,重新定义和完善大数据“4V”理论,并结合众多行业实践,提出大数据的“5V”理论,即增加Veracity(真实性)特征,强调数据的准确性和可信赖度,即数据的质量。弘 德 明 志 博 学 笃 行02大数据时代数据的爆炸性增长态势、数据构成的特点使得人类社会进入了“大数据”时代。弘 德 明 志 博 学 笃 行18ZB18ZB451.9亿美元2016201726ZB26ZB534.7亿美元201833ZB33ZB626亿美
4、元201941ZB41ZB728亿美元202050.5ZB50.5ZB突破千亿美元2025175ZB175ZB数字转型,将达1930亿美元IDCIDC:数字化世界数字化世界- -从边缘到核心从边缘到核心20182018年全球新产生数据总量统计与预测年全球新产生数据总量统计与预测全球全球IDCIDC行业市场规模行业市场规模中国数据增长迅速,平均每年的增长速度比全球快中国数据增长迅速,平均每年的增长速度比全球快3%3%。20182018年,中国数据占全球数据的年,中国数据占全球数据的23.4%23.4%,为为7.6ZB7.6ZB。预计到。预计到20252025年将增至年将增至48.6ZB48.6Z
5、B,占全球数据的,占全球数据的27.8%27.8%,将成为全球最大的数据圈。,将成为全球最大的数据圈。弘 德 明 志 博 学 笃 行数据已经成为一种战略性资源,在国家治理、国家安全、全球经济增长等各方面处于核心地位,国家竞争的焦点将从资本、土地、人口、资源转向数据空间,数据将被赋予更多的战略含义。大数据对社会、经济、生活产生的影响绝不仅限于技术层面。更多地,大数据为我们洞察世界提供了一种全新的方法,即数据将更多地驱动管理和决策行为,凭借经验和直觉的判断分析、趋势预测将慢慢成为历史。大数据时代的主要特征大数据时代的主要特征弘 德 明 志 博 学 笃 行大数据是信息产业持续高速增长的新引擎在硬件与
6、集成设备领域:大数据将对芯片、存储产业产生重要影响,并催生出一体化数据存储处理服务器、内存计算等市场;在软件与服务领域,大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。大数据时代,科学研究的方法手段将发生重大改变科学研究的方法已不再仅是抽样调查、统计分析,将向数据密集型的第四范式转化,研究人员可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出本质的、潜在的模式和规律,提出研究结论和对策。对大数据的处理分析正成为新一代信息技术融合应用的结点新一代信息技术应用形态:移动互联网、物联网、社交网络、数字家庭、电子商务、在线教学和广告等,大数据产生;大数据方法
7、和技术:云计算、人工智能等提供大数据存储、计算和自动化的方案;对数据的处理、分析和优化,将赋能应用,创造出巨大的经济和社会价值,催生社会变革和进步。数据利用将成为提高核心竞争力的关键因素从国家战略到各行各业,管理和决策的模式正在从“业务驱动”向“数据驱动”转变。国家大数据战略:数字中国、数字经济,提升国家治理现代化水平、保障和改善民生,保证整个国家的数据安全;商业领域:线上、线下模式,商家掌握市场动态、精准营销,为消费者提供更加智能化、个性化的服务;医疗领域:辅助医生提高诊断的准确性和药物的有效性;公共事业领域:促进经济发展、维护社会稳定等。大数据时代的主要特征大数据时代的主要特征弘 德 明
8、志 博 学 笃 行03大数据处理的基本流程一般来说,大数据的处理流程是指在合适工具的辅助下,对分布、异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。大数据处理的基本流程与数据科学的一般过程类似,总体上可以分为数据抽取与集成、数据分析和数据解释等步骤。弘 德 明 志 博 学 笃 行1.1.数据抽取和集成数据抽取和集成数据异构、分布、自治、海量用户对结果的关注和理解3.3.数据解释数据解释核心流程,发现模式和价值2.2.数据分析数据分析大数据处理流程大数据处理流程弘 德 明 志
9、博 学 笃 行目的:提取数据中的实体和关系,然后经过关联和聚合并采用统一定义的结构来存储这些数据。数据集成模型:传统:ETL(Extract/Transform/Load)方法;大数据:基于数据流、搜索引擎、爬虫技术等提取和集成数据,以适应实时性、虚拟化、云架构、数据迁移的需求。大数据处理流程大数据处理流程-数据抽取和集成数据抽取和集成结果请求数据源数据源1数据源数据源2 2数据源数据源n n数据集成系统数据集成系统用户用户挑战: 来源与类型不同,采用不同的数据模型; 数据网络传输对性能和安全性的要求; 能否适应对数据外部环境的变化。弘 德 明 志 博 学 笃 行联邦数据库模式:各数据库部分共
10、享、数据视图全局透明;分为紧密耦合、松散耦合两种形式。大数据常用的集成方法大数据常用的集成方法数据库数据库数据库数据库数据库数据库数据库数据库数据库数据库结果请求数据源数据源1数据源数据源n n封装器封装器Wrapper用户用户封装器封装器WrapperWrapper中间件中间件MediatorMediator全局全局数据模式数据模式数据源数据源1数据源数据源n n封装器封装器Wrapper封装器封装器WrapperWrapper集成系统集成系统元数据管理元数据管理数据仓库数据仓库中间件模式:在数据层和应用层之间,使用全局数据模型,访问异构数据库、遗留系统、Web资源等;查询(全局)性能好,自
11、治性强。数据仓库:集成大量操作型数据(已存在的数据库),提供决策型数据访问的各种技术和模块。为用户更快、更方便地查询所需要的信息,提供决策支持。弘 德 明 志 博 学 笃 行新数据、新公司、新技术不断出现,不增加新风险、新问题,找到最适合的技术。数据管理环境存在很大的不确定性大数据特点,使得设计衡量分析结果的方法和指标时存在困难。数据结果的衡量标准存在困难数据量与数据价值不一定是同步的,往往伴随着数据噪声的增多通过预处理,降低计算资源、处理算法的风险。实时性、准确率之间的平衡;分布式并发计算;海量数据,小数据成长为大数据。大数据时代的算法需要进行调整大数据处理流程大数据处理流程-数据分析数据分
12、析核心和关键流程,其目标是从数据中获得可操作的洞察力。大数据分析技术面临的主要挑战如下:弘 德 明 志 博 学 笃 行大数据分析结果之间的关联关系将更加复杂,传统的静态文本呈现方式对大数据的解释几乎是不可行的。考虑从以下两个方面提升数据解释能力:(a) 引入可视化技术以图形的方式展示分析结果,使用户更易理解和接受。如标签云、历史流、空间信息流等。(b) 让用户能够在一定程度上了解和参与具体的分析过程人机交互技术:利用交互式的数据分析过程来引导用户逐步地进行分析,用户在得到结果的同时更好地理解分析结果的过程;数据溯源技术:追溯整个数据分析的过程,帮助用户理解结果。大数据处理流程大数据处理流程-数
13、据数据解释解释弘 德 明 志 博 学 笃 行04大数据的关键技术技术不是科学的副产品。-技术的本质,布莱恩.阿瑟技术的自我革新、技术体系的有机构成,是实现人类目标、关乎人类福祉的重要组成部分。弘 德 明 志 博 学 笃 行大数据的分布性、异构性、实时性等特点,使得大数据技术生态相对独立而彼此协同。大数据技术包括:采集、预处理、存储与管理、分析与挖掘、展现与应用。目前,各技术平台和工具呈现多功能、彼此交叉的特点。大数据关键技术大数据关键技术弘 德 明 志 博 学 笃 行数据源数据源系统日志、互联网、运营数据库、智能感知设备1系统日志数据采集支持在线或离线方式,如:Cloudera公司基于数据流模
14、式的Flume系统、Facebook公司基于分布式共享队列的Scribe系统、Hadoop框架下的大型分布式系统日志数据收集系统Chukwa系统等。3数据库数据采集关系数据库,如MySql、Oracle等,支持标准的SQL操作;NoSQL数据库,如Redis、MongoDB等;Hadoop支持的开源数据仓库解决方案,如Hive,通过类似SQL的声明性语言HiveQL操作数据;Sqoop将关系数据库数据导入到HDFS。 海量数据海量数据 结构化、半结构化、非结构化2互联网数据采集网络爬虫或公共API接口,如:Apache Nutch用于分布式多任务数据爬取,Crwaler4j、Scrapy作为一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 未来 教学 课件 PPT
限制150内