大数据关键技术ppt课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《大数据关键技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据关键技术ppt课件.ppt(64页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、一、大数据时代的诞生二、大数据关键技术三、大数据与高等教育四、我们开展的相关研究 大数据与云计算 大数据是云计算的核心内容 大数据改变世界HPC:HPC: High-High-Performance Performance ComputingComputingHTC:HTC: High-High-Throughput Throughput ComputingComputingP2P:P2P: Peer to PeerPeer to PeerMPP: MPP: Massively Parallel Massively Parallel ProcessorsProcessors一张哈勃望远镜捕捉下
2、来的高清相片,高达数十个G字节 大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构。VolumesVolumes(GB-TB-PB-EB-ZB-)GB-TB-PB-EB-ZB-)Variety Variety ( all-structure, semi-structure, ( all-structure, semi
3、-structure, non- struture )non- struture )Velocity Velocity ( speed, frequency)( speed, frequency)Value Value (information )(information ) 1.大数据采集与预处理2.大数据存储及管理3.大数据计算模式与系统4.大数据分析与挖掘5.大数据可视化计算6.大数据隐私与安全7.大数据应用技术 大数据采集所说的数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数
4、据知识服务模型的根本。Big Data- 12 - 对比项对比项结构化数据结构化数据非结构化数据非结构化数据半非结构化数据半非结构化数据定义定义 有数据结构描述信息的数据 不方便用固定结构来表现的数据 介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系结构与内容的关系 先有结构、再有数据 只有数据,没有结构 先有数据,再有结构示例示例 各类表格 图形、图像、音频、视频信息 HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者 管理信息系统(结构化数据) Web
5、信息系统(非结构化,半结构化) 物理信息系统(传感器,多媒体数据) 科学实验系统(仿真数据) 主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。 异构数据集成技术 WEB中实体识别技术 DeepWeb技术(Web中不能被传统的搜索引擎索引到的那部分内容) 传感器网络融合技术 -数据清洗和质量控制工具: D
6、ata Flux, Data Stage,InformaticalPowe Center. 精确性(数据符合规定的精度) 一致性(数据之间不能存在相互矛盾) 完整性(数据的值不能为空) 同一性(数据的标识是唯一的) 时效性(数据的值反映了实际的状态) 真实性(数据不能是虚假的) 数据源的选择和高质量原始数据的采集方法(建立数据源质量评估模型) 多源数据的实体识别和解析方法 数据清洗和自动修复方法(清除错误,修复信息) 高质量数据整合方法(智能模式抽取和匹配) 数据演化的溯源管理(追踪数据演化过程) 主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统
7、(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。 存储规模大(PB,EB) 存储管理复杂(多结构) 数据服务的种类和要求高(性能,可靠性) 分布式文件系统 分布式数据库 访问接口和查询语言 (MapReduce编程接口,Pig Latin 等)数据结构: 结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性
8、数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件- 21 - - 22 - 产品名称产品名称应用场景应用场景接口方式接口方式扩展能力扩展能力X86X86平台平台LinuxLinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL110台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持E
9、xadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于专有一体机硬件支持 大数据计算模式 根据大数据的各种不同数据特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型。 (MapReduce, RDD, GPA等) 数据结构(all,semi,non) 数据获取处理方式(batch,stream) 数据处理类型(analysis,mining) 实时性或相应性能(real,non-real) 迭代计算(iterative) 数据关联性(simple, graph) 并行计算体系结构(cluster,memory) 计算模式 系统大数据查询分析计
10、算HBase,Hive,Cassandra,IImpala,Shark,Hana批处理计算Hadoop,MapReduce,Spark流式计算Scribe,Flume,Storm,S4,Spark Steaming迭代计算Haloop,iMapReduce,Twister,Spark图计算Pregel,Giraph,Trinity,PowerGraphX内存计算Dreml,Hana,Spark1. 数据分区2. 计算分区3. 决定主从服务器4. 读取输入数据5. Map函数6. 排序与分组(根据键值)7. Combiner函数(合并本地数据)8. Partitioning函数(相同键值划分到一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 关键技术 ppt 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内