大数据与并行计算.docx
《大数据与并行计算.docx》由会员分享,可在线阅读,更多相关《大数据与并行计算.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、西安科技大学计算机科学与技术学院实习报告课程:班级:大数据和并行计算网络工程姓名:学号:大数据技术(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工 具,在合理时间内到达撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。在维克托迈 尔-舍恩伯格及肯尼斯库克耶编写的大数据时代中大数据指不用随机分析法(抽样调查)这样的捷径, 而采用所有数据进行分析处理。大数据的4V特点:Volume (大量)、Velocity (高速)、Variety (多样)、 Value (价值)o特点具体有:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特
2、点。计算机学报刊登 的“架构大数据:挑战、现状与展望” 一文列举了大数据分析平台需要具备的几个重要特性,对当前的主 流实现平台一一并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不 足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第 二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快,1秒定 律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。 第四,只要
3、合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个 “V” Volume (数据体量大)、Variety (数据类型繁多)、Velocity (处理速度快)、Value (价值密 度低)。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价 值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜 力。1 .大数据概念及分析毫无疑问,世界上所有关注开发技术的人都意识到“大数据”对企业商务所蕴含的潜在价值,其目的 都在于解决在企业开展过程中各种业务数据增长所带来的痛苦。现实是,许多问题阻碍了大
4、数据技术的开展和实际应用。因为一种成功的技术,需要一些衡量的标准。现在我们可以通过几个基本要素来衡量一下大数据 技术,这就是一一流处理、并行性、摘要索引和可视化。大数据技术涵盖哪些内容?L1流处理伴随着业务开展的步调,以及业务流程的复杂化,我们的注意力越来越集中在“数据流”而非“数 据集”上面。决策者感兴趣的是紧扣其组织机构的命脉,并获取实时的结果。他们需要的是能够处理随时发生 的数据流的架构,当前的数据库技术并不适合数据流处理。L2并行化大数据的定义有许多种,以下这种相对有用。“小数据”的情形类似于桌面环境,磁盘存储能力 在1GB到10GB之间,“中数据”的数据量在100GB到1TB之间,“
5、大数据”分布式的存储在多台机器上, 包含1TB到多个PB的数据。如果你在分布式数据环境中工作,并且想在很短的时间内处理数据,这就需要分布式处理L3摘要索引摘要索引是一个对数据创立预计算摘要,以加速查询运行的过程。摘要索引的问题是,你必须为 要执行的查询做好计划,因此它有所限制。数据增长飞速,对摘要索引的要求远不会停止,不管是长期考虑还是短期,供应商必须对摘要索 引的制定有一个确定的策略。1.4数据可视化可视化工具有两大类。探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一种可视化的洞 察力。叙事可视化工具被设计成以独特的方式探索数据。数据会按照地域逐月展示,并根据预定义的
6、公式 排序。2 .并行处理2.1 并行处理技术-概念并行性是指在同一时刻或同一时间间隔内完成两种或两种以上性质相同或不相同的工作,只要在时间 上互相重叠,都存在并行性。计算机系统中的并行性可从不同的层次上实现,从低到高大致可分为:2.1.1 指令内部的并行:是指指令执行中的各个微操作尽可能实现并行操作。2.1.2 指令间的并行:是指两条或多条指令的执行是并行进行的。2.1.3 任务处理的并行:是指将程序分解成可以并行处理的多个处理任务,而使两个或多个任务并行 处理。2.1.4 1.4作业处理的并行:是指并行处理两个或多个作业。如多道程序设计、分时系统等。另外,从数 据处理上,也有从低到高的并行
7、层次。2.1.5 字串位并:同时对一个二进制字的所有位进行操作。2.1.6 1.6字并位串:同时对多个字的同一位进行操作。2.1.7 全并行:同时对许多字的所有位进行操作。2. 2三种形式2.1.1 1时间并行时间并行指时间重叠,在并行性概念中引入时间因素,让多个处理过程在时间上相互错开,轮流重叠 地使用同一套硬件设备的各个局部,以加快硬件周转而赢得速度。?时间并行性概念的实现方式就是采用流水处理部件。这是一种非常经济而实用的并行技术,能保证计 算机系统具有较高的性能价格比。目前的高性能微型机几乎无一例外地使用了流水技术。2.1.2 空间并行空间并行指资源重复,在并行性概念中引入空间因素,以“
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 并行 计算
限制150内