欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据概述(共14页).doc

    • 资源ID:16292599       资源大小:631.50KB        全文页数:14页
    • 资源格式: DOC        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据概述(共14页).doc

    精选优质文档-倾情为你奉上大数据概述 目录第一章 大数据的定义1、大数据时代的背景半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快,创造出了“大数据(Big Data)”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。Big Data是近来的一个技术热点,历史上,数据库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常提及Big Data。2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。2、大数据时代的到来近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据:1)全球每秒钟发送 2.9 百万封电子邮件; 2)每天会有 2.88 万个小时的视频上传到Youtube; 3)推特上每天发布 5 千万条消息; 4)每天亚马逊上将产生 6.3 百万笔订单; 4)每个月网民在Facebook 上要花费7 千亿分钟; 5)Google 上每天需要处理24PB 的数据。根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律),并且大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB的数据量,相较于2010年,数据量将增长近30倍。这不是简单的数据增多的问题,而是全新的问题。大数据时代的到来,使我们要处理的数据量实在是太大、增长太快了,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段根本无法应付。3、大数据的特征1)数据量大(Volume)大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。2)类型繁多(Variety)大数据的类型可以包括网络日志、音频、视频、图片、地理位置信息等等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。3)价值密度低(Value)大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。4)速度快时效高(Velocity)处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。 面对大数据的全新特征,既有的技术架构和路线,已经无法高效地处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。第二章 大数据的相关技术1、对现有技术的挑战1) 对现有数据库管理技术的挑战传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-Distributed Database) ,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2) 对经典数据库技术的挑战经典数据库存并没有考虑数据的多类别(variety),SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3)实时性的技术挑战传统的数据仓库系统和各类BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。4)对网络架构、数据中心、运维的挑战人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。2、大数据处理技术面对大数据时代的到来,技术人员纷纷研发和采用了一批新技术,主要包括分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等。充分地利用这些技术,加上企业全面的用以分析的数据,可更好地提高分析结果的真实性。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。以下是一些目前应用较为广泛的技术:1)分析技术: 数据处理:自然语言处理技术;统计和分析:A/B test; top N排行榜;地域占比;文本情感分析;数据挖掘:关联规则分析;分类;聚类;模型预测:预测模型;机器学习;建模仿真 ;2)大数据技术: 数据采集:ETL工具;数据存取:关系数据库;NoSQL;SQL等;基础架构支持:云存储;分布式文件系统等;计算结果展现:云计算;标签云;关系图等;3)数据存储技术 结构化数据:海量数据的查询、统计、更新等操作效率低 ;非结构化数据:图片、视频、word、pdf、ppt等文件存储;不利于检索、查询和存储 半结构化数据:转换为结构化存储;按照非结构化存储;4)解决方案: Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)3、大数据与云计算云计算的模式是业务模式,本质是数据处理技术。 大数据是资产,云为数据资产提供存储、访问和计算。 大数据与云计算是相辅相成的。1)云计算及其分布式结构当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。 大数据处理技术正在改变目前计算机的运行模式,正在改变着这个世界:它能处理几乎各种类型的海量数据,无论是微博、文章、电子邮件、文档、音频、视频,还是其它形态的数据;它工作的速度非常快速:实际上几乎实时;它具有普及性:因为它所用的都是最普通低成本的硬件,而云计算它将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算力、存储空间和信息服务。云计算及其技术给了人们廉价获取巨量计算和存储的能力,云计算分布式架构能够很好地支持大数据存储和处理需求。这样的低成本硬件+低成本软件+低成本运维,更加经济和实用,使得大数据处理和利用成为可能。2)云数据库NoSQL被广泛地称为云数据库,因为其处理数据的模式完全是分布于各种低成本服务器和存储磁盘,因此它可以帮助网页和各种交互性应用快速处理过程中的海量数据。它采用分布式技术结合了一系列技术,可以对海量数据进行实时分析,满足了大数据环境下一部分业务需求,但是还无法彻底解决大数据存储管理需求。云计算对关系型数据库的发展将产生巨大的影响,而绝大多数大型业务系统(如银行、证券交易等)、电子商务系统所使用的数据库还是基于关系型的数据库,随着云计算的大量应用,势必对这些系统的构建产生影响,进而影响整个业务系统及电子商务技术的发展和系统的运行模式。 基于关系型数据库服务的云数据库产品将是云数据库的主要发展方向,云数据库(CloudDB),提供了海量数据的并行处理能力和良好的可伸缩性等特性,提供同时支持在在线分析处理(OLAP)和在线事务处理 (OLTP) 能力,提供了超强性能的数据库云服务,并成为集群环境和云计算环境的理想平台。它是一个高度可扩展、安全和可容错的软件,客户能通过整合降低IT成本,管理位于多个数据,提高所有应用程序的性能和实时性做出更好的业务决策服务。 因此,云数据库要能够满足: A海量数据处理:对类似搜索引擎和电信运营商级的经营分析系统这样大型的应用而言,需要能够处理PB级的数据,同时应对百万级的流量。 B大规模集群管理:分布式应用可以更加简单地部署、应用和管理。 C低延迟读写速度:快速的响应速度能够极大地提高用户的满意度。 D建设及运营成本:云计算应用的基本要求是希望在硬件成本、软件成本以及人力成本方面都有大幅度的降低。 所以云数据库必须采用一些支撑云环境的相关技术,比如数据节点动态伸缩与热插拔、对所有数据提供多个副本的故障检测与转移机制和容错机制、SN(Share Nothing)体系结构、中心管理、节点对等处理实现连通任一工作节点就是连入了整个云系统、与任务追踪、数据压缩技术以节省磁盘空间。4、大数据与分布式技术1)分布式数据库支付宝公司在国内最早使用Greenplum数据库,将数据仓库从原来的Oracle RAC平台迁移到Greenplum集群。Greenplum强大的计算能力用来支持支付宝日益发展的业务需求。Greenplum数据引擎软件专为新一代数据仓库所需的大规模数据和复杂查询功能所设计,基于MPP(海量并行处理)和Shared-Nothing(完全无共享)架构,基于开源软件和x86商用硬件设计(性价比更高)。2)分布式文件系统篇中,其中Google的GFS是基于大量安装有的普通PC构成的,整个集群系统由一台Master(通常有几台)和若干台TrunkServer构成。GFS中文件成固定大小的Trunk分别存储在不同的TrunkServer上,每个Trunk有多份(通常为3份)拷贝,也存储在不同的TrunkServer上。Master负责维护GFS中的 Metadata,即文件名及其Trunk信息。先从Master上得到文件的Metadata,根据要读取的数据在文件中的位置与相应的TrunkServer通信,获取文件数据。在Google的论文发表后,就诞生了Hadoop。截至今日,Hadoop被很多中国最大互联网公司所追捧,百度的搜索日志分析,腾讯、淘宝和支付宝的数据仓库都可以看到Hadoop的身影。Hadoop具备低廉的硬件成本、开源的体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量和计算任务。Hive是一个基于Hadoop的数据仓库平台,将转化为相应的MapReduce程序基于Hadoop执行。通过Hive,开发人员可以方便地进行ETL开发。如图所示,是Hive和Hadoop的关系图:3)HBase随着数据量增长,越来越多的人关注NoSQL,特别是2010年下半年,Facebook选择来做实时消息,替换原来开发的Cassandra系统。这使得很多人开始关注。Facebook选择是基于短期小批量临时数据和长期增长的很少被访问到的数据这两个需求来考虑的。是一个高可靠性、高性能、面向列、可伸缩的,利用HBase技术可在廉价PC Server上搭建大规模结构化存储集群。是BigTable的开源实现,使用HDFS作为其文件。Google运行MapReduce来处理BigTable中的海量数据,同样利用MapReduce来处理HBase中的海量数据;BigTable利用Chubby作为协同服务,HBase则利用Zookeeper作为对应。第三章 大数据在各个领域的应用1、大数据在互联网企业的应用1)IBM: IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS) IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。 该产品组合包括: 打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析;软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息;为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案 ;2)阿里巴巴: 基于对大数据价值的沉淀,依据信用体系等,马云将集团下的阿里金融与支付宝两项核心业务合并成立阿里小微金融。另外,为了便于在内部解决数据的交换、安全和匹配等问题,阿里集团还搭建了一个数据交换平台。在这个平台上,各个事业群可以实现数据的内部流转,实现价值最大化。3)EMC: EMC 斩获了纽交所和Nasdaq,提供大数据解决方案已包括40多个产品。 4)Oracle: Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。 2、大数据在政府机构的应用在以下几个方面,可以进一步协助发挥政府机构的职能作用:1)重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程; 2)在安防领域,应用大数据技术,提高应急处置能力和安全防范能力; 3)在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门; 4)解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析; 3、银行业在大数据的应用1)民生银行民生银行建立统一的金融科技平台,根据数据智能分析向前台提供服务与反馈,支持实现以客户为中心的服务模式与体验,并整合日益互联互通的各种服务渠道;平台建立持续从广泛的来源获取、量度、建模、处理、分析大容量多类型数据的功能;及时在互联互通的流程、服务、系统间共享数据,并将经过智能分析与加工的数据用于业务决策与支持,智能化分析和预测客户需求。通过部署云计算,实现自动化、高能效、虚拟化和标准化的云部署目标,洞察大数据推动了民生银行的转型与创新。 2)中信银行信用卡中心中信银行近年来发卡量增长迅速,业务数据增长迅速,业务数据规模也线性膨胀,因此在数据存储、系统维护、数据有效利用等方面都面临巨大压力。 面对业务的不断增长,需要建设可扩展、高性能的数据仓库解决方案,能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动有针对性的营销活动。 采用大数据方案,可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高。 中信银行通过利用大数据方案实现了秒级营销,使用Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。 3)建设银行未来互联网金融模式下资源配置的特点是:资金供需信息直接在网上发布并匹配,供需双方甚至不需银行、券商或交易所等中介,直接匹配完成信评级的重要依据。中国建设银行充分跟进大数据时代的脚步,建立善融商务企业商城,面向阿里巴巴普通会员全面放开,不用提交任何担保、抵押,只需凭借企业的信用资源就可以“微贷”。“微贷”通过网络低成本广泛采集客户的各类数据信息,分析挖掘的数据,判断客户资质,用户可以24小时随用随借、随借随还。在善融商务平台上,每一笔交易,建行都有记录并且能鉴别真伪,可作为客户授信评级的重要依据。此外,还对消费者购买行为的分析,比如点击量、跨店铺点击,订单流转量甚至聊天信息的收集和分析 。4)光大银行光大银行在大数据方面也做了多方面的尝试。正在尝试打通社会化大数据库,期待社会化数据内外通达,例如把银行内部的客户号和新浪的微博号挂接起来,在一定程度上实现群体营销;另外,外部数据引入的动作很关键,把微博、QQ、邮箱等社交化的、能很快找到客户的方式能通达起来。跟传统的数据存储放一起,同等对待,建立一个更加立体丰富的数据库。 基于以上思考,光大银行在新浪微博开发平台上做了一个缴费应用“V缴费” 。光大银行目前正在尝试前瞻性的应用 ,如在线营销方案、微博营销(把微博上用户跟我们光大银行用户相匹配,采用中文分析引擎)、客户行为分析(包括电话语音、网络的监控录像等)和风险控制与管理(结构化非结构化数据整合,分析系统存在IT风险或者钓鱼网站防欺诈),等等。5)摩根大通摩根在以下几个方面也开始着手大数据建设:(1) 开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务; (2) 使用分布式存储平台,存储150PB在线存储数据、30,000个数据库和35亿个用户登录账号; (3)利用Hadoop能够存储大量,允许公司收集和存储Web日志、交易数据和社交媒体数据; (4) 数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用。6)阿里金融 中国将近4200万小微企业,占企业总数的的97.3%。由于分布零散、业务不规范、盈利不明朗、信 贷时间长、信用难以构建等现状,使得小微企业的贷款相当困难。基于阿里巴巴在B2C多年来的建树,提出了大数据与小而美的金融信贷,它是完全是构建在互联网的基础上,通过数据分析,以自主服务模式为主的、面对小微企业的信贷工厂 ,具有24小时开放、随时申请、随时审批、随时发放的特点,是纯互联网的小额信贷服务。第四章 大数据在未来的展望大数据在未来的价值,在于催生新型商业智能!未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。其中三者兼具的谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不只是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。传统针对海量数据的存储处理,通过建立数据中心,建设包括大型数据仓库及其支撑运行的软硬件系统,设备(包括服务器、存储、网络设备等)越来越高档、数据仓库、OLAP及ETL、BI等平台越来越庞大,但这些需要的投资越来越大,而面对数据的增长速度,越来越力不从心,所以基于传统技术的数据中心建设、运营和推广难度越来越大。 另外一般能够使用传统的数据库、数据仓库和BI工具能够完成的处理和分析挖掘的数据,还不能称为大数据,这些技术也不能叫大数据处理技术。面对大数据环境,包括数据挖掘在内的商业智能技术正在发生巨大的变化。传统的传统商业智能技术,包括数据挖掘,主要任务是建立比较复杂的数据仓库模型、数据挖掘模型,来进行分析和处理不太多的数据。 而在未来,由于有云计算模式、分布式技术和云数据库技术的应用,我们不需要这么复杂的模型,不用考虑复杂的计算算法,就能够处理大数据,对于不断增长的业务数据,用户也可以通过添加低成本服务器甚至是PC机也可以来处理海量数据。所以大数据,实际是对传统商业智能的发展和促进,商业智能将出现新的发展机遇,面对风云变幻的市场环境,快速建模,快速部署是新商业智能平台的强力支撑。专心-专注-专业

    注意事项

    本文(大数据概述(共14页).doc)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开