大数据如何启迪未来培训资料全.doc
《大数据如何启迪未来培训资料全.doc》由会员分享,可在线阅读,更多相关《大数据如何启迪未来培训资料全.doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、入木三分:“大数据”如何启迪未来也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以与理解世界的方式,成为新发明和新服务的源头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时代里,由果追因
2、已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据”概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的“头脑风暴”,覆灭您的保守之心,怠慢之气!大数据:引领人类数据生成方式步入高级阶段数据生成的“自主时代”人类历史上从
3、未有哪个时代和今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从开始采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了三个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。首先是运营式系统阶段。数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统,银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始。这个阶段最主要特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,比如超市每销售出一件产品就会在数据库中产
4、生相应的一条销售记录。这种数据的产生方式是被动的。然后是用户原创容阶段。互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是用户原创容(UGC,User Generated Content)。这类数据近几年一直呈现爆炸性的增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段数据的产生方式是主动的。而今,我们进入了感
5、知式系统阶段。人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。正如Google 的首席经济学家Hal Varian 所说,数据是广泛可用的,所缺乏的是从中提取出知识的能
6、力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。从“池塘捕鱼”到“大海捕鱼”“大数据时代的预言家”维克托迈尔-舍恩伯格(Viktor Mayer-Sch nberger),在其所著的大数据时代一书中就阐释所谓“大数据”的含义,即不仅人类生产和生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备了全面采集“大数据”并予以无遗漏分析的技术能力。大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”(Massiv
7、e Data)、“超大规模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是3V 定义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。除此之外,还有提出4V 定义的,即尝试在3V 的基础上增加一个新的特性。关于第四个V 的说法并不统一,IDC市场研究公司(International Data Corporation全球领先之科技产业媒体、研究与活动公司)认为大数据还应当具有价值性(Val
8、ue),大数据的价值往往呈现出稀疏性的特点。而IBM (International Business Machines Corporation国际商业机器)认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 从数据库(Database, DB)到大数据(Big Data, BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现,必将颠覆传统的数据管理方式。在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。如果要用简单的方式来比较传统的数据
9、库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:数据规模:“池塘”和“大海”最容易发现的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large Database),和“大海”XLDB(Extremely Large Database)相比仍旧偏小。“池塘”的处理对象通常以MB 为基本单位,而“大海”则常常以GB,甚至是TB
10、、PB为基本处理单位。数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以与非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断的增
11、长。鱼的变化会使大海的成分和环境处于不断的变化之中。处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的One Size Fits All。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说No Size Fits All。从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工程(Dat
12、a Engineering)的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种式。当数据量不断增长和累积到今天,传统的三种式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种式来指导新形势下的科学研究。基于这种考虑,Jim Gray 提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第四种式”(The Fourth Paradigm)。第四种式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所
13、说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的“捕鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题。计算社会科学(Computational SocialScience)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(dataprint),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种式来做指导的科学研究领域。Duncan J. Watts 在自然杂志上的文章Atwenty-first century science也指出借助于社交网络和计算机分析技
14、术,21 世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。从云计算到大数据如今,大数据的重要性越来越明显,但就和云计算一样,它也不是一个从天而降的新事物,而是在三个主要因素的驱动下,逐步成长成熟的。大数据的驱动力 第一个驱动力,就是业界常说的大数据的三个V(Volume, Variety, Velocity),而这三个V可以有多种解读。首先来看看第一个V,巨大的数据量与数据完整性。IT业界所指的数据,诞生不过60多年。而一直到PC普与到千家万户之前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据几十年前,气象、地质、石油物探、出版业
15、、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。那些拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。 值得注意的是,业界对达到怎样的数量级才算是大数据并无定论,其实在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。第二个V,在海量、种类繁多的数据间发现其在关联。互联网时代,各种设备通过TCP/IP网络连成了一个整体。进入Web 2.0时代,PC用户不单单可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变
16、得繁多从技术角度看,可以称之为结构化数据、半结构化数据、非结构化数据和流式数据。2005年,微软亚洲研究院一年一度的“21世纪的计算”大会将主题设定为“Data Centric Computing”,也就是“以数据为中心的计算”,那时业界就已建立了这样的认知:价值来自于数据,或者说,数据一直都是有价值的商业资产此前,人们往往过于重视“计算和存储性能的提升”;而从那时起,业界就已更关注“数据分析和处理的效率”对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的“关联性”,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。 第三个V,可以理解为更快地满足实时性需求。如今,通过各种
17、有线和无线电网络,人和人、人和各种机器、机器和机器之间无处不在的连接,这些连接不可避免地带来数据交换,而数据交换的关键是降低延迟要解决数据产生、传输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。 如今,数据的实时化需求越来越清晰。用户想驾车去吃饭,先用地图应用查询餐厅的位置、预计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的评论。吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,发布到微博上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近第二个驱动力,是云计算的普与和成为主流。云计算和大数据到底有什么区别
18、?前两年大家都在讲云计算,现在怎么又变成大数据了?微软全球资深副总裁,微软(中国)董事长亚勤对此解释说,其实,云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。由于云计算的普与和成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。 第三个驱动力,是人工智能、机器学习和数据挖
19、掘等技术的迅速发展。在这样的背景下,以微软为例,它已经可以为用户提供三个层次的端到端大数据解决方案其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。 通俗的说,就是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。归根到底,大数据的最终意义在于获得洞察力和价值,这也正是大数据的第四个V(Value),这个V比前面的三个V都更重要。大数据塑造科技、商业新态势在科技、商业领域,大数据具备极大的想象空间。上个世纪七十年代,纽约的治安状况
20、很糟糕。一位名叫杰克迈普(Jack Maple)的年轻警察根据个人警务经验,发明了一种名为“未来图表”(Charts of the future)的犯罪预测方法论,可以根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点。这种方法真的有效,1994年,新上任的纽约市警察局局长开发了“未来图表”的电子版,将之更名为“CompStat”,推广至全市的警务系统。CompStat的技术核心是犯罪测绘系统(Crime Mapping System)和数据库采集系统(Database Collection System),而微软的Microsoft MapPoint、Access、Excel等产品为两
21、个系统提供了坚实的支撑基于大量的数据采撷、挖掘和分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳和总结,并有效地改善了城市的治安。数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%,车辆盗窃案发生率降低了约24%,而且这些数字还随着IT软硬件技术的持续更新和CompStat系统的不断完善而逐年下降。 未来,透过技术手段完全遏制犯罪行为,让每一个城市和地区的居民时时刻刻都安全无虞这或许不是梦想。2012年8月,纽约市长迈克尔布隆伯格(Michael Bloomberg)亲手揭开了纽约警察局与微软携手开发的城域感知系统(DAS,Domain Awar
22、eness System)的面纱。该系统将覆盖整个纽约市的3000多个监控摄像头、2600多枚辐射探测器、几百个车牌信息读取装置所收集的信息汇总到警方数据库中,可结合探测数据、实时影像、911报警和警方积累的罪案历史档案,帮助警方更准确地侦测并锁定即将发生的犯罪活动与嫌疑人。 对商业竞争的参与者们来说,大数据意味着激动人心的业务与服务创新机会。零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报。 而对于那些拥有行业经验,并熟练掌握云计算开发和应用技能的小型企业,尤其是初创企业来说,则更是意义非凡。最近几
23、年,我们看到的一些明星初创公司,比如Cloudera, Splunk, Klout, TellApart等,人员规模只在数十人,但对某个行业拥有深厚知识,并能通过云和大数据的技术手段,快速解决该行业的共性需求和痛点在未来数年,这样的“小而精”、“快而准”企业会越来越多,并做出有可能改变世界的颠覆性产品。很高兴看到,在中关村,在微软的云加速器二期,也有类似的初创企业加入,和硅谷、海法的创业者们一起,把握住了时代的脉搏。大数据时代的到来大数据时代的急先锋纽约时报把2012年定义为“大数据的十字路口”。大数据之所以进入主流大众的视野,源自三种趋势的合力:第一,许多高端消费品公司加强了对大数据的应用。
24、社交网络巨擎 Facebook 使用大数据来追踪用户在其网络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与 Facebook之间的黏度就越高。更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。商业LinkdIn则使用大数据在求职者和招聘职位之间建立关联。有了LinkdIn,猎头们再也不用向潜在的受聘者打陌生来碰运气,而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似,求职者也可以通过联系上其他人,自然而然地将自己推销给潜在的雇主。第二,以上两家公司都在2012年早些时候陆续上市。Facebook 在纳斯达克上市,LinkedIn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 如何 启迪 未来 培训资料
限制150内