入木三分:“大数据”如何启迪未来2041781.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《入木三分:“大数据”如何启迪未来2041781.docx》由会员分享,可在线阅读,更多相关《入木三分:“大数据”如何启迪未来2041781.docx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、入木三分:“大数据”如何启迪未来也就是这一两年的光景,我们在朦胧之中仿佛已经进入了一个言必称“大数据”的时代。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源头,而更多的改变正蓄势待发。大数据激发了一场思想风暴,导演了一场思维变革。大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防、军事等领域的深刻变革。执迷于精确性已然成为信息缺乏时代、模拟时代的产物;允许不精确、宽容混杂性将不可竭力避免,而是被证明的标准途径。那些总是爱追因溯源、刨根问底的人们或许会被遗弃,因为大数据时代里,由果追因
2、已经是明日黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了最佳答案。因为数据呈现的相关性已经可以满足大部分人的认知需求,而透过大数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所愿担负的。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资产,一幕幕跌宕起伏的产业大戏已经上演。本文就将带您去深入了解“大数据”概念,带领您去领略大数据时代的“造化”。为您送上一颗“子弹”,引发您的“头脑风暴”,覆灭您的保守之心,怠慢之气!大数据:引领人类数据生成方式步入高级阶段数据生成的“自自主时代”人类历史上
3、从未未有哪个时代代和今天一样样产生如此海海量的数据。数数据的产生已已经完全不受受时间、地点点的限制。从从开始采用数数据库作为数数据管理的主主要方式开始始,人类社会会的数据产生生方式大致经经历了三个阶段,而而正是数据产产生方式的巨巨大变化才最最终导致大数数据的产生。首先是运营式系系统阶段。数数据库的出现现使得数据管管理的复杂度度大大降低,实实际中数据库库大都为运营营系统所采用用,作为运营营系统的数据据管理子系统统。比如超市市的销售记录录系统,银行行的交易记录录系统、医院院病人的医疗疗记录等。人人类社会数据据量第一次大大的飞跃正是是建立在运营营式系统开始始广泛使用数数据库开始。这这个阶段最主主要特
4、点是数数据往往伴随随着一定的运运营活动而产产生并记录在在数据库中的的,比如超市市每销售出一一件产品就会会在数据库中中产生相应的的一条销售记记录。这种数数据的产生方方式是被动的的。然后是用户原创创内容阶段。互互联网的诞生生促使人类社社会数据量出出现第二次大大的飞跃。但但是真正的数数据爆发产生生于Web 2.0 时时代,而Weeb 2.00 的最重要要标志就是用用户原创内容容(UGC,User Generrated Conteent)。这这类数据近几几年一直呈现现爆炸性的增增长,主要有有两个方面的的原因。首先先是以博客、微微博为代表的的新型社交网网络的出现和和快速发展,使使得用户产生生数据的意愿愿
5、更加强烈。其其次就是以智智能手机、平平板电脑为代代表的新型移移动设备的出出现,这些易易携带、全天天候接入网络络的移动设备备使得人们在在网上发表自自己意见的途途径更为便捷捷。这个阶段段数据的产生生方式是主动动的。而今,我们进入入了感知式系系统阶段。人人类社会数据据量第三次大大的飞跃最终终导致了大数数据的产生,今今天我们正处处于这个阶段段。这次飞跃跃的根本原因因在于感知式式系统的广泛泛使用。随着着技术的发展展,人们已经经有能力制造造极其微小的的带有处理功功能的传感器器,并开始将将这些设备广广泛的布置于于社会的各个个角落,通过过这些设备来来对整个社会会的运转进行行监控。这些些设备会源源源不断的产生生
6、新数据,这这种数据的产产生方式是自自动的。简单来说,数据据产生经历了了被动、主动动和自动三个个阶段。这些些被动、主动动和自动的数数据共同构成成了大数据的的数据来源,但但其中自动式式的数据才是是大数据产生生的最根本原原因。正如Googlle 的首席席经济学家HHal Vaarian 所说,数据据是广泛可用用的,所缺乏乏的是从中提提取出知识的的能力。数据据收集的根本本目的是根据据需求从数据据中提取有用用的知识,并并将其应用到到具体的领域域之中。从“池塘捕鱼”到“大海捕鱼” “大数据时代代的预言家”维克托迈尔-舍恩恩伯格(Viiktor Mayerr-Sch nbergger),在在其所著的大大数据
7、时代一一书中就阐释释所谓“大数据”的含义,即不仅人类类生产和生活活中“有意义”的信息海量量产生,相比比以往呈几何何数级的爆炸炸式增长,“无意义”的数据的膨膨胀速度也同同样惊人;而而且,政府、企企业已经具备备了全面采集集“大数据”并予以无遗遗漏分析的技技术能力。大数据本身是一一个比较抽象象的概念,单单从字面来看看,它表示数数据规模的庞庞大。但是仅仅仅数量上的的庞大显然无无法看出大数数据这一概念念和以往的“海量数据”(Masssive DData)、“超大规模数据”(Very Large Data)等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本是从大数据的特征出发,通过这些特征
8、的阐述和归纳,试图给出其定义。在这些定义中,比较有代表性的是3V 定义,即认为大数据需满足三个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。除此之外,还有提出4V 定义的,即尝试在3V 的基础上增加一个新的特性。关于第四个V 的说法并不统一,IDC市场研究公司(International Data Corporation全球领先之科技产业媒体、研究及活动公司)认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM (International Business Machines Corporation国际商业机器有限公司)认
9、为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 从数据据库(Dattabasee, DB)到大数据(Big DData, BD),看看似只是一个个简单的技术术演进,但细细细考究不难难发现两者有有着本质上的的差别。大数数据的出现,必必将颠覆传统统的数据管理理方式。在数数据来源、数数据处理方式式和数据思维维等方面都会会对其带来革革命性的变化化。如果要用用简单的方式式来比较传统统的数据库和和大数据的区区别的话,我我们认为“池塘捕鱼”和“大海捕鱼”是个很好的的类比。“池塘捕鱼”代表着传统统数据
10、库时代代的数据管理理方式,而“大海捕鱼”则对应着大大数据时代的的数据管理方方式,“鱼”是待处理的的数据。“捕鱼”环境条件的的变化导致了了“捕鱼”方式的根本本性差异。这这些差异主要要体现在如下下几个方面:数据规模:“池池塘”和“大海”最容易发现现的区别就是是规模。“池塘”规模相对较较小,即便是是先前认为比比较大的“池塘”,譬如VLLDB(Veery Laarge DDatabaase),和和“大海”XLDB(Extreemely Largee Dataabase)相比仍旧偏偏小。“池塘”的处理对象象通常以MBB 为基本单单位,而“大海”则常常以GGB,甚至是是TB、PBB为基本处理理单位。数据类
11、型:过去去的“池塘”中,数据的的种类单一,往往往仅仅有一一种或少数几几种,这些数数据又以结构构化数据为主主。而在“大海”中,数据的的种类繁多,数数以千计,而而这些数据又又包含着结构构化、半结构构化以及非结结构化的数据据,并且半结结构化和非结结构化数据所所占份额越来来越大。模式(Scheema)和数数据的关系:传统的数据据库都是先有有模式,然后后才会产生数数据。这就好好比是先选好好合适的“池塘”,然后才会会向其中投放放适合在该“池塘”环境生长的的“鱼”。而大数据据时代很多情情况下难以预预先确定模式式,模式只有有在数据出现现之后才能确确定,且模式式随着数据量量的增长处于于不断的演变变之中。这就就好
12、比先有少少量的鱼类,随随着时间推移移,鱼的种类类和数量都在在不断的增长长。鱼的变化化会使大海的的成分和环境境处于不断的的变化之中。处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捕捞对象。而而在“大海”中,“鱼”除了是捕捞捞对象之外,还还可以通过某某些“鱼”的存在来判判断其他种类类的“鱼”是否存在。也也就是说传统统数据库中数数据仅作为处处理对象。而而在大数据时时代,要将数数据作为一种种资源来辅助助解决其他诸诸多领域的问问题。处理工具:捕捞捞“池塘”中的“鱼”,一种渔网网或少数几种种基本就可以以应对,也就就是所谓的OOne Siize Fiits Alll。但是在在“大海”中,不可能能存在一种渔渔网
13、能够捕获获所有的鱼类类,也就是说说No Siize Fiits Alll。从“池塘”到“大海”,不仅仅是是规模的变大大。传统的数数据库代表着着数据工程(Data Enginneerinng)的处理理方式,大数数据时代的数数据已不仅仅仅只是工程处处理的对象,需需要采取新的的数据思维来来应对。图灵灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究。基于这种考虑,Jim Gray
14、 提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第四种范式”(The Fourth Paradigm)。第四种范式的实实质就是从以以计算为中心心,转变到以以数据处理为为中心,也就就是我们所说说的数据思维维。这种方式式需要我们从从根本上转变变思维。正如如前面提到的的“捕鱼”,在大数据据时代,数据据不再仅仅是是“捕捞”的对象,而而应当转变成成一种基础资资源,用数据据这种资源来来协同解决其其他诸多领域域的问题。计计算社会科学学(Compputatiional SociaalScieence)基基于特定社会会需求,在特特定的社会理理论指导下,收收集、整理和和分析数据足足迹(dattapr
15、innt),以便便进行社会解解释、监控、预预测与规划的的过程和活动动。计算社会会科学是一种种典型的需要要采用第四种种范式来做指指导的科学研研究领域。DDuncann J. WWatts 在自然杂杂志上的文章章Atweenty-ffirst centuury scciencee也指出借借助于社交网网络和计算机机分析技术,221 世纪的的社会科学有有可能实现定定量化的研究究,从而成为为一门真正的的自然科学。从云计算到大数数据如今,大数据的的重要性越来来越明显,但但就和云计算算一样,它也也不是一个从从天而降的新新事物,而是是在三个主要要因素的驱动动下,逐步成成长成熟的。大数据的驱动力力 第一个驱动力
16、,就就是业界常说说的大数据的的三个V(VVolumee, Varriety, Veloocity),而这三个个V可以有多多种解读。首先来看看第一一个V,巨大大的数据量与与数据完整性性。IT业界界所指的数据据,诞生不过过60多年。而而一直到PCC普及到千家家万户之前,由由于存储、计计算和分析工工具的技术和和成本限制,许许多自然界和和人类社会值值得记录的信信号,并未形形成数据几十年前,气气象、地质、石石油物探、出出版业、媒体体业和影视业业是大量、持持续产出信号号的行业,但但那时90%以上采用的的是存储模拟拟信号,难以以通过计算设设备和软件进进行直接分析析。那些拥有有大量资金和和人才的政府府和企业,
17、也也只能把少量量最关键的信信号,进行抽抽取、转换、装装载到数据库库中。 值得注意的是,业业界对达到怎怎样的数量级级才算是大数数据并无定论论,其实在很很多行业的应应用场景里,数数据集本身的的大小并不是是最重要的,是是否完整才最最重要。第二个V,在海海量、种类繁繁多的数据间间发现其内在在关联。互联联网时代,各各种设备通过过TCP/IIP网络连成成了一个整体体。进入Weeb 2.00时代,PCC用户不单单单可以通过网网络获取信息息,还成为了了信息的制造造者和传播者者。这个阶段段,不仅是数数据量开始了了爆炸式增长长,数据种类类也开始变得得繁多从技术角角度看,可以以称之为结构构化数据、半半结构化数据据、
18、非结构化化数据和流式式数据。20005年,微微软亚洲研究究院一年一度度的“21世纪的的计算”大会将主题题设定为“Data Centrric Coomputiing”,也就是“以数据为中中心的计算”,那时业界就已建立立了这样的认认知:价值来来自于数据,或或者说,数据据一直都是有有价值的商业业资产此前,人人们往往过于于重视“计算和存储储性能的提升升”;而从那时时起,业界就已更关关注“数据分析和和处理的效率率”对海量量数据进行分分析、处理和和集成,找出出原本看来毫毫无关系的那那些数据的“关联性”,把似乎没没有用的数据据变成有用的的信息,以支支持我们做出出的判断。 第三个V,可以以理解为更快快地满足实
19、时时性需求。如如今,通过各各种有线和无无线电网络,人人和人、人和和各种机器、机机器和机器之之间无处不在在的连接,这这些连接不可可避免地带来来数据交换,而而数据交换的的关键是降低低延迟要解决数数据产生、传传输、处理、存存储、抽取、分分析、可视化化等各个环节节带来的延时时,以近乎实实时(这意味味着小于2550毫秒)的的方式呈献给给用户。 如今,数据的实实时化需求越越来越清晰。用用户想驾车去去吃饭,先用用地图应用查查询餐厅的位位置、预计行行车路线的拥拥堵情况、停停车场信息甚甚至是其他用用户对餐厅的的评论。吃饭饭的过程中,他他会用手机拍拍摄食物的照照片,编辑简简短的评论,发发布到微博上上,还可以用用L
20、BS应用用查找在同一一间餐厅吃饭饭的人,看有有没有好友在在附近 第二个驱动力,是是云计算的普普及和成为主主流。云计算算和大数据到到底有什么区区别?前两年年大家都在讲讲云计算,现现在怎么又变变成大数据了了?微软全球球资深副总裁裁,微软(中中国)有限公公司董事长张张亚勤对此解解释说,其实实,云计算和和大数据是一一个硬币的两两面,云计算算是大数据的的IT基础,而而大数据是云云计算的一个个杀手级应用用。由于云计计算的普及和和成为主流,让让上述三个VV不再成为挑挑战,反而成成为大数据成成长的驱动力力。另一方面面由于数据越越来越多、越越来越复杂、越越来越实时,这这就更加需要要云计算去处处理,所以二二者之间
21、是相相辅相成的。举举例而言,330年前存储储1TB数据据的成本大约约是16亿美美元,如今存存储到云上只只需不到1000美元;但但存储下来的的数据,如果果不以云计算算进行挖掘和和分析,就只只是僵死的数数据,没有太太大价值。 第三个驱动力,是是人工智能、机机器学习和数数据挖掘等技技术的迅速发发展。在这样样的背景下,以微软为例,它已经可以为用户提供三个层次的端到端大数据解决方案其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。 通俗的说,就是是将信号转化化为数据
22、,将将数据分析为为信息,将信信息提炼为知知识,以知识识促成决策和和行动。归根根到底,大数数据的最终意意义在于获得得洞察力和价价值,这也正正是大数据的的第四个V(VValue),这这个V比前面面的三个V都都更重要。大数据塑造科技技、商业新态势在科技、商业领领域,大数据据具备极大的的想象空间。上个世纪七十年代,纽约的治安状况很糟糕。一位名叫杰克迈普(Jack Maple)的年轻警察根据个人警务经验,发明了一种名为“未来图表”(Charts of the future)的犯罪预测方法论,可以根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点。这种方法真的有效,1994年,新上任的纽约市警察局局
23、长开发了“未来图表”的电子版,将之更名为“CompStat”,推广至全市的警务系统。CompStat的技术核心是犯罪测绘系统(Crime Mapping System)和数据库采集系统(Database Collection System),而微软的Microsoft MapPoint、Access、Excel等产品为两个系统提供了坚实的支撑基于大量的数据采撷、挖掘和分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳和总结,并有效地改善了城市的治安。数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%,车辆盗窃案发生率降低了约24%,而且这些数字还随
24、着IT软硬件技术的持续更新和CompStat系统的不断完善而逐年下降。 未来,透过技术术手段完全遏遏制犯罪行为为,让每一个个城市和地区区的居民时时时刻刻都安全全无虞这或许不不是梦想。22012年88月,纽约市市长迈克尔布隆伯格(MMichaeel Blooomberrg)亲手揭揭开了纽约警警察局与微软软携手开发的的城域感知系系统(DASS,Domaain Awwareneess Syystem)的的面纱。该系系统将覆盖整整个纽约市的的3000多多个监控摄像像头、26000多枚辐射射探测器、几几百个车牌信信息读取装置置所收集的信信息汇总到警警方数据库中中,可结合探探测数据、实实时影像、9911报
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 入木三分 数据 如何 启迪 未来 2041781
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内