《大数据时代.pdf》由会员分享,可在线阅读,更多相关《大数据时代.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据时代一、阅读书目名称:大数据时代维克托迈尔舍恩伯格等著二、书中重要语句的节选:大数据的核心就是预测。它是把数学算法运用到海量的数据上来预测事情发生的可能性。(第 016 页)大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随即采样。第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。第三个改变因前两个转变而促成,即我们不再热衷于寻找因果关系。(017018页)数据化是指一种把现象转变为可制表分析的量化形式的过程。(104 页)三
2、、正文随着时代的发展,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性,大数据时代的来临势不可挡。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。首先我们来阐述大数据为什么如此重要?它能带来什么价值?如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。这就出现了“数据化”这个概念,即指一种把现象转变为
3、可制表分析的量化形式的过程。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。一切数据均可量化,当文字变成数据,人就可以用之阅读,机器也可用之分析。谷歌就是精明地利用这些数据化的文本来改进了它的机器翻译服务。当方位变成数据,我们可以跟踪事物的地理位置信息。有了 GPS 定位系统,我们不用再担心迷路,可以想去哪就去哪。我们还可以利用大量的位置数据预测交通情况。当沟通变成数据,Facebook、Twitter、LinkedIn可以通过用户的社交网络图来得知用户的喜好。当然数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。不同于物质性的东西,数据的价值不会随着
4、它的使用而减少,而是可以被不断地处理。在大数据时代下,不是所有的数据都有价值,我们要了解哪些信息是有价值的,这点尤为重要。然而我们要如何分析大数据呢?有五个方面,第一,可视化分析。不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。第二,数据挖掘算法。可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。第三,预测性分析能力。数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结
5、果做出一些预测性的判断。第四,语义引擎。我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析、提取、分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。第五,数据质量和数据管理。数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。其次,大数据时代的到来带给我们怎样的影响呢?在 2009 年一种新的流感病毒甲型 H1NI流感爆发的几周前,一篇论文引起的大家的注意。文中阐述了谷歌通过观察人们在网上的搜索记录来预测冬季流感的传播,并且这种预测与官方数据的相关性高达97%,且判断速度远远高于疾
6、控中心,因此流感爆发时,谷歌成为了一个更有效、更及时的指示标。这说明大数据带来了公共卫生的变革。另一例子,通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。说明大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。更重要的是大数据时代的到来也改变了人们的思维。人们不再认为数据时静止和陈旧的,但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。更加具体的体现是大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。通过使用所有的数据,我们可以发现
7、如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。而对于我们所处的大数据时代下,我们可以通过计算机等先进工具获得的数据越来越多,越来越杂。如果一一追求数据的精确性,可想而知所带来的计算成本有多大。对于要相关不要因果,我的理解是,一方面 由于相关关系背后的数学计算是直接而又有活力的,这不仅是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。从亚马逊的书评组写书评、推荐新书所创造的销售业绩远远低于通过数据系统推荐产品所增加的销售这个例子,我们可以看
8、到“知道是什么”可以创造点击率。通过给我们找到一个现象的良好关联物,相关关系还可以帮助我们捕捉现在和预测未来。例如,沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且 POP-Tarts 蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。另一方面,并不是说明不再注重因果关系,而是先追求相关关系,需要的话,再在此基础上研究因果关系。前面所谈都是大数据时代带给我们有利的影响,然而它也会 带来困扰。第一,由于大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的
9、用途。大数据的价值不在单纯来源于它的基本用途,而更多源于它的二次利用。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。因此当下隐私保护法以个人为中心的思想告知与许可就完全失去了意义。第二,如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。例如有意识地模糊化图片里出现的房屋或花园对于盗贼来说反而更加吸引了他们的注意。第三,大部分情况下,由于数据多和来源广,使得想要保护个人信息不被泄露而匿名化的措施失效。第四,滥用大数据预测,让人们为还未实施的未来行为买单,导致人们失去选择和自由意志。第五,大数据时代下,人们易受数据的统治,形成对大数据的执
10、迷,为收集数据而收集数据,从而忽略数据的质量和客观性。越南战争中虚报死亡人数就是一个典型的例子。那么,针对上述问题我们如何进行调整呢?首先,一方面 个人隐私保护,从个人许可到让数据使用者承担责任。因为数据使用者比任何人都明白他们想要如何利用数据。他们的评估避免了商业机密的泄露。而且,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。为了平衡数据二次运用的优势与过度披露所带来的风险,监管机制还可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。总之,公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之
11、后删除个人数据的义务。另一方面 需要发明并推行新技术方式来促进隐私保护。一个创新途径就是“差别隐私”:故意将数据模糊处理,促使对大数据库的查询不能显示精确的结果,而只有相近的结果。其次,保证个人动因(人们选择自我行为的自由意志),确保对人们行为的评判是基于真实行为而非单纯依靠大数据分析。再者,需要寻找公正的审计员,在客户或政府所要求的任何时候,根据法律指令或规章对公司大数据的准确程度或者有效性进行鉴定。而公司内部需要有像会计人员这样的人,监督其大数据活动,保证公司利益和顾及受到公司大数据分析影响的其他人的利益。总的来说,大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据,开启了重大的时代转型。在信息爆炸快速传播的时代下,企业只有充分挖掘大数据,合理利用分析大数据,妥善管理大数据,才能获得有巨大价值的产品和服务,或深刻的洞见,为公司创造价值,才能在所属领域站得住脚;我们的国家才有可能在大数据时代来临之时,进一步地朝成为发达国家这一目标前进。武汉大学珞珈学院杨文丽
限制150内