2022年大数据、小数据介 .pdf
《2022年大数据、小数据介 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据、小数据介 .pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据( big data )正酣,小数据( iData)又来!主题概述:(一)小数据的介绍和定义(二)小数据产生的原因(1) 大数据对隐私无止境的侵犯和个体对主动保护隐私的需求。(2) 对统一全面管理分析个人数据的巨大需求. (三)小数据的特性和大数据的对比(四)小数据发展的广阔前景。(五)小数据的发展最需解决的三个大问题.蔡凯龙:大家好,我是蔡凯龙, 很高兴也很感谢秘书长易欢欢,让我有机会和大家一起在互联网金融千人会举办的早餐会来交流体会和心得。我这次主题是:小数据(iData)的大时代:数据革命的下一个前沿阵地。每一小节我都会预留点时间,欢迎大家提问题,让我们的交流碰出思想的火花吧。刚才
2、开车回来, 在路上 bloomberg 广播,说美国大 IT 行业,Google . Facebook Twitter,Apple. Microsoft. AOL, Linkedlin, Yahoo联名给国会和总统写信。要求制定政府窃取个人隐私的详细策略,并且要求有独立第三方来监督, 这个呼吁是跟 Snowden 的泄露的棱镜计划有关,因为在他泄露的计划里曾经说到美国政府公开或者非公共入侵所有美国大科技公司的数据库,监控所有的信息。 美国总统今天出来讲话, 说政府不会偷看美国公民的个人信息,只是为了反恐和监测海外活动,不会违反宪法,一定会尽力保护美国公民隐私。他提到的个人隐私,和我今天要和大家
3、交流的小数据有关。(一) 小数据的介绍和定义数据革命的最终目的,就是给每个人都配备类似于美国总统的白宫级别的服务。这不是科幻,这是数据革命即将开创的另一个前沿阵地,小数据的大时代。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 13 页 - - - - - - - - - 小数据 (iData), 指的是围绕个人为中心全方位的数据,及其配套的收集,处理,分析,和对外交互的综合系统。人的一举一动,一分一秒,产生的数据,包括生活习惯,身体状况,社交,财务,喜好,情绪,行为的等
4、等,全部被收集和利用和分析,并对外形成一个富有个人色彩的数据系统,统一执行交换数据, 保护隐私等多项对外功能。小数据跟大数据的根本区别在于, 小数据以单个人为唯一的对象, 重点在于深度,对个人数据全方位全天候深入精确的挖掘利用,大数据则侧重在某个领域方面,大范围大规模全面数据收集处理分析,侧重在于广度。 小数据只有围绕一个人,你就是小数据世界里的美国总统,小数据就是你的白宫办公室,它听命于你, 收集关于你全方位信息, 提供给你最贴心最完整的数据服务,同时担任对外界大数据的唯一接口。 小数据并不是大数据老酒装新瓶,把大数据思维操作模式简单套在小数据上并不适用。接下来我具体从小数据的成因,特性,发
5、展前景和问题,这四个方面来谈谈小数据是怎样作为大数据的互补和延伸的。(二) 小数据产生的原因1. 大数据对隐私无止境的侵犯和个人对主动保护隐私的需求。1993 年纽约客刊登了一副漫画:标题是:“ 互联网上,没有人知道你是一条狗” 。经过 20 年互联网,移动互联网和社交网络以及大数据的快速发展,我们已经毫无隐私成为透明人了。现在这句话应该改成:“ 不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤” 。 在数据为王的时代,个人隐私遭到肆意的践踏和侵犯。你上网买个东西,或者在社交网上发个言,很简单一个动作,瞬间同时的在政府网络监控,电话上网公司,买东西网站,社交网,搜索网站,
6、信用卡银行,还有专门收集资料的爬虫系统。等等,留下你详细的个人资料。 更可怕的是, 这些都是永久的, 任何时候都不知道会被谁调用,会被人肉搜索到。 大数据的基因里有对数据无限的渴求。因此以企业为主的大数据,在追求最大商业利益的同时,是不可能主动保护个人隐私的。可以说,大数据和个人隐私保护是天生不可调和的根本矛盾。随着隐私被侵犯的弊端逐渐浮现,各国都有不同程度的立法来保护个人隐私。但是至今为止, 实际收效甚微, 我们对隐私大规模被侵犯仍然束手无策。不过想想连德国总理默克尔, 这么一个大国最高领导人的手机都会被窃听,我们这些普通大众的隐私在国家利益和商业利润面前,又怎么能够被真正被保护呢?难怪名师
7、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 13 页 - - - - - - - - - Steven Rambam, 一个互联网隐私专家曾经说过一句让人很绝望的话:Privacyis dead - get over it. “隐私已死,爱怎么着怎么着吧”这时候,迫切需要从技术上, 让个人主动而不是被动的保护自己的隐私。小数据就能很好解决个人隐私和大数据的矛盾。小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。任何对外的数据输出,都需通过预先设定授权程序。而外面大
8、数据其实不是真的对你的隐私感兴趣,就比如说大数据要分析用户对一个新车的市场,他需要同时知道你年龄性别收入等等,但是大数据最终目的不是要拿这些隐私, 而是拿这些作为大数据分析模型必须的素材,最后分析出你喜欢或者不喜欢这辆车。 其实小数据在这方面更有优势, 甚至细微到主人喜欢什么颜色, 买车主要目的是上班还是休闲等, 只要把小数据分析结果而不是隐私内容,通知给大数据。这样既能保护个人隐私,又能提供大数据最准确的信息。完美解决大数据和隐私之间的矛盾。同时小数据还能在保护隐私的监控上掌握主动。我们都知道,注册登记任何社交网,都要求你同意密密麻麻天书一般的法律条文。我相信没有人会真正认真去看这些条文,
9、因为用脚后跟想都知道, 里面法律术语晦涩难懂, 看懂了你又能怎么样,还不得乖乖 I Agree 我同意。 这都是企业合法用你数据资料的同时,用来规避法律责任的保护伞。 这可是企业雇佣庞大律师团队花巨资写出来的,我们个人在保护隐私上完全被动而且势单力薄。如果有了小数据, 这下我们从被动变主动。你企业要用我小数据,好,没问题,数据是我的,我控制能给你什么,不能给你什么。 比如你问我喜不喜欢这辆新车,我告诉你我喜欢, 但我不告诉你我年龄和家里存款。 同时外部使用我的小数据是有前提的,如果医疗健康类企业, 要知道我身高体重,没问题,需要根据我制定的规则办事,你要I Agree 我的数据使用条款,不能到
10、处传播。同时,还规定使用时间和使用范围,比如给你3 个月只能用于某个特定医疗设备研究,用完就得永久删除,否则被我小数据监测到,可以依照里面的法律条文,咱们法庭上见。小数据让个人作为个体信息的真正拥有着,通过小数据,制定个人信息的使用范围和授权,以及监督机制。任何企业组织甚至政府,都要事先同意遵守我定的规则才能使用。设想有个名人想要美国总统奥巴马约个吃饭时间,他该先和白宫办公室联系, 同意白宫办公室的条件: 不能和外界事先透露总统行踪后。同时,白宫只能跟回答比如说晚上 7 点总统有没有空, 喜不喜欢吃牛排, 而不是把总统的全部的行程安排包括总统吃什么药片都告诉对方,这个可是最高国家机密。 小数据
11、让你享受总统待遇,你的个人信息就是你的小数据王国里的最高国家机密。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 13 页 - - - - - - - - - 小数据还能做到绝对隐私,比如那天你累了想彻底清净一段时间,或者你要和情人老婆老公有私人空间, 你跟小数据系统下指令, 彻底停止所有个人数据监测,这下就清净了,你在数据世界就真的有一段时间人间蒸发了。2. 对统一全面管理分析个人数据的巨大需求。小数据的产生还有一个主要原因,对统一全面管理分析个人数据的巨大需求。信息时
12、代,我们被铺面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。我们最大的挑战是如何能快速,方便,一目了然的定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人, 让自己多点时间去思考,去创作,多陪小孩家人,多去体验生活。小数据通过对个人信息的全面收集,反馈,整理,分析,能提供最贴心的数据服务,提供最有价值的决策支持,甚至比你还了解你自己。你问问奥巴马谁最了解他,答案不是他太太还是他父母,一定是白宫工作人员。我举个亲身体会的很小的例子来说明未来小数据的价值。纽约这边水表都实现电子自动读数, 隔几个小时家里的水表自动发送数据到自来水公司,可以上网查看。这个是个很原始很
13、简单的数据,看起来没有任何价值。有天,我突发奇想,用大数据的思维, 把这些数据下载下来, 结合我家的出行旅游时间记录,发现了个问题。这水表显示没人在家的时候继续不断地用水,3 年来一直如此。我进一步挖掘, 把家里每天使用水的大概时间拿来对照,最后断定, 一定是某个地方悄悄的持续的漏水。 经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里,找到一个阀门没旋紧, 从这里漏水直接进下水道。 3 年多来从来没被发现。如果没有数据分析,这么隐蔽的地方不可能被发现。我计算一下,这 3 年来这个阀门浪费了 600 多美金的水费,如果我在这里住10 年,这个简单的数据分析就能省下我 2000 美金的无端
14、水浪费。这个就是小数据的个一个很简单的案例。我进一步把我可以找到的个人数据:当地温度历史, 电气水历史用量, 财务数据,健康数据,统统有机结合起来(当然数据收集废了好一番功夫)。这个很原始的小数据给我展现出我从来没有看到过的一面,在我决策过程中提供非常多有价值的分析。而这只是一个雏形,一个开始,如果有成熟的小数据系统,真正全面的把个人全部数据有机结合起来,其能发挥潜在价值不可估量。(三)小数据的特性和大数据的对比名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 13 页 -
15、 - - - - - - - - 小数据和大数据有者本质的区别, 虽然以创造数据价值为目的思维和大数据是相类似的,但是在具体方式上,还有以下几点不同1. 数据处理方式:大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。可是数据一标准化, 就失去了其数据产生时的特性和背景。而小数据的用户数据的最大特点,就是来源和使用者是同一个人,只不过存和取时间和背景不一样而已,这就让数据标准化失去存在的理由。为什么要用标准化来抹去我对数据的主观色彩呢和背景呢。比如我说“ 喜欢吃的这家店的臭豆腐 ” 。这个信息,存在我小数据的数据库里,不能单单只存标准数据:比如时间,臭豆腐形状
16、臭豆腐店地址等。这些还不够,还要把我喜欢的程度和重要性: 是非吃不可否则活不下去呢,还是一般的喜欢过两天就忘记了。还有当时的语境:是我陪老婆去吃她喜欢我也跟着喜欢,还是我恭维臭豆腐店老板,因为他是我一个朋友呢。这些都是小数据需要处理的信息,而大数据的标准化方式是无法做到的。国外这方面已经有初步的研究,Dr. Ofer Bergman 在 2003 年最先提出 “ 用户主观方式 ”(User Subjective Approach )来存储个人信息。 2009 年他在这方面开创性研究在美国信息技术学院(American Socieity for Information Science and T
17、echonology ) 一发表获得极大轰动。被美国图书馆协会 (The American Library Association) 评为当代十大科技前沿的研究方向之一2.人的作用:在大数据模式下,数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。而在小数据里,所有数据都是围绕一个人, 所以人在系统的发挥中心的作用。就比如说白宫团队再怎么庞大,都要根据总统的旨意, 很多重要决策, 还得总统拍板定夺。 虽然小数据里不可避免要使用人工智能来提供帮助,但是人工智能如今发展还没有大的跨越,远远不能胜任代替人脑的作用。 这个有利有弊,坏处就是人还要不时的参与决策。 好处就是,使用
18、者比较放心, 因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?要我选,我还真不放心,我选择后者。3.其他数据性质的区别:比如是小数据数据量相对比大数据的数据量小。小数据对数据不全部需要快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。 小数据更加注重非结构化数据的之间的关联,重深度挖掘,而大数据重在包容所有个体的数据重在广度。综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第
19、 5 页,共 13 页 - - - - - - - - - (四)小数据发展的广阔前景小数据解决大数据无法克服的保护个人隐私矛盾。在主动保护个人隐私的同时,小数据提供给大数据最直接数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。 同时小数据利用全面的个人数据优势, 结合外部大数据,提供给个人最个性化,最独特,最有价值的数据服务。Amazon 的名言 “ 最成功书籍推荐应该只有一本书,就是用户要买的下一本书” ,即使大数据的先行者如Amazon ,预测用户要买的下一本书并不容易。它最多能根据你在 amazon 的交易记录,和有限的片面的个人信息来模糊预测。如果有小数据,身为最
20、了解主人的个人数据系统,amazon 只要跟个人小数据接口查询: ”你的主人最有可能买下一本书是什么?” 小数据先查查主人设定,是否同意和amazon 交流,在不泄露个人重要隐私的前提下,做完个人分析,看看主人最近最关心什么,最需要什么类知识,列出主人最有可能买的1 本书, 告诉 amazon 。第二天,主人一开门,发现门口摆了一本自己最需要的书,上面写着:“Amazon通过和您的小数据系统交流, 得知您最可能需要这本书, 把书给您送来了, 需要就拿去,我会跟你小数据系统结账。 多方便,多和谐的一个过程啊。再拿一个大数据里被津津乐道的一个案例来说,Target 超市用孕妇怀孕可能购买的商品用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据、小数据介 2022 数据
限制150内