数据挖掘与大数据技术应用学习教案.pptx
《数据挖掘与大数据技术应用学习教案.pptx》由会员分享,可在线阅读,更多相关《数据挖掘与大数据技术应用学习教案.pptx(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、会计学1数据挖掘与大数据技术数据挖掘与大数据技术(jsh)应用应用第一页,共63页。目录目录(ml)一、大数据的来源二、什么是大数据四、大数据的应用五、成功案例三、大数据的关键性技术第1页/共63页第二页,共63页。引言引言(ynyn)(ynyn)电影电影点球成金点球成金基于历史数据,利用数据建模定量分析不同球员特点,合理(hl)搭配,重新组队;打破传统思维,通过分析比赛数据,寻找(xnzho)“性价比”最高球员,运用数据取得成功;2011年布拉德皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够
2、取得巨大的成功。第2页/共63页第三页,共63页。数据本质数据本质(bnzh)(bnzh)是生是生产资料和资产产资料和资产仅供开采162年仅供开采45年仅供开采60年不可(bk)再生资源VS数据过去3年数据总量被以往4万年还多2013年,10分钟的信息总量将达1.8ZB2010年全球数据总量1.2ZB,年增长50%数据不再是社会生产的“副产物”,而是可被二次乃至多次加工(ji gng)的原料,从中可以探索更大价值,它变成了生产资料。第3页/共63页第四页,共63页。数据数据(shj)(shj)爆炸式增长爆炸式增长(每分钟(每分钟)Twitter上发布98000+新微博13000+个iPhone
3、应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单Facebook上更新69.5万+条新状态12306出票1840+张第4页/共63页第五页,共63页。数据资产数据资产(zchn)(zchn)管理的挑战管理的挑战第5页/共63页第六页,共63页。数据资产管理数据资产管理(gunl)(gunl)的挑战的挑战第6页/共63页第七页,共63页。需要不同需要不同“看看”数据数据(shj)(shj)的方式的方式8可视:结构化资料(zlio)15%未视:半/非结构化数据(shj)85%DB
4、/DW主管们看的战情数位仪表板,其实是残缺的第7页/共63页第八页,共63页。10万 GB10万 TB需要更高性价比的数需要更高性价比的数据计算据计算(j sun)(j sun)与储与储存方式存方式9数据库数据仓库计算(j sun)更快 存储更省第8页/共63页第九页,共63页。85%半/非结构化的Log/Web page/Email/PDF/Image/Full-text/MS-Office file 需要需要(xyo)(xyo)不同的数据管理策略不同的数据管理策略当我们想要扩充时,才发觉:架构只能(zh nn)scale-up,scale-out 不易处理时间过长,time-to-valu
5、e 受限成本过高,cost-efficiency 受限15%结构化的 DB/DW遗憾(yhn)残缺第9页/共63页第十页,共63页。每天几百 GB、几 TB 的资料(zlio),且持续成长中储存储存(ch(ch ccn)n)StoringStoring 在收数据(shj)的同时做必要的前置处理(pre-processing),并区分数据(shj)处理的优先等级(prioritizing)计算计算ProcessingProcessing如何有效的避免因硬件毁坏所导致的资料损毁管理管理ManagingManaging如何从中挖掘出所关注事件的 pattern 或 behavior分析分析Analy
6、zingAnalyzing超越企业现有超越企业现有 IT IT 的数的数据解决能量据解决能量11第10页/共63页第十一页,共63页。中央政府对大数据的重视中央政府对大数据的重视(zhngsh)(zhngsh)程度程度习近平近平政府管理不仅要讲究策略,还要讲究手段,比如大数据技术的应用,2014年3月8日“大数据”首次写入政府工作报告奥巴奥巴马“将投入巨资拉动与大数据相关的产业”“数据为“未来的石油“,是美国综合国力的一部分,是与陆权、海权、空权同等重要的“国家核心资产”。李克李克强:加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质。李克李克强经济数据和目标的进一步调整,
7、中小企业将面临更大的压力,互联网金融除了解决便利性问题外,更重要的是如何围绕特有的大数据资源展开对实体经济的服务汪洋汪洋数据为王,财政工作离不开大数据第11页/共63页第十二页,共63页。目录目录(ml)二、什么(shn me)是大数据三、大数据的应用四、成功案例一、大数据(shj)的来源三、大数据的关键性技术第12页/共63页第十三页,共63页。14Social MediaMachine/SensorDOC/MediaWeb ClickstreamAppsCall LogLog什么什么(shn me)(shn me)是数据是数据?半半结结构化构化/非非结结构化数据构化数据(shj)第13页/
8、共63页第十四页,共63页。4什么什么(shn me)(shn me)是大数据?是大数据?第14页/共63页第十五页,共63页。何为大?数据(shj)度量1Byte=8 Bit1KB =1,024 Bytes1MB =1,024 KB=1,048,576 Bytes1GB =1,024 MB=1,048,576 KB=1,073,741,824 Bytes1TB =1,024 GB=1,048,576 MB=1,099,511,627,776 Bytes1PB =1,024 TB=1,048,576 GB=1,125,899,906,842,624 Bytes1EB =1,024 PB=1,0
9、48,576 TB=1,152,921,504,606,846,976 Bytes1ZB =1,024 EB=1,180,591,620,717,411,303,424 Bytes1YB =1,024 ZB=1,208,925,819,614,629,174,706,176 Bytes3/13/20126什么什么(shn me)(shn me)是大数据?是大数据?第15页/共63页第十六页,共63页。红楼梦含标点87万字(不含标点853509字)每个汉字占两个字节:1汉字=16bit=2*8位=2bytes1GB 约等于 671部红楼梦1TB 约等于 631,903 部1PB 约等于 647,
10、068,911部美国国会图书馆藏书(cng sh)(151,785,778册)(2011年4月:收录数据235TB)中国国家图书馆:2631万册1EB=4000倍 美国国会图书馆存储的信息量600美元的硬盘就可以存储全世界所有的歌曲MGI估计,全球企业 2010 年在硬盘上存储了超过 7EB(1EB 等于 10 亿 GB)的新数据,同时,消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据7数据没有办法数据没有办法(bnf)(bnf)在可容忍的时间下使用常规软件方法完成存储、管理和处理任务在可容忍的时间下使用常规软件方法完成存储、管理和处理任务什么什么(shn me)(shn me)是大
11、数据?是大数据?第16页/共63页第十七页,共63页。大数据大数据(shj)(shj)的解释的解释n n大数据是需要新处理模大数据是需要新处理模式才能具有更强的决策力、洞式才能具有更强的决策力、洞察发现力和流程优化能力的海察发现力和流程优化能力的海量、高增长率和多样化的信息量、高增长率和多样化的信息资产。资产。n n大数据就是大数据就是“未来未来(wili)(wili)的新的新石油石油”。第17页/共63页第十八页,共63页。大数据大数据(shj)(shj)带来的带来的思维变革思维变革更乱不是(b shi)因果关系而是相关关系更多不是随机样本而是全部(qunb)数据更杂不是精确性而是混杂性第1
12、8页/共63页第十九页,共63页。大数据带来的思维大数据带来的思维(swi)(swi)变革(更多)变革(更多)人口大普查全数据(shj)模式随机(su j)采样样本模式大数据应用全数据模式是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;主要特点是调查组织高度集中性,普查对象的全面完整性;人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一种典型的全数据模式;大数据时代小数据时代第19页/共63页第二十页,共63页。大数据带来的思维大数据带来的思维(swi)(swi)变
13、革(更多)变革(更多)人口(rnku)大普查全数据模式随机(su j)采样样本模式大数据应用全数据模式人口大普查是一种耗时耗费的工程,一般是以十年为单位;各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;源于实用并且很好的创新!随机采样分析是小数据时代的产物;大数据时代小数据时代第20页/共63页第二十一页,共63页。大数据大数据(shj)(shj)带来的带来的思维变革(更多)思维变革(更多)人口大普查全数据(shj)模式随机采样样本(yngbn)模式大数据应用全数据模式我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随
14、机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代小数据时代第21页/共63页第二十二页,共63页。大数据大数据(shj)(shj)带来的带来的思维变革(更多)思维变革(更多)Google利用网络大数据预测流感基于全数据进行相扑比赛的作弊分析埃齐奥尼的Farecast有10万亿条数据预测机票价格乔布斯的癌症抗争,自身所有DNA和肿瘤DNA排序第22页/共63页第二十三页,共63页。大数据带来的思维大数据带来的
15、思维(swi)(swi)变革(更杂)变革(更杂)从皮尺到哈勃望远镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;l大数据的简单算法比小数据的复杂算法更有效;lIBM的机器翻译 VS Google的机器翻译;l纷繁的数据越多越好;l大数据时代要求我们重新审视(shnsh)数据精确性的优略;l大数据不仅让我们不再期待精确性,也让我们无法实现精确性;l错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在;l混杂性,不是竭力避免,而是标准途径;第23页/共63页第二十四页,共63页。大数据带来的思维大数据带来的思维(swi)(swi)变革(
16、更好)变革(更好)佛教三世因果经主要讲:一是人的命是自己造就的;二是怎样为自己造一个好命;三是行善积德与行凶作恶干坏事的因果循环报应规律。佛教关于因果报应的解释原因和结果是揭示客观世界中普遍联系着的事物具有先后相继、彼此制约的一对范畴。原因是指引起一定现象的现象,结果是指由于原因的作用而引起的现象。哲学范畴的因果关系大数据的相关关系,而不强调因果关系;(舍恩伯格),其实这个只是一种对无法探究因果的妥协,人类应该去探寻因果,因为世界存在客观的运转规律;舍恩伯格对大数据的相关性解释Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其
17、它颜色汽车的一半。为什么?探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”第24页/共63页第二十五页,共63页。大数据大数据(shj)(shj)的的4V4V特特征征Volume非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍Value大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能)Velocity实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效Variety大数据的异构和多样性很多不同形式(文本、图像、视频、
18、机器数据)无模式或者模式不明显不连贯的语法或句义Big Data大数据TBTBPBPBEBEBStreamsStreamsReal timeReal timeNear timeNear timeBatchBatchStructuredStructuredUnstructured Unstructured Semi-structuredSemi-structuredAll the aboveAll the above第25页/共63页第二十六页,共63页。大数据大数据(shj)(shj)的的4V4V特特征(征(VolumeVolume)1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1
19、PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和一般情况下,大数据是以 PB、EB、ZB为单位进行计量的第26页/共63页第二十七页,共63页。大数据大数据(shj)(shj)的的4V4V特特征(征(VelocityVelocity)82254132215327现在及未来几年内美国的移动网络数据流量增长(PB/月)源自英国Coda研究咨询公司大数据的增长速度快大数据的处理速度快实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s 是临界点,对于大
20、数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;第27页/共63页第二十八页,共63页。大数据大数据(shj)(shj)的的4V4V特特征(征(VarietyVariety)行业/企业内数据互联网数据物联网数据大数据数据来源多企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。数据类型多保存在关系数据库中的结构化数据只占少数,7080%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。关联性强数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。第28页/共63页第二
21、十九页,共63页。大数据大数据(shj)(shj)的的4V4V特特征(征(ValueValue)挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵(zhngu)的信息;价值密度低,是大数据的一个典型特征;大数据不大数据不仅仅仅仅是技是技术术,关,关键键(gunjin)是是产产生价生价值值可以从各个可以从各个层层面面进进行行优优化,更要考化,更要考虑虑整体整体第29页/共63页第三十页,共63页。行行业数据数据处理方式理方式价价值银行/金融贷款、保险、发卡等多业务线数据集成分析、市场评估新产品风险评估股票等投资组合趋势分析增加市场份额提升客户忠诚度提高整体收入降低金融风险医疗共享电子病历及
22、医疗记录,帮助快速诊断穿戴式设备远程医疗改善诊疗质量加快诊疗速度制造/高科技产品故障、失效综合分析专利记录检索智能设备全球定位,位置服务优化产品设计、制造降低保修成本加快问题解决能源勘探、钻井等传感器阵列数据集中分析降低工程事故风险优化勘探过程互联网/Web2.0在线广告投放商品评分、排名社交网络自动匹配搜索结果优化提升网络用户忠诚度改善社交网络体验向目标用户提供有针对性的商品与服务政府/公用事业智能城市信息网络集成天气、地理、水电煤等公共数据收集、研究公共安全信息集中处理、智能分析更好地对外提供公共服务舆情分析准确预判安全威胁媒体/娱乐收视率统计、热点信息统计、分析创造更多联合、交叉销售商机
23、准确评估广告效用零售基于用户位置信息的精确促销社交网络购买行为分析促进客户购买热情顺应客户购买行为习惯13大数据大数据(shj)(shj)商业价值商业价值第30页/共63页第三十一页,共63页。大数据大数据(shj)(shj)商业价商业价值值-大数据大数据(shj)(shj)为为“未来的新石油未来的新石油”2013年,世界上存储的数据预计能达到约(约12亿TB)字节,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关(xinggun)产业发展,将“大数据战
24、略”上升为国家战略。奥巴马政府甚至将大数据定义为“未来的新石油”。第31页/共63页第三十二页,共63页。大数据商业价值大数据商业价值-企企业经营业经营(jngyng)(jngyng)决决策策某商店卖牛奶,通过数据分析,知道在本店买了牛奶的顾客以后常常会再去另一店买包子,人数还不少(b sho),那么这家店就可以考虑与包子店合作,或直接在店里出售包子。第32页/共63页第三十三页,共63页。大数据大数据(shj)(shj)商业价商业价值值-个性化营销个性化营销银行与客户的交流渠道进行了整合,只要某个客户在网上点击查询了有关房贷利率的信息,系统就会提示呼叫中心在电话交流时推荐房贷产品,如果发现顾
25、客确实对此感兴趣,销售部门就会发送(f sn)推介信息给客户,如果这位顾客到银行网点办事,业务人员就会详细介绍房贷产品,开始只有少量的线索,但通过多渠道的与顾客交互接触,在这个过程中,令顾客体验了银行精准、体贴的服务,其结果是营业收入大为增加,成本大幅降低。第33页/共63页第三十四页,共63页。大数据商业价值大数据商业价值-互互联网金融联网金融(jnrng)(jnrng)的的核心是大数据核心是大数据 互联网金融并非简单的把传统金融业务搬到网上去,而是充分利用大数据来颠覆银企之间信息不对称的问题。数据是一个(y)平台,因为数据是新产品和新商业模式的基石。推动互联网金融发展的核心正是大数据的价值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 应用 学习 教案
限制150内