《大数据的概念及应用(精华)ppt课件.pptx》由会员分享,可在线阅读,更多相关《大数据的概念及应用(精华)ppt课件.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据的大数据的概念、分析技术及应用概念、分析技术及应用2022年6月目录大数据大数据的概念的概念大数据分析与挖掘技术大数据分析与挖掘技术2022年6月网易云音乐的每日推荐2022年6月歌曲用户通过什么连接?两首诗2022年6月自由的石头,无畏地坠落向爱。却在迷惘的路上,轻羽般离去。迷茫的孩子,悄悄地将它掩埋。过于长久的牺牲,能把心变为一块岩石。 呵,什么时候才算个够? 那是天的事,我们的事 基本电荷单元2022年6月1.602176491019汪峰“歌词”元素表2022年6月9张专辑共117首歌曲光速2022年6月299792458 m/s另一首2022年6月自由自由,在桥桥的这头埋埋葬,光
2、明光明,在桥桥的那头破碎碎,已没所谓绝望绝望,微雨雨中,说声再见再见大数据发展历程2022年6月2005年年 hadoop项目诞生:采用 (HDFS)的数据存储服务,以及MapReduce技术的高性能并行数据处理服务2008年年末末 “ 大数据 ”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟发表白皮书大数据计算:在商务、科学和社会领域创建革命性突破。2009年年 印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题2009年年中中 美国政府通过启动Data.gov网站的方式进一步开放
3、了数据的大门2010年年2月月 肯尼斯库克尔在经济学人上发表了长达14页的大数据专题报告数据,无所不在的数据。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一2011年年2月月 IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目危险边缘“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利。”2011年年5月月 麦肯锡(McKinsey&Company)全球研究院(MGI)发布了一份报告大数据:创新、竞争和生产力的下一个新领域,大数据开始备受关注2011年年12月月 工信部发布的物联网十二五规划上,把
4、信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分2012年年1月份月份 瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告大数据,大影响(Big Data, Big Impact)宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年年3月月 美国奥巴马政府在白宫网站发布了大数据研究和发展倡议,标志着大数据成为重要的时代特征。宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,“未来的新石油”,大数据技术领域事关国家安全和未来2012年年4月月 美国软件公司S
5、plunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司2012年年7月月 联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。2012年年7月月 为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务2014年年4月月 世界经济论坛以“大数据的回报与风险”主题发布了全球信息技术报告(第13版)2014年年5月月 美国白宫发布了2014年全球“大数据”白皮书的研究报告大数据:抓住机遇、守护价值2014年年 “
6、大数据”首次出现在当年的政府工作报告中。报告中指出,要设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。“大数据”旋即成为国内热议词汇2015年年 国务正式印发促进大数据发展行动纲要,纲要明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系2016年年 大数据“十三五”规划,加快政府数据开放共享,促进大数据产业健康发展2017年年11月月 十九大报告,深化供给侧结构性改革。加快建设制造强国,推动互联网、大数据、人工智能和实体经济深度融合;加快建设创新型国家,国 网络强
7、国 交通强国 数字 技术、现代工程技术、颠覆性技术创新,为建设数字中国、智慧社会提供有力支撑萌芽期概念提出政府插足研究机构过热期案例遍地开花内部数据为主并购风起幻灭期国家推动从概念到实用复苏期从Gartner新技术曲线看大数据技术(1/3)2022年6月2022年6月从Gartner新技术曲线看大数据技术(2/3)2022年6月从Gartner新技术曲线看大数据技术(3/3)数据的变化在哪里(1/3)l量量2022年6月1KB (Kilobyte 千字节)=1024B, 1MB (Megabyte 兆字节 兆)=1024KB, 1GB (Gigabyte 吉字节 千兆)=1024MB, 1TB
8、 (Trillionbyte 万亿字节 太字节)=1024GB 1PB(Petabyte 千万亿字节 拍字节)=1024TB, 1EB(Exabyte 百亿亿字节 艾字节)=1024PB, 1ZB (Zettabyte 十万亿亿字节 泽字节)= 1024 EB, 1YB (Jottabyte 一亿亿亿字节 尧字节)= 1024 ZB, 1BB (Brontobyte 一千亿亿亿字节)= 1024 YB. 美国地理及空间探测 美国能源部数据 全球可穿戴设备 美国国防部数据 国际海洋和大气管理 物联网数据 国家健康研究所 国家癌症研究所 全球IP流量l挤压现象p世界90%的数据是过去几年里产生的。
9、过去三十年中,全世界的数据量大约每两年增加10倍远超摩尔定律l数据总量pIDC的预测,2009年到2020年,0.8ZB到35ZB,44倍,年均40% l中国存储数据量p当前约为600万TB,占全球总量的15%,预计到2020年,占比将提高到22%数据的变化在哪里(2/3)l质质2022年6月l早前早前p02985XX6789用户5月消费59元,MOU200分钟l昨天昨天p189XXXX1234用户5月消费59元,其中套内49元,套外10元。p手机流量150M :1日-10日75M、11-20日50M、21日-30日25M;视频流量80M、游戏流量15M。pMOU200分钟:本地主叫80分钟、
10、本地被叫60分钟、漫游主叫20分钟、漫游被叫40分钟p月度内漫游地:北京l今天今天p189XXXX1234用户5月消费流量150M:n第一次5月1日9点30分,基站ID 3001,手机百度搜索,关键字“天气”;n第二次5月1日12点05分,基站ID 2345,微博评论,关键字“马刺”npMOU200分钟:n第一次5月2日17点12分,主叫,号码 139XXXX4321npLBS分析:n前往2个加油站,共停留时间:43分钟n商场消费线上支付11209元,超市消费线上支付3207元n数据的变化在哪里(3/3)l用用2022年6月l统计级统计级应用:应用:时间、空间、人、物四个维度的交叉统计分析。以
11、零售业为例p零售研究:物-物p消费者洞察:物-人-物p消费者购买路径:人-物-时间p大数据空间研究:物理空间-人-赛博空间l个体级个体级应用:应用:基于人与物关联的历史信息去推测未来的关联状态p精准营销:新客推荐p金融征信:风险定价p人力招聘:人岗匹配p大数据变化的背后:大数据与云计算l云计算构建云计算构建新的信息基础设施新的信息基础设施 p在线化 p平台化 p扁平化 p低成本 l大大数据打破信息壁垒数据打破信息壁垒 p更透明 p更有效 p更可信 2022年6月小结l大数据大数据:是通过新处理模式能且才能提供更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息2022年6月小结
12、l大数据的大数据的本质:本质:时间与空间维度下的人与物、人与人、物与物之间复杂的关联关系,利用大数据,还原事物原貌、探究规律机理、预判发展变化2022年6月目录大数据大数据的概念的概念大数据分析与挖掘技术大数据分析与挖掘技术2022年6月大数据分析挖掘技术l背景:局部数据难以统观全局,大数据需要跨视角、跨媒介、跨行业的海量数据融背景:局部数据难以统观全局,大数据需要跨视角、跨媒介、跨行业的海量数据融合合和关联和关联分析,才能更好地进行决策支撑分析,才能更好地进行决策支撑 l解决解决方法:通过面向海量多维数据的机器学习算法和数据关联分析等方法,用直观方法:通过面向海量多维数据的机器学习算法和数据
13、关联分析等方法,用直观形象地形象地方式,展现数据之间潜在的关系方式,展现数据之间潜在的关系 2022年6月常见大数据分析挖掘技术深度学习l通过层次化的方式和海量的训练通过层次化的方式和海量的训练数据数据,从而提升分类或预测的,从而提升分类或预测的准确性准确性l已已在语音识别、图像识别、人脸在语音识别、图像识别、人脸识别识别等领域取得巨大成功,目前也等领域取得巨大成功,目前也已开始已开始应用于内应用于内容推荐、异常检测等容推荐、异常检测等 2022年6月多维数据关联l满足用户从多角度多层次进行满足用户从多角度多层次进行快速数据快速数据查询和分析的数据模型,查询和分析的数据模型,面向分析面向分析决
14、策,解决策,解决传统数据模型在决传统数据模型在数据数据维度高、条数多的情况下,维度高、条数多的情况下,无法有效无法有效表示数据结构和语义,表示数据结构和语义,以及无法以及无法有效支持有效支持OLAP的问题。的问题。 l主要主要分析方法:钻取、上卷、分析方法:钻取、上卷、切片切片、切块、旋转、切块、旋转 2022年6月知识图谱l基于图结构刻画实体之间基于图结构刻画实体之间关系的关系的技术,采用可视化技术技术,采用可视化技术描述其描述其相互联系相互联系 l为为搜索、挖掘、语义理解等搜索、挖掘、语义理解等应用应用提供基础的知识库,提高提供基础的知识库,提高搜索搜索效果,突破传统搜索体验效果,突破传统
15、搜索体验,拉开拉开语义搜索的序幕语义搜索的序幕2022年6月数据可视化l将数据之间的关系以图形图像的将数据之间的关系以图形图像的形式形式表示,将图形与指标的含义表示,将图形与指标的含义关联关联,为用户提供,为用户提供深度、直观的深度、直观的数据及其数据及其结构关系表示,使用户能够结构关系表示,使用户能够洞察洞察其中的规律及本质的特点。其中的规律及本质的特点。2022年6月案例:1854年伦敦霍乱地图案例:旧金山游客地图数据可视化l将数据之间的关系以图形图像的将数据之间的关系以图形图像的形式形式表示,将图形与指标的含义表示,将图形与指标的含义关联关联,为用户提供,为用户提供深度、直观的深度、直观的数据及其数据及其结构关系表示,使用户能够结构关系表示,使用户能够洞察洞察其中的规律及本质的特点。其中的规律及本质的特点。2022年6月厘清几个概念2022年6月人工智能机器学习数据挖掘深度学习两个反思故事两个反思故事2022年6月谢谢!你总是喜欢把事情拖到第二天,你不能再这么你总是喜欢把事情拖到第二天,你不能再这么拖了,因为有一天,你会有很多事情要做,你拖了,因为有一天,你会有很多事情要做,你的余生都不够你用。的余生都不够你用。余生的第一天余生的第一天
限制150内