理解大数据培训课件.pptx
《理解大数据培训课件.pptx》由会员分享,可在线阅读,更多相关《理解大数据培训课件.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据BIG DATA一、大数据的背景一、大数据背景信息自由之战数据爆炸数据帝国数据治国信息自由之战 信息之于民主,就如货币之于经济。托马斯杰斐逊,第三任 总统 三权分立三权组织机构宪法立法行政司法国会参议院众议院总统副总统总统下属机构行政部门法院联邦最高法院州最高法院基层法院第四股力量(Fourth Estate)新闻和报纸 新闻自由、言论自由、知情权1948年,报纸编辑协会成立“世界信息自由 会”约翰摩斯信息自由法(担任 国会议员25年,六朝元老、连选连任)1955年摩斯着手信息自由的立法工作以来,一系列列的法律层层叠加,不断完善,的信息自由最终形成了一个体系,这个体系也成了世界上许多国家
2、制定信息自由法的模板,截止2006年,已有60多个国家实施了类似的法案。信息自由法(Freedom of Information Act简称FOIA,也译作情报自由法)主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务:第一、联邦政府的记录和档案原则上向所有的人开放,但是有九类政府情报可免于公开;第二、公民可向任何一级政府机构提出查阅、索取复印件的申请;第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和工程,并提供信息分类索引;第四、公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优先处理。这项法律还规定了行
3、政、司法部门处理有关申请和诉讼的时效。奥巴马政府政府的态度:大国新政阳光是最好的防腐剂,建立一个透明开放 的政府。政府的行动:透明和开放的政府 放松对总统文件的管制(公众可查阅)公开、发布信息政府的思想:依靠数据说话政府 :奥巴马热爱高新科技 支持技术创新数据帝国 what:什么是数据?什么是数据?where:数据是从哪来的?数据是从哪来的?how:应对数据爆炸该如何做?应对数据爆炸该如何做?什么是数据?数据是对信息数字化的记录,其本身并无意义,把数据放置到一定的背景下,对数字进行解释、赋予意义,则为信息。例如:“1.85”是一个数据“奥巴马身高1.85米”是一条信息数据的储存单位2023年
4、各行业数据存储量(拍字节)(1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2023年,数据中心的总数跃升到2094所,翻了几倍)庞大的数据资产需要经费来支持,联邦政府庞大的数据资产需要经费来支持,联邦政府19961996年度年度ITIT预算预算180180亿美元,亿美元,20232023年已经高达年已经高达784784亿亿美元。美元。这些投资中的一半以上,都用在了购置存储数据这些投资中的一半以上,都用在了购置存储数据的硬件设备上。的硬件设备上。这是一个不择不扣的数据帝国。这是一个不择不扣的数据帝国。帝国形成的原因帝国形成的原因摩尔定律。摩尔定律。戈登戈登.摩尔摩
5、尔(Intel(Intel的创始人之一的创始人之一)其内容为:当价格不变时,集成电路上可容纳的其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔晶体管数目,约每隔1818个月便会增加一倍,性能个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔脑性能,将每隔1818个月翻两倍以上。这一定律揭个月翻两倍以上。这一定律揭示了信息技术进步的速度。示了信息技术进步的速度。最小数据集Minimum Data Set 帝国的数据到底从何而来?海量的数据源头在哪里?联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数
6、据。大规模、系统地收集数据,在 联邦历开展史上,有一个重要的里程碑最小数据集定义:最小数据集是指通过收集最少的数据,最好地掌握一个研究对象所具有的特点或一件事情,一份工作所处的状态,其核心是针对被观察的对象建立一套精简有用的数据指标。源于:医疗领域源于:医疗领域出院病人最小数据集出院病人最小数据集病人都要付钱病人都要付钱医疗账单最小数据集医疗账单最小数据集出台统一的数据格式出台统一的数据格式医疗保险和索赔最小数据集医疗保险和索赔最小数据集在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。眼科,眼科,皮肤科等等医疗服务的方方面面各种各
7、样,特定的最小眼科,眼科,皮肤科等等医疗服务的方方面面各种各样,特定的最小数据集数据集开展:开展:由于不同的组织之间信息交换的需要,各个业务部门之间都建立由于不同的组织之间信息交换的需要,各个业务部门之间都建立了标准的了标准的“数据接口数据接口”,从此彼此,从此彼此“数据数据”相连。相连。最小数据集是业务管理过程中最重要的数据指标。最小数据集是业务管理过程中最重要的数据指标。有些最小数据集,甚至直接被引用,成为信息管理系统的数据结有些最小数据集,甚至直接被引用,成为信息管理系统的数据结构。构。20232023年,年,联邦政府已经拥有联邦政府已经拥有1 1万多个独立的信息管理系统。万多个独立的信
8、息管理系统。几乎每一项业务,每一个新的立法、新的方案,都会有一个数据几乎每一项业务,每一个新的立法、新的方案,都会有一个数据库和信息管理系统与之对应。库和信息管理系统与之对应。普适计算普适计算:万事万物,凡存在皆联网,凡联网皆计算。万事万物,凡存在皆联网,凡联网皆计算。人类的计算方式:人类的计算方式:主机型计算阶段主机型计算阶段很多人共享一台大型机很多人共享一台大型机个人型计算阶段个人型计算阶段每个人都拥有一台电脑每个人都拥有一台电脑普适计算阶段普适计算阶段广泛的部署微小的计算设备。广泛的部署微小的计算设备。传感器微小的计算设备就是传感器。微小的计算设备就是传感器。例:例:20232023年,
9、年,国家海洋与大气管理局建立了一个覆盖全美海岸、国家海洋与大气管理局建立了一个覆盖全美海岸、从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、内大陆架和沿海共架设了内大陆架和沿海共架设了296296个传感器。这些传感器以分秒为个传感器。这些传感器以分秒为单位,将数据源源不断地实时传回到国家海洋局单位,将数据源源不断地实时传回到国家海洋局政府的三种数据源政府的三种数据源政府应对数据爆炸公布的法案:信息自由法可以公开数据阳光政府法必须公开数据电子信息自由法计算机数据公开数据源大数据大小超出传统意义上的尺度,一般的软件工具已经难以捕捉、存储、
10、管理和分析的数据。没有统一的定义。大数据的特点:大知识、大科学、大利润、大开展。数据治国每一个机构和部门都要制定一个应对大数据的战略“数据驱动的管理方法Data-Drivern Management用数据决策、管理、创新。数据和信息是执法工作当中制定战略和决策的基础循数管理三部曲:收集、分析、发布数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争 数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省开支。开支。新的数据统计分析技术逐步广泛应用于环境,
11、交通,医疗,治安管理,新的数据统计分析技术逐步广泛应用于环境,交通,医疗,治安管理,金融,商务等各个领域。金融,商务等各个领域。数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争二、数据开放平台专门为联邦政府建立的一个统一的数据开放的门户网站,全面开放政府拥有的公共数据。主要目的:1.把政府推向前所未有的开放高度,稳固国家民主,2.提高政府的效率和效能。3.通过鼓励创新,上数据走出政府,得到更多的创新运用。上线同一天,阳光基金会宣布设立25000美元的奖金,举办程序员公共数据开放大赛。参赛作品必须使用开放的数据,
12、可以是数据的分析程序,可以是数据可视化的应用,还可以是社交网站和智能 的查件。初次上线只开放了47组数据,但三个月内,阳光基金会却收到了47个新的开辟应用程序。大量的“互动”使的功能不断完善,先后参加了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。2023年12月8日开放政府的指令命令各个联邦部门必须在45天之内,在上至少开放3项高价值数据。(上线的第一天受到了上线的第一天受到了210万的点击,两个月创下了万的点击,两个月创下了2000多万次的访问总量。多万次的访问总量。)DATA AND TOOLS候机经济学:航班延误分析系统 用户可以看到不同天气,不同日期,不同时段、不
13、同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。数据混搭器DataMasher成果截止2023年12月,仅仅在上,就聚集了1140个应用程序和软件工具、85个 应用查件,其中,有近300个是由民间的程序员、公益组织等社会力量自发开辟的。2023年,开放的数据总数到达了27万项,2023年12月,共开放原始数据3721项,地理数据386429项。开放数据时一石三鸟,不仅服务了群众,刺激经济,还调动了群众创新,为政府节省了软件开辟的开支。三、业界开展动态商务智能大趋势云计算商务智能指利用数据仓库、数据挖掘技术对客户数商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地
14、储存和管理,并通过各种数据统计分析据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营活动效果评价、未来市场需求等,为企业的各种经营活动提供决策信息。提供决策信息。商务智能 数据仓库 Data Warehouse数据仓库的诞生:轨迹的起点,计算机通过二进制,解决了数据的传送问题。关系数据库,解决了数据的快速组织、存储和读取1.累积了大量的数据(仅仅查询,没有分析)2.决策支持系
15、统与运营信息系统别离3.为了解决数据集成问题,数据仓库诞生4.以数据分析、决策支持位目的来组织储存数据数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的物理结构出现以后,一系列的产业链也逐步形成:数据仓库的物理结构出现以后,一系列的产业链也逐步
16、形成:ETL Extraction Transformation LoadExtraction Transformation LoadETLETL就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具的工具 。联机分析Online Analytical ProcessingOnline Analytical Processing 联机分析也称多维分析,本意是把分立的数据库联机分析也称多维分析,本意是把分立的数据库“相联相联”,进行多维的分析。,进行多维的分析。“维维”是联机分析的核心概念,指的是人们观察事物、计算数据的
17、特定角度。是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度。可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创立可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创立“万维万维”动态报表。动态报表。数据挖掘Data Mining数据仓库、联机分析技术的开展和成熟,为商务智能奠定了框架,但真正赋数据仓库、联机分析技术的开展和成熟,为商务智能奠定了框架,但真正赋予予“智能智能”生命的是它的下一条产业链:数据挖掘。生命的是它的下一条产业链:数据挖掘。是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间是指通过特定的计算机算法对大量的数据进行自动分析,从而揭
18、示数据之间的关系,模式和趋势,为决策者提供新的知识。的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。数据之下的历史规律,对未来进行预测。尿布和啤酒的例子:尿布和啤酒的例子:沃尔玛是全世界最大的零售商,拥有沃尔玛是全世界最大的零售商,拥有84008400多家分店,多家分店,200200多万雇员多万雇员20232023年,收入突破了年,收入突破了40004000亿美元,超过了很多国家的亿美元,超过了很多国家的GDPGDP总值。总值。拥有世
19、界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一拥有世界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一。在一次例行的数据分析之后,发现跟尿布搭配在一起购置最多的商品竟然是在一次例行的数据分析之后,发现跟尿布搭配在一起购置最多的商品竟然是啤酒。经过调查:一些年轻的爸爸经常要到超市去购置婴儿尿布,有啤酒。经过调查:一些年轻的爸爸经常要到超市去购置婴儿尿布,有30%30%到到40%40%的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销量双双增加。量双双增加。数据可视化Data Visualization数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 理解 数据 培训 课件
限制150内