《(4.17.2)--数据处理17大数据应用.pdf》由会员分享,可在线阅读,更多相关《(4.17.2)--数据处理17大数据应用.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 教学文件教学文件 第 1 页,共 6 页 学学 案案 课程名称:课程名称:信息技术 课课 题:题:数据处理大数据应用 授课年级:授课年级:中职一年级 【教学内容分析教学内容分析】:本节内容旨在通过学习大数据意义、大数据处理和大数据应用,了解大数据相关理论。【教学目标教学目标】:知识与能力:知识与能力:掌握大数据相关理论。过程与方法:过程与方法:通过总结大数据意义、学习了解大数据处理和大数据应用,掌握大数据相关知识和信息,再调动学生去调查更多知识,获取更多内容。【教学重、难点教学重、难点】:教学重点:大数据意义、处理、应用;教学难点:大数据意义、处理、应用 【教学过程教学过程】:新课新课:一、
2、一、大数据的意大数据的意义义 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是 IT 时代,而是 DT 的时代,DT 就是 Data Technology 数据科技,显示大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、教学文件教学文件 第 2 页,共 6 页 贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何
3、利用这些大规模数据是赢得竞争的关键。(2)做小而美模式的中小微企业可以利用大数据做服务转型;(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。1、采集 大数据的价值价值体现在以下几个方面:(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希冯米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发
4、者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。(3)分析所有 SKU,以利润最大化为目标来定价和清理库存。(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。(5)从大量客户中快速识别出金牌客户。(6)使用点击流分析和数据挖掘来规避欺诈行为。二、二、大数据处理大数据
5、处理 大数据的采集是指利用多个数据库来接收发自客户端(Web、App 或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库 MySQL 和 Oracle 等来存储每一笔事务数据,除此之外,Redis 和 MongoDB 这样的 NoSQL 数据库也常用于数据的采集。教学文件教学文件 第 3 页,共 6 页 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行
6、负载均衡和分片的确是需要深入的思考和设计。整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。2、导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自 Twitter 的 Storm 来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。3、统计/分析 统计与分析主要利用分
7、布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到 EMC 的 GreenPlum、Oracle 的 Exadata,以及基于 MySQL的列式存储 Infobright 等,而一些批处理,或者基于半结构化数据的需求可以使用 Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是 I/O 会有极大的占用。4、挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一
8、些高级别数据分析的需求。比较典型算法有用于聚类的 Kmeans、用于统计学习的 SVM 和用于分类的 NaiveBayes,主要使用的工具有 Hadoop 的Mahout 等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。教学文件教学文件 第 4 页,共 6 页 2、在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过 3000 次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。1、智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家
9、庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来 23 个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。2、维斯塔斯风力系统,依靠的是 BigInsights 软件和 IBM 超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足 1 小时便可完成。(三三)
10、、通信行业、通信行业 1、XO Communications 通过使用 IBM SPSS 预测分析软件,减少了将近一半的客户流失率。XO 现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM 新的 Netezza 网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通二、二、大数据的应用大数据的应用 (一)、医疗行业 1、Seton Healthcare(西顿医疗)是采用 IBM 最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。3、它
11、让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类 App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。(二)(二)、能源行业、能源行业 教学文件教学文件 第 5 页,共 6 页 信企业制定更科学、合理决策。2、电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。3、中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内
12、获知市场行情。4、NTT docomo(日本最大的移动通信运营商,拥有超过 6 千万的签约用户)把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。(四)、零售业 1、我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的
13、完美结合,为业务挑战提供了解决方案。Informatica 的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都2、零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了 17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。其他实例:其他实例:洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。Google 流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特西尔弗(Nate Silver)利用大数据预测 2012 美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货的实时定价机制。根据需求和库存的情况,该公司基于 SAS 的系统对多达 7300 万种货品进行实时调价。教学文件教学文件 第 6 页,共 6 页 在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
限制150内