2022年大数据应用与实践 .pdf
《2022年大数据应用与实践 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据应用与实践 .pdf(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 大数据应用与实践(8)胡经国本文根据有关文献和资料编写而成,供读者参考。本文在篇章结构、内容和文字上对原文献作了一些修改和补充,并且添加了一些小标题,特此说明。十七、确保大数据业务成功的七个步骤1、关于大数据的三个重要事实对于大数据有以下三个重要的事实。、大数据并不是新趋势自 20 世纪 90 年代,亚马逊、微软和谷歌就开始进行大数据工作。几十年来,很多公司都一直在挖掘数据。可能由于当时只有资金雄厚的大型公司,才能够进行大数据研究;但是大数据确实早已存在。现在,基于廉价的计算和存储能力以及新工具和技术,几乎每个人都可以使用高级数据挖掘技术和算法了。很多人认为,大数据只是商业智能(BI)的新
2、名称。虽然这两者有相似之处,但是大数据已超出了BI 的范畴。、大数据的“大”是相对的现在,各行业各组织确实正面对创纪录水平的数据增长。据IDC 称,我们每秒创造超过 58 TB 数据。到 2020年,将拥有超过35ZB 的存储数据。然而,大数据并不一定是巨大的;大数据并不在于其规模,而在于需要如何处理它。拥有 100 TB 数据的小公司可能也存在大数据问题。因为,他们需要提取、分析数据,并且据以作出决策。、大数据处理的数据的定义是广泛的它可以包含结构化和非结构化数据。对于一些公司来说,最重要的是大数据的元数据,或者是关于数据的数据。麦肯锡将大数据定义为:“其规模超出传统数据库软件的捕捉、存储、
3、管理和分析能力的数据集”。然而,这些数据集需要大量运行在数百甚至数千台服务器(云)中的并行软件(系统)来处理。2、大数据业务成功必须遵循的七个步骤以下是确保大数据业务成功必须遵循的七个步骤。、承认存在问题这往往是最难的一个步骤。以前,我们拒绝承认我们的网络已不再受防火墙和代理服务器设置的保护;而我们不得不为员工远程访问开放基础设施并拥名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 11 页 -2 抱互联网。对于大数据,IT 领导者需要评估其数据情况:、你的数据集是否让你不堪重负?、你不知道所有数据的位置?、你(或者企业领导者)没有从你的数据中得到所需的信息?、企业领导没有基于数据
4、来做决策?、有可能提高 IT 在企业政策和战略决策中的相关性?如果你像大多数公司一样,部分或者所有这些问题的答案都是肯定的,那么是时候控制你的数据,并从中挖掘出情报以提供给领导层做决策。、认识到大数据带来的大机会我们总是被告知,要紧密联系业务。“业务技术”这一说法已存在多年;但是我们总是很难看到最新的软件和流程,如何直接影响收入或者全球经济增长。而大数据却可以。为什么?因为,信息就是力量。企业领导需要从数据中挖掘出信息,来帮助企业竞争和发展。员工、客户和市场产生的大量数据,让整个企业(从销售到营销部门)都不堪重负。而大数据能够为你提供简洁而且实时的价值信息,帮助增加收入。、制定大数据计划与任何
5、计划一样,你开始就应该想到结果。企业需要知道什么?他们需要回答的问题是什么?在你开始使用Hadoop 前,解决这些问题,并且签订联合协议。然后,按照下列步骤操作(每个步骤可能需要数周或者数月):、隔离属于大数据的部分数据。、分离产品大数据和公司大数据。例如,人力资源分析需要的员工数据与电子商务平台的客户或产品搜索数据,需要分离。、认识和了解你的数据的波峰和波谷。、了解哪些技术允许实时(或接近实时)大数据处理。、确定关键的解决方案/供应商。、从小事做起,评估与发展先做一个项目。让你可以快速展示成果和 ROI。然后,转移到下一个大数据项目。、继续分析、调整和输入大数据是灵活的,需要随着数据、情报和
6、企业要求的变化进行调整。、利用分布式系统大数据要求我们,转换对系统和基础设施的想法。正如虚拟化从根本上改变了我们利用服务器和应用程序的方式,分布式系统和处理使我们能够管理大数据。因为,分布式架构允许我们将问题分解成很多小任务;然后将这些任务分配到多个系统。好消息是,我们拥有越来越多的架构框架可以利用,包括:Cassandra、Hadoop、VMware、Red Hat 等。分布式系统并不新鲜,但是大数据名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 11 页 -3 将其提升到全新的水平。分布式方法包括:、多租户架构;、分布式数据库;、虚拟化;、多线程;、多核心 CPU;、并行处理
7、;、分布式文件系统;、分布式负载均衡;、RAID 算法。、从分布式到分散式、采用分散式方法的必要性对大多数公司来说,这是真正的范式转变。这也是大数据和云计算结合的地方。鉴于互联网是世界上最大的分布式和分散的系统,我们应该更加充分地利用互联网来实现大数据。我们很喜欢分布式实例或者计算处理。但是分散式往往有种失去控制的感觉。这有必要吗?对于大数据,采用分散式做法是必要的。因为,由于过度和孤立的服务,所有未使用的实例和存储容量都将被浪费。更重要的是,单靠分布式组件,无法让我们跟上数据增长的步伐。IDC 估计,到 2020 年,产生的数据和数据中心容量之间的差距,将达到60%。然而,部分原因还在于没有
8、充分利用已经拥有的存储容量。Gartner(高德纳咨询公司)估计,大多数计算机、服务器和网络,只运行了30%的容量,以准备好应对峰值或者未来增长。虽然我们可能永远不会以90%或者 100%的容量运行,但是我们可以更好地利用现有的容量,节省数百万美元,提高现有基础设施的总体拥有成本(TCO)。、分散式方法的主要特点没有中央瓶颈;大量的能力;有机的需求推动容量增长;充分利用现有的基础设施和边缘设备;信息共享;假定每个人/每一个节点是“不可信任的”;地理分布:所有权和参与、成本、管理开销、风险。、分散式方法的例子分散式方法存在很多很好的例子。其中,最知名的就是开源运动。分散式方法还有两个新例子,将其
9、定义为分散式云系统:CloudStack和 OpenStack。我们仍然位于分散式方法的早期阶段。但是随着数据继续增长,这将是未来几年的重要趋势。链接:CloudStackCloudStack 是一个开源的具有高可用性及扩展性的云计算平台,同时也是一个开源云计算解决方案。它可以加速高伸缩性的公共云和私有云(IaaS)的部署、管理、配置。使用CloudStack 作为基础,数据中心操作者可以快速方便地通过现存基础架构创建云服务。链接:OpenStackOpenStack是一个开源的云计算管理平台项目,是一系列软件开源项目的组名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 11 页
10、-4 合。由 NASA(美国国家航空航天局)和 Rackspace合作研发并发起,以Apache许可证(Apache 软件基金会发布的一个自由软件许可证)授权的开源代码项目。OpenStack为私有云和公有云提供可扩展的弹性的云计算服务。项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。、雇佣/培养合适的人才和技能云计算并不意味着有更少的IT 工作,但是云计算和大数据的出现的确意味着我们需要发展我们的技能和培养人才。在大数据世界,数据库管理员等现有岗位变得更加重要。你还需要培养和招聘的其他职位包括:数据科学家、架构师、随机理论师(算法)、业务分析师、UX/UI(平面设计/交
11、互设计)专家。其中一些职位似乎是合乎逻辑的,但是对于业务分析师和UX/UI 专家,传统上不属于 IT 部门,你可以将这些人员安排在生产管理中,而在大数据解决方案中,他们需要携手开发和运营团队。这是因为,你不能直接将大数据信息交给业务方面,使用图表和易于理解的分析是关键。此外,如果你还没有整合开发/运营团队来更好地管理云计算部署,那么现在可以这样做了。这两个团队必须携手合作来实现任何云计算或者大数据战略。、通过大数据来利用数据正如 IT 职位可能开始更倾向于业务,IT 需要改变其度量的方式。你的团队中的每个人都应该热衷于追踪和记录关键性能指标(KPI);这些应该符合业务指标,而不只是及时发布和交
12、付高质量代码。技术团队的每个人都应该有明确的指标,并且努力寻找新方法来提高指标结果。链接:KPIKPI(Key Performance Indicator,关键绩效指标)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。KPI 可以是部门主管明确部门的主要责任,并且以此为基础明确部门人员的业绩衡量指标。建立明确的切实可行的KPI 体系是做好绩效管理的关键。关键绩效指标是用于衡量工作人员的工作绩效表现的量化指标,是绩效计划的重要组成部分。十八、大数据在安防领域的应用
13、大数据在安防领域的应用已全面展开,安防已进入大数据时代。如何利用音视频分析技术,从这些数据中提取有效信息,找寻到对应的线索,是大数据挖掘的价值所在。1、安防行业大数据应用现状在大数据时代,作为海量数据的主要来源之一,安防行业相关应用产生了大量的信息数据。特别是,在当前大集成、大联网的环境下,数据量呈现出了名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 11 页 -5 飞速增长的趋势。海量数据也带来了数据整合、数据存储、数据分析应用等一系列问题。通过寻求解决这些问题的方法,也进一步促进了大数据技术和产品在安防行业的应用。当前,安防行业本身的数据资源主要还是视频资源。基于视频资源去比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据应用与实践 2022 数据 应用 实践
限制150内