2022年大数据的典型应用场景及展望 .pdf
《2022年大数据的典型应用场景及展望 .pdf》由会员分享,可在线阅读,更多相关《2022年大数据的典型应用场景及展望 .pdf(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据的典型应用场景及展望2015 年 1 月 24 号,2015 China Hadoop Summit技术峰会在北京如期举行。本次大会作为国内大数据行业最具影响力的IT 大会,吸引了众多从事 Hadoop 研究与推广的权威技术专家、Hadoop 技术爱好者和 IT 厂商前往参加。现任星环信息科技 (上海)有限公司联合创始人兼首席技术官,曾任英特尔数据中心软件部亚太区CTO 的孙元浩老师在本次大会上带来了主题为 2014 年大数据的典型应用场景及展望的分享,本文主要针对目前 Hadoop 主流应用场景,实时流数据的处理以及大数据技术给未来生活的设想等内容进行了整理。四年前的硅谷, 风投埃里森
2、拿出一亿美金来投资大数据公司,他认为Hadoop 技术在未来的若干年中会从底层的数据平台,从传统的关系型数据库进行迁移。数据的分析层会被全新的数据分析工具所替代,可视化层和应用分析会有更多的新工具出现,并认为这个市场将达到几百亿美金的规模。过去几年, Hadoop 的发展非常迅猛。我们常讲大数据的四V 特征,Hadoop 在大数据处理上表现出的处理量、性能、挖掘能力的提升和碎片化处理能力,使其得到越来越广泛的应用。一、Hadoop的主流应用场景:数据仓库的主要组成部分传统的企业有若干个主机,用于销售、运营管理等等,产生的数据首先经过 ODS 层,将数据从多个业务系统中集中起来,进行清洗、转名师
3、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 8 页 - - - - - - - - - 换等集成操作,然后将过加工的数据进入企业IT 架构的核心数据仓库进行统计、挖掘和分析。最后用可视化工具进行展现。这是传统的企业数据仓库的架构, 经常采用主流的甲骨文等数据库技术来实现。Hadoop作为数据仓库组成部分的四个驱动力互联网公司早年的时候,是把Hadoop 做在数据仓库的核心,比如Facebook早期的时候是从服务器采集是通过实时的日志的采集工具,经过 Hadoop 把 Ha
4、doop 作为数据分析工具,呈现把结果放在甲骨文中做展现。互联网公司之所以这么做, 是因为互联网数据量大到在传统的数据库不能处理。现在传统的企业也面临同样的问题,将Hadoop 作为数据仓库主要组成部分有四个驱动力:效率:传统的数据仓库技术已经面临非常繁重的数据分析任务,处理的延迟从一天到了一周。成本:传统的数据架构成本动辄几千万。Hadoop 可以实现成本若干倍的降低。数据来源多样:视频、音频等企业非结构化数据来源增多。 MapReduce对于非结构化或半结构化数据的读取非常有效。数据分析需求的演进:数据分析不再只满足于统计。使用Hadoop的技术,能够对数据进行深度的挖掘和分析,实现对未来
5、的预测。Hadoop改变企业数据仓库架构的线路图第一步:数据仓库的补充名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 8 页 - - - - - - - - - 2011、2012 年的时候Hadoop 主要是作为数据仓库的补充在做数据的清洗。这一层Hadoop 很擅长。 Hadoop 的优势是能够把计算任务对全要素进行统计分析, 这是方式非常适合简单的场景, 早年 Hadoop的最佳用途是作为ETL的平台,第二步:逐渐进入核心随着 Hadoop生态系统逐渐完善,有更多的
6、数字化工具支持Hadoop,Hadoop 开始进入数据仓库的核心领域。有些企业开使用Hadoop 来直接做数据可视化,在有些行业中已经开始用Hadoop 逐渐取代传统的关系数据库来建立数据仓库。从整个的数据仓库的架构来看,有一半的架构已经开始被Hadoop 覆盖了。第三步: Hadoop使资源管理变为可能,最终将取代企业完整的整据仓库在一两年之内有些企业完整的数据仓库架构都可能会被Hadoop 取代掉。过去企业数据仓库的时候任务很繁重,系统效率低下。 造成这种状况的重要原因是, 客户把过多的负载放在数据仓库上面,数据仓库本身又没有资源配合的方式。Hadoop2.0 推出了管理框架,使得资源管理
7、变成了可能,使得数据仓库支撑多个部门的数据分析和访问更加高效。举例来说,每个部门的业务都是动态创建虚拟集群实现的,每个集群都有一定的资源配额,这样的配额用时不会超过这个配额,使得用户任何的负载不会影响其他的用户,这成为数据仓库里一个重要的实现,数据仓库完全平滑,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 8 页 - - - - - - - - - 24 小时不间断运行的保障。 过去上千人在访问Hadoop 的时候,也是通过调度机制实现的, 随着 Hadoop2.0 的
8、出现和资源管理能力的提升,通过资源管理层可以方便的配置资源。我们可以设定CPU 的内存和存储资源,每个部门使用的时候有配额的最低保障。 当另外一个部门的用户上线使用的时候,比如创建了一个集群,这时会把你的部分资源还给后面的第二个用户,原来第一个用户的资源被收缩了, 更多的用户进来的时候, 第一个用户的资源被进一步收缩, 收缩到一个最低的指标。 一方面充分保障了每个用户最低资源的配额,第二也保证系统整体运行的情况下可以充分有效利用整体的计算资源。二、随着云计算和物联网的逐渐兴起,实时流数据的处理将成为关注重点云计算和物联网使得数据呈现两个主要特点。首先,数据在没有人工干预的情况下24 小时不间断
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年大数据的典型应用场景及展望 2022 数据 典型 应用 场景 展望
限制150内