大数据中台技术架构详细方案.docx





《大数据中台技术架构详细方案.docx》由会员分享,可在线阅读,更多相关《大数据中台技术架构详细方案.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据中台技术架构详细方案非常小的“批”,借此即可通过批处理引擎的原生语义进行处理。这种方式的 实际效果非常好,但相比真正的流处理框架在性能方面依然存在缺乏。综上所述,Spark是多样化工作负载处理任务的最正确选择。Spark批处理能 力以更高内存占用为代价提供了无与伦比的速度优势。对于重视吞吐率而非延 迟的工作负载,那么比拟适合使用Spark Streaming作为流处理解决方案。而Flink作为更新一代的处理框架,拥有更快的计算能力,更低的延迟, 已经慢慢崭露头角。不过一个框架的应用,特别是开源框架,需要足够长的时 间进行运行,测试和优化。大数据技术在开源社区的推动下,迭代日新月异。 在不
2、久的将来,相信Flink会像Spark取代Storm 一样,逐渐成为大数据处 理技术的主流。3. 3数据查询经过处理后的数据,还需要有高效的查询引擎才能被用户接触和使用。目 前OLAP的查询技术框架大致可分为三类:基于HBase做预聚合:如Opentsdb, Kylin等,均需指定预聚合的指标, 在数据接入的时候进行聚合运算,适合相对固定,维度较多的业务报表类需求基于Parquet做列式存储:如Presto, Drill, Impala等,基本是完全 基于内存的并行计算,Parquet系能降低存储空间,提高10效率,以离线处理 为主,很难提高数据写的实时性,超大表的Join支持可能不够好基于L
3、ucene做外部索引:如ElasticSearch, Solr等,能够满足的的查 询场景远多于传统的数据库存储,但对于日志、行为类时序数据,所有的搜索 请求都也必须搜索所有的分片,另外,对于聚合分析场景的支持也是软肋我们以常见的Presto, Druid, Kylin三个模型来讲讲各自的特点:Presto:由Facebook开源,是一个分布式数据查询框架,原生集成了 Hive、Hbase和关系型数据库。它背后所使用的执行模式与Hive有根本的不同,并没 有使用MapReduce。因其所有的处理都在内存中完成(与上文的Spark类似), 大局部场景下要比Hive快一个数量级Druid:由Meta
4、Market开源,是一个分布式、面向列式存储的准实时分析 数据存储系统,延迟性最细颗粒度可到5分钟。它能够在高并发环境下,保证 海量数据查询分析性能,同时又提供海量实时数据的查询、分析与可视化功能Kylin: Cube预计算技术是其核心,基本思路是预先对数据作多维索引, 查询时只扫描索引而不访问原始数据从而提速。劣势在于每次增减维度必须对 Cube进行历史数据重算追溯,非常消耗时间。据说Kylingence在前几天的新品发布会上已经解决了这个问题,拭目以待下列图引自快手在OLAP技术选型时的评价,以:OLAP技术实现方案比照Hive / SparkSQLKylinESDruid好好中好查询性能
5、差好中好差中好好高并发差好好好SchemaiStl好差好好精确去重翊蟠期33$ ISQL接口好好中微信骂:ourStone很多时候,在计算和查询这块没有明显的边界区分。这里为了方便阐述分 成了两个局部。事实上,对于技术能力比拟强的团队,可以针对这些开源系统进行魔改,比方采用Kylin的预计算能力+Druid的查询引擎,来提高查询的速度等等。4.数据可视化及分析在数据可视化这块,一般会采取三个途径来进行数据展示。最基础的利用 开源的图表库,如国外的HighCharts、D3,百度的ECharts,还有阿里Antv的 G2、G6、F2等。往上一层是各个知名公司开源的可视化框架,如Airbnb的 S
6、uperset, Redash, Metabase等等。这些框架一般能够满足从数据源接入,自 助制作报表和报表整理展示的功能,接入起来更加方便。再往上一层就是商用 的可视化软件,如国外的Tableau, Qlik ,国内的FineReport,永洪BI等 等。这种软件需要付费,但都具备更丰富的可视化功能并提供一些技术支持, 对于那些没有精力折腾可视化的公司会是个不错的选择。4. 1图表库理解整个图表开源生态,我们得先了解下SVG和Canvas这两个浏览器提 供的原生能力。SVG全称叫可缩放矢量图,跟HTML 一样,有自己的命名空间, 使用XML标签来绘图。而Canvas是HTML5中的新标签,
7、用于客户端的图形 绘制,有一个基于Java的绘图APIoD3. js 全称是 Data-DrivenDocuments,支持 SVG 和 Canvaso 相对于其他 产品,它更偏底层,并没有对图表进行归类。开发者可以通过D3丰富的类库 来方便的操作D0M,绘制任何想绘制的图形,以增加开发复杂度的代价,覆盖更加全面的可视化场景。Visual IndexBox PlotsBox PlotsBubble ChartBullet ChartsCalendar ViewNon-contiguousCartogramChord DiagramDendrogramSunburstPopulationStac
8、ked BarsForce-DirectedGraphNode-Link Tree而国外的HighCharts是基于SVG开发的图表库,ECharts和G2那么均基于Canvaso ECharts有完整的图表封装,开箱即用,而G2那么是一套基于可视 化编码的图形语法,以数据驱动,具有高度的易用性和扩展性。阿里后续基于G2 又往上封装了一套基于React的图表库Bizcharts,主打电商业务图表可视化, 沉淀电商业务线的可视化规范。在React工程中实现常见图表和自定义图表。ECharts和G2的比照可借用EChart s作者的一句话,G2是面粉,ECharts是面条,皆微小但美好。折H而曲柱
9、状8B tS.V 8EK线冕爹)达图4 熬力图地理坐标/地图GEO/MapA Hiking Trail in Hangzhou - Baid.Binrung on MapPopulation Density of HongKong .Theme:waHexagonal BmntngBus Unes of Bjmg - Une EffectDraw Polygon on MapUse lines to draw 1 milion ny str.USA Population Estimates (2012)Air Quality - Baxju MapPnces and Earmngs 2012关
10、于G2条彩期 tMfflASIRB影BB妙彤IB的力那B4Ba.)炬形刷筋O MBS)微信一号:ourStorieAPI文档 使用戟相 AntV*SMS注X*示信 X折线图xiena件使用微信号:。口了;we4.2可视化框架这里主要介绍下业内比拟知名的Superset和Metabase。前者的方案更加 完善,支持集合不同数据源形成对应的指标,再通过丰富的图表类型进行可视 化。在时间序列分析上比拟出色,支持移动平均及周期偏移等分析方法。同时 与Druid深度集成,可以快速解析大规模数据集。劣势那么是不支持分组管理报 表,一旦报表多了使用起来很麻烦。且不提供图表下钻及联动功能,权限管理也不够友好。
11、First SectionTime Series TableWord CloudBubble ChartBirth Names DashboardPivot Table1.11M-22.5% over 5YMarkupTreemapCalendar HeatmapSeparatorBullet Chart1.11M-22.5% over 5Y ABig Number with Trendline80.7M咸信百ig 9、Metabase那么比拟注重非技术人员(如产品经理和运营人员)的使用体验,让他们能自由地探索数据,回答自己的问题,界面相对来讲更加美观。在权限 管理上做得较为完善,甚至无需账号
12、也可以对外共享图表和数据内容。 Dashboard支持分类,便于管理报表。劣势在时间序列分析上不支持不同日期 比照,还需要自定义SQL实现。每次查询仅能针对一个数据库查询,操作比拟 繁琐。Dnb(rd*.Que&UoAsData ReferenceMontnand Ye*3Average review rating17,624Total ordersOrders by erf week61.122Average order totX在数据挖掘这块,目前主要集中在商用公司这块,通过和某些行业深度合作,从而训练和深化自己的学习模型,这里不多赘述。5.什么是数据中台(全面解读数据中台)伴随着云计算、
13、大数据、人工智能等IT技术迅速开展及与传统行业实现快速融合,一场由数字化和智能化转型带来的产业变革正在孕育。随着企业规模不断扩大、业务多元化一一中台服务架构的应运而生。“中台“早期是由美军的作战体系演化而来的,技术上说的“中台”主要是指学习这种高效、灵活和强大的指挥作战体系。阿里在今年发布“双中台+ET”数字化转型方法论,“双中台”指的是数字中台和业务中台。5.1 数据中台是什么数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有 较强的关联性,是
14、这个企业独有的且能复用的,它是企业业务和数据的沉淀, 其不仅能降低重复建设、减少烟囱式协作的本钱,也是差异化竞争优势所在。广义的数据中台包括了数据技术,比方对海量数据进行采集、计算、存储、 加工的一系列技术集合,今天谈到的数据中台包括数据模型,算法服务,数据 产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用 的,比方企业自建的2000个基础模型,300个融合模型,5万个标签。它是企 业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的本钱,也是 差异化竞争优势所在。5.2 建立数据中台的原因数据中台和业务中台相比,面临的情况可能会更加复杂一点。建立数据中 台的原因:大
15、数据可以告诉决策者一些潜在的规律,以数据来证明或判断决策。以往 我们会用数据来证明我们的决策对错,现在我们用数据来引导我们做出对的决 策。在大数据时代,样本就是全体,大数据可以防止伪造和偏差。数据催生人工智能。数据是人工智能的根基,并且可以进行融合形成新的 数据。数据给我们无限的创新,让我们不停去尝试。数据是机器人的指令,我们形成数据服务思维。数据是不断变化的,让机 器智能成为决策环节,运营就可以智能化。中台的目标是提升效能、数据化运营、更好支持业务开展和创新,是多领 域、多BU、多系统的负责协同。中台是平台化的自然演进,这种演进带来“去 中心化”的组织模式,突出对能力复用、协调控制的能力,以
16、及业务创新的差异化构建能力。为什么数据中台如此重要呢,大致有以下四个原因:1、回归服务的本质-数据重用浙江移动已经将2000个基础模型作为所有数据服务开发的基础,这些基础 模型做到了 “书同文,车同轨”,无论应用的数据模型有多复杂,总是能溯源 到2000张基础表,这奠定了数据核对和认知的基础,最大程度的防止了 “重复 数据抽取和维护带来的本钱浪费。”曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份, 无论是抽取压力、维护难度及数据一致性要求都很高。同时,统一的基础模型 将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义 巨大,谁都知道数据1+12的意思。2、数
17、据中台需要不断的业务滋养在企业内,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或 者是工程制建设方式,必然导致数据知识得不到沉淀和持续开展,从而造成模 型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。其实, 业务最不需要的就是模型的稳定,一个数据模型如果一味追求稳定不变,一定 程度就是故步自封,这样的做法必然导致其他的新的类似的数据模型产生。数据模型不需要“稳定”,而需要不断的滋养,只有在滋养中才能从最初 的字段单一到逐渐成长为企业最为珍贵的模型资产。以报表为例,企业报表成千上万的原因往往也是没有沉淀造成的,针对一 个业务报表,由于不同的业务人员提出的角度不同,会幻化出成
18、百上千的报表, 如果有报表中台的概念,就可以提出一些基准报表的原那么,比方一个业务一张 报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的 需求而不断完善,从而能演化成企业的基础报表目录,否那么就是一堆报表的堆 砌,后续的数据一致性问题层出不穷,管理本钱急剧增加,人力投入越来越多, 这样的事情在每个企业都在发生。3、数据中台是培育业务创新的土壤企业的数据创新一定要站在巨人的肩膀上,即从数据中台开始,不能总是 从基础做起,数据中台是数据创新效率的保障。研究过机器学习的都知道,没 有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心 价值所在,比方运营商中要获取3
19、个月的ARPU数据,如果没有融合模型的支撑, 得自己从账单一层层汇总及关联,速度可想而知。在如今的互联网时代,企业都在全力谋求转型,转型的关键是要具备跟互 联网公司一样的快速创新能力,大数据是其中一个核心驱动力,但拥有大数据 还是不够的,数据中台的能力往往最终决定速度,拥有速度意味着试错本钱很 低,意味着可以再来一次。4、数据中台是人才成长的摇篮原来新员工入职要获得成长,一是靠人带,二是找人问,三是自己登陆各 种系统去看源代码,这样的学习比拟支离破碎,其实很难了解全貌,无法知道 什么东西对于企业是最重要的,获得的文档资料也往往也是过了时的。现在有了数据中台,很多成长问题就能解决,有了基础模型,
20、新人可以系 统的学习企业有哪些基本数据能力,0域数据的增加更是让其有更广阔的视野, 有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司 的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据管理 平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线 的,最新的,意味着新人的高起点。目录1 .数据采集传输31.1 1 Flume 和 Logstash41.2 日志采集如何工作51.3 数据传输Kafka6.数据存储72. 1HDFS73. 2HBase74. 3Hive 和Pig85. 4MapReduce86. 5其他辅助工具9.数据计算&查询93.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 架构 详细 方案

限制150内