“1 X”(高级)02阿里云大数据体系架构.pptx
《“1 X”(高级)02阿里云大数据体系架构.pptx》由会员分享,可在线阅读,更多相关《“1 X”(高级)02阿里云大数据体系架构.pptx(85页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、“1 X”(高级)02-阿里云大数据体系架构阿里云大数据体系架构2学习完本课程后,你将能够:1. 了解阿里云大数据产品体系2. 了解阿里云数据存储与计算工具3. 了解阿里云数据挖掘与机器学习工具4. 了解阿里云数据可视化工具课程目标3课程目录1. 阿里云大数据产品体系2. 数据存储计算工具3. 数据挖掘与机器学习工具4. 数据可视化工具4阿里云大数据平台一站式数据平台提供多层服务行业解决方案阿里云大数据平台定位5阿里云大数据平台产品架构 交互式分析引擎 Hologres 图计算引擎GraphCompute大数据计算服务MaxCompute开源大数据计算服务 E-MapReduce 实时计算Re
2、altimeComputeIOTDBHDFSOSS异构数据源管理元数据采集与构建元数据仓库元数据服务跨引擎混合调度跨云混合调度跨地域混合调度流批混合调度调度流程逻辑控制离线开发实时开发机器学习图计算分析交互式查询数据服务应用开发智能云上开发X-Studio(IDE插件对接各种引擎)数据资产数据质量数据安全数据分析数据监控数据分享批量同步实时同步增量同步数据转换IOT采集计算存储引擎全域数据集成统一元数据中心统一任务调度智能数据开发数据综合治理DataWorks 全域智能大数据平台阿里云大数据平台优势平台优势应用广泛的最佳实践极致的性能与成本易用齐全的产品体系AI加持的双生系统67阿里云大数据平
3、台VS Hadoop大数据平台数据采集与预处理:阿里云日志服务、数据集成、阿里云消息服务、DTS等数据同步工具数据存储:MaxCompute(盘古)、TS、OSS (HBASE、Redis )同样支持数据挖掘分析:MaxCompute SQL、MaxCompute MR、 PAI、ADB等数据应用:QuickBI、DataV,同样支持Tableau、Qlikview、PowrerBI等DataWorks(飞天系统)8课程目录1. 阿里云大数据产品体系2. 数据存储计算工具 2.1 阿里云大数据计算服务MaxCompute 2.2 一站式大数据开发平台DataWorks 2.3 阿里云分析型数据
4、库AnalyticDB3. 数据挖掘与机器学习工具4. 数据可视化工具大数据计算服务-MaxCompute 大数据计算服务MaxCompute,由阿里云自主研发,提供针对TB/PB级数据、实时性要求不高的分布式处理能力,应用于数据分析、挖掘、商业智能等领域。阿里巴巴的数据业务都运行在MaxCompute。MaxComputeMaxCompute 是一种快速、完全托管的EB级数据仓库解决方案。9MaxCompute系统架构MaxCompute以数据为中心,内建多种计算模型和服务接口,满足广泛的数据分析需求。一切服务“开通”即用,更好地赋能数据业务。 以数据为中心 统一的元数据及安全体系 多计算模
5、型,多种开发接口扩展更丰富的应用场景 拥抱生态工具,降低用户迁移风险与成本 开箱即用的产品解决方案10MaxCompute 产品特点易用标准API的方式提供服务高并发高吞吐量数据上传下载全面支持基于SQL的数据处理管理与授权支持多用户管理协同分析数据支持多种方式对用户权限管理配置灵活的数据访问控制策略分布式采用分布式集群架构跨集群技术突破机群规模可以根据需要灵活扩展安全自动存储容错机制所有计算在沙箱中运行保障数据高安全性、高可靠性11MaxCompute 的主要功能及作用数据通道计算分析开发SDK安全服务MaxCompute致力于批量结构化数据的存储和计算,提供海量数据仓库的解决方案及分析建模
6、服务。通常和DataWorks一起构建大数据分析平台。12MaxCompute常见使用方式客户端方式使用场景及优势API/SDK:以RESTful API或Java SDK、python SDK的方式提供离线数据处理服务。定制开发,满足个性化需求,与外部系统对接。CLT (Command Line Tool):运行在Window/Linux下的客户端工具,通过CLT可以提交命令完成Project管理、DDL、DML等操作。本地上传下载数据、项目空间管理;灵活、易用。DataWorks:提供了上层可视化ETL/BI工具,用户可以基于DataWorks完成数据同步、任务调度、报表生成等常见操作。团
7、队分工协作数据开发全流程,高效、安全。IDE插件:eclipse插件、IDEA插件、RStudio插件,扩展IDE对MaxCompute的支持。使用第三方IDE对接MaxCompute,提升本地开发、调试效率。MaxCompute的使用有以下几种方式:13MaxCompute的客户端MaxCompute客户端是一个java程序,需要JRE环境才能运行,请下载并安装JRE 1.6+版本(JRE 1.7或以上版本,建议优先使用JRE 1.7/1.8,其中JRE 1.9已经支持,JRE 1.10暂时还不支持)。 1.官网下载客户端压缩文件 2.解压文件,可以看到如下4个文件夹: bin/ conf/
8、 lib/ plugins/客户端工具CLT修改/conf/odps_conf.ini project_name=project_name access_id=* access_key=* https_check= 14Java+eclipse的应用Java eclipseStep 01 官网导航中找到并下载 MaxCompute for eclipse 插件;Step 02 将插件解压并复制到问 eclipse 安装目录下的 plug-in 子目录下;Step 03 启动 eclipse;Step 04 检查Wizard选项,确认配置成功。15使用MaxComput StudioIntell
9、iJ IDEAMaxCompute Studio,是面向MaxCompute计算引擎开发的数据处理开发工具,是一套基于流行的集成开发平台IntelliJ IDEA的开发插件。安装步骤:1. 安装 JDK 1.82. 安装IntelliJ IDEA,需要 IntelliJ IDEA 14.1.4 以上3. 在 IntelliJ IDEA 中打开 File | Settings | Plugins, 点击 Browse repositories. 按钮4. 搜索 “MaxCompute Studio, 安装 MaxCompute Studio 插件5. 完成安装,重新启动 IntelliJ IDE
10、A6. 创建MaxCompute项目链接16数据上传/下载综述DataHub实时数据通道 OGG 插件 Flume 插件 LogStash 插件 Fluentd 插件Tunnel批量数据通道 DataWorks DTS Sqoop Kettle 插件 MaxCompute 客户端MaxCompute系统上传/下载数据包括两种方式:17MaxCompute SQLMaxCompute SQL 是个数据仓库工具,Query 解析后,计算和存储交由底层的飞天实现。MaxCompute SQL 支持常用的 SQL 语法,包括窗口函数MaxCompute SQL 可以看做对标准 SQL 的支持,但是不能
11、简单等同于数据库MaxCompute SQL 不支持事务、主外键约束、索引等MaxCompute SQL 长度有限制,目前是不能超过 2 MMaxCompute SQL 适用于海量数据(TB/PB级别)的数据运算MaxCompute SQL 的每个作业的准备,提交等阶段要花费较长时间,实时性不高18MaxCompute SQL的函数内置函数自定义函数MaxCompute中的函数1920分布式离线计算框架-MapReduceMR的开发应用流程1 12 23 34 412341)安装配置环境2)开发 MR 程序;3)本地模式测试脚本4)导出 Jar 包55)上传至 MaxCompute 项目空间6
12、6)在 MaxCompute 中使用MR21MaxCompute Graph 编程模型Graph是MaxCompute提供的面向迭代的图计算处理框架,为用户提供类似Pregel的编程接口,用户可以基于Graph框架提供的接口Java SDK开发高效的机器学习或数据挖掘算法。 图计算编程模型(类似 Google Pregel) 数据装载到内存,在迭代次数较多时优势明显 可用于开发机器学习算法 可以支持 100 亿顶点和 1500 亿边的规模 典型应用:PagerankK-Means 聚类一度、二度关系,最短路径等 Graph 作业处理数据是一个图 原始数据存储在 Table 中,用户自定义的 G
13、raphLoader 将 Table 中的数据加载为点和边 迭代计算22Graph的处理流程0101加载图0202迭代计算0303迭代终止图加载:调用GraphLoader将表 解析为点和边分布化:调用Partitioner对点进 行分片,分配到相应的 worker (如2个worker则0,2一组)执行用户实现的Compute:处理上一个超步发给当前点的消息 根据需要对图进行编辑 通过Aggregator汇总信息至全局 设置当前点的状态:结束或者非结束 框架将消息异步方式发给下一个超步满足以下三条之一: 所有点均处于已结束状态 达到最大迭代次数 某个Aggregator的terminate返
14、回True23使用场景基于SQL构建大规模数据仓库系统和BI系统基于DAG/Graph构建大型分布式应用系统基于统计和机器学习的大数据统计和数据挖掘2425课程目录1. 阿里云大数据产品体系2. 数据存储计算工具 2.1 阿里云大数据计算服务MaxCompute 2.2 一站式大数据开发平台DataWorks 2.3 阿里云分析型数据库AnalyticDB3. 数据挖掘与机器学习工具4. 数据可视化工具大数据开发平台-DataWorksDataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖
15、掘和探索。 它是一套基于MaxCompute(原ODPS)的DW解决方案,它集成了阿里多年的DW实施经验,提供数据集成、处理、分析和管理功能,并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。26DataWorks产品架构DataWorks提供九个核心功能模块:以数据为基础,以全链路加工为核心,提供数据汇聚、研发、治理、服务等多种功能。27DataWorks 产品特点易用零成本构建数据服务轻松构建数据应用一站式数据解决方案管理与授权支持多用户管理协同处理数据支持多种方式对用户权限管理配置灵活的数据访问控制策略强大数据支撑复杂网络数据源环境千万级别的复杂任务调度多
16、种数据类型同步处理安全多角色灵活控制开发、生产环境隔离智能监控28DataWorks 的主要功能及作用全面托管的调度数据转化与同步可视化开发监控告警使用DataWorks,可以对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。29DataWorks 的使用流程DataWorks 的使用从主账号(组织管理员)创建项目和子账号开始并赋权开始。不同角色的账号操作模块不同。开通MaxCo
17、mpute资源 新建项目空间 新建项目空间 创建子账号分配项目管理员 添加项目成员 数据开发 生产运维组织管理员(主账号)项目管理员(子账号)开发(子账号)部署+运维(子账号)1 12 23 34 4开通MaxCompute资源DataWorks30数据平台开发流程 数据产生数据产生 数据提取数据提取数据收集与存储数据收集与存储数据分析与处理数据分析与处理数据展现与分享数据展现与分享大数据开发平台 数据产生:业务系统产生的结构化的数据,通常存储的数据库中,如MySQL、Oracle、RDS等类型。 数据收集与存储:利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将
18、不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务,可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。 数据分析与处理:对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。 数据提取:分析与处理后的结果数据,需同步导出至其他(业务)系统,供业务人员使用其分析的价值。 数据展现和分享:最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。31数据处理数据输入数据加工代码发布生产运维数据输出生产调度开发角色部署/运维运
19、维角色涉及模块:数据开发模块发布管理模块运维中心模块数据管理模块注:在数据开发过程中,需由项目管理员在【项目管理数据源配置】来新增数据源供开发使用。32本地数据导入DataWorks支持以下两种操作:将保存在本地的文本文件中的数据上传到工作空间的表中。通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。本地文本文件上传的限制如下:文件类型:仅支持 .txt 和 .csv 格式。文件大小:不超过 10 M。操作对象:导入分区表时,分区不允许为中文。33数据节点开发选择或新建业务流程新建或选择已有的ODPS SQL节点编写符合语法的SQL代码当前界面测试运行、检查语法逻辑错误、输出结果配置
20、节点调度信息、依赖关系(非手工流程)保存、提交节点任务发布到生产、测试(非单一项目)DataWorks中,ODPS SQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异,根本区别在于个不同类型节点的数据处理实现。ODPS SQL节点开发过程示例如下:34任务调度配置任务的时间属性目前支持月、周、天、小时和分钟 5 种配置方式,目前能支持的最短时间为 分钟。说明:周期运行的任务依赖关系的优先级 大于 时间属性,即在时间属性决定的某个时间点到达时,任务实例运行的前提是上游依赖是否全部运行成功。上游依赖的实例没有全部运行成功 并且 定时运行时间已到,则实例仍为 未运行状态。上游依
21、赖的实例全部运行成功 并且 定时运行时间还未到,则实例进入 等待时间 状态。上游依赖的实例全部运行成功 并且 定时运行时间已到,则实例进入 等待资源 状态准备运行。35DataWorks中的参数设置参数类型设置方式适用类型参数编辑框示例系统参数 bdp.system.bizdate 和bdp.system.cyctime在调度系统中运行时,无须在编辑框设置,可直接在代码中引用 $bdp.system.bizdate和$bdp.system.cyctime, 系统将自动替换这两个参数的取值全部节点类型无自定义参数在代码中引用$key1,$key2, 然后在“参数”编辑框以如下方式设置 “key1
22、=value1 key2=value2”,除Shell外的其他节点类型常量参数:param1=”abc” param2=1234; 变量参数:param1=$yyyymmdd, 结果将基于bdp.system.cyctime的取值计算在代码中引用$1 $2 $3, 然后在“参数”编辑框以如下方式设置: “value1 value2 value3”Shell类型常量参数:”abc” 1234; 变量参数:$yyyymmdd, 结果将基于bdp.system.cyctime的取值计算36数据管理数据管理为用户提供组织内全局数据视图、用户可以对组织内数据进行分权管理、元数据信息详情、数据生命周期管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- “1 X”高级02阿里云大数据体系架构 高级 02 阿里 数据 体系 架构
限制150内