湖仓一体技术与产业研究报告+【最终版】-37页-WN7.pdf
《湖仓一体技术与产业研究报告+【最终版】-37页-WN7.pdf》由会员分享,可在线阅读,更多相关《湖仓一体技术与产业研究报告+【最终版】-37页-WN7.pdf(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 湖仓一体湖仓一体技术与产业技术与产业 研究研究报告报告 (20232023 年年)CCSA TCCSA TC601 C601 大数据大数据技术技术标准推进标准推进委员会委员会 2022023 3年年6 6月月 版权声明版权声明 本报告版权属于本报告版权属于 CCSA TC601 大数据技术标准推进委大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本报员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:告文字或者观点的,应注明“来源:CCSA TC601 大数据技大数据技术标准推进委员会”。违反上述声明者,本院将追究其相关法术标准推进委员会”
2、。违反上述声明者,本院将追究其相关法律责任。律责任。编制说明编制说明 本报告的撰写得到了大数据领域多家企业与专家的支持和帮助,主要参与单位与人员如下。参编单位:参编单位:大数据技术标准推进委员会、中国移动通信集团山东有限公司、威海市商业银行、阿里云计算有限公司、腾讯云计算(北京)有限责任公司、华为云计算有限公司、北京镜舟科技有限公司、北京飞轮数据科技有限公司、科大讯飞股份有限公司、中兴通讯股份有限公司、天津南大通用数据技术股份有限公司、杭州数梦工场科技有限公司、杭州比智科技有限公司、北京数势云创科技有限公司、浙江数新网络有限公司、北京百度网讯科技有限公司、北京滴普科技有限公司、北京科杰科技有限
3、公司、北京偶数科技有限公司。参编人员:参编人员:魏凯、姜春宇、闫树、马鹏玮、田稼丰、刘彦美、朱祥磊、高鹏、魏冲、刘一鸣、孔亮、林楠、王宁、崔潇扬、杨勇强、汪定新、王涵毅、白雪、赵峰、汤雅琴、伍攀、陈关良、赵青柏、谢辉、高经郡、张立群。前前 言言 数据平台是能够为企业提供数据分析能力、支撑上层数据应用、助力企业数字化转型的底层基础设施,它包含数据存储、数据计算分析等能力的一套基础设施,通过汇聚各方数据,提供“采-存-算-管-用”全生命周期的软件支撑。经过数十年的发展,数据平台架构持续演进,主要经历了数据库、数据仓库、数据湖三个阶段。如今,数据仓库和数据湖是数据平台最广泛的两种架构:数据仓库具备规
4、范性,可针对结构化数据进行集中式的存储和计算,但无法处理半结构化与非结构化数据,且其扩展能力有一定局限性;数据湖具有更好的扩展能力,能够灵活支持对于多种类型数据的高效取用,但不支持事务处理,缺乏一致性、隔离性,数据质量难以保障。数据仓库和数据湖是两套相对独立的体系,各有优劣势,无法相互替代。为满足多种数据类型存储、多场景分析等业务诉求,企业采用数据湖+数据仓库混合架构。“数据湖+数据仓库”混合架构满足了结构化、半结构化、非结构化数据高效处理需求,解决了传统数据仓库在海量数据下加载慢、数据查询效率低、难以融合多种异构数据源进行分析的问题,但也存在混合架构复杂,开发运维难度大、成本高,数据处理链路
5、长时效低等问题。湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台底层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝调度和管理,并使得上层通过统一接口进行访问查询和分析。自 2021 年“湖仓一体”首次写入 Gartner 数据管理领域成熟度模型报告以来,随着企业数字化转型的不断深入,“湖仓一体”作为新型的技术受到了前所未有的关注,越来越多的企业视“湖仓一体”为数字化转型的重要基础设施。湖仓一体平台的建设解决了流批一体面临的原子事务、一致性更新以及元数据性能瓶颈等问题,使得湖仓一体平台的构建既能满足短期业务发展的需要,
6、又能支撑长期的数据应用诉求。为给社会各界深入了解湖仓一体技术与产业提供有价值的参考。本报告聚焦于湖仓一体技术,详细梳理了数据平台发展历程、湖仓一体实践路径,研究分析了湖仓一体产业现状,并对湖仓一体未来发展进行了展望与研判。由于时间仓促,水平所限,错误和不足之处在所难 免,欢 迎 各 位 读 者 批 评 指 正,意 见 建 议 请 发 送 至。目目 录录 一、湖仓一体是数据平台发展的重要趋势.1(一)数据平台的发展历程.1(二)数据湖、数据仓库特性分析.3(三)湖+仓混合业务架构存在四大痛点.4(四)湖仓一体技术应运而生.6 二、湖仓一体实践路径.10(一)湖上建仓.11(二)仓外挂湖.13 三
7、、湖仓一体产业及应用现状.14(一)湖仓一体主要厂商和代表产品.15(二)湖仓一体在互联网、电信、金融等信息化程度高的领域应用程度高.17 四、结论与展望.19 附录:典型案例.21 图图 目目 录录 图 1 数据平台发展历程图.1 图 2 湖+仓混合架构图.5 图 3 湖仓一体架构模块图.7 图 4湖仓一体数据平台技术要求标准总体框架.8 图 5Gartner 数据管理成熟度曲线2022 年.10 图 6 我国数据平台软件市场规模.15 图 7 实践路径统计图.16 图 8 2022 年湖仓一体市场行业统计图.17 表表 目目 录录 表 1 数据湖与数据仓库对比表.4 表 2 两种实现路径对
8、比表.11 表 3 湖仓一体主要厂商和代表产品.15 表 4 各行业需求现状表.17 湖仓一体技术与产业研究报告(2023 年)1 一、湖仓一体是数据平台发展的重要趋势(一)(一)数据平台的发展历程数据平台的发展历程 需求催生技术革新,在存储海量数据需求的推动下,数据平台架构持续演进,经过数十年的发展,主要经历了数据库、数据仓库、数据湖三个阶段。来源:CCSA TC601 图 1 数据平台发展历程图 数据库:20 世纪 60 年代,数据库诞生,此时企业的数据量不大且数据类型比较单一。这一阶段企业对数据的使用需求主要是面向管理层从宏观层面对公司的经营状况做描述性分析,处理的数据为有限的结构化数据
9、,支撑数据存储和计算的软件系统架构比较简单。20 世纪 70 年代,最早出现的关系型数据库已经得到了一定程度的应用。关系型数据库主要应用于联机事务处理 OLTP 场景,如银行交易等。代表产品有 Oracle、SQL Server、Mysql 等。数据仓库:随着互联网的快速普及,门户、搜索引擎、百科等应用用户快速增长,数据量呈爆发式增长,原有的单个关系型数据库架构无法支撑庞大的数据量。20 世纪 90 年代数据仓库理论被提出。数据湖仓一体技术与产业研究报告(2023 年)2 仓库是为解决单个关系型数据库架构无法支撑庞大数据量的数据存储问题而诞生。数据仓库是为了对数据整合而形成的架构,核心是基于
10、OLTP 系统的数据源,根据联机分析处理 OLAP 场景诉求,将数据经过数仓建模形成 ODS、DWD、DWS、DM 等不同数据层,每层都需要进行清洗、加工、整合等数据开发(ETL)工作,并最终加载到关系型数据库中。数据仓库多为 MPP(Massively Parallel Processor)架构,代表产品有 Teradata、Greenplum、Clickhouse 等。2003-2006 年,Google 的“三驾马车”:分布式文件系统 GFS、分布式计算框架 MapReduce 和数据库 Big Table,为技术界提供了一种以分布式方式组织海量数据存储与计算的新思路。受此启发开源大数据
11、项目 Hadoop 诞生了。2008 年基于 Hadoop 自建离线数据仓库(Hive)成为数据仓库的首选方案。2010 年前后,云厂商纷纷推出云数据仓库产品,如:AWS Redshift、Google BigQuery、Snowflake、MaxCompute 等。数据湖:随着移动互联网的飞速发展,半结构化、非结构化数据的存储、计算需求日益突出,对数据平台提出了新的要求。2010 年,数据湖概念被提出,数据湖是一种支持结构化、半结构化、非结构化等数据类型大规模存储和计算的系统架构。随着 Hadoop 技术的成熟与普及,企业开始基于 Hadoop、Spark 及其生态体系中的配套工具搭建平台处
12、理结构化、半结构化数据,同时利用批处理引擎实现数据批处理。而以开源 Hadoop 体系为代表的开放式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎(Hive、Presto、Spark 等)协同工作的模式,形成了数据湖的雏形。Hudi、Delta Lake 和 Iceberg湖仓一体技术与产业研究报告(2023 年)3 三大开源数据湖技术的成熟,加速了数据湖产品化落地。数据湖将数据管理的流程简化为数据入湖和数据分析两个阶段。数据入湖即支持各种类型数据的统一存储。数据分析则以读取型 Schema(schema on read)形式,极大提升分析效率。代表产品有亚马逊-S3、Lake
13、Formation,阿里云-数据湖构建 DLF、数据开发治理 Dataworks、对象存储 OSS、开源大数据平台 EMR,华为云-FusionInsight MRS 云原生数据湖、DataArts Studio 数据治理中心,腾讯云-数据湖计算服务 DLC、数据湖构建 DLF、对象存储 COS 等。(二)(二)数据湖、数据仓库数据湖、数据仓库特性分析特性分析 数据仓库主要用于解决单个关系型数据库架构无法支撑庞大数据量的数据存储问题,很好地解决了TB到PB级别的数据处理问题,但是由于数据仓库仍以结构化数据为主,无法解决业务增长带来的半结构化、非结构化数据的存储、处理问题,且其整个建设过程需要遵
14、循一系列规范,比如标准化的数据集成模式和存储格式、统一的数据仓库分层分域模型以及指标体系建设等,带来了数据仓库建设存储成本高、维护开发难度大、扩展能力受限制等问题。数据湖的出现很好解决了数据仓库建设存在的一系列问题,将数据管理的流程简化为数据入湖和数据分析两个阶段。数据湖支持各种类型数据的统一存储。数据分析则以读取型(schema on read)形式,极大提升分析效率。然而数据湖对多样类型数据的支持以及灵活高效的分析方式,带来了数据治理难的问题,比如因为缺乏治理导致数据质量下降、数据不可用等,很容易退化形成数据沼泽。湖仓一体技术与产业研究报告(2023 年)4 总的来看,数据仓库具备规范性,
15、可针对结构化数据进行集中式的存储和计算,但成本相对昂贵且无法处理半结构化、非结构化数据,扩展性一般、扩展成本高;数据湖具有更大的存储量,支持对于多种类型数据的高效取用,但不支持事务处理、数据质量难以保障,且缺乏一致性、隔离性。数据仓库和数据湖是两套相对独立的体系,各有优劣势,无法相互替代。表 1 数据湖与数据仓库对比表 差异项差异项 数据湖数据湖 数据仓库数据仓库 数据类型数据类型 所有数据类型 历史的、结构化的数据 SchemaSchema 读取型 Schema 写入型 Schema 计算能力计算能力 支持多计算引擎用于处理、分析所有类型数据 处理结构化数据,转化为多维数据、报表,以满足后续
16、高级报表及数据分析需求 成本成本 存储计算成本低,使用运维成本高 存储计算绑定、不够灵活、成本高 数据可靠性数据可靠性 数据质量一般,容易形成数据沼泽 高质量、高可靠性、事务隔离性好 扩展性扩展性 高扩展性 扩展性一般,扩展成本高 产品形态产品形态 一种解决方案,配合系列工具实现业务需求,灵活性更高 一般是标准化的产品 潜力潜力 实现数据的集中式管理,能够为企业挖掘新的运营需求 存储和维护长期数据,数据可按需访问 来源:CCSA TC601(三)(三)湖湖+仓混合仓混合业务业务架构架构存在存在四四大痛点大痛点 为满足多种数据类型存储、多场景分析等业务诉求,企业的数据湖仓一体技术与产业研究报告(
17、2023 年)5 平台采用混合部署模式,数据湖、数据仓库、关系型数据库等多种架构并存,其中数据湖和数据仓库通过 ETL 进行数据交换。数据湖和数据仓库是两套独立的体系,其中数据湖基于 Hadoop 技术生态(HDFS、Spark、Flink 等技术)来实现,主要用于支撑多源异构的数据存储,执行批处理、流处理等工作负载。数据仓库主要基于 MPP 或者关系型数据库来实现,主要支撑结构化数据在 OLAP 场景下的 BI分析和查询需求。来源:CCSA TC601 图 2 湖+仓混合架构图“数据湖+数据仓库”混合架构满足了结构化、半结构化、非结构化数据高效处理需求,解决了传统数据仓库在海量数据下加载慢、
18、数据查询效率低、难以融合多种异构数据源进行分析的问题,但也存在四大弊端:一是数据冗余,增加存储成本。数据湖(Hadoop 技术体系)和数据仓库(MPP 技术体系)都属于分布式系统,两种技术栈都做了数据的冗余备份,同时,采用混合架构会导致部分数据既存储在 Hadoop 平湖仓一体技术与产业研究报告(2023 年)6 台,又存储在 MPP 平台的情况,进一步增加了数据冗余的比例,增加存储成本。二是两个系统间额外的 ETL(抽取、转化、加载)流程导致时效性差。在数据平台实际使用过程中,数据通常先入湖,进行批处理后入仓,最后为上层应用提供查询服务,整个数据链路过长,湖入仓的过程还需进行一次 ETL,影
19、响查询时效性。三是数据一致性保障低,增加数据校验成本。两个系统之间通过数据迁移实现混合架构下的数据流动,在迁移过程中容易出现数据不一致问题,增加了数据一致性校验成本。四是混合架构复杂,开发运维难度大、成本高。两种孤立技术栈混合部署使得数据架构复杂,平台开发运维难度大、成本高。(四)(四)湖仓一体湖仓一体技术应运而生技术应运而生“数据湖+数据仓库”混合架构是技术向业务妥协的一个产物,并不是真正意义的湖仓一体平台。2020 年 Databricks 提出“湖仓一体”概念,随着云计算的深入应用,以容器、DevOps、微服务等为代表的云原生技术与大数据技术进一步深度融合,采用存算分离架构,同时利用云原
20、生的资源弹性扩缩容、按需分配特点实现了资源进一步集约化,进而降低成本,同时促进了湖仓一体技术的兴起。1.湖仓一体概念 湖仓一体是指融合数据湖与数据仓库的优势,形成一体化、开放式数据处理平台的技术。通过湖仓一体技术,可使得数据处理平台底层支持多数据类型统一存储,实现数据在数据湖、数据仓库之间无缝湖仓一体技术与产业研究报告(2023 年)7 调度和管理,并使得上层通过统一接口进行访问查询和分析。湖仓一体架构模块图详见图 3。总的来看,湖仓一体通过引入数据仓库治理能力,既可以很好解决数据湖建设带来的数据治理难问题,也能更好挖掘数据湖中的数据价值,将高效建仓和灵活建湖两大优势融合在一起,提升了数据管理
21、效率和灵活性。来源:CCSA TC601 图 3 湖仓一体架构模块图 2.湖仓一体基本能力 为进一步规范湖仓一体数据平台技术体系,中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会(CCSA TC601),联合多个电信、金融应用单位,以及阿里云、腾讯云、巨杉数据库、新华三、南大通用、甲骨文、百度云、思特奇、平安科技、云粒、科杰科技、数梦工场、滴普科技、北明数科、比智等领域内企业共同编制完成了湖仓一体数据平台技术要求,旨在帮助大数据产品供应商及用户方评估湖仓一体数据平台的技术能力和研发方向。本标准覆盖了湖仓一体数据平台所具备的一系列能力,总湖仓一体技术与产业研究报告(2
22、023 年)8 体分为湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力五个能力域。来源:CCSA TC601 图 4湖仓一体数据平台技术要求标准总体框架 2.1 湖仓数据集成能力 便利的数据入湖、入仓是湖仓一体纳管数据能力的开始。湖仓数据集成能力包括(1)统一外部关系型数据库、NoSQL 数据库、分布式文件系统等数据源的管理。(2)数仓可对数据湖数据对象转换为数仓的数据管理对象进行数据和权限管理(升仓),同时支持数仓内价值密度低的数据进行入湖操作的湖仓数据转换能力。(3)具备实时与批量数据入湖、入仓能力,以及入湖任务配置与管理的入湖仓能力。2.2 湖仓存储能力 湖仓存储需兼容数据格
23、式,保障数据自由入湖仓的安全和质量。湖仓存储能力包括(1)具备数据存储和计算资源独立部署,以及动态扩缩容存储、计算资源的存算分离能力。(2)湖仓数据冷、热分级存储的存储分级能力。(3)支持 Hudi、Iceberg、Deltalake 等数据湖格湖仓一体技术与产业研究报告(2023 年)9 式,且实现事务支持处理能力,支持模式(schema)在线调整。(4)数据缓存加速能力,支持配置多种缓存策略的存储加速能力。(5)湖仓数据加密存储的存储加密能力。2.3 湖仓计算能力 湖仓一体架构涉及异构数据平台对数据的处理,与传统 ELT/ETL 形式不同的是数据无需移动。湖仓计算能力包括(1)存储生态能力
24、,涵盖数仓引擎可以对数据湖数据进行读写,数据湖引擎同样可对数仓数据进行读写。(2)统一的认证、授权体系。(3)统一开发平台进行湖仓数据开发利用、作业调度、任务运维监控。(4)计算资源弹性扩缩容,且能够对弹性资源的使用情况进行监控。(5)对湖仓数据可进行科学计算、向量计算、机器学习等多场景融合分析。(6)对湖仓存储资源、计算资源进行统一管理、分配、使用以及监控。(7)支持批处理、实时计算、OLAP 分析等多种计算模式。2.4 湖仓数据治理能力 统一数据治理能够替客户屏蔽底层异构数据平台的复杂性,给客户带来更好的体验。湖仓数据治理能力包括(1)元数据自动发现、自动识别、自动采集、元数据存储等统一元
25、数据管理能力。(2)对湖仓内数据有统一的数据权限管理能力。(3)对数据的访问频次、时间、数据量等维度可进行评估的数据评估能力。(4)对湖仓内的数据流转、生命周期有清晰描述的统一湖仓血缘能力。(5)支持数据质量的规则设置、校验以及质量管理。(6)可在湖仓异构访问过程中对敏感数据加密。(7)可提供统一数据建模能力,包含逻辑模型、物理模型,并湖仓一体技术与产业研究报告(2023 年)10 提供数据模型的生命周期管理。2.5 湖仓其他能力 本标准梳理了湖仓一体必备且专有的技术要求能力,除去存储、计算、集成、治理外的其他能力,主要包括异地容灾能力。自 2021 年“湖仓一体”首次写入 Gartner 数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最终版 一体 技术 产业 研究 报告 37 WN7
限制150内