大数据应用与解决方案市场前景分析.docx
《大数据应用与解决方案市场前景分析.docx》由会员分享,可在线阅读,更多相关《大数据应用与解决方案市场前景分析.docx(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据应用与解决方案市场前景分析一、营销信息系统的构成营销决策所需的信息一般来源于企业内部报告系统、营销情报系 统和营销调研系统,再经过营销分析系统。它们共同构成营销信息系 统。(一)内部报告系统内部报告系统的主要功能是向市场营销管理者及时提供有关交易 的信息,包括订货数量、销售额、价格、成本、库存状况、现金流程 等各种反映企业营销状况的信息。内部报告系统的核心是从订单到收款整个周期,同时辅之以销售 报告系统。订单一收款周期涉及企业的销售、财务等不同的部门和环 节的业务流程。订货部门接到销售代理、经销商和顾客发来的订货单 后,根据订单内容开具多联发票并送交有关部门。储运部门首先查询 该种货物的
2、库存,存货不足则回复销售部缺货,如果仓库有货,则向 仓库和运输单位发出发货和入账指令。财务部门得到付款通知后,做 出收款账务,定期向主管部门递交报告。在激烈的竞争中,所有企业 都希望能迅速而准确地完成这一周期的各个环节。销售报告系统应向企业决策制定者提供及时、全面、准确的生产 经营信息,以利于掌握时机,更好地处理进、销、存、运等环节的问传统数据库以集中式架构为主,集中式架构由一台或多台主计算 机组成中心节点,数据存储以及整个系统的业务单元都集中部署于该 中心节点中,系统所有的功能均由中心节点集中处理。每个终端或客 户端仅仅负责数据的录入和输出,而数据的存储与控制处理完全交由 主机完成。分布式架
3、构下,软件组件分布在不同主机上,主机之间通 过网络连接进行通信和协调。随着海量及异构数据的数据分析需求增长,需要的计算、存储和 10等资源也在极速增加。集中式架构通过改善硬件配置来提升存储和 处理能力,但单台主机可配置的资源存在上限,因此传统的集中式架 构软件难以满足海量及异构数据的数据集的处理和分析需求。而为了 处理TB以及PB级别以上的数据规模,分布式的架构将数据分散在网 络上多个通过高速网络互联的节点上联合计算。因为数据分布在不同 节点,在进行计算任务时,任务也会被切分成多个子任务,分发到多 个节点上同时进行计算,能充分利用整个集群各个节点的计算资源、 存储资源和10资源,可线性提升集群
4、的存储和处理能力。因此,分布 式架构能较好的处理该类问题,这也是分布式架构相对于传统单机架 构的核心优势。在大数据场景下,分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具有明显优势,能够较好的满足大数据分 析的需求。此外,近年来,分布式技术不断发展,在提供高弹性、支 持高并发的同时,支持关系型数据库中强事务性的特性,成为大数据 技术的重要发展方向。2、数据管理软件趋向于统一多数据模型的平台 数据模型是决定数据库系统逻辑的重要因素,并从根本上决定以何种 方式存储、组织和操作数据,包括传统的关系模型和NoSQL数据模型 (文档模型、键值模型、图模型等)。大多数数据库管理系统只能支
5、 持一种或少数几种数据模型,因此企业通常只能使用多种数据库产品 联合的方案来应对日益增长的异构数据模型处理需求。随着大数据厂商技术实力的提升,逐渐出现了能够提供多数据库 模型的大数据平台技术。相比多种数据库产品的集成方案,多种数据 库模型统一的大数据平台的优势包括:(1)提升场景效率。同一份数 据可以分别采用多种数据模型存放,解决不同场景的处理效率问题; (2)统一分析管理。关联不同模型的数据,统一分析管理;(3)降 低运维成本。无需维护多种数据库,降低运维成本;(4)降低数据持 有成本,同一份数据在不同的数据模型当中不需要全量存储,不同模 型只需要存储必要的数据内容即可,在查询时可以通过关联
6、的方式获 取全量信息。未来多模型数据平台将通过不断提高计算、存储引擎的处理能力,从操作响应速度、数据并发能力、数据管理成本等多个角度优化企业 的数据需求,成为多模大数据平台的重要发展趋势。(二)云原生大数据平台架构成为未来的主要发展方向云原生的代表技术包括容器、服务网格、微服务、不可变基础设 施和声明式API,这些技术能够构建容错性好、易于管理和便于观察的 松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松 地对系统作出频繁和可预测的重大变更。云原生技术有利于各组织在公有云、私有云和混合云等新型动态 环境中,构建和运行可弹性扩展的应用。面对客户日益增长的海量数 据、多种数据结构的实时
7、化、智能化处理需求,云原生的大数据平台 架构凭借计算存储解耦、资源池化、Serverless等核心技术,提供了 高弹性拓展、海量存储、多种数据类型处理及低成本计算分析的能力。 相比传统数据库,云原生数据库及数据管理平台天然具备灵活性,能 够提供强大的创新能力、丰富多样的产品体系、经济高效的部署方式 和按需付费的支付模式。(三)国家加速数据要素市场建设,推动数据安全流通技术的商业化加速我国将搭建统一开放、竞争有序的数据要素市场体系,政策鼓励 产业链各环节的市场主体进行数据流通和交易,促进数据要素流通。 当前,丰富的数据要素资源已经涵盖了金融、运营商、房地产、医疗、 能源、交通、物流、教育以及制造
8、业、电商平台、社交网站等众多领 域。同时,由于数据的流通和利用是数据要素价值创造的前提。而跨 域、跨中心的数据融合计算需求,以及数据要素在开放流通环节中的 安全需求(包括可用不可见、可用不可得、可用不出域等),都使得 数据的安全可信流通成为数据要素的市场化配置的重要一环,也是各 行业数字化转型过程中和过程后的必由之路。随着数据安全法、个人信息保护法的实施,以安全为前提的数据开放利用将迎来新 一轮发展机遇。隐私计算是在处理、分析计算数据的过程中保持数据 不透明、不泄露、无法被计算方以及其他非授权方获取的一种技术解 决方案,能够在充分保护数据和隐私安全的前提下,实现数据价值的 转化和释放,应用前景
9、和商业价值巨大。在国家加速数据要素市场建 设和重视数据安全和隐私保护的大背景下,数据安全防护技术、隐私 计算技术的应用普及和商业化在加速进行。五、大数据全生命周期管理大数据生命周期进一步细分为大数据集成、存储和处理、治理、建模、挖掘和流通等阶段。(一)大数据集成大数据集成包括大数据采集和大数据整合。大数据采集主要是通过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行 为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感 器数据、监控数据)等从业务系统中收集出来。由于大数据本身具有 分散、海量、高速、异质的特征,采集难度较大,因此保证数据采集 的稳定性、可靠性、高效性、可用性和
10、可扩展性等是主要的技术目标, 越来越多的企业开始选用专业的数据采集服务。大数据整合的目标是 将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最 后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础; 这个过程常常也被称为ETL (Extract/抽取,Transform/转换,Load/ 加载),通常ETL占到整个数据仓库开发时间的60%80虬 大数据时代, 数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技 术问题,一是独立的ETL应用服务器的计算能力普遍不足,二是无法 处理半结构化和非结构化数据。经过几年的技术发展,ETL过程逐步演 进为ELT,即数据抽取后直接加
11、载(Load)到大数据平台中,再基于大 数据平台的计算能力来实现数据转换(Transform),不再依赖ETL应 用服务器做抽取和转化工作,这样可以解决ETL应用服务器的处理能力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的 效率和稳定性。(二)大数据存储和处理大数据存储与处理要用用服务器及相关设备把采集到的数据存储 起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长, 尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单 纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合 适的存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和 性能出现瓶颈,业务
12、的深度和广度受到限制。因此,过去十年间,计 算机系统逐步从集中式向分布式架构发展。分布式架构及相关技术通 过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独 立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式 系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具 有明显优势。(三)数据治理根据国际数据管理协会的定义,数据治理是对数据资产管理形式 权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、 流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐 增加,牵扯的关联方也越来越多,因此需要一套适合企业的方法论来开展工作。业界逐渐形成了 DAMA、D
13、CMM等较完整的数据治理体系框架,一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务 专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来 实现高效持续的数据治理的执行流程。具体到数据治理的内容,一般 包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据 标准管理(包括标准定义、查询与发布等)、数据质量管理(包括质 量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资 产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权 限管理、数据脱敏、数据加密等)、数据生命周期管理(包括数据归 档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等) 这几个
14、主要的部分。(四)数据建模数据建模是构建企业数据仓库、数据湖和数据集市的重要过程, 其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据 集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重 新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、 数据挖掘等提供可用的数据。面向业务主题(如客户主题、账户主题 等)的数据组织管理方式便于业务人员对数据的理解和综合使用。具 体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设 计、数据库SQL开发与测试、业务集成上线等几个阶段,架构设计是 整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据 模型。在数据建模
15、过程中使用的工具主要包括:数据模型设计与管理 工具、SQL开发工具、任务调度工具等。(五)数据分析和挖掘大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、 展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐 含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从 而帮助决策者做出正确的预测和决策。围绕这个目标,大数据分析和 挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分 析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目 标。现阶段在面对大数据4V问题时,大数据分析和数据挖掘工具对传 统数据分析和挖掘工具做进一步自动化和智能化;与此同时,近年来 深
16、度学习的兴起又为大数据分析提供了新的手段,其做为当前计算机 行业的热点研究方向之一,其本质的目标是从大量数据中提取模式和 知识,其要处理的对象包括结构化数据、半结构化数据和非结构化数 据在内的所有类型数据,例如近年来在视频、语音等非结构化数据的 分析需求快速增加,相应的深度学习技术也取得了飞速发展。(六)数据流通数据流通是按照一定规则,将存储的数据或者数据分析、挖掘得 到的信息作为流通对象,从供应方传递到需求方的过程。数据流通的 具体内容包括可视化的分析报告、面向运营人员的数据标签、面向应 用可以直接调用的数据指标API、面向数据分析人员的数据集、面向数 据挖掘人员的数据特征、和面向业务建模人
17、员的单方或多方的建模模 型等。基于数据水印、数据加密和脱敏、隐私计算、联邦学习的数据 流通安全技术,可以提高数据流通的完整性和保密性。六、大数据行业发展背景(一)大数据时代下传统数据管理软件面临多种挑战近年来随着互联网、移动互联网、物联网、5G等信息通信技术及 产业的不断发展,全球数据量呈爆发式增长态势。数据作为和土地、 资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过 程中,地位愈发凸显。我国是数据资源大国,IDC研究报告指出,到 2020年,中国数据量约12. 6ZB,较2015年增长7倍,年复合增长率 为 124%O2025年中国的数据量预计达到48. 6ZB,约占全球数据总
18、量的30%。 数据资源总体呈现出4V的特点,即海量的数据规模(Volume).多样 的数据类型(Variety).价值密度低(Value)、快速的数据流转(Velocity)。海量的数据规模指数据量大,包括采集、存储和计算过程中所涉 及数据量都非常大。大数据的起始计量单位通常是PB (约1, OOOTB). EB (约 100 万 TB)或 ZB (约 10 亿 TB)。多样的数据类型指数据种类和来源多样化,包括结构化、半结构 化和非结构化数据,具体表现为关系型数据、日志、音频、视频、文 本、图片、地理位置信息等类型数据,多类型的数据对数据的处理能 力提出了更高的要求。价值密度低指有价值数据所
19、占比例低。随着互联网以及物联网的 广泛应用,信息感知无处不在,信息海量,但价值密度较低,通过结 合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代需 要解决的重要问题之一。快速的数据流转指数据增长速度快,处理速度要求快,时效性要 求高。例如实时监测场景中,企业需要对物联网设备数据进行实时处 理并做出反应;零售电子商务应用类软件将消费者所持的移动设备的 地理位置信息和其个人偏好相结合,推送有针对性的促销信息。这是 大数据区别于传统数据使用的显著特征。随着信息技术以及实际业务需求的快速发展,传统数据管理软件在处理大数据场景时不能很好适应数据的4V特性,面临较多技术挑战。因此,传统数据管理软
20、件迫切需要技术革新。题。新型的销售报告系统的设计,应符合使用者的需要,力求及时、 准确,做到简单化、格式化,实用性、目的性很强,真正有助于营销 决策。(二)营销情报系统内部报告系统的信息是企业内部已经发生的交易信息,主要用于 向管理人员提供企业运营的“结果资料”,市场营销情报系统所要承 担的任务则是及时捕捉、反馈、加工、分析市场上正在发生和将要发 生的信息,用于提供外部环境的“变化资料”,帮助营销主管人员了 解市场动态并指明未来的新机会及问题。市场营销情报信息不仅来源于市场与销售人员,也可能来自于企业中所有与外部有接触的其他员工。收集外部信息的方式主要有下面 四种。(1)无目的的观察。无既定目
21、标,在和外界接触时留心收集有关信息。(2)有条件的观察。并非主动探寻,但有一定目的性,对既定范围的信息做任意性接触。(3)非正式的探索。为取得特定信息进行有限的和无组织的探索。(4)有计划的收集。按预定的计划、程序或方法,采取审慎严密的行动来获取某一特定信息。(二)传统集中式软件栈向新兴分布式软件栈演进1970-2000年,数据管理软件主要为集中式架构的关系型数据库,其软件产品具备不可分割性(atomicity)、一致性(consistency)、 隔离性(isolation,又称独立性)、持久性(durability)即ACID 功能特性,占据了数据管理软件的主导地位。关系型数据库技术出现
22、在20世纪70年代,经过二十余年的发展,到90年代已经成熟。市场 上具有代表性的集中式架构关系型数据库产品包括Oracle、IBMDB2以 及微软SQLServer等。2000年以来,随着互联网和计算机技术的快速发展,需要处理的 数据量更大、类型更丰富、速度要求更快,传统集中式计算架构已无 法适应数据海量、异构、多源等特点,在部署的扩展性、容错性、经 济性、灵活性等方面有一定局限性。谷歌于2003年-2006年间的三篇 论文奠定了分布式存储和计算的基础,而后行业从业者基于以上理论 建立了 Hadoop、Spark等大数据分布式系统框架,并交由Apache软件 基金会托管;2009年,在Joha
23、nOskarsson开源分布式数据库的讨论中, 来自Rackspace的EricEvans重提NoSQL概念,用以指代非关系型的 分布式数据存储系统。针对于不同的场景,分别产生了图数据库、搜 索引擎、文档数据库、键值数据库等NoSQL数据库,代表性NoSQL数 据库提供商包括MongoDB、Elastic等。2010年以来,随着数字化转型的逐步深化,快速变化的业务场景 呈现了复杂化、多样化的态势。复杂的业务场景往往需要使用多种数 据模型,以及数据模型间的融合。这个时期的,行业内大部分数据库都是面向单一数据模型而设计 的,用以解决特定业务场景的特定问题。例如,使用传统的关系型数 据库解决结构化数
24、据的存储和处理问题、使用图数据库解决图相关的 存储和处理问题、使用文档数据库解决文本相关的存储和处理问题。 由于结构化数据和非结构化数据通常以不同的格式和模式存储,单模 型数据库虽然优化了数据存储和处理,却难以满足日趋增长的、多样 的业务场景需求。当同一业务需要用到不同类型数据的时候,受限于 单模型数据库的处理能力,客户往往需要部署多个相互独立的单模型 数据库,在对不同模型数据进行联合处理的时候,需要对数据进行搬 迁或融合,导致架构复杂度高、开发成本高、运维成本高以及数据处 理效率低。由此,催生了从单一数据管理系统到融合型、多模型数据 管理系统的技术需求。此外,随着云计算技术的大规模应用,传统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用 解决方案 市场前景 分析
限制150内