大数据产业市场前瞻分析.docx
《大数据产业市场前瞻分析.docx》由会员分享,可在线阅读,更多相关《大数据产业市场前瞻分析.docx(33页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据产业市场前瞻分析一、客户发展计划与客户发现途径1、客户发展计划客户发展计划是企业通过对一定时期、一定市场区域内客户资源 的分析而制定的新客户开发与老客户价值提升计划。其中,老客户价 值提升计划指目标市场计划期内增加老客户对本公司产品购买量的计 划。客户发展计划涉及客户关系管理全局,用于指导企业客户关系管 理的各项活动,应当具备以下特点:一是明确性,明确规定所要达到 的目标,不能模棱两可;二是可操作性,各项实施措施必须具体,以 便于各部门相关人员执行;三是阶段性,结合企业自身条件、市场需 求、市场竞争等因素制定短期、近期与长期计划,实现三者的有机结 合;四是可达到性,应当考虑企业自身实际与
2、市场环境实际,使得各 部门相关人员有条件、有能力实现计划。2、客户发现途径客户发现是客户开发的前提。根据一般经验,客户发现主要有以 下途径:(1)查阅法。查阅各种公开发布的含有工商企业信息的二手资料,如电话号码簿、工商企业名录、各种媒体的信息专栏与广告等。技术创新是推动大数据产业发展的内在动力,但是目前我国技术 创新对于大数据产业的引领作用仍然不强。一方面,国内企业对大数 据核心技术、开源技术和相关生态系统影响力总体较弱。另一方面, 大多数大数据企业的创新仍以模仿性、渐进性创新为主,突破性、颠 覆性创新偏少,自主研发具有国际影响力的先进技术较少,同质化竞 争日益加剧。此外,由于我国基础科学技术
3、水平研发投入相对不足, 大数据底层技术投入与国外存在较大差距,虽然具有大数据应用的需 求,但较少通过扎实的底层技术手段来推动创新,我国大数据技术创 新能力有待持续提高。(二)对开源体系的依赖程度相对较高基于开源的数据库技术,或部分开源的功能方案,已经成为当前 众多企业的软件技术建设重要模式,目前数据库开源体系由国外主导。 众多软件开发者对于开源软件的认知较有限,甚至误以为开源软件等 同于免费软件,可以不受限制地随意使用。事实上,开源软件的著作 权既没有被放弃也没有过期,开源软件知识产权风险分为版权侵权风 险,专利侵权风险、商标侵权风险三大类。因此市场对待目前开源体 系的法律风险意识有待提高,自
4、主研发的国产数据库软件市场占有率 有待进一步提升,降低对国外开源体系的依赖。(三)企业对于数据价值的认知及运用能力有待提高近年来,越来越多企业认识到数字化转型的必要性,但是对于数 据管理的认知水平较多停留在收集数据、存储管理数据的层面,对于 如何把数据有效运用及相关认知有待提高,对数据平台、数据技术的 资源投入不足。企业往往只是在部分业务实现数字智能化,各个板块 的协同不足,各个部门的信息孤岛现象明显,整个企业的数智化缺乏 完整规划,企业对数字化转型的目标和路径不够清晰。在此环境下, 中国数据管理软件服务厂商在聚焦于内部产品研发和技术迭代的同时, 也需加强对下游实际的业务场景和大数据使用需求的
5、逐步理解、适配, 使得更多企业可以容易的运用大数据解决发展面临的数字化转型需求。(四)专业人才短缺问题成发展瓶颈我国仍存在严峻的大数据人才短缺问题,尤其紧缺基础技术研发、 专业咨询、数据分析挖掘等方面的专业人才以及兼具专业运营能力、 行业动态理解力、解决问题能力的多学科复合型人才,难以满足大数 据产业的高速发展需求。一方面,我国高科技人才储备不足,高科技 人才储备难以应对与日俱增的大数据人才市场需求。另一方面,我国 大数据人才培养体系不完善,大数据人才培养体系起步晚,规模小, 层次和模式相对单一,技能知识和理念落后,难以有效匹配产业发展 速率。虽然近几年随着我国产业数字化转型的发展,数字科技行
6、业的 从业人员逐步增多,但从事基础软件领域研究的专业人员仍然稀缺,尚不能满足大数据行业对于高端专业人才的需求。大数据人才的不足 一定程度上影响到大数据产业的发展,业内为争取优秀人才,造成行 业内人才竞争不断加剧。四、大数据全生命周期管理大数据生命周期进一步细分为大数据集成、存储和处理、治理、 建模、挖掘和流通等阶段。(一)大数据集成大数据集成包括大数据采集和大数据整合。大数据采集主要是通 过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行 为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感 器数据、监控数据)等从业务系统中收集出来。由于大数据本身具有 分散、海量、高速、异质
7、的特征,采集难度较大,因此保证数据采集 的稳定性、可靠性、高效性、可用性和可扩展性等是主要的技术目标, 越来越多的企业开始选用专业的数据采集服务。大数据整合的目标是 将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最 后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础; 这个过程常常也被称为ETL (Extract/抽取,Transform/转换,Load/ 加载),通常ETL占到整个数据仓库开发时间的60%80机 大数据时代, 数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技 术问题,一是独立的ETL应用服务器的计算能力普遍不足,二是无法 处理半结构化和非结构化
8、数据。经过几年的技术发展,ETL过程逐步演 进为ELT,即数据抽取后直接加载(Load)到大数据平台中,再基于大 数据平台的计算能力来实现数据转换(Transform),不再依赖ETL应 用服务器做抽取和转化工作,这样可以解决ETL应用服务器的处理能 力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的 效率和稳定性。(二)大数据存储和处理大数据存储与处理要用用服务器及相关设备把采集到的数据存储 起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长, 尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单 纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合 适的
9、存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和 性能出现瓶颈,业务的深度和广度受到限制。因此,过去十年间,计 算机系统逐步从集中式向分布式架构发展。分布式架构及相关技术通 过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独 立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式 系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具 有明显优势。(三)数据治理根据国际数据管理协会的定义,数据治理是对数据资产管理形式 权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、 流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐 增加,牵扯的关联方也越
10、来越多,因此需要一套适合企业的方法论来 开展工作。业界逐渐形成了 DAMA、DCMM等较完整的数据治理体系框架, 一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务 专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来 实现高效持续的数据治理的执行流程。具体到数据治理的内容,一般 包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据 标准管理(包括标准定义、查询与发布等)、数据质量管理(包括质 量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资 产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权 限管理、数据脱敏、数据加密等)、数据生命周期管理(包
11、括数据归 档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等) 这几个主要的部分。(四)数据建模数据建模是构建企业数据仓库、数据湖和数据集市的重要过程,其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据 集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重 新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、 数据挖掘等提供可用的数据。面向业务主题(如客户主题、账户主题 等)的数据组织管理方式便于业务人员对数据的理解和综合使用。具 体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设 计、数据库SQL开发与测试、业务集成上线等几个阶段,架构设计是
12、整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据 模型。在数据建模过程中使用的工具主要包括:数据模型设计与管理 工具、SQL开发工具、任务调度工具等。(五)数据分析和挖掘大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、 展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐 含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从 而帮助决策者做出正确的预测和决策。围绕这个目标,大数据分析和 挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分 析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目 标。现阶段在面对大数据4V问题时,大数据分析和数据
13、挖掘工具对传 统数据分析和挖掘工具做进一步自动化和智能化;与此同时,近年来 深度学习的兴起又为大数据分析提供了新的手段,其做为当前计算机 行业的热点研究方向之一,其本质的目标是从大量数据中提取模式和 知识,其要处理的对象包括结构化数据、半结构化数据和非结构化数 据在内的所有类型数据,例如近年来在视频、语音等非结构化数据的 分析需求快速增加,相应的深度学习技术也取得了飞速发展。(六)数据流通数据流通是按照一定规则,将存储的数据或者数据分析、挖掘得 到的信息作为流通对象,从供应方传递到需求方的过程。数据流通的 具体内容包括可视化的分析报告、面向运营人员的数据标签、面向应 用可以直接调用的数据指标A
14、PI、面向数据分析人员的数据集、面向数 据挖掘人员的数据特征、和面向业务建模人员的单方或多方的建模模 型等。基于数据水印、数据加密和脱敏、隐私计算、联邦学习的数据 流通安全技术,可以提高数据流通的完整性和保密性。五、大数据行业发展背景(一)大数据时代下传统数据管理软件面临多种挑战近年来随着互联网、移动互联网、物联网、5G等信息通信技术及 产业的不断发展,全球数据量呈爆发式增长态势。数据作为和土地、 资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过 程中,地位愈发凸显。我国是数据资源大国,IDC研究报告指出,到2020年,中国数据量约12. 6ZB,较2015年增长7倍,年复合增长率
15、 为 124%。2025年中国的数据量预计达到48. 6ZB,约占全球数据总量的30%。 数据资源总体呈现出4V的特点,即海量的数据规模(Volume)、多样 的数据类型(Variety)、价值密度低(Value)、快速的数据流转(Velocity)。海量的数据规模指数据量大,包括采集、存储和计算过程中所涉 及数据量都非常大。大数据的起始计量单位通常是PB (约1, 000TB)、 EB (约 100 万 TB)或 ZB (约 10 亿 TB)。多样的数据类型指数据种类和来源多样化,包括结构化、半结构 化和非结构化数据,具体表现为关系型数据、日志、音频、视频、文 本、图片、地理位置信息等类型数
16、据,多类型的数据对数据的处理能 力提出了更高的要求。价值密度低指有价值数据所占比例低。随着互联网以及物联网的 广泛应用,信息感知无处不在,信息海量,但价值密度较低,通过结 合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代需 要解决的重要问题之一。快速的数据流转指数据增长速度快,处理速度要求快,时效性要 求高。例如实时监测场景中,企业需要对物联网设备数据进行实时处理并做出反应;零售电子商务应用类软件将消费者所持的移动设备的 地理位置信息和其个人偏好相结合,推送有针对性的促销信息。这是 大数据区别于传统数据使用的显著特征。随着信息技术以及实际业务需求的快速发展,传统数据管理软件 在处理大
17、数据场景时不能很好适应数据的4V特性,面临较多技术挑战。 因此,传统数据管理软件迫切需要技术革新。(二)传统集中式软件栈向新兴分布式软件栈演进1970-2000年,数据管理软件主要为集中式架构的关系型数据库, 其软件产品具备不可分割性(atomicity)、一致性(consistency)、 隔离性(isolation,又称独立性)、持久性(durability)即ACID 功能特性,占据了数据管理软件的主导地位。关系型数据库技术出现 在20世纪70年代,经过二十余年的发展,到90年代已经成熟。市场 上具有代表性的集中式架构关系型数据库产品包括Oracle、IBMDB2以 及微软SQLServ
18、er等。2000年以来,随着互联网和计算机技术的快速发展,需要处理的 数据量更大、类型更丰富、速度要求更快,传统集中式计算架构已无 法适应数据海量、异构、多源等特点,在部署的扩展性、容错性、经 济性、灵活性等方面有一定局限性。谷歌于2003年-2006年间的三篇 论文奠定了分布式存储和计算的基础,而后行业从业者基于以上理论建立了 Hadoop. Spark等大数据分布式系统框架,并交由Apache软件 基金会托管;2009年,在JohanOskarsson开源分布式数据库的讨论中, 来自Rackspace的EricEvans重提NoSQL概念,用以指代非关系型的 分布式数据存储系统。针对于不同
19、的场景,分别产生了图数据库、搜 索引擎、文档数据库、键值数据库等NoSQL数据库,代表性NoSQL数 据库提供商包括MongoDB、Elastic等。2010年以来,随着数字化转型的逐步深化,快速变化的业务场景 呈现了复杂化、多样化的态势。复杂的业务场景往往需要使用多种数 据模型,以及数据模型间的融合。这个时期的,行业内大部分数据库都是面向单一数据模型而设计 的,用以解决特定业务场景的特定问题。例如,使用传统的关系型数 据库解决结构化数据的存储和处理问题、使用图数据库解决图相关的 存储和处理问题、使用文档数据库解决文本相关的存储和处理问题。 由于结构化数据和非结构化数据通常以不同的格式和模式存
20、储,单模 型数据库虽然优化了数据存储和处理,却难以满足日趋增长的、多样 的业务场景需求。当同一业务需要用到不同类型数据的时候,受限于 单模型数据库的处理能力,客户往往需要部署多个相互独立的单模型 数据库,在对不同模型数据进行联合处理的时候,需要对数据进行搬 迁或融合,导致架构复杂度高、开发成本高、运维成本高以及数据处(2)市场咨询法。向有关部门咨询,如市场研究部门、工商行政管理部门等。(3)会议法。参加各种会议,如行业会议、展览会、展销会等。(4)广告开拓法。利用各种广告媒介寻找准顾客,如直接邮寄广 告、电话广告、电子商务广告等。(5)链式引荐法。请现有客户推荐新顾客。(6)社会关系拓展法。利
21、用自身的种种社会关系寻找准顾客。(7)中心开花法。通过中心人物的链式关系扩大顾客群,中心人 物有行业协会领导、主管部门领导、金融机构领导以及各类有影响力 的人物等。(8)市场细分法。通过市场细分发现准客户。(9)历史顾客名单核对法。从以往有过来往或交易关系的客户名 单中寻找现在可以继续发展业务关系的客户。(10)地毯式拜访法。销售人员直接走访特定区域所有可能有价 值的企业以寻找准顾客。(11)社交群体接触法。在俱乐部、娱乐场、校友会、培训班等 各类社交场合接触准客户。(12)个人观察法。销售人员通过对周围环境和人员的直接观察和判断寻找准顾客。 理效率低。由此,催生了从单一数据管理系统到融合型、
22、多模型数据 管理系统的技术需求。此外,随着云计算技术的大规模应用,传统各类软件产品都开始 由独立部署模式向云服务模式转变。其中数据库作为信息系统核心软 件,逐渐附加云化能力形成云原生数据库,以服务的形式对外提供技 术支撑。云原生数据库按照部署方式可以分为公有云部署和私有云部 署。其中,私有云部署模式由企业提供云数据库依赖的底层物理资源, 数据库服务商负责部署云原生数据库软件,后期企业和数据库服务商 约定运维维护工作的具体职责分工等,特点是自有资源池化,数据不 外流等。相比公有云部署下的云数据库,私有云模式更加关注信息安 全,能够实现对数据安全性和服务质量最有效控制,仅限于企业员工 和取得授权的
23、合作伙伴使用。多模型数据库云原生相关技术已经成为信息产业的未来发展方向, 促使大数据软件进一步革新,规模呈现快速增长趋势,代表性企业如 Snowflake、AWS等。相较于国内外的现状,私有云在面向国计民生的 相关行业更受客户欢迎,面向私有云模式的云原生数据库预计在未来 将获得快速增长。随着技术不断成熟,分布式架构将逐渐成为主流。自底向上,传 统的集中式资源管理调度逐渐向基于云原生技术的分布式统一资源管理平台发展;数据管理软件技术架构也会因为计算模式的转变发生重 大变革,传统的集中式数据库逐渐向分布式、多模型数据库发展;传 统数据分析软件逐渐向新型的分布式数据开发和智能分析软件发展。(三)国产
24、基础软件迎来爆发式增长阶段当前,中国大数据软件领域处于发展的历史机遇期,我国高度重 视大数据在经济社会发展中的作用,十八届五中全会提出实施国家大 数据战略,促进大数据发展行动纲要指出,建立安全可信的大数 据技术体系是推进大数据产业基础研究和核心技术攻关的重要目标。 十四五规划和2035年远景目标纲要提出,培育壮大人工智能、大数据 等新兴数字产业,充分发挥海量数据和丰富应用场景优势,促进数字 技术与实体经济深度融合,赋能传统行业转型升级,打造数字经济新 优势。全球新一代信息产业处于加速变革期,大数据相关底层技术处 于创新突破期,国内市场需求处于爆发期,为国内基础软件厂商带来 明确的增长机遇。同时
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 产业 市场 前瞻 分析
限制150内