中国人工智能软件基础设施高质量发展报告.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《中国人工智能软件基础设施高质量发展报告.docx》由会员分享,可在线阅读,更多相关《中国人工智能软件基础设施高质量发展报告.docx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、#$%& o *+, - /O1 23%O U 77816 d d i N d2O U q YU f g Yt? YZ C %Jzll Q9XY A 界1 各 N8Z 一 O 1| fi&r TZO 6 d Q9XYY 、00N NCEoe J理 WTZ。U u &,xyhe %flYlEB Q9& TB? C据A数据对于人工智能产业的重耍性不言而喻。数据作为数字经济时代最有价值的生产资料已是共识, 是人工智能应用落地成败的最关键因素之一,也是产业化中最重要的一环。企业数字化转型浪潮持续 推动数据爆炸式增长,涌现出许多系统集成商,助力企业信息化落地;另外一方面,大量场景端的数 字化转型和新技术
2、应用并没有预期进展,技术与场景之间仍然存在巨大偏差。在AI开发者定量分析研 究中,有关AI训练困难的调研,前六个痛点中四个与数据相关:获得标注数据成本太高(36%)、数 据预处理、清洗、版本管理、数仓等数据资产管理成本太高(34%)、数据采集比较难(28%)、应用 场景配套的数字化程度不高,有价值数据难以获得(25%)。其中企业数字化进程慢的根本原因可能如下:企业管理者对于数据价值认知程度不一、持续IT高 投入与滞后的业务回报风险、IT技术与业务结合有鸿沟、IT实施历史包袱大,数据标准化程度低。!据9:;=;数据基础设施主要为采集、存储、治理、计算、应用五大维度,每个维度都会涌现大量基础架构
3、技术和商业模式创新,外加数据安全与隐私法律法规的监管,涉及到的底层技术相当复杂。数据基础 设施整体呈现服务化、融合化与合规化的趋势:1 .服务化趋势虽然云计算和面向服务的架构从功能上来说,它们能够存储和处理数据,但它们更关注的是软件 或平台,而不是数据本身。近年来,数据即服务(DaaS)已成为企业的关键概念。数据架构技术创新 与云计算技术的发展密切相关,逐渐呈现服务化特点,对用户(特别是开发者用户)屏蔽大量技术细 节,降低了使用门槛,用户使用特定API、操作命令或者功能界面等即可完成数据访问。下表是关于 云计算服务与数据服务的对比说明。5 =# 8S0 , C 1qUitill 1 U 1Ud
4、eFf ”心klPQRSW度0eFf HWPQ QRS eAQA * O XQA CE Woe 一O XWoeP 41PQ A WoeP “ +R SV Y / 辑1VPQfiflRS+ Q e, RS u %o , Qe, LMnz Qe, LMnzJK Q e, LMnzJK , Q e A E eA E : E f nA E :E f nJA E : E f H-A E :E f ”1错T I 6 d cwb u U U i , RS二W 人PQ O T 1 eRS, pi RSC/z: t v!i AV“林i* t i $+,-.$ -+/-)$. )0+$ 1!+ 23)$+%+-*
5、$*?3 -( i n Ql/E 0 C(T A5vi K* 士;* (a、T e %w/E 、a (ap T Tx、 )(* SR殳 Q G。,f葭 %0H-i - A 11 f i e |i w/E 0 1 56。4,fae i 0 1 A -(i n X i Tx%A O ICEoe -( ?N %O U z - Pa G。打,短E u SR )” (*、 r% 1HI ?-(?N )? vfOf hf$%1 50 Cly xT K% (aY / z 0?lZ 5 a ? ,fe ( E u a fifehfjffl ! ( -e? ife i 156 a fifehfjffl * e
6、%0 C 6 CE | (al, a fifehf jffl 6 4 a Gtu fee E 0 ha A aE %f 1Yf 1YA E E ( 1TZI T Y (0 C E u (al 6 0 & CEceGflYFI 56 9,f葭 A , e w/E _0 Cz | %O U 1Z i -( ?N , 40 CJ TZO/ %A 0 U -( ?N Fl wi ” P9 n,也1八 W t U + T(a e e Fl a (a痛1 i- kX+ i N5 a wER e %t?-1- - 6 i- GCEoe2 .融合化趋势融合化趋势包括交易型数据和分析型数据的融合(HTAP),实
7、时数据流与历史数据的融合(数据 仓库),音视频等非结构化数据与结构化的数据融合(数据湖产品)等,以及多源异构数据的交叉、 关联分析等。不同的融合方式,面向不同场景的需求,对应也有不少相应技术方案。从数据管理技术 演进的历史看,我们经历了数据库、数据仓库、数据湖、数据中台等形态,他们分别适用不同场景, 也能看到AI和数据挖掘的需求,数据基础架构走向融合化趋势明显。数据库:通常指关系型数据库,用关系模型和数据结构来组织、存储、和管理数据的应用系统, 具有结构化强、独立性强、数据冗余低等特点,主要用于联机事务处理(OLTP),比如银行等交易数 据处理。数据仓库:随着信息的爆炸式增长,传统关系型数据库
8、提供的联机事务处理(OLTP)已经不能满 足研究数据之间关系、挖掘数据价值的需求,比如不同数据库系统之间很难做到数据共享,数据集成 和分析工作很难开展。为了解决企业级数据集成和分析,我们需要引入联机分析处理(OLAP)架构来 对日积月累的OLTP数据进行分析,为决策者快速从大量数据中分析出有价值的信息提供系统支持, 支撑OLAP的数据架构被称为数据仓库。数据湖:随着企业进一步发展,数据不断堆积,企业管理者希望可以把生产经营中产生的所有数据都完整保存下来形成数据湖,并寄希望于有效管理和集中治理后,从中可以挖掘探索出更多价值, 这里的数据包括非机构化数据(如音视频数据等)、半结构化数据(如程序日志
9、文件),以及结构化 数据(如交易记录)。数据湖可以理解为是一个存储企业各种原始数据的大型仓库,其中的数据可供 存取、处理、分析、转换、发布甚至可以再次存储。数据中台:数据中台并非一种技术,而是企业的战略选择。依据企业特有的业务模式和组织机构, 以数字化的手段构建的一套持续把不同业务部门的数据变成资产并抽象成服务的方法,并经过跨业务 类型,跨数据格式甚至是跨越不同工具整合分析处理,最后应用于前端业务决策。统而言之,数据库是数据联机存储处理即服务,数据仓库是分析报表即服务,数据湖是原始数据 即服务,数据中台是数据API即服务。虽然都是围绕数据进行组织、存储、处理的系统或者平台,但 是它们属于不同场
10、景下的技术应用产物,在迈向企业全面数字化转型时代,既对IT基础设施提出要求, 也对企业组织架构管理治理提出新要求。3 .合规化趋势数据合规是指确保敏感数据免于损坏、丢失、被盗、滥用而制定的正式标准及实践规则,包括数 据如何组织、管理、存储等,并严格接受法律法规的监管和约束。欧盟于2018年5月出台通用数据 保护条例(General Data Protection Regulation,简称GDPR),对于违法企业的罚款可高达2000 万欧或者全球营业额的4队 上海也于2022年初出台了首份企业数据合规指引,对企业的数据合规 管理架构与风险识别处理规范做出了相关规定,还特别对不合规使用和处理数据
11、会导致刑事犯罪的风 险进行提示。数据作为新型生产资料,一方面可以协助传统产业升级、打造新兴产业和经济形态,成为推动社 会经济发展的引擎;另外一方面数据作为企业重要资产被深度开发。与此同时大规模数据泄漏事件也 频频发生,带来极大的社会安全甚至是国家安全威胁。国家层面上,涉及隐私保护相关的法律法规诸 如数据安全法、网络安全法、个人信息保护法等先后颁布。在挖掘数据核心价值需求和 数据合规使用的要求下,隐私计算技术变得炙手可热。隐私计算技术是指在确保数据处于隐私保护的前提下,对数据进行分析处理的一类技术,以密码 学为核心,依托可信执行环境,融合隐私保护技术等联合建模。密码学为核心:1982年姚期智院士
12、提出安全多方计算(MPC)概念,即一种可以保障多个参与方协同计算出结果的同时,各个参与方除了计算结果之外,无法获得其它任何信息,逻辑层面实现数据 的可用但是不可见。类似技术还有差分隐私,差分隐私通过在查询结果中加入随机噪声,以保证公开 输出的结果不会泄漏个体的数据集归属信息;同态加密,通过对数据先完成基础的加密操作,然后使 用加密后的数据进行计算,并确保得出的计算结果与计算原始数据得到的结果一致,从而完成对原始 数据的保护。可信执行环境:Trusted Execution Environment (简称TEE),是由可信赖的计算芯片硬件提供支 持、独立于操作系统存在的隔离环境,数据计算只能存在
13、于隔离的安全环境内进行,并通过特别授权 代码才能对数据进行访问。(hjfO (*0 U ,二门ef !e jfhflq hfl #$*$E u 5 种 4&_%J (1+3 “#$ ) ; !) %i+13 0 q #P&_+, Q; r 5 d F一 6 &% nA h,0!if$Gu 和A M/4O? 12jl h 3C ( J 4u156liv7X YA fla 8更9 : % E 3?QAlf i #$ * G U eT %A SFI 56 4& %、BC6%G $更。 DUljv?1E, F 免 IQ% (a; I JKLM ; NOG”# $E JKJLMhn%= A PQ R
14、Q%&T STIUC F i VI W1工)立更 C%CE$le 7m, ( a0 Ch (anok4%Hp&U hST 6 0*ql A更(aE u 更i 0/、&T S -F o %#$G J%zrflFTsy x %? GtNd 4#u 4八 #$更* %台八 jv + i 6 6 flYwCEA fl白 8hno& 八 #0W。y。1 %0 & i GCEoe z融合隐私保护技术的联合建模:本质是分布式机器学习,在保证数据隐私安全的基础上,不用将 数据传输到中心系统平台上运算,而是在本地节点训练好一个小模型后,与其它节点训练好的模型一 并传给中心系统平台统一整合,实现共同建模。$-y
15、vgaefnfe! jfH ( y f, h 0 | h!fiOfeh) a bN A 5f 1%+ A XO /i_ *00 (a?lnl J /厂 JWXQ、Y / XCT XQE u 6 &U 0 %+ A J (G$-yw i 、Z4、f,efj!ef 一匚 jrfOO!h q i 种i 6 0OGZ 1也可E 0 (afq FE /%bN N 十 A XQ/ixy 6 CE 1A + A XQ /i i i A fl 更。 PlO d d T a j; 3 A flV1 CE $ (aO & U a - - %DE *100 T 6 (a?Gfi JKLE MqU al$-yw 口含
16、 I K K d a 1+ A i_- AhU UK K d la bN界gini- &a a zbN 界gi 6 0 &/ i f O&aaGaQ9 5q研:/显: f f e%91WV 4; e e qHUHQI 壬寸 qHIzz GIDl$-yw qA0y 4! 3# !e,r 0 U i i iQBl T Bfin660 ft7v!ef dB !0a flj!eQ96+、b商 6。A T God _P | f i5-lo 商十 7k6 N 3 % LE*01C FQla 志十 初一丫“ qA。 aei );3n q 、Y, ii i *lf i*C 6 Cl i e 7 Hael JK
17、 IL- * H A i 0 e 4B n % WK GJK JJ M qT O N 律1丁乂 _/, 口)+ t U ZE qU /i)1JK J J M f 0 A, g q十 A XQ)aefnfe! jfH 7 vflO /i+ A XO%h9%9 zz d 90 *fi F /i qA0 以 mt Kfh (flO!hMfl$ qA0 ST I i 1 n /z i Q t Q 5 q * Jie 4 JK J J M E 0 ai qz&9 G bN i 台八 / i q) GCEoe f! . #7据?数据治理(Data Governance简称DG)是指管理企业系统中涉及数据资
18、产的有效性、可用性、完 整性和安全性的一整套管理流程,它控制数据使用的内部数据标准和策略,既包括管理行为也包括有 效的辅助管理工具平台。按照国际数据治理研究所(DGI)的定义:数据治理是一个通过一系列信息相 关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁 (Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行 动(What) 0在部署AI应用时,数据资产质量和运维决定了企业AI应用的落地效果。因此,推进AI应用的高 质量落地,开展针对性的数据治理工作非常重要。很多企业在数据质量、数据字段丰富度、数据分布
19、和数据实时性等维度还不能满足AI应用对数据的要求。比如:客户名称在销售、物流以及客户服务系 统里不一致,这会使数据集成工作变得非常复杂化,进而影响商业智能(BI)、数据分析的准确性等等 一系列问题。再比如,数据治理不当还可能会导致出现数据合规性问题,违反了欧盟的GDPR或者上海 市颁布的企业数据合规指引等法律法规,造成经济和行政处罚等后果。1 .数据治理的目标一是打破数据孤岛。企业信息化之初,不同业务部门缺乏统一的企业级数据架构概念,各业务系 统平台需求也不完全一致,从而导致不同的业务平台系统相互独立,出现了数据孤岛现象,因此协调 不同业务部门的IT平台系统,让相关数据可以汇入到同一个数据平台
20、里,消除业务部门之间的数据壁 垒是至关重要的,但是这需要IT设施的投入,也需要高层管理者的战略组织与协调。二是确保数据有效使用。借助数据治理工具产品,创建统一的数据使用策略、监控管理策略以及 持续的执行策略,降低数据管理成本同时,确保企业级数据满足实时性、有效性、完整性、安全性、 一致性等需求,并开放给数据科学家、分析师以及其它业务场景使用。对于数据的实时洞察和决策, 会给企业带来更大的核心竞争力。三是确保数据合规性。企业和组织如何存储、检索和保护包括个人信息、客户信息等隐私敏感数 据,在遵守法律和法规的前提下,使用内部设定的规则和策略来管理数据,保证其可用性、安全性、 可用性的过程,对网络安
21、全及访问限制等IT基础设施进行改造,利用工具和流程来规范数据合规收集 与使用。2 .数据治理责任归属数据治理是企业级的战略,需要至上而下的推进,通常来说包括如下主要内容:识别数据资产和 现有的非正式治理流程、提高企业内的最终用户的技能以及数据的敏感度、定义可度量的数据治理工 作指标。企业内部通常会有许多不同角色都会参与到数据治理过程,包括业务部门主管、数据管理专 家、IT部门还有企业内部的数据使用者等。也有不少企业会设立专门的数据治理委员会,由相关的决 策部门主管组成,制定相关策略流程、设定数据访问规则、协调并跟踪流程、解决争议等等。3 .数据治理的主要挑战数据治理起步阶段可能是最困难的,不同
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 人工智能 软件 基础设施 质量 发展 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内