中国人工智能软件基础设施高质量发展报告.docx
#$%& ' o *+, - /O1 23%O U 77816 d d i N ¥ d2O U q YU f g' Yt?" YZ° C %Jzll Q9XY» A © 界1 各 N8Z 一 °O 1| fi&r TZO 6 d Q9XYY £ § °、00N NCEoe J理 WTZ。U u' &,xyhe %flYlEB Q9& TB? C据A数据对于人工智能产业的重耍性不言而喻。数据作为数字经济时代最有价值的生产资料已是共识, 是人工智能应用落地成败的最关键因素之一,也是产业化中最重要的一环。企业数字化转型浪潮持续 推动数据爆炸式增长,涌现出许多系统集成商,助力企业信息化落地;另外一方面,大量场景端的数 字化转型和新技术应用并没有预期进展,技术与场景之间仍然存在巨大偏差。在AI开发者定量分析研 究中,有关AI训练困难的调研,前六个痛点中四个与数据相关:获得标注数据成本太高(36%)、数 据预处理、清洗、版本管理、数仓等数据资产管理成本太高(34%)、数据采集比较难(28%)、应用 场景配套的数字化程度不高,有价值数据难以获得(25%)。其中企业数字化进程慢的根本原因可能如下:企业管理者对于数据价值认知程度不一、持续IT高 投入与滞后的业务回报风险、IT技术与业务结合有鸿沟、IT实施历史包袱大,数据标准化程度低。!据9:;=;数据基础设施主要为采集、存储、治理、计算、应用五大维度,每个维度都会涌现大量基础架构 技术和商业模式创新,外加数据安全与隐私法律法规的监管,涉及到的底层技术相当复杂。数据基础 设施整体呈现服务化、融合化与合规化的趋势:1 .服务化趋势虽然云计算和面向服务的架构从功能上来说,它们能够存储和处理数据,但它们更关注的是软件 或平台,而不是数据本身。近年来,数据即服务(DaaS)已成为企业的关键概念。数据架构技术创新 与云计算技术的发展密切相关,逐渐呈现服务化特点,对用户(特别是开发者用户)屏蔽大量技术细 节,降低了使用门槛,用户使用特定API、操作命令或者功能界面等即可完成数据访问。下表是关于 云计算服务与数据服务的对比说明。5 =#§« 8S0 , « C 1qUitill 1 U 1UdeFf ”心klPQRS>W度0eFf HW«PQ» QRS eAQA * O XQA CE § Woe 一O X§WoeP"" 41PQ A§ WoeP “ '' +R S"V Y / 辑1V< >PQfiflRS+ Q e, RS u %o , Qe, LMnz " Qe, LMnzJK Q e, LMnzJK , Q e A E eA E : E f nA E :E f nJA E : E f H-A E :E f ”1错T I 6 d cwb ° u U U i , RS"二W« °人PQ O° T 1 eRS, pi RSC/z:© t <v!i AV“林i* t i $+,-.$ -+/-)$. )0+$ 1!+ 23)$+%+-*$*?3 -( i n Ql/E 0 C(T A5vi K* 士;* (a、T e %w/E 、a ¥ (ap T Tx、 )"'(* SR殳 Q G。",f葭 %0H-i - A 11 f i e |i « w/E 0 1 56。4,fae ' i ®» 0 1 A -(i n X i Tx%A O ICEoe -( ?N %O U z - Pa G。打,短'E u SR )” '(*、 r%" " 1HI ?-(?N " < )? vfOf hf$%1 50 Cly xT K% (aY / z 0< b>?lZ ® 5 a ? ,fe ( E u > a fifehfjffl ! '( -e? ife i 156 > a fifehfjffl * e %0 C 6 CE | (al, > a fifehf jffl 6 4 a Gtu " "fee' E 0 ha A aE %f 1Y'f 1YA E E ( 1TZI T Y (0 C E u (al 6 ' 0 & CEceGflYFI 56 9,f葭 A , e w/E _0 Cz | %O U 1Z® i '-( ?N , 40 CJ TZO/ %A 0 U -( ?N Fl wi ” P9 n,也'1八 W t § U + >T(a e e Fl a (a痛1 i- kX+ i N5 a wER e %t>?-1- - 6 i- GCEoe2 .融合化趋势融合化趋势包括交易型数据和分析型数据的融合(HTAP),实时数据流与历史数据的融合(数据 仓库),音视频等非结构化数据与结构化的数据融合(数据湖产品)等,以及多源异构数据的交叉、 关联分析等。不同的融合方式,面向不同场景的需求,对应也有不少相应技术方案。从数据管理技术 演进的历史看,我们经历了数据库、数据仓库、数据湖、数据中台等形态,他们分别适用不同场景, 也能看到AI和数据挖掘的需求,数据基础架构走向融合化趋势明显。数据库:通常指关系型数据库,用关系模型和数据结构来组织、存储、和管理数据的应用系统, 具有结构化强、独立性强、数据冗余低等特点,主要用于联机事务处理(OLTP),比如银行等交易数 据处理。数据仓库:随着信息的爆炸式增长,传统关系型数据库提供的联机事务处理(OLTP)已经不能满 足研究数据之间关系、挖掘数据价值的需求,比如不同数据库系统之间很难做到数据共享,数据集成 和分析工作很难开展。为了解决企业级数据集成和分析,我们需要引入联机分析处理(OLAP)架构来 对日积月累的OLTP数据进行分析,为决策者快速从大量数据中分析出有价值的信息提供系统支持, 支撑OLAP的数据架构被称为数据仓库。数据湖:随着企业进一步发展,数据不断堆积,企业管理者希望可以把生产经营中产生的所有数据都完整保存下来形成数据湖,并寄希望于有效管理和集中治理后,从中可以挖掘探索出更多价值, 这里的数据包括非机构化数据(如音视频数据等)、半结构化数据(如程序日志文件),以及结构化 数据(如交易记录)。数据湖可以理解为是一个存储企业各种原始数据的大型仓库,其中的数据可供 存取、处理、分析、转换、发布甚至可以再次存储。数据中台:数据中台并非一种技术,而是企业的战略选择。依据企业特有的业务模式和组织机构, 以数字化的手段构建的一套持续把不同业务部门的数据变成资产并抽象成服务的方法,并经过跨业务 类型,跨数据格式甚至是跨越不同工具整合分析处理,最后应用于前端业务决策。统而言之,数据库是数据联机存储处理即服务,数据仓库是分析报表即服务,数据湖是原始数据 即服务,数据中台是数据API即服务。虽然都是围绕数据进行组织、存储、处理的系统或者平台,但 是它们属于不同场景下的技术应用产物,在迈向企业全面数字化转型时代,既对IT基础设施提出要求, 也对企业组织架构管理治理提出新要求。3 .合规化趋势数据合规是指确保敏感数据免于损坏、丢失、被盗、滥用而制定的正式标准及实践规则,包括数 据如何组织、管理、存储等,并严格接受法律法规的监管和约束。欧盟于2018年5月出台通用数据 保护条例(General Data Protection Regulation,简称GDPR),对于违法企业的罚款可高达2000 万欧或者全球营业额的4队 上海也于2022年初出台了首份企业数据合规指引,对企业的数据合规 管理架构与风险识别处理规范做出了相关规定,还特别对不合规使用和处理数据会导致刑事犯罪的风 险进行提示。数据作为新型生产资料,一方面可以协助传统产业升级、打造新兴产业和经济形态,成为推动社 会经济发展的引擎;另外一方面数据作为企业重要资产被深度开发。与此同时大规模数据泄漏事件也 频频发生,带来极大的社会安全甚至是国家安全威胁。国家层面上,涉及隐私保护相关的法律法规诸 如数据安全法、网络安全法、个人信息保护法等先后颁布。在挖掘数据核心价值需求和 数据合规使用的要求下,隐私计算技术变得炙手可热。隐私计算技术是指在确保数据处于隐私保护的前提下,对数据进行分析处理的一类技术,以密码 学为核心,依托可信执行环境,融合隐私保护技术等联合建模。密码学为核心:1982年姚期智院士提出安全多方计算(MPC)概念,即一种可以保障多个参与方协同计算出结果的同时,各个参与方除了计算结果之外,无法获得其它任何信息,逻辑层面实现数据 的可用但是不可见。类似技术还有差分隐私,差分隐私通过在查询结果中加入随机噪声,以保证公开 输出的结果不会泄漏个体的数据集归属信息;同态加密,通过对数据先完成基础的加密操作,然后使 用加密后的数据进行计算,并确保得出的计算结果与计算原始数据得到的结果一致,从而完成对原始 数据的保护。可信执行环境:Trusted Execution Environment (简称TEE),是由可信赖的计算芯片硬件提供支 持、独立于操作系统存在的隔离环境,数据计算只能存在于隔离的安全环境内进行,并通过特别授权 代码才能对数据进行访问。(hjfO (*0 U ° ,'二门ef " !e" jfhflq" hfl< "#$®*$E u 5 种© 4&_%¥'J (1+3 “#$® ) ; !)' %i+13¥ 0 q #P&_+, Q; r» 5 d F一 6 &% nA ° h,0!if$Gu 和A ° M/4O? 12jl h 3C ( J 4u156liv7X YA fla 8更9 : %© E 3< = >?QAlf i "#$® '* G U eT %A ° SFI 56© 4& %、BC6%G &#$更¥。° DUljv>?1E, F 免 IQ% (a; I JKLM ; NOG”# $E JKJLMhn%= A PQ' RQ%&T STIUC® F i VI W< 始 13UC®Vf WWV' Q ¥ Y "#$®0 U , Hi r %zA ° R 仓 00 C*1U UF35 d RQQi -Ly 3 R e %A ° "- G 更T%A ° ” - 1Z+R L 更 ' 更r §。A fla 8Z z (al Na 更T (ae%l /i%*© G"#$® +6_、abl© N 界cde%© 4&_% (aQ, F£0+, gyw M h%O U © i 1 JRI d d V4VI k4Q% (ax 10 k4Q% 6 114£>1工)立'更 C%CE$le 7m, ( a0 Ch (anok4%Hp''&U hST 6 0*ql A更(aE u 更i 0/、&T ' S -F o %#$G J%zrflFTsy x %>? GtNd 4#u© 4八 #$更* %台八 jv + i 6 6 flYwCEA fl白 8hno& 八 #0W。y。1 %0 & i GCEoe z融合隐私保护技术的联合建模:本质是分布式机器学习,在保证数据隐私安全的基础上,不用将 数据传输到中心系统平台上运算,而是在本地节点训练好一个小模型后,与其它节点训练好的模型一 并传给中心系统平台统一整合,实现共同建模。$-y vgaefnfe! jfH ( y f, h" 0" | "h!fiOfeh)© " a bN ® < A 5f 1%+ A XO /i< q )1 A (aO &>_ *00 (a>?lnl J /厂 JWXQ、Y / XCT XQE u 6 &U 0 %+ A J (G$-yw i 、Z4'、'f,efj'!ef 一匚 jrfOO£!h q i 种i 6 0OGZ® 1也可"E 0 (afq FE /%bN ® N 十 A XQ/ixy 6 CE 1A + A XQ /i i i ' A fl 更。 PlO d d T a j; 3 A flV1 CE $ ' (aO &' U a - - %DE *100 T 6 (a>?Gfi JKLE M<qU al$-yw 口含 I "K K d a§ 1+ A i_- AhU UK K d la bN界gini- &a a zbN 界gi 6 0 &/ i f O&aaGaQ9 5q研:/显: f f e%9¥1WV© ©4; e e < qHUHQI 壬寸"< qHIzz GIDl$-yw< qA0y 4! 3# !e,r 0 U i i iQBl T Bfin660' ft7v!ef' dB !0a flj!e'Q96+、b商 6。A T God _P | f i5-lo 商十 °7k6 N 3¥ % LE*01C FQla 志十 初一丫“ < qA。 aei );3n< q< '、Y, ii i *lf i*C 6 Cl i e 7£ Hael J£K § IL- * H A i 0 e 4B n % W£K § GJK JJ M< qT O N ® 律1丁乂 £_/,< 口)+ ° t U ZE < qU "/i)1JK J J M f 0 A, ±g < q十 A XQ)aefnfe! jfH 7 vflO /i+ A XO%< q e 405+ i Gtul fiWX研 flo f K t PQ+ >h9%9¥ zz d 90 *fi F¥ /i< qA0 以' mt Kfh (flO!hMfl$< qA0 ST I i ' 1 n /z i ' Q t Q 5' < q< ' * Jie 4 JK J J M E 0 ai< qz&9 G bN ® i 台八 / i< q) GCEoe f! . #7据?数据治理(Data Governance简称DG)是指管理企业系统中涉及数据资产的有效性、可用性、完 整性和安全性的一整套管理流程,它控制数据使用的内部数据标准和策略,既包括管理行为也包括有 效的辅助管理工具平台。按照国际数据治理研究所(DGI)的定义:数据治理是一个通过一系列信息相 关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁 (Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行 动(What) 0在部署AI应用时,数据资产质量和运维决定了企业AI应用的落地效果。因此,推进AI应用的高 质量落地,开展针对性的数据治理工作非常重要。很多企业在数据质量、数据字段丰富度、数据分布 和数据实时性等维度还不能满足AI应用对数据的要求。比如:客户名称在销售、物流以及客户服务系 统里不一致,这会使数据集成工作变得非常复杂化,进而影响商业智能(BI)、数据分析的准确性等等 一系列问题。再比如,数据治理不当还可能会导致出现数据合规性问题,违反了欧盟的GDPR或者上海 市颁布的企业数据合规指引等法律法规,造成经济和行政处罚等后果。1 .数据治理的目标一是打破数据孤岛。企业信息化之初,不同业务部门缺乏统一的企业级数据架构概念,各业务系 统平台需求也不完全一致,从而导致不同的业务平台系统相互独立,出现了数据孤岛现象,因此协调 不同业务部门的IT平台系统,让相关数据可以汇入到同一个数据平台里,消除业务部门之间的数据壁 垒是至关重要的,但是这需要IT设施的投入,也需要高层管理者的战略组织与协调。二是确保数据有效使用。借助数据治理工具产品,创建统一的数据使用策略、监控管理策略以及 持续的执行策略,降低数据管理成本同时,确保企业级数据满足实时性、有效性、完整性、安全性、 一致性等需求,并开放给数据科学家、分析师以及其它业务场景使用。对于数据的实时洞察和决策, 会给企业带来更大的核心竞争力。三是确保数据合规性。企业和组织如何存储、检索和保护包括个人信息、客户信息等隐私敏感数 据,在遵守法律和法规的前提下,使用内部设定的规则和策略来管理数据,保证其可用性、安全性、 可用性的过程,对网络安全及访问限制等IT基础设施进行改造,利用工具和流程来规范数据合规收集 与使用。2 .数据治理责任归属数据治理是企业级的战略,需要至上而下的推进,通常来说包括如下主要内容:识别数据资产和 现有的非正式治理流程、提高企业内的最终用户的技能以及数据的敏感度、定义可度量的数据治理工 作指标。企业内部通常会有许多不同角色都会参与到数据治理过程,包括业务部门主管、数据管理专 家、IT部门还有企业内部的数据使用者等。也有不少企业会设立专门的数据治理委员会,由相关的决 策部门主管组成,制定相关策略流程、设定数据访问规则、协调并跟踪流程、解决争议等等。3 .数据治理的主要挑战数据治理起步阶段可能是最困难的,不同业务部门通常对关键数据实体有不同的看法。例如通用 数据定义和格式。很多时候达成一致意见是很艰难的,一般需要有明确的争议解决流程。除此之外, 数据治理面临的其它常见挑战包括:一是难体现商业价值。无论是向企业管理团队还是参与数据治理的各个角色,呈现数据治理的商 '也价值有时候很困难,数据治理往往是长期而艰巨的任务,短期内甚至会增加企业运营成本,如何制 定数据治理阶段性计划,并呈现预期的业务收益非常关键。二是难制定可量化的业务价值指标。数据质量、数据集和相关属性的准确性和错误率、数据完整 性和一致性等指标均可用于显示数据治理的价值。但是针对不同场景和需求,业务指标如何与数据价 值对应,甚至数据本身之于企业的商业价值如何度量,需要审慎评估。三是难支持自助数据分析。数据治理最终的目标,还是将数据交到企业内的更多用户手中。数据 治理必须确保数据可供授权用户自助访问,同时还要确保这些用户一一业务分析师、数据科学家、业 务主管、IT人员等不会滥用数据或违反数据隐私和安全的规定。除此之外,还需要提供多样化的平台 工具,让这些数据用户可以高效、实时处理和分析数据,并快速形成商业决策和洞察。四是大数据平台架构复杂。数据治理程序传统上专注于存储在关系数据库中的结构化数据即可, 但在大数据时代,必须处理海量数据中的结构化、半结构化数据和非结构化数据,这些数据往往以及 各种形式存储,包括存放于分布式文件系统中,或者对象存储系统中等等,还比如海量历史数据和实 时数据的融合处理等等。异构的数据存储、处理、分析外加实效性的要求,如何透明的提供各种数据 访问、处理引擎、合理分配计算资源等,对底层数据平台的架构设计、运维能力和资源管理,都带来 极大的技术挑战。AB -! j!-,z e+fl &亘 Q(aae I i n © 4A& & OT M (aQ e rsa 1 (|i H, I +a a (ar*" $ (a。T $ (a< h$ (aae ae (ad (aqN $ (et78G (a%& e i i d 1 U Sae u u 售史。t ° ae+q父(&C N 7 joPQ *E u ma %9f 1E B (aae I 7A f 1%O U G n xy% | h A %,z U A 0 )L' % (a« mGj K» 种8(aq6% (aNt IT T a N 8 Q% (aa %5G 厂 w/ (a e e - y7aE G7A9 - (aQ e 6 A 1 ,,> 156A (a e e %rsA一/E h 6 A JOG“r/E : (aae I G56ae >康qO0 A 0 e *G CE IT oe" % (aae I - y ° I 6 e *%W V+, 1A (aae I T- 5 d z § a 1 : H工1© 5 d nFZE%16 H工G z' ; (ad & § G £!> " ” 0 (aCE$' + , 1' Du u ® (ad &7一 h- , la ae i j d i n 1E (a4-0 no 0 Vf 'fa Q T6"; jr (ad &aeI § GbcdBkd %!+f ae,z ea ! jj z/ h Rf 3y Y ¥ f r/O &% (a/ G (a/ © 5 a 0 &%0 Q d 4- O 0 C< 1 J f (a* 始q。' F?fl4qN %qd 0 CT老(aG> fl (a/1 f iFf qx md A >TZ- e%qN IE a a fl* i i ?»果 %N8yQGsY' (ei/ 且 hT e ® % %0o : A SIE A (a-E 2 (aE "'E Y$E E 吁A ¥ G GT rfl %!+f 诳"ea ! j' h i r (a/ 1T A PI (aqlA fl% ' 0 &Q6 Gl ' l%!+f 史"ea !j? z/ h Bo d fiE,或 0 CQ J。2 0 工Cl q (ad *0 %N 8qN ' iWXOO i 储 £ DG CEoe "! 1 #7jgABCD数据标注的本质,是依据人的经验对各类不同数据的特征进行标记的过程。人对于各类不同数据、 信息的接收、理解与消化,在机器学习领域,实际上等价于计算机的数据输入、特征识别与数据分类。 能够进行数据分类,是计算机实现“接近或等价于人的判断”能力的基本标准。而数据标注,则是教 会机器学习算法“什么特征对应了什么类别”。大到一个3D场景,小到若干文字,无不如此。对于数据标注而言,客观世界的信息/数据大致可以分为:文字、声音、图像三大类别,在每个类 别中,又可以划分更垂直的分类。例如图像可以分为2D视觉和3D视觉,2D视觉中又可以划分出无透 视关系和有透视关系的特征数据。数据标注的完整流程,从来源到结果,可以大致分为数据采集,数 据清洗,数据标注,数据质检四个步骤:数据采集是数据标注的关键核心,包括两点要求:一是要符合目标场景的要求。模拟出真实场景 下的数据,例如,假设要求最终产出的是两个人在室外环境下的对话,那么采集的时候就不能在静音 环境下进行,也不能由一个人单独进行。一般来说,目标场景要求会有很多细节,这些细节对应了算 法工程师对于数据中的特征的需求,因此采集时必须严格遵守规则,以确保数据特征能够全部被覆盖 到。二是数据的采集要符合国家、地区(一般指境外)对于数据合规的法律法规要求。采集活动本身 应该合法,采集所得的数据,其数据敏感性、所有权等一系列与法律法规相关的细节,都需要密切关 注。数据清洗的主要目的是确保数据进入标注生产流程前,100%的符合标注的前提,否则会对标注生 产造成巨大困扰。数据清洗是一次最基础的分类和修正工作,不同的数据类型、数据生产需求面对的 数据清洗的执行方式、规则都不尽相同。数据标注在当下是一套工业化、技术化、人机结合、对数据进行结构化标注的生产过程总称。工 业化指的是数据标注一般具备标准的生产流程规范,不同阶段的不同工种,分别会对数据进行多个维 度的标注操作。技术化指的是数据标注通常在一个成熟稳健的系统化平台上实施,系统平台的主要任 务是为繁杂的数据处理工作,提供标准化流程下的技术解决方案,以提高人工处理的效率,降低人为 出错的概率,以期提高数据生产的效率与质量。人机结合是当下机器学习已经发展到一定阶段的生产 协作方式,人主要提供判断与标注操作,机器基于已经掌握的特征识别能力,为人提供醒目的、及时 的提示、数据预处理、警示等。数据质检是符合工业化思想的最终生产环节。数据质检一般依据生产需求构建正向和逆向的规则 校验,通过抽查、遍历等多种不同手段,查找或验证生产成品中的瑕疵(不符合标注规范)数据,以 提高最终的数据质量。hh j!j e 卷+ *aU e e © v! q , ! j!研hi T Y £ (M© 4Eb+O U %i 51 e e WV 1 8TO N XY' (|i aU E u UO b>> IE B (aVI 。W0 Cl G 该 6。w 4 (aaU、 aU HIA SR- q'户"* " ' - d 智7° , pT GFE YT “ 4 (aaU A Sli ," v 6 !十:a。oR#z T : ® a。I +1A T w 4aU 更6$U。Gi i 种(a- e% -( d aU %&N ' -( -da eT +1 T° M° 、E,i § z ® - I § Gi -O Pz $<e N Zlzrfl6a QR r 10 1-( d UO aU Q # 1F N M f Ke (>T § 1 0 U E B F, LKKOGCEoe 0!4#EF7据A的H I J 1除了企业内部的业务数据极具价值外,公共(甚至是开放)数据集的价值也不可估量。数据开放 是指向社会公众提供容易获取和理解的数据。对于政府而言,数据开放主要指公共资源的数据开放, 对于企业而言,主要指披露企业运营数据,推动公共企业特别是上市公司的信息公开,让公众公平参 与企业投资决策等。公共数据集比如普通话发音的标注数据,中文的词性标注数据等。人才篇(-)如何定义人工智能人才 8()人才规模(三)人才分布10(四)人才培养13二、数据篇16(-)数据基础设施建设16(二)数据治理20(三)数据采集与标注22(四)公共数据集的积极意义 23(五)开放捌居许可协议25三、算力篇2828(-)AI计算芯片(二)AI 训练29(三)AI推理31(四)软硬件协同优化33四、工帽36(-)AI训练框架(-)AI部署与推理37(三)AI开发平台39(四)基础模型41五、 运营篇47(-)市场品牌营销48(二)技术文档撰写49(三)技术社区51(四)技术布道52六、5757主要参考文献及来源公共数据集一方面对于建立基础AI能力赋能价值巨大,另一方面,有助于降低更多研发团队参与 成本,共同推进基础理论研究。从数据使用的角度,公共数据集包括三种类型:1 .公共(或者开放的)原始数据集美国国家环境信息中心公布了地方气候数据集(LCD)就是典型的公共原始数据,该数据集包含美 国各地的大量气候和天气数据集,涵盖了气候数据、海洋数据、气象数据、大气数据以及地球物理数 据,这对于其它科研机构和商业组织,研究美国气候变迁、农业种植、生态保护、渔业捕捞等吸引公 众参与研究意义重大。2 .开放的标注数据集最著名的开放数据集有:MNIST图像数据集和ImageNet,以及百度联合众多科研机构共同发布的 千言数据集等,对于推动AI开发者人才培养和科研成果推广意义重大。冲('V B ! (a0 E ) 0 *d T () B +lKOqK,t OA lia d (a。|i 4-| Y / 4-° . XOP=%© (a0 ly ZlQ-(< h OB lb v#( y | 21 -(3a %U N § a G(a ! I f#f j J© 566 E 6 0 121 , 46 LzKK B ! (a0 OO 0 : U 51 1 1 B +Q% Q § N 6、,象 7i hqq 8 1该(a0 fi普 9 : ; TX%f - Eq 4 JKKE M3/i <770 &N t ! a) = $BO>hnGfi JKLK Mf | 11MOB1 %。(a ! |f#fj T- " - <0 U 1 I T 3?P%(a0 >O CEH<&N ASI- %E 1 1MO 6 T &' Am%k 研 1 i e 7 1HQBCZ E AY/ DE4-° . -OfA #fj、#!fl#fj Q FNe GGH (a0 ©fip/ 十 >Q9/i JXB' Q9Q/E SXBYZhQ% A fil IHVI %< q (a0 HI 123 : Q/E8VI O U %01 Gfi JKJK M J 0 Hnl |+* | fiKv ' LbT'Qkq 、Ml 、") " q Lz * PQ% (a0 ?PYNr $ 14-a a LK T a fil IHVI %A SIE ) < ' e, u ' JWN|i I x' JWZn' /E § e T ' OPqN C A 8GnGH 研 E 0 5工 % (a。QR, 51 i i h。 a § n GCEoe 83 .开放的AI数据模型我们知道AI应用开发主要包括训练和推理两个重要环节,如图9所示:标注、清洗后的数据标注、清洗后的数据迭代)4#+, PQ机器学习训练之后得到的模型数据,往往需要针对特定的推理设备进行后处理,包括剪枝、量化、 压缩、格式转化等处理,其中训练环节涉及到诸如数据标注、清洗、规整、验证等工作非常复杂冗长。 为了简化AI应用开发流程,不少厂商直接公开优化处理后的模型数据,它们被称为预训练模型,推理 应用可以直接下载对应硬件平台模型,即可完成相应的学习测试,也可以部分应用与真实场景的AI推 理。A E WN ® <6 <3a 0 % -( A flQl< hSS©/ 6 00 < hlGTEb h-%z - h1XU J?U -Te%T i_ 1V< h RI “ AWE i n A 0 6XY= 6 0/ z X e ZQ Y5 0 U G© 4tl A £ 研(-WN ® v e< Gh39e luA E WN ®6< IDi (46 f KK d IE ) 4-6WN a ? d %1 % 葭 6 0 e i Q%-B" e U Z® ->WN a 0 i n 1 » J" a OZ 75 + e Z%WN ® )G 6 6-Te A fl%1 a " 1T ' - Pli 3t© >1A E vE u A II I x' R ! q Qi n %a a < h' d ¥ ” <e&ga %ZZ< '' % a ¥ w 6 A fib? WN yce < Q 5 G 6 6-Te A fl%1 a " 1T ' - Pli 3t© >1A E vE u A II I x' R ! q Qi n %a a < h' d ¥ ” <e&ga %ZZ< '' % a ¥ w 6 A fib? WN yce < Q 5 4- 3 u u +q I a. a' B hb_l f hE not>' Af5G 80 8N a cdA f 1G ! qa' 正&N ,1二It >Tt>%"1 Ae c e b J J e fi : d%t>N Ml § < hz ' ,0 T %A 0 16 , z e,%WN A flGCEoe EI据NOPQ针对人工智能研发过程中的数据流转和权利界定,当前尚无被业界普遍接受并且在实际应用中不 造成歧义或带来不确定性的数据许可协议文本。学术界或产业界目前所共享开放的数据资源在发布时, 一般会使用知识共享协议或开源软件协议如MIT. GPL等,当然也存在部分采用私有自定义条款的情 况,但上述协议并非专为数据流转和开发利用而设计。因此,在人工智能对数据处理加工并抽象化为 模型并最终应用于系统中的各生命周期阶段和中间产物而言,数据的权属让渡和权利责任分配应当有 更为细致的界定从而去符合人工智能的生产和科研需要。同时,面对人工智能数据集的来源的复杂性, 当前开源软件协议或知识共享协议也很难非常好的处理互联网公共信息汇集而成标注数据集的情形, 因而带来相应数据授权过程中的越权授权等情况。在这一背景下,国际上先后由Linux Foundation起草推出了 Community Data License,加拿大 Element AI起草推出了 Montreal Data License,微软牵头制定了 CHJDA/C-UDA系列许可协议等,试 图在公共信息汇集型数据集授权问题、数据开放性授权问题、非商业使用的定义问题等难点和痛点上 予以突破。而在国内,上海白玉兰开源开放研究院在木兰开源社区框架和精神指导下,制订并发布了 木兰-白玉兰开放数据许可协议(以下简称MBODL),旨在探索创建一组标准化的、立足中国人工 智能实践、推动数据要素流通、优化人工智能发展环境的数据许可协议。协议的草拟由白玉兰开源联合开放数据中国共同完成,并参考了国际通用开放协议如知识共享协 议、开放数据库协议(ODbL),国际社群人工智能领域数据流通的授权协议如微软起草的O-UDA. C- UDA, Linux Foundation 起草的 Community Data License, Element AI 起草的 Montreal Data License等,也借鉴了对中国现行民法典,数据安全法草案、个人信息保护法草案等其中相关的术语定义。拟定采用该协议发布的数据,应满足公开发布、免费发布的基本前提,并且发布的数据必须符合 国家数据安全的要求,不涉及国家秘密、国家安全、社会公共利益、商业秘密、个人隐私等。由于数 据集的天然属性,从权属角度可分为两大类情形:一是数据由数据发布者合法合规所有或具备用益权。二是数据由数据发布者通过合法合规的方式自第三方处获取汇编组合而得。因此木兰-白玉兰开放数据许可协议对上述两类情形产出了两组不同起草策略:第一类为默认数据由数据发布者合法合规所有或具备处置权。借鉴知识共享协议,草拟了一套4 份协议,即:MBODL:宽松开放协议,适用于最小化限定仅要求注明数据来源的数据发布MBODL-NC:非商业使用协议,适用于禁止使用者商业化使用和分享数据及成果MBODL-SA:相同方式许可,适用于要求下游传播数据能够以相同方式给予许可,但不要求对产出 的成果使用协议的传染性MBODL-CU:仅计算使用协议,适用于数据发布方禁止对数据自身的直接使用、展示的情况(如电 视台作为数据发布方会希望禁止视频数据本身的播放、拷贝、售卖等,但会允许使用视频数据作为训 练数据训练视频语义标签等任务)上述四个协议,均以MBODL为基础,在许可限制小节中予以增加不同的限制而形成。但正如 CC协议,在这4套协议的基础上,也可再进行许可限制的叠加交叉,形成新的协议,如MBODL-NC-CU, 即规定非商业使用且仅“算使用。第二类为数据发布者数据为自第三方合法合规获取。借鉴了 ODbL (开放数据库协议)的策略,对 数据库/数据集的结构(即数据选取、组织的方式,database scheme)和数据内容予以了拆分授权的方式。此类授权策略目前仅为实验性,还需业内专家进一步探讨可操作性和是否是真实需求:案例一:数据发布者通过Wikipedia和flickr等渠道获取了各类鸟类的图片数据,图片数据各 自分别授权在CC等开放授权协议下,数据发布者通过选取和组合这些鸟类图片,添加了自身对鸟类 的标签(鸟类照片对应的鸟