《2022人工智能与数据科学竞赛白皮书.docx》由会员分享,可在线阅读,更多相关《2022人工智能与数据科学竞赛白皮书.docx(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、White Paper ofAI & Data Science Competition 2022人工智能与数据科学竞赛白皮书 2022White Paper of AI & Data Science Competition 2022CO目 录NTE人工智能与数N据科学竞赛白皮书T2022S01 基本价值及相关政策一、人工智能与数据科学竞赛概述08二、人工智能与数据科学竞赛基本价值091. 公共数据要素价值挖掘与应用探索092. 赋能企业人才储备,完善云生态建设093. 跨学科融合交流与高校人才培养1002 发展情况与趋势洞察一、各类赛事差异化发展121. 政府赛事聚焦公共事业与行业应用,数字孪
2、生12赋能智慧城市建设2. 企业赛事探索竞赛与社区深度融合,构建活跃14用户生态3. 科研类赛事独立性减弱,尝试绑定政企赛事15二、赛题趋势161. 计算机视觉(CV)赛题是2022年最大热门162. 工业类赛事聚焦应用落地17CONTENTS人工智能与数据科学竞赛白皮书2022 White Paper of AI & Data Science Competition 202203 多种赛事主体一、主办方191. 政府202. 企业223. 科研机构24二、赛事平台251. 第三方独立平台252. 企业自建平台27三、参赛者281. 参赛者身份特征282. 参赛者诉求2904 赛事基本架构一、
3、方案设计351. 赛事方案352. 传播方案373. 技术方案38二、技术部署391. 平台部署392. 定制化开发41三、赛事运营421. 赛事招募422. 选手运营42人工智能与数据科学竞赛白皮书2022 White Paper of AI & Data Science Competition 20223. 专家运营424. 活动运营435. 社区运营43四、赛事成果呈现441. 线下赛事442. 成果手册453. 新闻通稿454. 会议/论坛455. 项目孵化4605 前景展望一、平衡数字中国建设区域差异,赋能数字政府生态发展48二、数字中国展开布局,数据要素相关竞赛或纳入考核指标50三
4、、成果落地案例涌现,价值转化路径逐渐清晰50四、解决人才招聘痛点,利用考核操作过程的评分系统精准评估技能51五、科研教学为微型赛事提供落地场景52六、AIGC带来AI革命,NLP赛题将成为新一阶段热点53七、仿真赛题贴进实际问题,强化学习实现最优解或成为热门赛题类型53八、线上赛事青睐云端环境,线下赛事追求竞技感5406 年度赛事案例展示一、政府赛事案例56二、企业赛事案例59三、科研机构赛事案例62参考文献65人工智能与数据科学竞赛白皮书2022 White Paper of AI & Data Science Competition 2022 01人工智能与数据科学竞赛基本价值及相关政策V
5、alue & Relevant Policy of AI & Data Science CompetitionAI & DATA SCIENCE COMPETITION人工智能与数据科学竞赛白皮书2022 一、人工智能与数据科学竞赛概述人工智能与数据科学竞赛是一种以竞赛为形式的数据应用模式, 在短时间内聚集大量数字人才,通过合理的赛事设计促进人工智能应用开发和数据要素的价值挖掘。人工智能与数据科学均以数据为基础, 数据科学侧重依靠数据获得见解与理解力, 人工智能侧重依靠数据产生应用, 二者相互依赖、 共同推动科技发展。在二十多年的竞赛实践中, 人工智能赛事与数据科学赛事逐渐融合, 同一赛事中兼
6、具数据分析赛题与机器学习赛题成为常态,因此,我们将人工智能与数据科学同时作为竞赛研究的主题。数据分析业务方向技术方向人工智能机器学习深度学习(方法) 简单问题简单分析 现实问题 复杂问题复杂分析 图1-1 数据分析、人工智能与机器学习示意图人工智能与数据科学竞赛作为一种创新业态, 对内汇聚产学研用多方资源, 对外影响、助力整个产业生态。在数据科学生态系统中, 政府、企业、技术人才、竞赛机构形成了一个良性循环的子系统, 创新系统内数据要素、 人才要素流通机制, 赋能数据科学产业发展。在近十年的探索中, 人工智能与数据科学竞赛在国内形成了成熟可复用的模式, 孕育了一批高度专业化的赛事运营机构。随着
7、竞赛模式迭代, 其主体适用性不断增强, 政府、 企业、 科研机构、 高校以及各类社会组织开始用人工智能与数据科学竞赛解决自身痛点难点问题,办赛规模持续扩大,并进入大众及主流媒体视野。2022 人工智能与数据科学竞赛白皮书 08人工智能与数据科学竞赛白皮书2022 二、人工智能与数据科学竞赛基本价值1. 公共数据要素价值挖掘与应用探索政府拥有海量人口、城市、税收、工业等社会关键数据, 担负着激发社会公共数据要素潜在价值、 引导社会经济良性发展、 提升人民生活水平的重要责任。创新公共数据要素流通方式, 激活数据要素潜能, 探索公共数据要素应用方式是政府部门数字化建设工作的重要内容。案例聚焦山东省第
8、三届数据应用创新创业大赛主办方 山东省大数据局山东省第三届数据应用创新创业大赛促进山东数据创新应用工作在场景、 人才、 算法、产品各个方面积累、沉淀了大量资源, 可助推山东省围绕“协同创新, 强省惠民”主题, 打造更多优秀数据应用场景。值得一提的是, 根据疫情防控需要, 大赛增设“数据助力疫情精准防控”赛道, 及时推动获奖作品在山东省推广应用, 在疫情防控中积极发挥作用,引起了很好的社会反响。2. 赋能企业人才储备,完善云生态建设随着大数据与数字化在社会经济中的作用日益提升, 企业寻求数字化转型已经成为必然趋势。对于以数字化与大数据为立足之本的科技企业而言, 对数据算法人才的争夺成为企业生存发
9、展的根本。企业举办人工智能与数据科学竞赛能够实现大量算法人才快速汇聚, 并通过竞赛结果进行人才甄别与筛选, 进而挖掘优秀人才, 优化企业技术人才梯队, 完善企业数据人才储备。同时, 各大科技企业在云生态建设领域投入巨大, 致力于构建集算力、产品、服务与一体的全方位云生态。举办人工智能与数据科学竞赛首先能够展示企业的云计算基础以及 产品功能, 产生品牌效应, 推动云产品营销。另一方面能够持续扩大用户规模, 推动社区建设,鼓励用户持续输出内容与技术,不断完善云生态建设,提升市场竞争力。2022 人工智能与数据科学竞赛白皮书 09人工智能与数据科学竞赛白皮书2022 案例聚焦科大讯飞 2022 iF
10、LYTEK A.I.开发者大赛主办方 科大讯飞科大讯飞 2022 iFLYTEK A.I. 开发者大赛联合优质企业、 知名高校、 融投资机构等 53 家合作伙伴, 围绕十大新兴产业开启 108 个赛道, 分别设置了 72 道 AI 算法赛以及 36 道AI 应用赛。A.I. 开发者大赛与 DataCastle 数据城堡携手前进,积淀至今已举办第五届, 致力于用人工智能解决各类生产生活问题, 推动前沿科研成果转化、 促进产业发展、 发掘行业优秀人才,助力 AI 生态建设。3. 跨学科融合交流与高校人才培养利用数据科学技术进行量化研究、 大样本研究是目前学术界的主流研究方法之一, 人工智能与数据科
11、学竞赛能够有效促进数据科学人才与其他学科的融合交流。案例聚焦高校作为人才储量最大的单位, 具备先天办赛优势。相对于政府、 企业而言, 高校办赛成本低, 依靠天然人才池, 可以获得较高办赛性价比。对于高校而言, 数据科学成为未来的主流研究领域是大势所趋, 而数据科学不能只停留在课堂上, 必须通过实战进行学习训练, 人工智能与数据科学竞赛为高校提供了一个良好的实训机会, 让高校数据科学学科建设更加系统化, 更加完整, 同时可以提升学生数据科学应用能力, 促进高校人才培养。国家基因库 2022年“猛犸杯”国际组学数据创新大赛主办方 深圳国家基因库深圳国家基因库、 鹏城实验室、 深圳华大生命科学研究院
12、发起 2022“猛犸杯”国际组学数据创新大赛, 旨在为生命科学领域现有科研问题及挑战提供解决方案, 引领生命科学大数据产业创新发展 ; 同时为生命科学、 医学、 计算机科学等多领域的专业人才搭建跨领域、 跨学科的技术交流平台, 激励生命科学大数据人才的创新意识和综合技能, 推进BT 与 IT 融合(生物与信息融合)发展。2022 人工智能与数据科学竞赛白皮书 10人工智能与数据科学竞赛白皮书2022 White Paper of AI & Data Science Competition 2022 02人工智能与数据科学竞赛发展情况与趋势洞察Development Tendency of AI
13、 & Data Science CompetitionAI & DATA SCIENCE COMPETITION人工智能与数据科学竞赛白皮书2022 一、各类赛事差异化发展1. 政府赛事聚焦公共事业与行业应用,数字孪生赋能智慧城市建设1.1 持续性赛事比例平稳增长,赛事品牌逐渐成型经过统计 2022 年由政府部门主办 64 场赛事信息后, 我们发现政府背景的人工智能与数据科学竞赛呈现稳中求进的总体态势。在 2022 年举办的 64 场政府赛事中, 持续性赛事(非首届)数量为 34 场, 占全年政府赛事总场次的 53.1%, 2020-2022 年三年间持续性政府赛事比例增长平滑, 说明政府赛事
14、总体呈现稳定态势, 持续办赛意愿较强。29.4%42.5%53.1%持续性政府赛事在全年政府赛事中的占比2020年2021年2022年图2-1 政府主办的持续性赛事增长情况主办方 数字中国建设峰会组委会数字中国创新大赛由数字中国建设峰会组委会主办, 关注数字中国和数字福建建设, 汇聚大众创业万众创新的新方向、 新观点和新思路, 共同推动数字技术创新应用和数字产业发展。数字中国创新大赛采取多赛道并行的竞赛形式, 围绕行业数字化与信息技术创新应用等设置多个并行赛道, 连续多届采用 “DCIC 数字中国创新大赛” 名称, 已形成知名赛事品牌。2022 人工智能与数据科学竞赛白皮书 12此外, 持续性
15、赛事通常沿用同一赛事名称, 如第一、二、三届山东省数据应用创新创业大赛, 第一、二、三届数字四川创新大赛等, 通过多年持续办赛, 逐渐在人工智能与数据科学竞赛领域内扩大赛事影响力,形成以地域和名称为核心的赛事品牌。案例聚焦DCIC数字中国创新大赛人工智能与数据科学竞赛白皮书2022 案例聚焦主办方 四川省大数据中心数字四川创新大赛由四川省大数据中心主办, 迄今已连续举办三届, 在参赛者群体中通常被简称为“四川大赛”,形成了与四川省深度绑定的赛事品牌。数字四川创新大赛1.2 综合型赛事仍是主流根据赛题范围,政府办赛可以分为两类 : 综合赛事与专项赛事。综合赛事中赛题范围大, 通常涵盖经济、民生、
16、政务、管理等多个种类, 如 2022 数字中国创新大赛分为数字党建赛道、 数字城市设计赛道、 数字医疗赛道、 数字低碳赛道、区块链赛道、网络安全赛道等,是典型的综合型政府赛事。专项赛事赛题范围小, 通常集中于某个具体领域, 如金融类赛事、政务类赛事、技术应用类赛事等, 如广东省公安厅主办的智慧新警务大数据建模大赛, 赛题集中在治安管理+ 大数据的范畴内。近年来数据科学赛事市场中专项赛事比例逐渐增加, 但在政府办赛中, 综合赛事仍是主流。在 2022 年的 64 场政府赛事中, 综合型赛事共 37 场, 占比 57.9%。同时, 在专项赛事中存在政府挂名, 企业或高校主办的情况。综合来看, 由政
17、府机构主办的赛事以综合型赛事为主。1.3 数据科学赋能数字孪生,助力智慧城市建设2022 年, 数字经济发展和智慧城市建设成为多地政府部门的重点工作, 以数字孪生为代表的人工智能技术在智慧城市建设中发挥着积极作用。在政府主办的数据科学赛事 中, 智慧城市赛题比重逐年提升。在 2022 年政府赛事的 177 道赛题中, 与智慧城市建设有关的赛题数量达到 136 道,占 76.8%。2022 人工智能与数据科学竞赛白皮书 13人工智能与数据科学竞赛白皮书2022 智慧交通19.8%智慧城市赛题领域分布图图2-2智慧医疗14.9%智慧城管11.6%智慧养老12.2%智慧政务22.9%智慧应急6.1%
18、智慧生活5.2%智慧安防7.3%2. 企业赛事探索竞赛与社区深度融合,构建活跃用户生态用户生态建设是大型技术企业十分重视的工作之一, 阿里巴巴、 华为、 百度等企业均拥有自建的技术交流社区和开发平台, 以完善自身用户生态和技术储备。人工智能与数据科学竞赛作为技术社区的重要组成部分, 被大型技术企业作为社区引流、 用户留存的重要手段, 同时通过竞赛提升社区用户参与度, 提高用户粘性和社区技术浓度。2022 年大型技术企业发布在本企业自建平台的赛事占全年赛事总场次的 21%, 是人工智能与数据科学竞赛的重要组成部分,也是众多开发者接触人工智能与数据科学竞赛的渠道。大型技术企业赛事作为企业技术社区的
19、有机组成部分, 是企业产品推广、 人才选拔、 技术研发的重要途径, 其赛事赛题特点与企业发展方向和技术重点联系密切, 如 2022 年阿里天池平台赛事围绕云计算、 电商数据分析等重点展开, 与阿里巴巴自身业务高度契合 ; 华为开发者平台赛事与百度飞桨平台赛事也积极配合自身业务线开展和科研攻关。值得注意的是, 近年来随着数据科学教育逐渐普及, 数据科学人才基数增加, 各大技术社区开始利用数据科学新人赛争夺潜在社区用户。 2022 年阿里天池平台上线训练赛新人赛 17 道, 华为开发者平台上线训练赛 14 道, 百度飞桨平台上线训练赛 21 道, 均较上年有明显增加。同时, 三家赛事平台均与自身开
20、发者综合平台深度绑定, 已经形成了较为完善的开发者培养、训练、招聘、成果产出的技术生态。2022 人工智能与数据科学竞赛白皮书 14人工智能与数据科学竞赛白皮书2022 相对于正式赛, 训练赛难度较低, 适合技术新人培养数据科学应用开发的基本技能。训练赛增加一方面扩展了数据分析建模的应用广度, 吸引更多技术新人参与 ; 另一方面丰富的训练赛能够在自身平台内搭建完整的技能训练体系, 引导初级开发者实现技术进步。训练赛的增加也是头部企业开发者社区建设的有效推手, 完善的训练体系扩展了社区受众范围,提升了社区用户粘性,促进开发者社区生态稳定发展。3. 科研类赛事独立性减弱,尝试绑定政企赛事人工智能与
21、数据科学竞赛诞生于学术会议, 在出现之初长期作为学术研究活动存在, 但近年来学术机构独立办赛比例持续下降, 与政府、 企业合作办赛逐渐成为科研学术机构办赛的主要选择。图2-3 典型科研类赛事KDD CUP 2022图2-4 典型科研类赛事猛犸杯国际组学数据创新大赛首先, 随着竞赛形式多样化, 办赛成本逐渐上升, 部分学术机构由于资金不足等原因难以独立办赛 ; 第二, 学术竞赛头部化趋势明显, 新兴学术赛事难以与 KDD CUP、 CCF 等头部知名赛事竞争, 选手招募困难 ; 第三, 目前许多学术类赛事实际并非由学术机构发起, 科研学术机构仅提供冠名与评审专家, 这种竞赛组织模式逐渐成为学术类
22、赛事的主流趋势。2022 人工智能与数据科学竞赛白皮书 15人工智能与数据科学竞赛白皮书2022 二、赛题趋势1. 计算机视觉(CV)赛题是2022年最大热门人工智能与数据科学竞赛与当下热点技术应用紧密相关, 计算机视觉技术的成熟推动了自动驾驶、 智能机器人等行业的爆发式增长, 同时热点行业反向带动计算机视觉相关技术进入大众视野,普遍应用于多重领域。在 2022 年统计到的 635 道赛题中, 计算机视觉 (以下统称 CV) 相关赛题占比36.5%, 达 232 道, 是占比最大的技术方向。图像采集设备在各类行业中的普及为 CV 技术的广泛应用提供了广阔空间, 使 CV 技术成为最适合跨行业应
23、用的人工智能技术, 赋能自动驾驶、 医疗影像识别、 水下勘探、 行为识别、 成品检测、 遥感测绘等诸多领域。因此, 越来越多的相关企事业单位通过人工智能与数据科学竞赛发现优秀 CV 人才、挖掘优质解决方案。CV赛题技术方向分布CV赛题应用场景分布目标跟踪交通出行 工业制造 18% 图像分类10.1%25.8%6.2%27.5%30.4%图像识别14%17%文娱传媒 13%生物医疗 11%社会治理 9%农林养殖 视频分析目标识别航空航天 6%8%遥感监测 4%电子商务 主办方 鹏城实验室、大连市人民政府、湛江市人民政府2022 年全国水下机器人大赛国际线上赛由鹏城实验室、 大连市人民政府、 湛江
24、市人民政府联合主办, 利用计算机视觉技术将水下机器人收集的视觉信息进行分析归纳, 提升水下勘探效率,促进水下目标感知与检测相关理论、技术及应用的发展,提升相关研究水平。2022 人工智能与数据科学竞赛白皮书 16图2-5 CV应用领域及比例图案例聚焦2022年全国水下机器人大赛国际线上赛人工智能与数据科学竞赛白皮书2022 案例聚焦亚马逊云科技 AI For Good-2022主办方 亚马逊云科技亚马逊云科技 AI For Good-2022 遥感光学影像目标检测赛由亚马逊云科技主办, 旨在通过大尺寸图像目标识别技术对像素级遥感光学影像进行充分挖掘, 赋能我国遥感空间测绘检测的可持续发展。2.
25、 工业类赛事聚焦应用落地自 2021 年起, 工业类人工智能与数据科学竞赛逐年增多。伴随工业互联网的普及应用以及传统工业制造业数字化转型的趋势, 工业制造企业开始重视对工业数据的全面深度感知、实时传输交换、快速计算处理和高级建模分析, 实现智能控制、运营优化和生产组织方式变革。在数据分析处理领域, 工业类企业以成熟技术与工业生产实际的结合应用为主要着力点, 关注赛事成果的可用性与落地效果。在 2022 年的 12 场工业类赛事中, 全部算法赛赛题均围绕工业生产中的实际问题进行设计, 赛题难度适中, 赛题方案易落地。如首届雪浪算力开发者大赛中两道赛题分别为汽车变速器阀体检测与汽车全厂排产优化,
26、两道赛题分别聚焦工业生产场景中的生产细节问题与数字化生产的流程设计, 赛题设计靶向性明显。再如安全技术国家工程研究中心主办的工业安全生产环境违规使用手机的识 别挑战赛, 聚焦安全生产的具体场景, 具有广泛适用性, 成熟的赛事成果能够直接接入工厂监控系统, 为企业安全生产提供保障。再如第七届“创客中国” 人工智能创新应用产业链赛道中的智慧工业方向赛题分别为汽车冲压线尾零件缺陷检测、 线缆制造排产优化、 AI+ASM 模型模拟在污水处理领域的应用, 三道赛题均具有明确的应用场景和开发需求,使赛事方案作品更容易接入企业数字化生产系统。主办方 中国机械工程学会雪浪算力开发者大赛由江苏无锡经济开发区管理
27、委员会和中国机械工程学会联合举办, 以“汽车行业数字化智能化转型” 为主题, 开放“排产优化” 和“阀体检测” 两个赛题, 大赛依托算力设施、 数据网络、 智能引擎构成的新一代制造业数字化基础设施, 聚焦汽车生产行业实际生产场景,开发实用的工业应用算法。2022 人工智能与数据科学竞赛白皮书 17案例聚焦工业制造业企业的自身调性决定了其赛题从细节出发, 以应用实践为落脚点的特点 ; 同时, 数字化转型的迫切需求与数字化人才短缺之间的矛盾促使大型制造业企业利用竞赛的形式解决自身痛点。雪浪算力开发者大赛人工智能与数据科学竞赛白皮书2022 White Paper of AI & Data Scie
28、nce Competition 2022 03人工智能与数据科学竞赛多种赛事主体Multiple Participant of AI & Data Science CompetitionAI & DATA SCIENCE COMPETITION人工智能与数据科学竞赛白皮书2022 数据科学竞赛主体图谱 图3-1全局服务发布需求筛选方案其他服务展示需求提供方案参赛者主办方赛事服务机构科研人员学生在职人士科研机构企业政府会务媒体云计算供应商企业技术社区第三方竞赛平台一、主办方人工智能与数据科学竞赛作为一种数据要素应用形式, 能够衍生出诸多价值路径, 为数据要素所有者提供包括经济收益、 人才选拔、
29、政务开展等诸多价值。基于主办方的价值诉求与身份定位, 人工智能与数据科学竞赛的主办方可以分为三大类 : 政府、 企业与科研机构。在 2022 年统计到的 211 场竞赛中, 企业办赛占据主流, 共计 109 场, 占比 51.7% ;政府办赛数量多于科研机构办赛, 共计 64 场, 占比 30.3% ; 科研机构(包含高校)办赛 38 场,占比 18%。30.3%51.7%18%政府赛事企业赛事科研机构赛事图3-2 不同办赛主体赛事场次占比同时, 人工智能与数据科学竞赛产生的价值与数据要素的种类密切相关, 政务数据主要用于促进政务服务开展与改善、金融数据主要用于优化金融服务方式、电商数据主要用
30、2022 人工智能与数据科学竞赛白皮书 19人工智能与数据科学竞赛白皮书2022 于调整电商经营策略。数据要素的种类差异使同类主办方举办的竞赛间呈现出不同特 征, 也发展出了不同的办赛倾向。因此, 我们将根据数据要素的种类, 对三类办赛机构进行进一步的细分。1. 政府1.1 探索公共数据应用,推动创新项目孵化“数据二十条”指出 : 数据作为新型生产要素, 是数字化、网络化、智能化的基础, 已快速融入生产、分配、流通、消费和社会服务管理等各环节, 深刻改变着生产方式、生活方式和社会治理方式。数据基础制度建设事关国家发展和安全大局。要坚持共享共 用, 释放价值红利。合理降低市场主体获取数据的门槛,
31、 增强数据要素共享性、 普惠性, 激励创新创业创造。在这种背景下, 政府机构, 尤其是各地大数据局、经信办等部门亟需创新数据开放、 数据应用新方式, 拓宽公共数据开放渠道、 提升公共数据开放质量、推动公共数据应用的成果转化。2022 人工智能与数据科学竞赛白皮书 22公共监控违章数据医疗数据社保数据行政部门人民政府信息收集举办赛事成果转化个人开发者创业团队成熟企业智慧城市智能制造智慧金融智慧政务数据要素数据拥有者数据分析 & 应用开发价值激活图3-3 政府办赛价值链图1.2 赛事水准保持高位,赛事吸引力强政府办赛虽然只占据 2022 年人工智能与数据科学竞赛总场次的 37%, 但在整体竞赛生态
32、中具有较大影响力。首先, 政府赛事对高水平团队具有较高吸引力。政府机构作为经济民生发展的指导者, 能够聚合多方资源, 为竞赛成果落地提供政策扶持与资源保障。在近年来的竞赛实践中,政府办赛多以项目孵化扶持作为竞赛激励,包括资本对接、场地支持等。这些竞赛人工智能与数据科学竞赛白皮书2022 激励对具有优势技术和专利的创新创业团队产生了较大吸引力, 使整体竞赛水平保持在高位。第二, 政府赛事能够提供优质稀缺数据。政府办赛提供了大量脱敏的公共政务数据, 尤其是许多难以接入公共数据交易平台的有条件开放的数据经过专业的脱敏处理, 通过竞赛释放给社会公众, 实现“以赛促用”。这些政务数据兼具稀缺性与高价值,
33、 成为政府赛事区别于企业办赛的一大重要特征。第三, 政府赛事能够提供优质的技术证明。对于个人参赛者, 尤其是学生参赛者而言, 获得赛事获奖证书是参加竞赛的主要目的之一, 获奖证书能够成为其技能水平的重要佐证, 并在就业过程中提供帮助。随着竞赛数量增加, 赛事水准参差不齐, 赛事证书含金量差异逐渐扩大, 用人单位对应聘者获奖证书的甄别与评估日趋严格。政府赛事证书基于政府信用背书,能够得到众多用人单位认可,含金量高,受到参赛者青睐。图3-4 典型政府赛事 DCIC 2022数字中国创新大赛1.3 政务数据为主,多种类数据辅助在政府赛事中, 公共政务数据是赛事数据的主要组成部分, 在政务数据之外,
34、政府机构通过聚合多方资源, 形成了支撑大规模赛事的数据矩阵。根据数据要素种类不同对政府赛事进行细分,能够更加清晰地观察政府办赛的倾向和特征。政务数据要素政务数据要素是政府赛事中使用最多的数据要素种类, 在 2022 年政府赛事 179 道赛题中占 83%。政务数据由各级政务部门及其技术支撑单位在履行职责过程中依法采集、 生成、 储存和管理。在“开放是常态, 不开放是例外”的普遍要求下, 政务数据开放分为无条件开放、有条件开放和不予开放三类。可以提供给所有公民、法人和其他组织使用人工智能与数据科学竞赛白皮书2022 的公共数据属于无条件开放类 : 可以部分提供或者需要按照特定条件提供给公民、 法
35、人和其他组织的公共数据属于有条件开放类涉及国家秘密、 商业秘密、 个人隐私和国家安全, 以及其他不宜提供给公民、 法人和其他组织的公共数据属于不予开放类。其中有条件开放类数据经过竞赛筹备方的脱敏处理, 减少了数据开放过程中可能出现的隐私数据泄露问题,成为推动数据开放工作的新方式。另外, 通过竞赛方式进行的数据开放指向性强, 依靠合理的赛题设计与“招标式”的方案征集方式,实现从政务数据要素到数据应用成果的转换。其他数据要素政府机构的工作职能涵盖经济发展、 民生建设、 政务服务等多个领域, 在政务数据之外, 政府赛事也通过资源整合, 将金融数据、医疗数据、工业数据接入竞赛, 构建多面覆盖的赛题矩阵
36、,充分利用政府赛事的规模效应,推动多领域的数据应用建设。2. 企业数据驱动是企业实现数字化转型的核心方式, 人工智能与数据科学竞赛可以弥补企业在数字化转型过程中数据应用环节人力、 时间、 成本等方面的不足, 部分竞赛赛题深入到数据处理环节,探索复杂数据处理的新方法。同时, 数据人才是实现数字化转型的基础, 通过人工智能与数据科学竞赛, 企业能够进行人才识别、提高精准招聘的精度和效率,为企业数字化转型发展提供最根本的支持。2.1 企业办赛兼顾人才储备与品牌建设首先, 人工智能与数据科学竞赛对企业的核心价值是人才。无论科技企业还是传统企业, 人才都是数字化发展的根本。在人工智能与数据科学竞赛中,
37、企业根据自身实际业务与真实业务数据进行赛题设计, 并根据自身实际需求(校招、 社招等)限制参赛者范围(如将参赛者范围限定在高校学生、 社会人士、 研究生及以上群体等), 通过公平的评分规则与客观的评分系统判断参赛者水平,提升精准招聘的准确度及效率。另外, 数字项目是人工智能与数据科学竞赛的基本形式, 在精准招聘之外, 参赛者针对赛题项目设计的具体算法也为企业办赛贡献了重要价值。人工智能与数据科学竞赛可以 看做一种新型的项目众包模式, 与传统众包模式相比, 竞赛参与者的技术水平与积极性更高,能够设计更复杂的业务算法,提升了项目众包的深度与广度。人工智能与数据科学竞赛白皮书2022 2.2 赛题方
38、向多样化,数据密集型领域仍是主流在 2022 年企业赛事中, 金融、 生物医药、 电子通讯等数据密集型赛题占据了绝对主流,其中金融领域赛事占比 28%,生物医药赛题占比11%,电子通讯类赛题占比15%。网络技术其他旅游工业制造跨行业应用金融28.4%电子商务5.8%交通运输7.4%文娱传媒8.7%9.2%企业服务10.5%15.3%生物医药信息通讯图3-5 企业赛事赛题方向分布图与此同时, 赛题方向多样化趋势逐渐增强, 随着语义识别技术的发展, 文献学、社会学等文本数据丰富的赛题开始增加, 如 2021 年的 “中国数字人文开放数据创新研究大赛”, 2022 年的“创承非遗”文化大数据人工智能
39、创新大赛, 基于计算机视觉、 自然语言处理等数据分析技术实现对社会学文本数据的处理与分析。2.3 人工智能与数据科学竞赛成为企业公益新路径人工智能与数据科学竞赛数据开放、 广泛参与的特点使其与公益活动具有天然的契合性,也成为诸多企业践行社会责任的选择。案例聚焦2022技术公益创新杯AI助力视障群体主办方 北京字节跳动公益基金会技术公益创新杯”是抖音、北京字节跳动公益基金会等共同发起的技术公益创新大赛, 以“连接善意 共创美好” 为理念, 携手产学研各界力量, 通过技术创新解决真实的社会问题,共创公益新可能。2022 人工智能与数据科学竞赛白皮书 232022 年以公益为主题的数据科学赛事共计
40、9 场, 赛题方向涵盖可持续发展、 残障人士帮扶、公共安全等公益领域。在公益类赛事中, 企业通过提供数据资源、算力支撑、技术支持、 奖金激励等方式, 引导数据科学开发者进行公益项目开发, 在履行企业社会责任的同时,向社会大众传达公益理念。人工智能与数据科学竞赛白皮书2022 3. 科研机构人工智能与数据科学竞赛对科研机构的价值与对企业的价值具有极大相似性。科研机构以 科研成果产出与科研人才培养为发展重心。与企业尽可能在更多参赛者中筛选优秀人才不 同,科研机构办赛以精准为重点,吸引领域内顶尖人才参赛是科研机构办赛的侧重点。3.1 培育技术实力,专注跨学科交流科研机构与高校主办的赛事商业化氛围较弱
41、, 主要集中在学科竞赛和跨学科科研攻关两大方面。在学科竞赛方面, 中国计算机学会 (CCF) 主办的 CCF 大数据与计算智能大赛(CCFBigData&ComputingIntelligenceContest, 简称 CCFBDCI) 是国内数据科学类学科竞赛的佼佼者, 由 CCF 于 2013 年创办, 是大数据与人工智能领域的算法、应用和系统大型挑战赛事。近年来 CCFBDCI 也更多地将视线转移到数据科学技术的跨学科融合应用方向,2022 年 CCFBDCI 的赛题涵盖工业生产安全、移动设备安全等应用方向。其他高校与科研机构举办的人工智能与数据科学竞赛多以跨学科交流为主, 如国家基因库
42、主办的“猛犸杯”国际组学数据创新大赛, 旨在推动数据科学与基因组学的融合 ; 清华大学主办的 CCL2022 新闻脉络关系检测任务评测大赛则将 NLP 技术与新闻学结合, 推动新闻学与社会学发展。高校办赛通常有两种形式, 一种是高校基于学术研究和人才培养进行的校内或校际间竞赛, 竞赛赛题数据来源于高校学术资料或社会赞助, 参赛群体限定在高校学生中, 奖金数额通常较小,以提升高校科研水平、影响力和技能实训为主要目的。另一种是高校与政府、 企业等社会机构的联合办赛, 在这类竞赛中, 高校往往承担技术专家与赛事组织的功能, 依托于高校自有的专业性技术专家团队搭建竞赛平台、 设计赛题算法、 进行赛事运
43、营, 这类竞赛一方面可以增强高校与社会的联系, 用学术成果与高校人才赋能实际业务, 另一方面能够提升在校学生的业务实操能力, 成为一种从课堂到社会的新型教育手段。对于高校而言, 数据科学成为未来的主流研究领域是大势所趋, 而数据科学不能只停留在课堂上, 必须通过实战进行学习训练, 人工智能与数据科学竞赛为高校提供了一个良好的实训机会, 让高校数据科学学科建设更加系统化, 更加完整, 同时可以提升学生数据科学应用能力,促进高校人才培养。2022 人工智能与数据科学竞赛白皮书 25人工智能与数据科学竞赛白皮书2022 二、赛事平台人工智能与数据科学竞赛的主办机构类型多样, 主要共同点是拥有充足的数据资源。人工智能与数据科学竞赛需要的赛事设计能力、 技术支持能力、 赛事运营宣传能力可能超出部分主办机构的能力或职责之外。因此赛事平台成为将数据资源转化为完整竞赛的重 要第三方。赛事平台的主要职责包括三方面 : 赛事设计、技术支撑与赛事运营。赛事设计包括赛题设计、 赛制设计、 赛程设置、 评分算法设计等, 需要综合主办方需求、目标参赛者画像、防作弊等多方面进行, 高度依赖办赛经验。因此, 初次办赛的主办方通常需要专业赛事平台对赛事进行辅助设计,规避可能存在
限制150内