海天瑞声:海天瑞声2021年年度报告摘要.PDF
《海天瑞声:海天瑞声2021年年度报告摘要.PDF》由会员分享,可在线阅读,更多相关《海天瑞声:海天瑞声2021年年度报告摘要.PDF(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、公司代码:688787 公司简称:海天瑞声 北京海天瑞声科技股份有限公司北京海天瑞声科技股份有限公司 20212021 年年度报告摘要年年度报告摘要 第一节第一节 重要提示重要提示 1 1 本年度报告摘要来自年度报告全文,为全面了解本公司的经营成果、财务状况及未来发展规本年度报告摘要来自年度报告全文,为全面了解本公司的经营成果、财务状况及未来发展规划,投资者应当到划,投资者应当到 网站仔细阅读年度报告全文。网站仔细阅读年度报告全文。 2 2 重大风险提示重大风险提示 公司已在本报告中详细描述可能存在的风险,敬请查阅“第三节管理层讨论与分析” (之四)“风险因素”部分,请投资者注意投资风险。 3
2、 3 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性性、准确、准确性性、完整完整性性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 4 4 公司全体董事出席公司全体董事出席董事会会议。董事会会议。 5 5 信永中和会计师事务所(特殊普通合伙)信永中和会计师事务所(特殊普通合伙)为本公司出具了标准无保留意见为本公司出具了标准无保留意见的审计报告。的审计报告。 6 6 公司上市时未盈利且尚未实现盈利公司上市时未盈利且尚
3、未实现盈利 是 否 7 7 董事会决议董事会决议通过的本报告期利通过的本报告期利润分配预案或公积润分配预案或公积金转增股本预案金转增股本预案 公司拟以实施权益分派股权登记日登记的总股本为基数分配利润,向全体股东每10股派发现金红利2.50元(含税) 。截至2021年12月31日,公司总股本42,800,000股,以此合计拟派发现金红利10,700,000.00元(含税)。本年度现金分红总额占合并报表实现归属于上市公司股东净利润的33.85%;公司本次不进行资本公积转增股本,不送红股。 上述利润分配方案已经公司第二届董事会第七次会议审议通过,尚需提交公司2021年年度股东大会审议。 8 8 是否
4、是否存在存在公司治理特殊安排等重要事项公司治理特殊安排等重要事项 适用 不适用 第二节第二节 公司基本情况公司基本情况 1 1 公司简介公司简介 公司股票简况公司股票简况 适用 不适用 公司股票简况 股票种类 股票上市交易所及板块 股票简称 股票代码 变更前股票简称 人民币普通股(A股) 上海证券交易所科创板 海天瑞声 688787 不适用 公司公司存托凭证存托凭证简简况况 适用 不适用 联系人和联系方式联系人和联系方式 联系人和联系方式 董事会秘书(信息披露境内代表) 证券事务代表 姓名 吕思遥 张哲 办公地址 北京市海淀区成府路28号4-801 北京市海淀区成府路28号4-801 电话 0
5、10-62660772 010-62660772 电子信箱 2 2 报告期公司主要业务简介报告期公司主要业务简介 (一一) 主要业务、主要产品或主要业务、主要产品或服务服务情况情况 1)1) 主要业务情况主要业务情况 公司主要从事 AI 训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集、对取得的原料数据进行加工,最终形成可供 AI 算法模型训练使用的专业数据集,通过软件形式向客户交付。 算法、算力、数据是人工智能技术发展的三大要素,其中训练数据是算法发展和演进的“燃料” 。 在当前技术发展进程中, 深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数
6、据的训练支撑则是深度学习算法实现的基础。深度学习分为“训练”和“推断”两个环节:训练需要海量数据输入,训练出一个复杂的深度神经网络模型;推断指利用训练好的模型,去“推断”现实场景中的待判断数据,并得出各种结论。训练数据越多、越完整、质量越高,模型推断的结论越可靠。因此,要使算法模型实现从技术理论到应用实践的落地过程,就需要提供大量的训练数据,对算法模型加以训练。通常,从自然数据源简单收集取得的原料数据并不能直接用于深度学习算法的训练,必须经过专业化的采集、加工处理,形成相应的工程化数据集后才能供深度学习算法等算法、模型训练使用。 习近平总书记曾强调: “要构建以数据为关键要素的数字经济。 ”
7、, 中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见对加快培育数据要素市场也作出了部署。数据是新的生产要素,是基础性资源和战略性资源。2021 年 3 月,建设人工智能训练数据集、发展全数据产业链已被正式纳入国家十四五规划。训练数据已经成为国家重视、支持和推动的人工智能产业发展所必需的关键产品、关键材料。 自 2005 年成立以来,公司始终致力于为 AI 产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识
8、别、语音合成等) 、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。 公司的产品和服务已获得阿里巴巴、腾讯、百度、科大讯飞、海康威视、字节跳动、微软、亚马逊、三星、中国科学院、清华大学等国内外客户的认可,应用于其研发的个人助手、智能音箱、语音导航、搜索服务、短视频、虚拟人、智能驾驶、机器翻译等多种产品相关的算法模型训练过程中。目前公司客户累计数量 695 家,覆盖了科技互联网、社交、IoT、智能驾驶、智慧金融等领域的主流企业,教育科研机构以及部分政企机构。 图:公司产品服务矩阵示意 2)2) 主要产品及服务情况主要产品及服务情况
9、 2.1 主要产品及服务按业务类型分类 公司研发、生产的训练数据覆盖了智能语音、计算机视觉及自然语言处理三大 AI 核心领域,广泛应用于算法模型的开发、训练、优化、应用场景拓展等环节。此外,公司还提供与训练数据相关的应用服务。 (1)智能语音 人工智能在语音领域的应用技术主要包括语音识别、语音合成等。 语音识别(Automatic Speech Recognition,ASR)是让机器能够“听懂”人类语音的技术,它能使机器自动将语音信号转换为对应的文本信息。 语音合成(Text to Speech,TTS)是让机器能够“说出”人类语音的技术,它使机器能将文字信息转化为流畅的语音“朗读”出来,相
10、当于给机器安上了人工嘴巴。 以日常生活中的情景为例,语音输入法、即时通讯软件运用了语音识别技术将用户输入的语音实时转换为文字,实现了软件“听懂”语音并“听写”出文字的效果;而地图、导航软件则运用语音合成技术,实现了软件“发声说话”的效果,为用户提供即时语音导航。 公司通过设计(设计训练数据集结构、供发音人朗读录制的语料文本或对话场景、发音人分布、录音设备场景等) 、采集(定义合适的发音人、选取录音设备及软件、组织发音人朗读录制音频) 、加工(对音频文件进行切分、标注各类声音特征,形成带时间戳和特征标签的文本和标注文件等) 、质检(对数据集进行质量检测,如音字一致性、标注准确率检查等)等训练数据
11、集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集。 (2)计算机视觉 计算机视觉(Computer Vision,CV)是使机器具备“看”的功能的技术,它使得智能家居、手机、安防设备等机器能够代替人眼对目标进行识别、跟踪和测量等。 以日常生活中的情景为例,在汽车的自动驾驶功能中,计算机视觉技术使得汽车能够“看见”并识别行车过程中的各种行人、路况场景,为后续作出相应的反应奠定基础;在机场、车站安检中, 计算机视觉技术使得人脸识别设备能够识别被检验人员是否为其出示的身份证件显示的人员。 公司通过设计训练数据集结构、采集(如定义合适的人脸、动作、场景
12、作为采集对象,组织被采集人按照要求拍摄照片、录制视频,拍摄自动驾驶场景视频等) 、加工(对图像、视频文件进行打点、分割标注等) 、质检(对数据集进行质量检测,如检验图片、视频文件格式是否正确,检查光照环境、物体种类的数量是否达标,打点标框的准确率是否符合要求等) ;或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集。 (3)自然语言处理 自然语言处理(Natural Language Processing,NLP)是以机器能够像人一样理解语言意图的技术。 以日常生活中的情景为例,寄送快递时使用的“智能填写”功能即运用了自然语言处理技术,在输入框中填入整段联
13、系信息,软件应用能够理解语义,并从中识别及提取“收件人” 、 “联系方式” 、 “地址信息”等所需信息,完成自动填写;智能客服、聊天机器人等人机交互程序也运用了自然语言处理技术,使得程序、机器能够读懂人类语言的真正意图,并相应做出反应、提供服务等。 公司通过设计训练数据集结构、采集(收集自然语言文本、对话等数据信息) 、加工(对自然语言文本数据进行单词分割、词性标注、语义语法标注、情感属性标注等) 、质检(对数据集进行质量检测,如检验文本、词性或者语义的标注结果是否准确等) ;或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集。 (4)训练数据相关的应用服务
14、公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高 AI 技术应用效果。 前述产品、服务均以公司生产的专业训练数据集为核心或基础。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。 成品训练数据集主要由数据文档、说明文档、技术文档三部分构成。以智能语音训练数据集为例, 成品训练数据集包含原始采集形成的音频文件、 与音频文件对应的带有时间戳的标注文件,训练数据集相关的设计文档、训练数据集说
15、明,发音词典,数据集参数信息文件等,图示如下: 图:训练数据集结构(智能语音)示例 2.2 主要产品或服务的终端应用场景 公司提供的高质量、大规模、结构化的训练数据,为算法模型的训练拓展提供了可靠的训练素材,助力 AI 技术实现实践应用及商业化落地,赋能 AI 技术与实体经济深度融合。公司提供的训练数据广泛应用于众多主流 AI 产品及终端应用的训练过程中,覆盖了个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR 识别等多种应用场景。 图:训练数据集服务的算法模型应
16、用场景示意 (二二) 主要经营模式主要经营模式 1)1) 盈利模式盈利模式 与主要产品及服务类型对应,公司的盈利模式主要包括以下三类: (1)定制服务:公司根据客户需求提供定制训练数据集并收取服务费。在此种模式下,公司仅享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。 (2)标准化产品:公司开发自有知识产权的训练数据集产品,通过销售训练数据集产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。 (3)训练数据相关的应用服务:公司基于生产的训练数据提供算法模型相关的模型拓展及训练服务,通常以软件
17、授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及极少量硬件销售收入。 2)2) 生产或服务模式生产或服务模式 (1)训练数据集生产模式 公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。 图:训练数据生产过程示意图 公司的训练数据生产过程主要包括四个环节:设计(训练数据集结构设计) 、采集(获取原料数据) 、加工(数据标注)及质检(各环节数据质量、加工质量检测) 。 (2)训练数据相关的应用服务模式 公司基于其生产的训练数据提供算法模型相关训练服务,助力下游客户完成其算法模型的语言拓展、
18、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定行业和口音的专属算法模型,提高 AI 技术应用效果。 以某大型科技公司客户项目为例,客户研发了特定语音识别算法模型,需要根据算法模型的实际场景(如法院庭审场景)开发落地应用。公司承担了部分落地应用拓展相关的开发工作,围绕客户的算法模型和接口开发,最终协助客户算法模型实现多个麦克风收集庭审语音内容并实时转成文字记录入系统的功能。 3)3) 采购模式采购模式 按照采购的内容及主体划分,公司的采购包括: 1. 数据服务采购:公司在数据采集、加工环节中,向人力资源服务公司等采购的,非核心技术环节的原料数据采集、标注服务。 2. 岗位服务采购:主要
19、针对临时性的、不设长期岗位的业务领域的外包采购,如保洁、临时招聘服务、少量实习生招聘等。 3. 其他采购: (1)训练数据生产所需的资产,主要包括软、硬件设备及其他需求物品采购; (2)日常运营所需的资产及物品,如办公用房、车辆、办公家具、计算机设备等; (3)日常专项服务采购等,主要包括审计服务、会议服务、差旅服务等。 上述原料数据采集、加工环节所涉及的数据服务采购,为公司最主要的采购类别,由采购部负责;各部门岗位服务采购由人力资源部负责;其余日常运营相关的资产物品采购、专项服务采购等非业务采购由行政部负责。财务部负责参与采购供应商的遴选、监督与管理,并对采购费用进行核算及结算。 经过多年的
20、发展,公司已经建设有完善的供应商管理制度 、 采购管理制度 、 业务采购实施细则 、 岗位服务采购实施细则等内部规范制度,设立有完善的采购流程和体系,并与主要的供应商形成了良好稳定的长期合作关系。 4)4) 销售模式销售模式 公司采用直接对接并服务客户的直销模式进行营销,符合行业通行惯例。公司以高品质的训练数据集及相关服务吸引客户,并在持续服务客户的过程中提升服务价值和客户黏度。公司通过直接拜访潜在客户、口碑传播、参与学术会议和行业展会、官方网站和自媒体展示等方式建立品牌知名度、与客户建立联系,后续再通过商务谈判、招投标等形式获取具体业务机会。 (三三) 所处行业情况所处行业情况 1. 行业的
21、发展阶段行业的发展阶段、基本特点、主、基本特点、主要技术门槛要技术门槛 根据国家统计局战略性新兴产业分类(2018) ,公司所从事的训练数据生产业务属于“新一代信息技术产业新兴软件和新型信息技术服务新型信息技术服务信息处理和存储支持服务数据加工处理服务”行业,是国家重点支持的“新一代信息技术领域”的战略性新兴产业。公司通过设计训练数据集结构、执行数据采集、加工处理过程,生产用于算法模型开发训练用途的专业数据集,并以软件形式向客户交付,所属行业为软件和信息技术服务业。 根据中国证监会颁布的上市公司行业分类指引 (2012 年修订) ,公司所属行业为“软件和信息技术服务业” ,行业代码为“I65”
22、 。 1.1.1 行业的发展阶行业的发展阶段、基本特点段、基本特点 1)1) 训练数据作为训练数据作为 AIAI 算法发展和演进“燃料”的作用继续凸显算法发展和演进“燃料”的作用继续凸显 在 AI 产业链中,算法、算力和数据共同构成技术发展的三大核心要素。在当前人工智能行业发展进程中,有监督的深度学习算法是推动人工智能技术取得突破性发展的关键技术理论,而大量训练数据的支撑则是有监督的深度学习算法实现的基础,训练数据早已成为算法模型发展和演进的“燃料” 。算法模型从技术理论到应用实践的落地过程依赖于大量的训练数据,2012-2016 年期间,人工智能行业不断优化算法增加深度神经网络层级,利用大量
23、的数据集训练提高算法精准性,ImageNet 数据集的超过 1,400 万张训练图片和 1,000 余种分类便在其中起到重要作用。2021年,全球人工智能和机器学习领域最权威的学者之一吴恩达教授提出二八定律:AI 研究 80%的工作应该放在数据准备上,确保数据质量是最重要的工作;业界如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。 然而,从自然数据源简单收集取得的原料数据并不能直接用于有监督的深度学习算法训练,必须经过专业化的采集、 加工, 形成相应的工程化训练数据集后才能供深度学习算法等训练使用。目前,应用有监督学习的算法对于训练数据的需求远大于现有的标注效率和投入预
24、算,基础数据服务将持续释放其对于算法模型的基础支撑价值。 2)2) AIAI 产业对训练数据服务的需求持续产生、规模继续扩大产业对训练数据服务的需求持续产生、规模继续扩大 AI 产业对训练数据的需求主要来源于成熟算法模型的拓展性需求和新生算法模型的前瞻性需求。在成熟的拓展性需求方面,Mckinsey Global Institute 的研究报告表明: 深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。为充分发挥技术潜能, 深度学习模型需要海量且涵盖图像、 视频及语音在内等多种类型的训练数据进行模型训练。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新,因此,算法模
25、型所使用的训练数据亦需要定期更新。具体而言,约 1/3 的算法模型每月至少更新一次,约 1/4 的算法模型每日至少更新一次,算法模型持续更新的特点将进一步拓展各领域训练数据的需求空间。 而在新生的前瞻性需求方面,随着人工智能商业化进程的演进,新兴应用场景如智能驾驶、智联网 AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进 AI 技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。 3)3) 全全球和中国球和中国 AIAI 基础数据服务行业规模持续扩张基础数据服务行业规模持续扩张 i. 全
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海天瑞声 2021 年年 报告 摘要
限制150内