海天瑞声:海天瑞声2021年年度报告.PDF
2021 年年度报告 1 / 272 公司代码:688787 公司简称:海天瑞声 北京海天瑞声科技股份有限公司北京海天瑞声科技股份有限公司 20212021 年年度报告年年度报告 2021 年年度报告 2 / 272 重要提示重要提示 一、一、 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性性、准确、准确性性、完整完整性性,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。,不存在虚假记载、误导性陈述或重大遗漏,并承担个别和连带的法律责任。 二、二、 公司上市时未盈利且尚未实现盈利公司上市时未盈利且尚未实现盈利 是 否 三、三、 重大风险提示重大风险提示 公司已在本报告中详细描述可能存在的风险,敬请查阅“第三节管理层讨论与分析” (之四) “风险因素”部分,请投资者注意投资风险。 四、四、 公司公司全体董事出席全体董事出席董事会会议。董事会会议。 五、五、 信永中和会计师事务所(特殊普通合伙)信永中和会计师事务所(特殊普通合伙)为本公司出具了为本公司出具了标准无保留意见标准无保留意见的审计报告。的审计报告。 六、六、 公司负责人公司负责人贺琳贺琳、 主管会计工作负责人、 主管会计工作负责人吕思遥吕思遥及会计机构负责人 (会计主管人员)及会计机构负责人 (会计主管人员) 杨韩杨韩声明:声明:保证年度报告中财务报告的真实、准确、完整。保证年度报告中财务报告的真实、准确、完整。 七、七、 董事会董事会决议通过的本报告期利润分配预案或公积金转增股本预案决议通过的本报告期利润分配预案或公积金转增股本预案 公司拟以实施权益分派股权登记日登记的总股本为基数分配利润,向全体股东每10股派发现金红利2.50元(含税) 。截至2021年12月31日,公司总股本42,800,000股,以此合计拟派发现金红利10,700,000.00元(含税)。本年度现金分红总额占合并报表实现归属于上市公司股东净利润的33.85%;公司本次不进行资本公积转增股本,不送红股。 上述利润分配方案已经公司第二届董事会第七次会议审议通过,尚需提交公司2021年年度股东大会审议。 八、八、 是否是否存在存在公司治理特殊安排等重要事项公司治理特殊安排等重要事项 适用 不适用 九、九、 前瞻性陈述的风险声明前瞻性陈述的风险声明 适用 不适用 2021 年年度报告 3 / 272 本报告中所涉及的未来计划、发展战略等前瞻性陈述,不构成本公司对投资者的承诺,敬请投资者注意投资风险。 十、十、 是否存在被控股股东及其关联方非经营性占用资金情况是否存在被控股股东及其关联方非经营性占用资金情况 否 十一、十一、 是否存在违反规定决策程序对外提供担保的情况是否存在违反规定决策程序对外提供担保的情况 否 十二、十二、 是否存在半数是否存在半数以上以上董事无法保证公司所披露年度报告的真实性、准确性和完整性董事无法保证公司所披露年度报告的真实性、准确性和完整性 否 十三、十三、 其他其他 适用 不适用 2021 年年度报告 4 / 272 目录目录 第一节 释义 . 5 第二节 公司简介和主要财务指标 . 7 第三节 管理层讨论与分析 . 14 第四节 公司治理 . 74 第五节 环境、社会责任和其他公司治理 . 98 第六节 重要事项 . 104 第七节 股份变动及股东情况 . 133 第八节 优先股相关情况 . 146 第九节 公司债券相关情况 . 146 第十节 财务报告 . 147 备查文件目录 载有公司法定代表人、主管会计工作负责人、会计机构负责人签名并盖章的财务报表 报告期内在中国证监会指定网站上公开披露的所有公司文件的正文以及公告的原稿 载有会计师事务所盖章、注册会计师签名并盖章的审计报告原件 2021 年年度报告 5 / 272 第一节第一节 释义释义 一、一、 释义释义 在本报告书中,除非文义另有所指,下列词语具有如下含义: 常用词语释义 本公司、公司、海天瑞声 指 北京海天瑞声科技股份有限公司 控股股东、 实际控制人 指 贺琳 中瑞安 指 北京中瑞安投资中心(有限合伙) ,为公司股东 中瑞立 指 北京中瑞立投资中心有(有限合伙) ,为公司股东 创慧科瑞 指 北京创慧科瑞投资管理有限公司,为北京中瑞立投资中心(有限合伙)普通合伙人、执行事务合伙人 创世联合 指 北京创世联合投资管理有限公司,为北京中瑞安投资中心(有限合伙)普通合伙人、执行事务合伙人 中移投资 指 中移投资控股有限责任公司,为公司的股东 清德投资 指 北京清德投资中心(有限合伙) ,为公司的股东 上海丰琬 指 上海丰琬投资合伙企业(有限合伙) ,为公司的股东 上海兴富 指 上海兴富创业投资管理中心(有限合伙) ,为公司的股东 中网投 指 中国互联网投资基金(有限合伙) ,为公司的股东 天津金星 指 天津金星创业投资有限公司,为公司的股东 杭州银杏数 指 杭州银杏数股权投资合伙企业(有限合伙) ,为公司的股东 杭州士兰 指 杭州士兰创业投资有限公司,为公司的股东 芜湖青和 指 芜湖朗姿青和一号股权投资合伙企业(有限合伙) ,为公司的股东 芜湖博信 指 芜湖博信五号股权投资合伙企业(有限合伙) ,为公司的股东 Appen 指 Appen Limited,是一家成立于澳大利亚的训练数据产品和服务提供商 慧听科技 指 北京慧听科技有限公司,是一家国内同行业的训练数据产品和服务提供商 标贝科技 指 标贝(北京)科技有限公司,是一家国内同行业的训练数据产品和服务提供商 证监会 指 中国证券监督管理委员会 上交所 指 上海证券交易所 工信部 指 中华人民共和国工业和信息化部 公司法 指 中华人民共和国公司法 证券法 指 中华人民共和国证券法 上市规则 指 上海证券交易所科创板股票上市规则 公司章程 指 北京海天瑞声科技股份有限公司章程 报告期 指 2021 年 1 月 1 日至 2021 年 12 月 31 日 华泰联合证券 指 华泰联合证券有限责任公司,公司保荐机构、持续督导机构 信永中和 指 信永中和会计师事务所(特殊普通合伙) ,公司审计机构 元、万元、亿元 指 如无特别说明,均以人民币为度量币种 训练数据 指 通过采集与处理等步骤形成的、结构化的、可供人工智能算法模型训练使用的数据 算法 指 解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制 算力 指 计算能力 人工智能(AI) 指 Artificial Intelligence, 是研究、 开发用于模拟、 延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学 2021 年年度报告 6 / 272 机器学习 指 Machine Learning, 是一门专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科 深度学习 指 Deep Learning,机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本 模型 指 为解决人工智能领域的相应问题,而专门设计的某种算法框架,并通过大量数据训练拟合来调整相应参数,最终得到能解决实际问题的一套算法和参数 引擎 指 是计算机平台上开发相应应用程序或软件系统的核心组件 鲁棒性 指 鲁棒性亦称稳健性、强健性,是指计算机软件/系统在异常和危险情况下生存的能力。例如,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性 智能语音 指 实现人机语言的通信, 包括语音识别技术 (ASR) 和语音合成技术 (TTS) 语音识别(ASR) 指 Automatic Speech Recognition, 是一种将语音信号自动转换为文本的技术,是实现智能人机交互的关键技术之一 语音合成(TTS) 指 Text to Speech,即“从文本到语音” ,是一种将文字智能地转化为自然语音的技术 自然语言/自然语言处理(NLP) 指 Natural Language Processing, 是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 计 算 机 视 觉(CV) 指 Computer Vision, 是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等 光学字符识别(OCR) 指 是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程 IoT 指 物联网( IoT ,Internet of things )即“万物相连的互联网” ,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与网络结合起来而形成的一个巨大网络,实现任何时间、任何地点,人、机、物的互联互通 智能驾驶 指 指的是机器帮助人进行驾驶,以及在特殊情况下完全取代人驾驶的技术 DMS 指 驾驶员监控系统,即 DMS(Driver Monitor System) OMS 指 乘客监控系统,即 OMS(Occupancy Monitor System) 虚拟人 指 虚拟人(VirtualHuman)是通过建模、动作捕捉或 AI 等科技手段,制作出具有外貌特征和行为模式的虚拟形象,并通过显示设备呈现出来。虚拟人创造的价值主要是打破物理的空间限制,提供了更多沉浸感、参与感和互动感 原料数据 指 Raw Data,即未经加工处理的原始数据 采集 指 使用软件工具、录音设备、图像拍摄设备等收集、录制和获取原料数据的过程 标注 指 训练数据的生产步骤之一,指对原料数据进行加工,进而生成符合算法模型训练要求的训练数据的过程 转写 指 通过软件加工、人工听写等手段将语音片段转换为对应的文本的加工步骤 词性 指 以词的特点划分的词类,如名词、代词、动词、形容词、数词、量词等 韵律 指 韵律通常指语音语句中各词之间的停顿时长情况 声纹 指 用电声学仪器显示的携带言语信息的声波频谱 音色 指 声音的特征,指的声音在波形方面具有的与众不同的特性 ITN 指 ITN(Inverse Text Normalization, 逆文本正则化) , 将正则化的文本形式(例如:二零二二年二月十日)转换成书写体形式(例如:2022-02-10) 2021 年年度报告 7 / 272 第二节第二节 公司简介和主要财务指标公司简介和主要财务指标 一、一、公司基本情况公司基本情况 公司的中文名称 北京海天瑞声科技股份有限公司 公司的中文简称 海天瑞声 公司的外文名称 Beijing Haitian Ruisheng Science Technology Ltd. 公司的外文名称缩写 Speechocean 公司的法定代表人 贺琳 公司注册地址 北京市海淀区成府路28号4-801 公司注册地址的历史变更情况 2012年9月14日,公司地址由北京市海淀区知春路甲48号3号楼4单元6B变更为北京市海淀区成府路28号4-801 公司办公地址 北京市海淀区成府路28号4-801 公司办公地址的邮政编码 100083 公司网址 电子信箱 二、二、联系人和联系方式联系人和联系方式 董事会秘书 (信息披露境内代表) 证券事务代表 姓名 吕思遥 张哲 联系地址 北京市海淀区成府路28号4-801 北京市海淀区成府路28号4-801 电话 010-62660772 010-62660772 传真 010-62660892 010-62660892 电子信箱 三、三、信息披露及备置地点信息披露及备置地点 公司披露年度报告的媒体名称及网址 中国证券报 () 、 上海证券报 () 、 证券日报 () 、 证券时报 () 2021 年年度报告 8 / 272 公司披露年度报告的证券交易所网址 公司年度报告备置地点 公司董事会办公室 四、四、公司股票公司股票/存托凭证简况存托凭证简况 (一一) 公司股票简况公司股票简况 适用 不适用 公司股票简况 股票种类 股票上市交易所及板块 股票简称 股票代码 变更前股票简称 人民币普通股(A股) 上海证券交易所科创板 海天瑞声 688787 不适用 (二二) 公司公司存托凭证存托凭证简简况况 适用 不适用 五、五、其他其他相相关资料关资料 公司聘请的会计师事务所(境内) 名称 信永中和会计师事务所(特殊普通合伙) 办公地址 北京市东城区朝阳门北大街 8 号富华大厦A 座 8 层 签字会计师姓名 郭勇、左东强 报告期内履行持续督导职责的保荐机构 名称 华泰联合证券有限责任公司 办公地址 北京市西城区丰盛胡同 22 号丰铭国际大厦A 座 6 层 签字的保荐代表人姓名 张鹏、葛青 持续督导的期间 2021 年 8 月 13 日-2024 年 12 月 31 日 2021 年年度报告 9 / 272 六、六、近三年主要会计数据和财务指标近三年主要会计数据和财务指标 (一一) 主要会计数据主要会计数据 单位:元 币种:人民币 主要会计数据 2021年 2020年 本期比上年同期增减(%) 2019年 营业收入 206,476,533.04 233,373,953.01 -11.53 237,558,118.15 归属于上市公司股东的净利润 31,605,431.79 82,081,021.91 -61.49 81,586,824.49 归属于上市公司股东的扣除非经常性损益的净利润 21,067,433.20 73,015,355.36 -71.15 76,246,636.59 经营活动产生的现金流量净额 -15,548,319.63 51,176,659.14 -130.38 83,363,303.85 2021年末 2020年末 本期末比上年同期末增减(%) 2019年末 归属于上市公司股东的净资产 805,908,403.05 437,956,372.58 84.02 355,951,438.36 总资产 840,663,396.09 477,350,038.99 76.11 404,539,351.88 (二二) 主要财务指标主要财务指标 主要财务指标 2021年 2020年 本期比上年同期增减(%) 2019年 基本每股收益(元股) 0.89 2.56 -65.23 2.72 稀释每股收益(元股) 0.89 2.56 -65.23 2.72 扣除非经常性损益后的基本每股收益(元股) 0.59 2.27 -74.01 2.54 加权平均净资产收益率(%) 5.59 20.68 减少15.09个百分点 39.78 扣除非经常性损益后的加权平均净资产收益率(%) 3.72 18.39 减少14.67个百分点 37.17 研发投入占营业收入的比例(%) 29.31 18.64 增加10.67个百分点 17.55 2021 年年度报告 10 / 272 报告期末公司前三年主要会计数据和财务指标的说明 适用 不适用 (1)报告期内,公司实现营业收入 20,647.65 万元,实现归属于上市公司股东的净利润3,160.54 万元,实现归属于上市公司股东的扣除非经常性损益的净利润 2,106.74 万元,分别较上年同期减少 11.53%、61.49%、71.15%。主要系报告期内,在境外新冠肺炎疫情出现重大反复的大背景下,公司境外业务遭受一定冲击,与此同时,行业竞争态势进一步加剧,带来了一定的价格竞争压力。此外,公司各项投入尤其是研发投入逆势提升,由此导致公司整体业绩明显承压。 (2)截至报告期末,公司总资产为 84,066.34 万元,归属于上市公司股东的净资产为80,590.84 万元,分别较上年末增加 76.11%和 84.02%。主要系报告期内公司在科创板首次公开发行股票收到募集资金所致。 (3) 报告期内, 经营活动产生的现金流量净额为-1,554.83 万元, 较上年同期减少 130.38%。主要系报告期内, 部分信用期内应收款项增加, 同时公司各项投入尤其是研发投入显著增加所致。 (4)报告期内,基本每股收益及稀释每股收益较上年同期减少 65.23%,扣除非经常性损益后的基本每股收益较上年同期减少 74.01%,加权平均净资产收益率较上年同期减少 15.09 个百分点,扣除非经常性损益后的加权平均净资产收益率较上年同期减少 14.67 个百分点。主要系报告期内公司净利润及扣除非经常性损益的净利润降幅明显、同时在科创板首次公开发行股票使得股本和平均净资产增幅明显所致。 (5)报告期内,研发投入占营业收入的比例较上年同期增加 10.67 个百分点。主要系报告期内根据公司技术驱动及产品驱动的定位,并快速响应行业发展和变化,提升市场占有率和研发领先实力,2021 年公司在基础研发和产品研发领域均加大投入,以提高数据处理智能化水平、建设智能驾驶垂直领域技术平台能力、并加大智能语音、计算机视觉领域多语种多模态训练数据集产品储备所致。 七、七、境内外会计准则下会计数据差异境内外会计准则下会计数据差异 (一一) 同时按照国际会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东同时按照国际会计准则与按中国会计准则披露的财务报告中净利润和归属于上市公司股东的净资产差异情况的净资产差异情况 适用 不适用 (二二) 同时按照境外会计准则与按中国会计准则披露的财务报告中净利润和同时按照境外会计准则与按中国会计准则披露的财务报告中净利润和归归属于上市公司股东属于上市公司股东的净资产差异情况的净资产差异情况 适用 不适用 (三三) 境内外会计准则差异的说明:境内外会计准则差异的说明: 适用 不适用 2021 年年度报告 11 / 272 八、八、2021 年分季度主要财务数据年分季度主要财务数据 单位:元 币种:人民币 第一季度 (1-3 月份) 第二季度 (4-6 月份) 第三季度 (7-9 月份) 第四季度 (10-12 月份) 营业收入 44,238,877.46 61,762,722.07 24,774,663.82 75,700,269.69 归属于上市公司股东的净利润 16,341,743.76 21,473,377.86 -12,156,689.84 5,947,000.01 归属于上市公司股东的扣除非经常性损益后的净利润 14,324,978.64 19,365,100.35 -14,490,933.13 1,868,287.34 经营活动产生的现金流量净额 18,456,157.25 -8,507,682.68 -23,550,934.24 -1,945,859.96 季度数据与已披露定期报告数据差异说明 适用 不适用 九、九、非经常性损益项目和金额非经常性损益项目和金额 适用 不适用 单位:元 币种:人民币 非经常性损益项目 2021 年金额 附注(如适用) 2020 年金额 2019 年金额 非流动资产处置损益 -71,209.52 -127,056.60 -127,281.24 越权审批,或无正式批准文件,或偶发性的税收返还、减免 计入当期损益的政府补助,但与公司正常经营业务密切相关,符合国家政策规定、按照一定标准定额或定量持续享受的政府补助除外 236,043.05 主要为个税手续费返还及稳岗补贴 463,020.71 1,652,028.84 2021 年年度报告 12 / 272 计入当期损益的对非金融企业收取的资金占用费 企业取得子公司、联营企业及合营企业的投资成本小于取得投资时应享有被投资单位可辨认净资产公允价值产生的收益 非货币性资产交换损益 委托他人投资或管理资产的损益 因不可抗力因素,如遭受自然灾害而计提的各项资产减值准备 债务重组损益 企业重组费用,如安置职工的支出、整合费用等 交易价格显失公允的交易产生的超过公允价值部分的损益 同一控制下企业合并产生的子公司期初至合并日的当期净损益 与公司正常经营业务无关的或有事项产生的损益 除同公司正常经营业务相关的有效套期保值业务外,持有交易性金融资产、衍生金融资产、交易性金融负债、衍11,269,574.01 公司为提高资金使用效益,购买银行保本浮动收益型理财9,483,852.59 4,556,739.26 2021 年年度报告 13 / 272 生金融负债产生的公允价值变动损益,以及处置交易性金融资产、衍生金融资产、交易性金融负债、衍生金融负债和其他债权投资取得的投资收益 产品取得的投资收益 单独进行减值测试的应收款项、合同资产减值准备转回 对外委托贷款取得的损益 采用公允价值模式进行后续计量的投资性房地产公允价值变动产生的损益 根据税收、会计等法律、法规的要求对当期损益进行一次性调整对当期损益的影响 受托经营取得的托管费收入 除上述各项之外的其他营业外收入和支出 278,099.67 258,391.47 -147,944.75 其他符合非经常性损益定义的损益项目 减:所得税影响额 1,174,508.62 1,012,541.62 593,354.21 少数股东权益影响额(税后) 合计 10,537,998.59 9,065,666.55 5,340,187.90 2021 年年度报告 14 / 272 将公开发行证券的公司信息披露解释性公告第 1 号非经常性损益中列举的非经常性损益项目界定为经常性损益项目的情况说明 适用 不适用 十、十、采用公允价值计量的项目采用公允价值计量的项目 适用 不适用 单位:元 币种:人民币 项目 名称 期初余额 期末余额 当期变动 对当期利润的影响金额 交易性金融资产 331,089,456.16 418,011,036.99 86,921,580.83 11,269,574.01 合计 331,089,456.16 418,011,036.99 86,921,580.83 11,269,574.01 十一、十一、非企业会计准则业绩指标说明非企业会计准则业绩指标说明 适用 不适用 第三节第三节 管理层讨论与分析管理层讨论与分析 一、一、经营情况经营情况讨论与分析讨论与分析 2021 年,全球范围内 AI 产业在朝着全方位商业化的发展方向进一步迈进,AI 训练数据服务行业继续保持快速增长趋势,市场规模仍具有较大上升空间。此外,国家在顶层设计中明确提出要培育数据要素市场并推出一系列相关政策进行引导,加快规模化构建数据服务市场。根据国际数据公司(IDC) 2021 年中国人工智能基础数据服务市场研究报告 ,预计中国 AI 基础数据服务市场规模近 5 年来的复合年增长率达到 47%,预期 2025 年将突破 120 亿元。 但与此同时,2021 年年中左右,新冠肺炎疫情继续在境外多个国家/地区肆虐并出现重大反复。行业景气度的提升吸引更多新进入企业,部分快速但无序发展的现象逐步显现,行业竞争进一步加剧。综上情况,AI 训练数据服务行业发展环境整体呈现一些新的复杂变化。 在此背景下, 公司继续坚守自 2005 年创立以来所确立的使命-做智能世界的数据基石, 按照技术+产品双轮驱动的定位持续加大投入,致力于为 AI 产业链上的各类机构提供算法模型开发训练所需的专业数据集,并在稳步推进基础服务领域业务发展的同时,积极拓展包括智能驾驶等新兴领域在内的业务规模,为公司未来保持中长期健康发展奠定基础。 报告期内,境外新冠肺炎疫情出现重大反复,公司境外业务遭受一定冲击;与此同时,行业竞争态势进一步加剧,带来了一定的价格竞争压力;此外,公司各项投入尤其是研发投入逆势提升,由此导致公司整体业绩明显承压。公司实现营业收入 20,647.65 万元,实现归属于母公司所2021 年年度报告 15 / 272 有者的净利润 3,160.54 万元,实现归属于母公司所有者的扣除非经常性损益的净利润 2,106.74万元,分别较上年同期减少 11.53%、61.49%、71.15%。截至报告期末,公司总资产为 84,066.34万元,归属于母公司的所有者权益为 80,590.84 万元,分别较上年末增加 76.11%和 84.02%。 2021 年,面对行业长期向好与中短期复杂多变叠加的发展环境,公司保持战略定力,围绕既定目标重点做了以下工作: (一一) 加大算法平台及技术研发投入,深耕标准化产品储备,增厚语音语言学研究实力,巩固加大算法平台及技术研发投入,深耕标准化产品储备,增厚语音语言学研究实力,巩固核心竞争力核心竞争力 按照技术+产品双轮驱动的定位,在业绩承压的背景下,公司逆势持续加大研发投入,不断提升技术和平台工具先进性、加大标准化数据集产品储备、增厚语音语言学基础研究领先性,持续巩固公司核心竞争力。 报告期内, 公司研发费用共计 6,052.09 万元, 占当期营业收入的 29.31%,研发投入同比增长 39.14%,在研发投入金额和研发投入占收入比两个维度均创公司历史新高。截至报告期末,公司研发人员数量增加至 77 人,同比增幅达 75%。 在基础研发投入方面,算法及平台工具等研发人员数量显著增加,主要投入在人工智能基础算法研究、语音/智能驾驶/OCR 智能标注技术及平台研发、多语种语料设计平台升级、前沿技术研发等领域,并形成了一些代表性成果: 1. 新增算法模型框架 2 个、算法模型 56 个,算法框架扩展性可支持场景超过 10 种,较去年同期大幅提升,新增包括唤醒词自动识别、ITN 模块识别等复杂场景;完成多决策引擎策略上线,算法自动识别跳过人工处理能力实现中文语音领域全覆盖;引入包括音乐检测、语种识别、能量缺失检测在内的 7 种算法, 实现对应领域的短/长音频整体数据处理算法预识别率超过 20%,最高预识别率超过 90%。 2. 进一步拓展一体化数据处理平台的覆盖领域及处理能力, 全面支撑公司不断向训练数据生产智能化方向演进:(1) 升级多通道采集及移动端采集子平台, 通过持续提升多模态多通道采集、数据同步等技术研发,实现远程采集管理、8 通道语音数据同时录入、自动对齐整合等功能,解决了噪音种类增多、对齐难度增大、处理环节人工介入难度提升等行业痛点,并成为持续应对新冠肺炎疫情下聚集型采集受限的有效措施; (2)升级智能驾驶标注子平台,新增 2D 标注超过 50个功能点,全面覆盖车道线标注、行驶区域标注、交通标识标注等业务场景,新增 3D 标注全新界面和交互体验及超过 30 个功能点,标注效率显著提升,新增 3D+2D 联合标注功能,支持 3D立体框到 2D 平面框的自动映射,实现标注能力、效率双提升,并启动智能驾驶语义分割模块研发,为平台持续迭代提前布局; (3)新增 OCR 标注子平台,支持中文、英文、日文、德文、西班牙文、阿拉伯文等 10 余个主流语种的文字识别算法接入。 3.在多语种语料设计领域, 更新优化多语种语料设计平台, 使之能够对包括近 30 个语种的复杂语音识别语料进行自动设计、并对语音合成语料设计提供有力支撑,确保满足甚至超出客户预期; 2021 年年度报告 16 / 272 4.按照前期规划,公司已启动包括声纹识别、计算机视觉识别等在内的多个前沿技术方向的前瞻性布局、投入:在声纹识别领域,通过实现直观展示声纹识别引擎效果,大幅度提升声纹识别系统交互友好度;在虚拟人应用领域,针对特殊场景下的采集、标注需求,新增多套动作捕捉工具,并提炼针对多个动作数据的质检点,保障了该新兴业务应用的加速落地。 通过上述投入,截至报告期末,公司已经取得 24 项发明专利、1 项实用新型专利授权及 1 项外观设计专利授权,156 项计算机软件著作权,另有 4 项专利已提交申请。同时,公司实质性地提升了自身的算法能力、工程化数据研发及生产能力,形成了更为合理、高效的人机协同智能化解决方案,持续降低训练数据开发成本,以 AI 赋能训练数据开发,以训练数据赋能 AI 发展。 标准化训练数据集产品的知识产权由公司享有,具有一次性研发生产、可重复多次销售的特点,这也是公司区别于众多竞争对手以定制化服务为主的特有商业模式。在产品研发方面,截止报告期末, 公司新增研发百余个训练数据集产品, 自有知识产权的训练数据产品储备超过930个,全面覆盖智能语音、计算机视觉、自然语言各条业务线,尤其在多语种语音数据集、智能驾驶路况数据集、动作捕捉等多模态训练数据集方面积累了更丰富的标准化产品资源,为实现未来可持续性销售、毛利空间提升奠定基础。公司近两年标准化数据集产品储备情况如下: 业务类型业务类型 应用领域应用领域 储备量(截止储备量(截止2020 年末)年末) 储备量(截止储备量(截止2021 年末)年末) 1、智能语音、智能语音 个人助手、语音输入、智能家居、智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智慧金融等 579 个 680 个 2、计算机视觉、计算机视觉 智能驾驶、移动社交、虚拟人、智慧金融、智慧交通、智慧城市、OCR 识别等 82 个 108 个 3、自然语言、自然语言 机器翻译、智能问答、信息提取、情感分析等 101 个 144 个 合合 计计 762 个个 932 个个 基于公司在标准化产品数据集方面的积累以及丰富的定制化训练数据服务经验沉淀,截止报告期末, 公司已向下游客户提供了累计超4,000次/个定制或标准化训练数据集, 可覆盖生活交流、客服、家居、行车、办公、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成独具特色的训练数据资源及服务能力集群, 并已应用于个人助手、 语音输入、 智能家居、 智能客服、机器人、语音导航、智能播报、语音翻译、移动社交、虚拟人、智能驾驶、智慧金融、智慧交通、智慧城市、机器翻译、智能问答、信息提取、情感分析、OCR 识别等 19 类创新应用领域,赋能人工智能技术与实体经济的深度融合。 在语音语言学基础研究方面,公司掌握了丰富的合作语言学家团队资源,成员遍布世界各地的学校及研究机构,在语音语言学领域具备丰富经验和技术储备;此外,公司建立了成熟的发音词典构建流程、积累了深厚的语音语言学基础研究成果。截至报告期末,公司已经拥有 170 余个语种/方言的覆盖能力,不仅包括含英、法、德、意、西、日、韩等常见语种,还包括东南亚、一2021 年年度报告 17 / 272 带一路等国家地区的罕见小语种,尤其在亚洲小语种的服务上具备竞争优势。同时,公司已积累下超过 100 个语种/方言的发音词典, 覆盖希伯来语、 乌尔都语、 缅甸语、 阿姆哈拉语、 普什图语、阿尔巴尼亚语、格鲁吉亚语等小语种,累计词条数超过 1,000 万条,可支撑构建高质量的智能语音训练数据,是公司的主要壁垒及核心技术之一。 通过上述在算法、平台及技术研发、标准化产品资源积累、语音语言学基础研究等方向上的持续投入,公司核心竞争力得到进一步巩固;不断积累的核心技术和专业服务能力,使得公司能够更大规模、更有效率、更加精准地工程化生产训练数据,在提升自身产出效率的同时也有效提高了训练数据对于客户 AI 算法模型的改善、优化效果。 (二二) 布局智能驾驶业务,为商业化进程奠定基础布局智能驾驶业务,为商业化进程奠定基础 2021 年,公司在稳固发展基础数据服务领域业务的同时,积极开拓新兴垂直行业领域,借助智能驾驶市场加速发展的契机, 全面布局智能驾驶数据服务领域, 并启动进行内部组织体系重构、筹备组建智能驾驶业务事业部,持续迭代舱内交互语音数据解决方案、舱内外 2D 标注平台、舱外 3D 标注平台、并新增上线 2D-3D 联合标注解决方案,通过自研产出一批智能驾驶领域的标准化数据集产品,从研发、技术、业务、销售等维度为该业务板块配置专项资源,旨在紧抓市场契机、为未来实现全面商业化、培育新的增长点奠定基础。 报告期内,得益于汽车智能化普及和智能驾驶技术的逐步量产落地,与智能驾驶相关的数据需求开始呈现规模化趋势。2021 年,公司在智能驾驶业务领域实现营业收入接近 2,000 万元,同比增长 166%,客户数量超过 25 家,覆盖传统车企、新势力车企、自动驾驶技术公司等。公司依托过往在智能语音、计算机视觉领域服务客户过程中所沉淀的经验和资源,不仅能够为智能驾驶客户提供包括车载语音数据、DMS 以及 OMS 数据等在内的舱内数据服务及产品,支持客户在座舱人机交互、安全驾驶监控等方面的应用需求,并已将服务领域拓展至舱外,支撑客户在道路识别、行车决策、泊车决策等场景下的应用需求。 (三三) 主动应对市场大环境挑战,调整优化销售体系主动应对市场大环境挑战,调整优化销售体系 在新冠肺炎疫情全球范围内爆发之前,公司主要通过参加全球各类主流学术会议、展会、实地拜访来与境外客户进行直接面对面交流沟通、辅助实现销售目标的达成。报告期内,由于境外新冠肺炎疫情出现重大反复,上述各类会议大部分停办或在线举办,致使公司传统展会营销模式受到较大影响。 此外, 境外主要客户在疫情防控期间改为居家办公模式, 境内外交通也不够畅通,使公司传统的境外客户触达模式受阻。面对这种局面,公司在 2021 年下半年开始筹建更大规模的销售团队以进行面向客户的贴身服务, 并在美国和国内新兴 AI 产业集聚城市新设经营主体、 服务网点,增加客户覆盖密度、形成直接触达境内、外客户的能力,提升客户需求响应速度和客户服务体验,对冲疫情负面影响。 伴随训练数据对于 AI 产业发展的重要性更为凸显, 新进入本行业的企业数量快速增长, 但同时由于整体行业处于发展阶段,行业标准和法律监管仍处于持续完善阶段,导致行业目前处于高2021 年年度报告 18 / 272 速发展的同时部分快速但无序发展的现象也逐步显现。针对这种现状,公司仍然保证自身符合合规运作标准并持续提升投入,并实施更具竞争力的定价策略、市场推广策略(包括官网、自媒体营销等) ,积极应对价格竞争。 在客户拓展方面,公司在持续深挖包括科技互联网、IoT 等领域在内的现有头部客户群体需求的同时,更大范围地拓展诸如社交、智能驾驶等其他新领域、新客户,同时承接包括中国科学技术大学等在内的部分战略型客户需求,并持续挖掘腰部客户和中小客户需求,不断丰富公司的客户群体。截止报告期末,公司客户数量达到 695 家,存量客户覆盖科技互联网、社交、IoT、智能驾驶、教育科研、智慧金融、政企服务、医疗等领域,2021 年当年新增客户 145 家,是公司近五年来单年新增客户数量最多的一年,为公司下一步业务扩张和发展打下基础。 (四四) 成功登陆科创板,未来成长增添新动力成功登陆科创板,未来成长增添新动力 2021 年 8 月 13 日,公司成功在上海证券交易所科创板挂牌上市,成为我国 AI 基础数据服务行业首家登陆沪深证券交易所的企业。 本次股票发行募集资金总额 39,525.80 万元,募集资金净额为 33,635.69 万元。登陆资本市场,是海天瑞声发展的一次跨越,公司将以本次发行上市为契机,在深入研究行业发展阶段和未来发展趋势的基础上,通过募投项目的实施,持续扩充标准化数据集产品积累、完善平台体系建设、实现研发和技术体系升级,不断提升公司技术体系、产品体系的领先性,从而进一步增强公司的核心竞争力。 (五五) 内部培养与外部引入并重,加强重点人才战略布局内部培养与外部引入并重,加强重点人才战略布局 报告期内,公司采用内部培养与外部引进相结合的人才供应机制,通过在研发(算法、基础研究) 、技术、销售等重要部门及岗位持续引进高级人才和关键人才,优化人才结构、加强重点人才战略布局,持续推动公司高素质人才队伍的建设发展。全年新增人员 94 名,同比增幅达到62.25%,加大人才储备旨在为公司未来 3-5 年快速扩张提供持续强劲的内在动力。 二、二、报告期内公司所从事的主要业务、经营模式、行业情况及报告期内公司所从事的主要业务、经营模式、行业情况及研发情况研发情况说明说明 (一一) 主要业务、主要产品或主要业务、主要产品或服务服务情况情况 1 1、 主要业务情况主要业务情况 公司主要从事 AI 训练数据的研发设计、生产及销售业务。公司通过设计数据集结构、组织数据采集