人工智能技术应用实践白皮书.docx
《人工智能技术应用实践白皮书.docx》由会员分享,可在线阅读,更多相关《人工智能技术应用实践白皮书.docx(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、目录摘要1数字时代,遇见AI2新机遇带来新的技术挑战 驾驭在AI加持下不断迭代的技术驾驭AI加持下的内容风控技术8如何构建具有快速识别能力的内容风控系统? 8如何高效降低内容风控系统的资源消耗?9如何敏捷响应多变的业务需求? 11如何获得具有场景泛化能力的AI算法模型? 12驾驭AI加持下的音视频技术14如何驾驭AI加持下的音频技术? 14如何驾驭AI加持下的视频处理技术? 17驾驭AI加持下的自然语言对话技术23如何高效解决访客需求? 23如何实现低本钱及高可用? 24如何实现快速冷启动? 25如何获得AI能力的持续优化? 26如何发挥人机交互的协同优势? 27如何提高语音交互与智能外呼的智
2、能度? 27持续创新的AI系统架构29数据32模型33算法34解决方案35部署与加速373939为企业插上AI技术的翅膀 网易智企服务案例详解|驾驭Al加持下的内容风控技术 内容风控技术用于检测违法违规、垃圾信息以及低质量内容,辅助企业对不同的风险类别进行差异化处 理,构建稳定、清朗的互联网环境O近年来,互联网、智能设备及各种新兴业务飞速开展,内容形式走向多元化、创作门槛大幅降低,使得图像、视 频、语音、文本、直播、聊天等线上内容井喷式增长。与此同时,内容风控问题日益凸显,内容安全成为互联网安全场景的重中之重。庞大且多维度的新场景对内容风控技术提出了新的挑战。新一代内容风控技术不仅需要能够稳定
3、、高效地在海量的 互联网信息中使用AI算法快速识别出有害信息,还需灵活地在未知的内容形式中进行筛检。网易易盾针对此进行了系统性难点分析,结合人工智能领域技术趋势,以实际识别效果为基础,从快速识别、敏捷 响应、低资源消耗、场景泛化等四个层面出发搭建了新一代数字内容风控系统。如何构建具有快速识别能力的内容风控系统?垃圾数据占比极低是内容风控任务的一项重要特征。网易易盾团队(以下简称“易盾团队”)需要在海量的数据中 筛选出占比可能只有万分之几、十万分之几的有害信息,进行快速识别。为了系统性地解决这个难题,易盾团队打造了内容风控系统多级动态推理方案o该方案模拟应试策略的思路,即 当卷面的简单题目占比高
4、、难题占比低时,智能调整计算方案为“先易后难”的应试方式,在保证“拿高分”的同 时保证答题的“速度” O该方案由任务级动态推理、网络级动态推理,以及数据级动态推理三项子技术方案构成。 任务级动态推理该方案将有害内容识别任务进行拆解,形成复杂度递增、流量递减的任务级联结构。在方案结构中,前级任务作为 后级任务的前置和短路o简单的数据一般会在第一级或前级任务终止,以保证低计算复杂度o复杂的嫌疑数据会流 入后续复杂任务,以保证识别效果。内容安全领域有害数据的数据占比极低,大多数的简单数据会终止在第一级任务,这使整体的任务级动态推理方案 能在保证速度的前提下同时保证识别效果。网络级动态推理易盾团队通过
5、结合动态网络的思想与内容风控业务的特征,提出早停网络内部蒸谯的思路来改进早停网络在多任务 训练不容易收敛的问题。其中,样本会根据识别结果,动态地停止在网络的某一层o由于内容风控领域绝大多数是 简单的正常样本,绝大多数样本都会停留在浅层位置,方案由此压缩计算复杂度,从而提升部署效率。 数据级动态推理输入数据样本的分辨率是另一个影响计算效率的关键因素。降低输入样本的分辨率可以指数级地降低计算复杂度, 从而提升模型和部署效率,但会带来识别效果降低的风险。在相关算法研究的基础之上,易盾团队提出了数据级动态推理的技术方案,根据分辨率进行蒸懒,在分辨率动态网 络的基础上,加入了大分辨率分支蒸镭小分辨率分支
6、的思路,从而进一步提升小分辨率分支的效果。如何高效降低内容风控系统的资源消耗?内容风控领域面向海量的互联网数据,特点是数据多、类型多、标签多、场景多、定制多、任务多。如果“面面俱 到”地进行数据标注,将产生一笔非常大的开销,甚至直接影响研发周期。易盾团队从数据生成、模型打标、人工打标三个角度出发,进行了全面的低资源消耗优化,成功形成无监督冷启动 的数据生成、基于跨任务融合的数据增广、基于师生互动多任务级联半监督学习的模型打标方案,以及基于多目 标主动学习的有效人工标注方案四项在降低资源消耗方面行之有效的技术方案。 无监督冷启动的数据生成有些场景缺少具备初始识别能力的模型,很难进行冷启动初始训练
7、数据。另外一些场景面向开放域的识别,对 应的类别和类型数量难以估量,因此数据标注基本不可行。针对网易易盾的业务场景,易盾团队设计了无监督 冷启动的数据生成方案。方案首先通过特征检索、聚类、多模态等方式产生初始伪标签或者提议,这时的伪标签有 明显的误漏标。随后,方案采用在线半监督的方法反复迭代,不断修复伪标签的误漏标问题,从而在整体上实现无 监督冷启动的数据生成。聚类ooo ooo ooo业务需求无监督冷启动数据生成检测检索分类 Ooe OOO oeo ooo OOO eoo I、基于跨任务融合的数据增广方案当模型有了初步的冷启动识别能力,但生成数据往往在分布上存在局限,与真实场景中的数据分布有
8、明显差异。为 构建可用的冷启动模型,从生成数据到真实数据的数据分布迁移是一项重要问题。其核心点在于,如何在识别能力 较弱的情况下提升增广数据的精确度。易盾团队设计了基于跨任务融合的样本增广方案,例如用检索和分类任务, 结合原有检测伪标签进行跨任务的融合标注,跨任务相比拟于单任务,能进一步的提升增广样本的精确度。无标签真实数据、Z模型迭代训练 基于肺生互动多任务级联半监督学习的模型打标方案模型打标有不确定性、多样性、数据域、精确度四个方面的要求。为了更好地平衡不确定性与精确度,易盾团队设计了跨任务师生互动的半监督学习方案。通过师生互动的方式,保 证学生模型的数据是其无法召回的难例,逐步舍弃能够很
9、好识别的简单样例,提升难例的数据占比。鉴于单任务的 方式容易过拟合,精度难以提高,团队设计了升级版的跨任务半监督方案,很大程度提升半监督数据的精度,以及 学生模型的识别效果。另外,方案将半监督、置信学习、噪声训练进行结合,让置信学习从打标数据集整体角度出 发,进一步提升数据集的精确度;噪声学习从训练角度出发,进一步改善模型训练对噪声标签的容忍性。最后,针 对数据域的问题,方案在原有任务的基础上增加数据域的识别和度量能力,以此作为数据锦选指标之一,提高打标 数据中域外数据的占比。5带噪训练 基于多目标主动学习的有效人工标注方案数据标注是降低资源消耗的重要环节,重点是对更加有效、贴合场景、有利于模
10、型训练、不冗余的数据进行数据标 注。其中,人工标注是“兜底方案”,需要和模型标注进行有效区分,防止重复。易盾团队从不确定性、多样性、 数据域三个角度出发进行建模,模型构成的综合评判将最终决定数据样本是否需要进行人工打标。以不确定性举例,不确定性意味着信息螭更高,以及更大概率是难例,筛选出的数据进行标注训练能更加具有针对 性地提升模型性能。另外,不确定性高的数据更难满足模型打标对精确度的要求。综合上述原因,这样的数据样本 有许多适合人工处理的点。易盾团队从类别、模型的角度出发,通过信息熠、置信度区间等综合维度对不确定性进 行建模,作为送标数据的参考指标。另外,样本的多样性也很重要。为了降低送标数
11、据的相似度,易盾团队以模型 特征维度为出发点,利用相似度度量、聚类等方式对多样性进行度量,作为送标数据的参考指标。在不确定性和多 样性的基础之上,方案还进一步地探索数据域的衡量指标,增加数据域的识别和度量能力,进一步丰富数据挖掘的 过程。Unlabeled dataUnlabeled data数据域的识别和度星能力数据域建模需要标注的数据如何敏捷响应多变的业务需求?内容风控领域面临三个涉及敏捷响应的问题:首先,算法模型难以保证百分之百的精确识别,需要在出现样例漏识 别的情况下进行查漏补缺;其次,不良和有害内容的类型层出不穷,在业务上经常要新增识别类型;最后,由于互联网不同类型产品之间内容形式的
12、差异性,算法识别会存在领域适配的问题。有害内容一旦漏过,将对相关业务造成持续性的损害。因此,内容风控业务对于AI识别系统的快速响应能力具有 非常严苛的要求。易盾团队针对这些特性设计了完整的敏捷响应技术方案,包括基于深度特征检索的目标样例模糊匹配方法、基于 动态特征拓展的新类别增量迭代和领域迁移学习的场景适配三个子技术方案。 使用深度特征检索定位敏感区域参考成熟的人脸识别系统,深度特征匹配通过目标位置定位、深度特征提取和样本库检索三个步骤进行。目前,深 度特征检索技术方案潼盖包括了标识类、旗帜类、服饰类、卡通人物类等类型。相较于人脸识别系统,这些类内间 距较大,且类间间距存在不确定性。易盾团队针
13、对不同的数据类型,制作了检测泛化性能更强的目标检测器和特征 区分性更好的特征提取器,实现了目标案例的快速兜底功能,增加了一层快速响应的保护机制。 使用动态特征拓展新类别增量迭代在内容风控场景下保持敏捷性,需要防止重头训练获得新知识的模型。其重点在于不能大量改动原有的模型,同时 快速增加对新类型的识别能力。为此,易盾团队构建了基于特征扩增方式的类别扩增技术方案,在保存局部原有模 型特征的基础上,通过可扩展表示(Expandable Representation),即扩增非常少量新特征的方式增加新类别的识 别能力。该方法已成功在垃圾广告、色情低俗等识别服务上取得了良好的效果。 使用领域迁移学习实现
14、快速场景适配算法场景适配技术要求模型能够快速适应新出现的检测业务场景,以及面对新场景数据保持稳定可靠的识别效果。 在技术实践层面上,这涉及数据生成和模型训练两个方面。针对训练数据,易盾团队结合在小样本扩增中使用的数 据增强技术,设计了场景数据定向生成技术方案,能够快速扩增特定场景类型下的训练数据。针对模型训练,方案 引入了不同场景数据之间的比照学习机制,进一步加强模型对于新场景的适应性。如何获得具有场景泛化能力的AI算法模型?场景泛化能力可更加完善地支撑多元场景需求,更全面地提升算法服务效果,更稳定地防范未知场景风险,对于内 容风控服务有着重要意义。对于频繁面临新增需求的业务来说,更好的场景泛
15、化能力意味着服务的效果与稳定性不 会随业务场景的迁移而下降,在绝大程度上防止反复的场景定制,以及防止反复的场景数据与标注。在提升场景泛化能力方面,易盾团队提出了基于未知域外泛化的场景泛化和基于开放域识别的识别范围泛化两项 技术方案。未知域外泛化场景下的算法泛化在内容风控领域中,想要获取全部的实际业务数据通常比拟困难。与此同时,数据的分布会随着时间的推移发生未 知的变化。为应对以上两个未知域外泛化场景下的核心问题,易盾团队需要在有效的数据域范围下,提高算法模型 在未知数据分布上的泛化能力,从数据增强、特征表示、训练策略三个方面进行优化。在数据增强方面,易盾团队在使用常规的数据增强方法之上,使用生
16、成方法于训练中交换同一批次的数据风格信 息,以获得具有原始分布之外的不可见样式的样本。在特征表示方面,易盾团队通过风格内容解耦的方法,消除目标本身相关特征与风格特征之间的虚假关联。同时, 算法团队通过域特征对齐的方法最小化来自不同域但同一类的样本之间的距离,最大化来自不同域和类的样本之间 的距离来学习不同域之间的语义对齐,挖掘出目标本身的相关特征。在训练策略方面,易盾团队针对不同源域设计不同的子模型网络,并根据实际情况设计多个或者一个分类头,以提 高整体的域泛化能力。基于上述工作,易盾团队还在网络训练过程中对模型的参数进行平均,到达进一步提高模型的泛化能力的目的。 开放域识别场景下的识别范围泛
17、化AI识别系统的场景泛化能力,指的既是数据分布上的泛化,也是识别范围的泛化。”数据分布上的泛化”,指的 是针对数据分布进行扩展;识别范围的泛化,那么是针对识别目标的类型进行扩展。识别范围泛化用于解决一大类问题,例如在Logo识别中支持任意类型的标识图像(Logo)识别,而非将logo拆 分为细分类型进行逐个击破。目前,易盾团队正在局部场景探索开放域支持任意类别的识别范围泛化解决方案。方 案从类别检索的角度,结合特征检索敏捷响应的特点,优化实例检索没有明确类别泛化的局限,从而快速实现对任 意类型的识别。此外,易盾团队会从多模态的角度,用文本特征新增表征类型,为方案提供新增图像类型的快速识 别能力
18、。驾驭Al加持下的音视频技术音视频技术为复杂的娱乐社交场景提供了整体体验上的优化和技术支撑,为网易各个业务的产品创新推 波助力。 音视频技术需要脱离实验室,在嘈杂的真实环境中进行运行,并且具有优异的泛场景计算能力以及保证 端便落地的低开销与稳定性。疫情持续的大环境下,视频通话、视频会议、在线教育等功能成为了人们工作生活中的刚性需求。丰富、广泛的市 场需求带动了音视频技术的超高速开展。与此同时,更加多元化和复杂化的应用场景也对音视频技术提出了更高的要求。面对实时处理的速度、高清的音视频质量以及对于直播、在线课程等不同场景下的定制化功能的要求,网易云信团 队(以下简称“云信团队”)对音视频的底层算
19、法技术及端侧应用进行了多维度优化。云信团队重点研究了 RTC 产品相关的音频处理技术,例如回声消除、降噪、自动增益控制等通话中长期应用的算法,同时持续关注最新技术 方向,如空间音效、基于统计机器学习和深度学习的AI降噪、场景检测、啸叫检测等。如何驾驭AI加持下的音频技术?AI技术的开展推动了相关音频算法的不断涌现。这些AI算法虽然能够在某些特定问题或实验室数据上获得优异表 现,但往往存在高本钱、无法适应真实应用场景、难以处理高维度声音环境等工程化问题,导致音频AI算法在真 实场景中的落地困难。作为对AI算法落地难问题的响应,云信团队的解决方案是将AI与DSP进行结合、提升AI算法在复杂场景的
20、泛化能力、端儡落地的低开销与稳定性,以及研发实时音视频环境中的AI算法。 结合AI与DSP算法数字信号处理(DSP)算法是传统音频处理任务的基础。AI音频算法相比传统DSP处理算法,对处理复杂的真实 场景存在一定短板,同时也带来更大的开销。AI和DSP的结合是当下音频通话领域一个高效的、可落地的、节省开销,也是云信团队力推的解决方案。以AI 回声消除为例,该方案在处理过程中保存了效果好、性价比高的DSP处理。如下列图所示,方案在处理过程中保存 了效果好、性价比高的DSP处理:时延估计和线性滤波。在非线性处理中,方案采用了基于RNN的网络模型替 代了传统DSP的处理,从而提升对非线性失真信号的处
21、理能力。远端参考信号基于DSP的线性处理f基于Al的非线性处理麦克风信号基于GCC-Phat的时延处理, 输出信号基于RNN的端到端AEC模型 基于LMS/卡尔曼的滤波器77 提升复杂场景下的泛化能力大局部AI算法在音频通话场景和针对目标声音的训练、验证集上会有很好的效果,但在未见过的测试集上效果会 有所回退。为保证算法在常见环境中的泛化能力,云信团队选择了从实时音视频通信(RTC)领域的数据集入手。目前AI音频相关的训练、测试数据大多集中在ASR、TTS等领域。在音频前处理的数据相对较少,针对音频通 话的数据那么更加稀缺。云信团队针对场景、采集设备,自行做了大量的数据采集和标注。通过开源数据
22、、采购数 据,对噪音进行实际录制,沉淀了一个多场景噪声集。云信团队在不同业务线的不同任务的算法研发时,可以从噪 声集中挑选出比拟有代表性的噪声作为占比重大的局部,并遍历一些其他噪声作为占比小的局部。音频处理也会在 不同场景下关注对不同混响、音乐源信号的抑制,同时也运用不同的数据增强方法,包括噪声注入、信号随机截 取、非线性拟合等。鉴于RTC采集设备相较传统 通信更加复杂,云信团队积累了大量的端侧设备处理经验:在涉及到设备扬声器 的数据(比方AI-AEC、AI啸叫检测的数据)时,通过覆盖设备录制和数据增强大量遍历模型所需数据;在只涉及 麦克风的数据时,由于麦克风的一致性相对较好,会相对减少覆盖设
23、备数量。另外,RTC领域的数据标注十分耗 时,云信团队会同时采取手动标注和交叉检查。为了进一步提升效率,在手动标注之前,团队还会用算法脚本初筛 一遍数据。(a) Original(j) Window Warping(b) Jittering(d) Scaling(e) Magnitude Warping(f) Permutation(h) Time Warping(g) Window Slicing 低开销谓例落地与稳定性提升相较于DSP处理,AI算法会带来更大的开销,导致本钱十分高昂。因此,目前RTC音频通话大局部需要在终 端做计算处理。因此,在研发过程中尤其需要关注算法的开销,以及其在不同
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 技术 应用 实践 白皮书
限制150内