2022年用于知识蒸馏的网络训练方法、装置、介质与电子设备的制作方法 .pdf
《2022年用于知识蒸馏的网络训练方法、装置、介质与电子设备的制作方法 .pdf》由会员分享,可在线阅读,更多相关《2022年用于知识蒸馏的网络训练方法、装置、介质与电子设备的制作方法 .pdf(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、本公开提供了一种用于知识蒸馏的网络训练方法、装置、存储介质与电子设备,涉及人工智能技术 领域。该方法包括:将样本数据输入教师网络,获得所述样本数据对应的软标签数据,将所述样本数据输入学生网络,获得所述样本数据对应的预测数据;基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数;根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数。本公开可以对教师网络和学生网络同步训练,降低学生网络对于教师网络的依赖度,提高学生网络的训练效果,并且可以加速训练过程,提高效率。技术要求1.一种用于知识蒸馏的网络训练方法,其特征在于,包括:将样本数据输入教师网络,获得所述样本数据对
2、应的软标签数据,将所述样本数据输入学生网络,获得所述样本数据对应的预测数据;基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数;根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数。2.根据权利要求1所述的方法,其特征在于,所述软标签数据包括通过所述教师网络对所述样本数据进行分类得到的第一概率数据,所述预测数据包括通过所分类得到的第二概率数据。3.根据权利要求1所述的方法,其特征在于,所述基于所述预测数据、所述软标签数据和所述样本数据对应的硬标签数据,构建损失函数,包括:根据所述预测数据和所述硬标签数据,构建第一子损失;根据所述预测数据和所述软标签数据,构建
3、第二子损失;根据所述第一子损失和所述第二子损失,确定所述损失函数。4.根据权利要求3所述的方法,其特征在于,所述样本数据包括正样本;所述根据所述预测数据和所述软标签数据,构建第二子损失,包括:根据所述正样本对应的预测数据和所述正样本对应的软标签数据,构建所述第二子损失。5.根据权利要求4所述的方法,其特征在于,所述根据所述损失函数更新所述教师网络中的参数和所述学生网络中的参数,包括:根据所述损失函数和所述正样本对应的预测数据,更新所述学生网络中的参数;根据所述损失函数和所述正样本对应的软标签数据,更新所述教师网络中的参数。6.根据权利要求5所述的方法,其特征在于,所述正样本对应的预测数据包括对
4、所述正样本的学生预测值和所述学生预测值对应的概率;所述根据所述损失函据,更新所述学生网络中的参数,包括:根据所述损失函数对所述学生预测值的梯度,更新所述学生网络中的参数,使所述学生预测值对应的概率趋近于1。7.根据权利要求6所述的方法,其特征在于,所述正样本对应的软标签数据包括对所述正样本的教师预测值和所述教师预测值对应的概率,所述根据所述损失更新所述学生网络中的参数,使所述学生预测值对应的概率趋近于1,包括:根据所述损失函数对所述学生预测值的梯度,以及所述学生预测值和所述教师预测值之间的误差,更新所述学生网络中的参数,使所述学生预测值对应的概的概率。8.根据权利要求6所述的方法,其特征在于,
5、所述根据所述损失函数和所述正样本对应的软标签数据,更新所述教师网络中的参数,包括:根据所述损失函数对所述教师预测值的梯度,更新所述教师网络中的参数,使所述教师预测值对应的概率趋近于1。名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 9 页 -9.根据权利要求1所述的方法,其特征在于,所述损失函数为:其中,L为所述损失函数,i表示所述硬标签数据的类别,yi为第i类硬标签数据,为第i类硬标签数据对应的预测数据,为第i类硬标签数据对应的数,min(yi)1-pA(x1),pT(x1)1-pT(x1);(8)y(x2)0;(9)名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共
6、 9 页 -pA(x2)1-pA(x2),pT(x2)1-pT(x2);(10)其中,x1为第一类正样本,x2为第二类正样本,y(x1)为x1对应的硬标签数据,y(x2)为x2对应的硬标签数据,pA(x1)为x1对应的预测数据,pA(x2)为x2网络正确分类的负标签(0)样本数据。基于此,可以根据pA(x1)和pT(x1)分别计算第一梯度和第二梯度的下降,以分别更新学生网络和教师网络中的参数,使p别计算第一梯度和第二梯度的下降,以分别更新学生网络和教师网络中的参数,使pA(x2)趋近于pT(x2)和y(x2),且pT(x2)趋近于pA(x2)和y(x2)。其中,pT(x1)为x1对应的软标签数
7、据,pT(x2)为x2对应的软标签数据。需要说明的是,上述两个步骤分别是在x1和x2上进行的调整,可以是相互独立的步骤。述。在第一梯度下降的过程中,学生网络主要做两点调整:逐渐增大pA(x1),使其趋近于y(x1)(即1);使pA(x1)逐渐趋近于pT(x1),即希望学生网络逐渐拟合教师网在第二梯度下降的过程中,教师网络主要是在x1上逐渐增大pT(x1),使pT(x1)逐渐趋近于y(x1)(即1),同时也逐渐拟合pA(x1)。教师网络所采用的第二梯度为对数函数,相比于学生网络,教师网络在梯度下降的过程中较为稳定,其调整量小于学生网络,这符合知识蒸馏本身的原理。越高,教师网络接受到的监督信息越来
8、越精确,反过来也会给学生网络提供越来越准确的监督信息。在一种可选的实施方式中,可以将交叉熵形式的误差进一步优化,以体现出在各个类别样本上的信息。基于此,损失函数可以表示如下:其中,各项参数的含义与损失函数(1)中基本相同,需要注意的是,此处的i表示硬标签数据的类别,yi为第i类硬标签数据,为第i类硬标签数据对应的在硬标签数据的最大值与最小值之间,即满足min(yi)max(yi),例如当硬标签数据为0或1时,满足01,且通常是值较小的正数,防止误差值在负例损失,且a和c中至少一个不为0,即损失函数包含第一和第三子损失的至少一个。通过上述损失函数(11),在训练网络的过程中,损失函数每次都针对于
9、拟合程度较差的样本类别(如正例或负例)进行优化,而不仅仅是优化正例样本,最终在在一种可选的实施方式中,也可以采用损失函数(11)的变化形式,参考图3所示,在通过教师网络(Teacher Network)和学生网络(Apprentice Network)处理样本数数据(通常是全连接层的输出)分别为zT和zA,可以和温度参数T一起进行Softmax计算,即知识蒸馏的处理过程,得到软标签数据pT,教师网络实际的输出为进行Softmax计算得到预测数据pA,zA进行常规Softmax计算后输出数据qA。因此,可以基于pT、qT、pA、qA以及硬标签数据(HardLabel)y计算损失函数Loss换而言
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年用于知识蒸馏的网络训练方法、装置、介质与电子设备的制作方法 2022 用于 知识 蒸馏 网络 训练 方法 装置 介质 电子设备 制作方法
限制150内