《L1-L2正则化.ppt》由会员分享,可在线阅读,更多相关《L1-L2正则化.ppt(26页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、正则化(正则化(Regularization)第一讲)第一讲2017年年11月月26日日L1、L2正则化正则化数据增强数据增强多任务学习多任务学习Regularization正则化正则化 VS规则化规则化u规则化:规则化:顾名思义,给你的模型加入某些规则,顾名思义,给你的模型加入某些规则,来达到某些目的(在机器学习或者深度学习中是来达到某些目的(在机器学习或者深度学习中是为了防止过拟合)为了防止过拟合)u正则化:正则化:标准术语,有点给外行人学术门槛的味标准术语,有点给外行人学术门槛的味道;这个翻译用得最普遍,所以我们接下来继续道;这个翻译用得最普遍,所以我们接下来继续用正则化作为它的用正则化
2、作为它的“官方官方”翻译。翻译。欠拟合欠拟合 恰好恰好 过拟合过拟合就是为了防止过拟合!就是为了防止过拟合!高偏差高偏差 高方差高方差考虑如下一般形式的考虑如下一般形式的损失函数损失函数:我们既要让训练误差(上式第一项)最小,又想让模型尽可能地简我们既要让训练误差(上式第一项)最小,又想让模型尽可能地简单(上式第二项)。单(上式第二项)。我们有个朴素的想法:那就我们有个朴素的想法:那就让权重让权重W多几个为多几个为0(或者接近于(或者接近于0,说,说明该节点影响很小)明该节点影响很小)不就好了,相当于在神经网络中删掉了一些节不就好了,相当于在神经网络中删掉了一些节点,这样模型就变简单了。点,这
3、样模型就变简单了。为了让为了让W多几个为多几个为0,对于我们的正则化项,对于我们的正则化项,定义如下定义如下3种范数:种范数:L0范数范数:,指向量中非,指向量中非0的元素的个数,越小的元素的个数,越小说明说明0元素越多元素越多L1范数范数:,指向量中各个元素绝对值之和,指向量中各个元素绝对值之和L2范数范数:,即各元素的平方和再开方即各元素的平方和再开方线性回归线性回归+L1正则项正则项:Lasso回归回归线性回归线性回归+L2正则项正则项:Ridge回归(岭回归)回归(岭回归)如果我们用如果我们用L0范数来正则化一个参数矩阵范数来正则化一个参数矩阵W的话,就是希望的话,就是希望W的大部分元
4、素都是的大部分元素都是0,让参数,让参数W是是稀疏稀疏的,的,“压缩感知压缩感知”、“稀疏编码稀疏编码”就是通过就是通过L0来实现的来实现的那为什么用那为什么用L1去稀疏,而不用去稀疏,而不用L0呢,因为呢,因为L0范数很难优化求解范数很难优化求解(NP难问题)(?)难问题)(?)L1范数是范数是L0范数的最优凸近似范数的最优凸近似,而且它比,而且它比L0范数要容易优化求范数要容易优化求解解u特征选择特征选择:xi的大部分元素(也就是特征)都是和最终的的大部分元素(也就是特征)都是和最终的输出输出yi没有关系或者不提供任何信息的;但在预测新的样没有关系或者不提供任何信息的;但在预测新的样本时,
5、这些没用的信息反而会被考虑,从而干扰了对正确本时,这些没用的信息反而会被考虑,从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成的预测。稀疏规则化算子的引入就是为了完成特征自动特征自动选择选择的光荣使命,它会学习地去掉这些没有信息的特征,的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的也就是把这些特征对应的权重置为权重置为0。u可解释性:可解释性:患病回归模型患病回归模型y=w1*x1+w2*x2+w1000*x1000+b,通过学习,如果最后学习到的,通过学习,如果最后学习到的w*就只有很少的非零元素,就只有很少的非零元素,例如只有例如只有5个非零的个非零的wi
6、。也就是说,患不患这种病只和这。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。个因素有关,那医生就好分析多了。那么那么L2范数与范数与L1范数有什么区别呢?范数有什么区别呢?1、L2范数更有助于计算病态的问题范数更有助于计算病态的问题2、L1相对于相对于L2能够产生更加稀疏的模型能够产生更加稀疏的模型3、从概率角度进行分析,很多范数约束相当于对参数、从概率角度进行分析,很多范数约束相当于对参数添加添加先验分布先验分布,其中,其中L2范数相当于参数服从高斯先验分布;范数相当于参数服从高斯先验分布;L1范数相当于拉普拉斯分布范数相当于拉普拉斯分布。假设我们有个方程组假设我们有个方程
7、组AX=b,我们需要求解我们需要求解X。如果如果A或者或者b稍微的改变,会使得稍微的改变,会使得X的解发生很大的改变,那么这个方的解发生很大的改变,那么这个方程组系统就是程组系统就是ill-condition的。的。如果方阵如果方阵A是非奇异的,那么是非奇异的,那么A的的条件数条件数定义为定义为:矩阵矩阵A的条件数等于的条件数等于A的范数与的范数与A的逆的范数的的逆的范数的乘积,不同的范数对应着不同的条件数。乘积,不同的范数对应着不同的条件数。条件数越大,矩阵越病态。条件数越大,矩阵越病态。L2范数范数有助于处理有助于处理 条件数条件数不好的情况下矩阵求逆不好的情况下矩阵求逆很困难的问题,对于
8、线性回归来说,其最优解为:很困难的问题,对于线性回归来说,其最优解为:当我们的样本当我们的样本X的数目比每个样本的维度还要小的的数目比每个样本的维度还要小的时候,矩阵时候,矩阵XTX将会不是满秩的,也就是将会不是满秩的,也就是XTX会变会变得不可逆得不可逆但如果加上但如果加上L2正则项正则项,就变成了下面这种情况,就变成了下面这种情况,就可以直接求逆了:就可以直接求逆了:要得到这个解,我们通常并不直接求矩阵的逆,要得到这个解,我们通常并不直接求矩阵的逆,而是通过解线性方程组的方式(例如高斯消元法)而是通过解线性方程组的方式(例如高斯消元法)来计算。来计算。从从另外一个角度另外一个角度可以将范数
9、约束看成带有参数的约束优化可以将范数约束看成带有参数的约束优化问题。带有参数惩罚的优化目标为:问题。带有参数惩罚的优化目标为:带约束的最优问题,可以表示为:带约束的最优问题,可以表示为:通过通过KKT条件进行求解时,对应的拉格朗日函数为:条件进行求解时,对应的拉格朗日函数为:如果如果 是是L2范数,那么权重就是被约束在一个范数,那么权重就是被约束在一个L2球中;如果球中;如果 是是L1范数,那么权重就是约束在范数,那么权重就是约束在L1范数限制的区域中;另外也可以得范数限制的区域中;另外也可以得出出L1得到的解比得到的解比L2稀疏稀疏常用数据增强的方法:常用数据增强的方法:1、旋转、旋转|反射
10、变换反射变换(Rotation/reflection)2、翻转变换、翻转变换(flip)3、缩放变换、缩放变换(zoom):4、平移变换、平移变换(shift):5、尺度变换、尺度变换(scale)6、对比度变换、对比度变换contrast7、噪声扰动、噪声扰动noise将噪声作用与输入,作为将噪声作用与输入,作为数据增强数据增强的策略。对于的策略。对于某些模型而言,向输入添加方差极小的噪声等价某些模型而言,向输入添加方差极小的噪声等价于对权重施加于对权重施加范数惩罚范数惩罚。另一种正则化模型的噪声使用方式是将其加到另一种正则化模型的噪声使用方式是将其加到权权重重,这项技术主要用于,这项技术主
11、要用于循环神经网络(循环神经网络(RNN)。向输出目标注入噪声。向输出目标注入噪声。多任务学习多任务学习是通过合并几个任务中的样例来是通过合并几个任务中的样例来提高泛化提高泛化的一的一种方式。正如额外的训练样本能够将模型参数推向更好的种方式。正如额外的训练样本能够将模型参数推向更好的泛化能力值一样,当模型的一部分被多个额外的泛化能力值一样,当模型的一部分被多个额外的任务共享任务共享时,这部分被约束为良好的值,通常会带来更好的泛化能时,这部分被约束为良好的值,通常会带来更好的泛化能力。力。目前多任务学习方法大致可以总结为两类,一是不同任务目前多任务学习方法大致可以总结为两类,一是不同任务之间之间
12、共享相同的参数共享相同的参数(commonparameter),),二是二是挖掘挖掘不不同任务之间隐藏的同任务之间隐藏的共有数据特征共有数据特征(latentfeature)单任务学习单任务学习多任务学习多任务学习深度关系网络深度关系网络(DeepRelationshipNetworks):在用于机器视觉的多:在用于机器视觉的多任务场景中,已有的这些方法通常共享卷积层,将全链接层视为任务任务场景中,已有的这些方法通常共享卷积层,将全链接层视为任务相关的。相关的。1完全自适应特征共享(完全自适应特征共享(Fully-AdaptiveFeatureSharing):从瘦网络从瘦网络(thinnet
13、work)开始,使用对相似任务自动分组的指标,贪心的动开始,使用对相似任务自动分组的指标,贪心的动态加宽网络。态加宽网络。21.Long,M.et.al.2015.LearningMultipleTaskswithDeepRelationshipNetworks.2.Lu,Y.et.al.2016.Fully-AdaptiveFeatureSharinginMulti-TaskNetworkswithApplicationsinPersonAttriuteClassification.十字绣网络(十字绣网络(Cross-StitchNetworks):文献文献3将两个独立的网络用参数将两个独立的网络用参数的软共享方式连接起来。的软共享方式连接起来。联合多任务模型(联合多任务模型(AJointMany-TaskModel)43 Misra,I.et.al.Cross-Stitch Networks for Multi-Task Learning,CVPR2016.4 Hashimoto,K.2016.A Joint Multi-Task Model:Growing A Neural Network for Multiple NLP Tasks.Thank you for your listening!(Q&A)
限制150内