学习笔记——神经网络与深度学习.docx
《学习笔记——神经网络与深度学习.docx》由会员分享,可在线阅读,更多相关《学习笔记——神经网络与深度学习.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学习笔记神经网络与深度学习第一局部机器学习根底Chapter1绪论1、为了学习一种好的标识需要构建具有一定深度的模型并通过学习算法让模型自动学习初更好的特征表示。深度指的是原始数据进展非线性特征转换的次数。2、奉献度分配问题即一个系统中不同的组件或者参数读最终系统输出结果的奉献或者影响。-强化学习每个内部组件并不能直接得到监视学习需要通过整个模型的最终监视信息奖励得到并具有一定延时性。3、传统ML任务切割成多个子模块每个子模块单独学习。问题优化目的不能与总体目的一致存在错误传播问题。端到端学习经过中不进展分模块或者分阶段训练直接优化任务总体目的。4、短期记忆-凝固作用-长期记忆HebbianT
2、heory:两个神经元总相关联的收到刺激他们之间的突触强度增加。5、网络容量神经网络塑造复杂函数的才能与存储在网络中信息的复杂度和数量相关。6、机器学习三要素模型、学习准那么以及优化算法why神经网络神经网络作为一类非线性的机器学习模型可以更好的实现输入以及输出之间的映射。Chapter2机器学习概述1、机器学习是对能通过经历自动改良的计算机算法的研究。-TomMitchell机器学习就是让计算机从数据中进展自动学习得到某种知识或者规律。机器学习的方法通过数据来学习2、机器学习模型近似真实映射函数或者真实条件概率分布。根据经历假设的函数集合-假设空间气氛线性以及非线性模型两种。广义的非线性模型
3、多个非线性基函数的线性组合3、损失函数非负实数函数用来量化模型预测以及真实标签之间的差异。分类问题常用穿插熵损失函数负对数似然函数4、过拟合的理解找到两个假设f以及f在训练集上f损失比f损失小但在整个样本空间上f损失小那么假设f过度拟合训练数据。过拟合往往由于训练数据少、噪声和模型才能强等原因造成的。解决参数正那么化l1l2范数正那么化所有损害优化的方法都是正那么化1增加优化约束L1L2约束、数据增强2干扰优化经过权重衰减、随机梯度下降、提早停顿5、机器学习中的优化分为参数优化以及超参数优化常见超参数聚类算法中的类别个数梯度下降中的步长、正那么化项的系数、神经网络的层数、支持向量机中的核函数等
4、。6、批量梯度下降每次迭代计算每个样本的梯度并求以及随机梯度下降每次迭代只收集一个样本计算该样本的梯度并更新。小批量梯度下降Mini-BatchGradientDescent是前两者的折中每次迭代是随机选取一小局部训练样本来计算梯度并更新参数。区别在于每次迭代的优化目的是对所有样本的平均损失函数还是对单个样本的损失函数。7、参数估计方法经历风险最小化-平方损失函数最小二乘法要求各个特征之间互相独立构造风险最小化-岭回归对角线元素参加一个常数概率分布-最大似然估计/对数似然估计训练数据较少容易过拟合最大后验估计-参数首先服从某先验分布like高斯分布-贝叶斯估计参数的一种区间估计8、偏向方差的理
5、解偏向一个模型在不同训练集上的平均性能以及最优模型的差异-衡量模型的拟合才能方差一个模型在不同训练集上的差异-衡量模型是否容易过拟合方差一般会随着训练样本的增加而减少进一步在方差比拟小时选择才能强的模型来减小偏向但实际任务中训练集往往比拟有限最优偏向以及最优方差往往无法兼顾。偏向高训练集上错误率较高模型拟合才能缺乏-增加数据特征、进步模型复杂度、减小正那么化系数方差高训练集错误率低验证集错误率高模型过拟合-降低模型复杂度、加大正那么化系数、引入先验另一种-集成模型即通太多个高方差模型的平均来降低方差9、机器学习算法类型函数线性模型非线性模型学习准那么统计方法以及非统计方法根据样本提供的信息及反
6、应方式监视学习、无监视学习、强化学习监视学习回归、分类、构造化学习输出空间是构造化对象如序列、树或者图等过渡弱监视学习、半监视学习无监视学习训练样本无标签、自动学习强化学习通过交互调整学习策略10、特征怎样学习传统的机器学习特征选择-特征抽取特征选择子集搜索过滤式方法、包裹式方法特征抽取降维深度学习根据学习模型端到端11、一些定理PAC学习ProbablyApproximatelyCorrect可能近似正确。PAC可学习的算法是指该学习算法可以在多项式时间内从合理数量的训练数据中学习到一个近似正确的系统函数f(x)Part1近似正确-定义一个泛化错误界限Part2可能-反推所需样本数量没有免费
7、午餐定理NoFreeLunchTheory对于基于迭代的最优化算法不存在某种算法所有问题在有限的搜索空间内都有效。奥卡姆剃刀原理OccamsRazor:如无必要勿增实体。简单的模型泛化才能更好归纳偏置对一些学习问题做一些假设这些假设就是归纳偏置InductiveBias2020/3/222020/3/24Chapter3线性模型1、线性分类模型如Logistic回归Softmax回归感悟器以及SVM区别在于损失函数不同Logistic回归预测值为标签的对数几率C2Softmax回归多类的Logistic回归CN-对all权重向量减去一个同样的向量v是不改变输出的因此sofymac常需要正那么化
8、来约束其参数感悟器Perceptron权重、偏置、激活函数-输出为1需要保证在训练集线性可分的情况下感悟器可在有限次数迭代后收敛而且固然线性可分但训练出来不能保证其泛化性感悟器对样本顺序也比拟敏感每次迭代顺序不一样找到的超平面也往往不一样排在后面的错误样本对最终权重影响更大-improved:参数平均SVM做二分类寻找一个超平面使margin最大核函数将样本从原始空间映射到更高维空间解决原特征空间线性不可分的问题2、所谓“线性分类模型指其决策边界是线性超平面3、多分类处理思路4、分类处理的是离散的类别标签线性分类模型一般是一个线性判别函数非线性激活函数Chapter4前馈神经网络1.分布式并行
9、处理ParallelDistributedProcessing,PDP.信息表示是分布式的非部分的记忆以及知识是存储在单元之间的连接上通过逐渐改变单元之间的连接强度来学习新的知识2.MP神经元激活函数f为0或者1的阶跃函数当代神经元激活函数通常要求是连续可导的函数3.激活函数激活函数在神经元中是非常重要的可以增强网络的标识才能以及学习才能激活函数需要具备以下几点性质1连续并可导的非线性函数允许少数点上不可导可导的激活函数可直接利用数值优化的方法来学习网络参数2激活函数极其导数要尽可能的简单有利于进步网络计算效率3激活函数的导函数的值域要在一个适宜的区间内不能太大也不能太小否那么会影响训练的效率
10、以及稳定性4.ReLU线性修正单元采用ReLu的神经元只需要进展加、乘以及比拟的操作计算上更加高效。而且具有生物上的解释性如单侧抑制宽兴奋边界。DyingReLUProblem问题-变种LeakyReLU,ParametricReLU,ELUSoftplus函数Rectifier的平滑版本其导数刚好是Logistic函数Swish函数自门控激活函数-1门开-0门关高斯误差线性单元GELUGaussianErrorLinear仍然是通过门控机制来调成输出的激活函数引入呈高斯分布的累积分布函数小结5.网络构造常用的神经网络有前馈网络记忆网络图网络前馈网络网络中的信息朝一个方向传播没有反向的信息传播
11、如全连接前馈网络、卷积神经网络等。这种网络构造简单易于实现记忆网络也称反应网络网络中的神经元不仅可以承受其他神经元的信息可以以承受自己的历史信息因此神经元具有记忆功能。记忆网络包括循环神经网络、Hopfield网络、玻尔兹曼机、受限玻尔兹曼机等。这种网络具有更强的计算与记忆才能。记忆增强神经网络引入外部记忆单元以及读写状态来保存网络中的一些中间状态前馈网络以及记忆网络的输入都可以表示为向量或者输入序列实际应用中更多数据是图的构造知识图谱、社交网络、分子网络等。图网络定义在图构造上的神经网络每个节点都由一个或者一组神经元构成的节点之间的连接可以是有向的可以以是无向的每个节点可以承受来自相邻接点或
12、者自身的信息。实例图卷积网络、图注意力网络、消息传递网络等。6.反向传播BackPropagation第l层的一个神经元的误差项是所有与该神经元相连的第l1层的神经元的误差项的权重以及然后再乘上该神经元激活函数的梯度7.自动梯度计算数值微分、符号微分以及自动微分数值为分用数值方法来计算函数的导数涉及到舍入误差delta过小以及截断误差delta过大符号微分对输入的表达式通过迭代或者递归使用一些事先定义的规那么进展转换直至不能再继续使用变换规那么时停顿计算。但存在编译时间常、需要专门语言不好调试自动微分符号微分处理的对象是数学表达式自动微分处理对象是原始程序代码按链式法那么微分符号位分在编译阶段
13、先构造一个复合函数的计算图通过符号计算得到导数的表达式在程序运行截断才带入变量的详细数值自动微分无需事先编译在程序运行阶段边计算边记录计算图计算图上的部分梯度直接带入数值进展计算8.静态计算图编译时构建计算图图构建好后程序运行时不能改变TFTheano优点构建时可以优化并行才能强缺点灵敏性差动态计算图在程序运行时动态构建计算图PytorchDyNetChainer优点灵敏性高缺点不容易优化当不同输入的网络构造不一致时难以并行计算9.人工神经网络主要由大量神经元和神经元之间的邮箱连接构成考虑3方面因素神经元的激活规那么一般为非线性函数网络的拓扑构造不同神经元之间的连接关系学习算法深度学习三步走定
14、义网络-损失函数-优化2020/3/282020/3/31Chapter5卷积神经网络1.全连接前馈神经网络存在的问题参数过多部分不变性特征不好提取如尺度缩放、平移、旋转2.卷积神经网络卷积层、会聚层以及全连接层穿插堆叠而形成的前馈神经网络使用反向传播算法进展训练特性部分连接、权重分享、会聚池化部分连接卷积层中的每一个神经元都只以及下一层中某个部分窗口内的神经元相连构成一个部分连接网络权值分享作为参数的滤波器对于某一层所有的神经元都是一样的可以理解为一个滤波器只捕捉输入数据中的一种特定的部分特征因此假如需要提取多种特征就需要使用多个不同的滤波器。会聚层过大的采样区域会急剧减少神经元的数量也会造
15、成太多的信息损失3.卷积经常作为特征提取的有效方法一幅图像经过卷积操作后得到的结果称为特征映射FeatureMap卷积计算经过中需要进展卷积核翻转-详细实现上一般以相互关Cross-Correlation操作来代替卷积进而减少一些不不要的操作或者开销。4.相互关不翻转卷积卷积可以理解为图像是否进展翻转5.反向传播会聚层池化最大池化误差会传递到上一层对应区域中最大值所对应的神经元而该区域其他神经元的误差项均为0均值池化误差项中的每个值会被平均分配到上一层对应区域中的所有神经元上。6.经典卷积神经网络复习了一下LeNet,GoogLeNet,ResNetGoogLeNet图好棒啊7.卷积的其他类型
16、转置卷积卷积的前向计算以及反向传播就是一种转置关系微步卷积步长s1的转置卷积也被称为微步卷积。用以实现上采样操作大幅进步特征维数。为了实现微步卷积可以在输入特征之间插入0来间接的使步长变小。空洞卷积通过给卷积核插入空洞来变相增加其大小增加输出单元感受野的3种方式1增加卷积核的大小2增加层数两层3x3的卷积可近似为一层5x5的效果3在卷积之前进展会聚操作但会带来信息丧失2020/4/10Chapter6循环神经网络1.循环神经网络RNN是一类局域短期记忆才能的神经网络神经元不但可以承受其他神经元的信息也能承受自身的信息形成具有环路的网络构造。主要用于语音识别、语言模型和自然语言生成等任务上。参数
17、学习随时间反向传播算法会引入长程依赖问题梯度消失or梯度爆炸-门控机制9GRULSTM等另外两种更广义的神经网络递归神经网络以及图网络2.怎样给网络增加记忆才能前馈网络静态网络不具备记忆才能增加短期记忆才能延时神经网络、有外部输入的非线性回归模型、循环神经网络延时神经网络额外的延时单元存储网络的历史信息输入、输出、隐层状态等自回归模型AutoRegressiveModel,AR.来自于统计学上常用的一类时间序列模型用一个变量的历史信息来预测自己。有外部输入的非线性回归模型NARX在每一个时刻都有一个外部输入产生一个输出同时通过一个延时器记录最近几次的外部输入以及输出。循环神经网络RNN通过使用
18、自带反应的神经元来处理任意长度的时间序列。通过本时间步的输入以及上一时间步的状态共同决定本时间步的输出。隐藏层的活性值一般叫做状态或者隐层状态HiddenState.构造如下列图所示3.简单循环网络仅有一个隐藏层。假如把每个时刻的状态都看作前馈神经网络的一层循环神经网络可看做在时间维度上权值分享的神经网络。RNN的通用近似定理一个完全连接的循环网络是任何非线性动力系统的近似器。图灵完备TuringCompleteness是指一种数据操作规那么比方一种计算机的编程语言可以实现图灵机的所有功能解决所有计算问题CJavaPython。所有的图灵机都可以被一个由使用Sigmoid型激活函数的神经元构成
19、的全连接循环网络来进展模拟。4.RNN可以应用的3类机器学习任务序列到类别形式、同步的序列到序列形式、异步的序列到序列形式。序列到类别输入为序列输出为该序列的类别。同步的序列到序列每一时刻都有输入以及输出输入序列以及输出序列的长度一样主要用于序列标注任务/词性标注每一个单词都需要标注其对应的词性标签。异步的序列到序列也成为编码器-解码器模型输入以及输出不需要有严格的对应关系也不需要保持一样的长度。感觉用于文本翻译5.RNN的反向传播计算梯度有两种方法随时间反向传播BPTTBackPropogationThroughTime将RNN看做一个展开的多层前馈网络其中每一层对应RNN中的每个时刻。这样
20、可以按照前馈网络中的反向传播算法计算梯度将所有层的参数的梯度相加就是该参数的真实梯度。实时循环学习算法:RTRL,RealTimeRecurrentLearning通过前向传播的方式啦计算梯度。比照BPTT计算量小但空间复杂度高RTRL不需要梯度回传合适在线学习以及无限序列中。6.长程依赖问题在较长的时间间隔中会存在梯度消失以及梯度爆炸的问题。梯度爆炸一般通过权重衰减或者梯度截断来防止。梯度消失是RNN的主要问题最有效的方法时改变模型。-门控机制7.基于门控的循环神经网络引入门控机制来控制信息的累计速度包括有选择的参加新的记忆、有选择的遗忘之前累积的信息。门控RNN主要有长短期记忆网络以及门控
21、循环单元网络7.1长短期记忆网络LSTM引入一个新的内部状态internalstate专门进展线性的循环信息传递同时非线性的输出信息给隐藏层的外部状态内部状态通过输入门、遗忘门以及输出门的计算得出。RNN中隐层状态h存储了历史信息可以看做一种记忆。在简单循环网络中隐层状态的每个时刻都会被重写因此可以看做是一种短期记忆ShortTerm;在神经网络中国长期记忆Long-TermMemory可以看你做网络参数隐含了从训练数据中学到的经历其更新周期要远远慢于短期记忆。而在LSTM中记忆单元c可以在某个时刻捕捉到关键信息并有才能将此关键信息保存一定的时间间隔这一信息的生命周期要长于短期记忆但又远远短于
22、长期记忆因此成为长短期记忆(LongShort-TermMemory)Tips一般深度网络参数学习时参数初始化的值一般比拟小但是在训练LSTM时过小的值会使得遗忘门的值比拟小这意味着前一时刻大局部的信息丧失了这样网络就很难捕捉到长间隔的依赖信息并且相邻时间间隔的梯度会非常小导致梯度消失因此遗忘的参数初始值一般都设的比拟大。LSTM的各种变体LST网络借助三个门动态控制内部状态应该遗忘多少历史信息输入多少新信息和输出多少信息。无遗忘门的LSTM网络最早提出的LATM是没有遗忘门的内部状态更新为记忆单元会不断增大当输入序列的长度非常大时记忆单元的容量容易饱以及进而大大降低模型性能。怎样理解“容量隐
23、层状态的值会变得越来越大导致h饱以及。h能存储的信息是有限的随着记忆单元存储的内容越来越多其丧失的信息也越来越多。peephole连接三个门不但依赖于输入x以及上一时刻的隐层状态也依赖于上一时刻的记忆单元c。耦合输入门以及遗忘门LSTM中输入门以及遗忘门有些互补关系由于两个门比拟冗余为了减少LSTM网络的计算复杂度将两个门合为一个门内部更新方式为7.2门控循环单元网络GRUGatedRecurrentUnit是一种比LSTM网络更加简单的循环神经网络只引入了更新门来控制当前状态需要从历史状态中保存多少信息不经过非线性变换和需要从候选状态中承受多少信息。更新门一个来控制输入以及遗忘之间的平衡经过
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学习 笔记 神经网络 深度
限制150内