机器学习与深度学习.ppt
《机器学习与深度学习.ppt》由会员分享,可在线阅读,更多相关《机器学习与深度学习.ppt(84页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习与深度学习2目录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考3小学生解方程 a3+b=10a8+b=30a=?b=?4高中,大学 -矩阵,矢量5线性回归及分类 机器学习背景Y是一个N维向量XT是一转置矩阵N*(p+1)是一个p+1的向量线性回归:,给定X,和Y,计算以最佳匹配X,Y的关系。Np+1。即为线性回归模型的参数。k表明对应的维度,Xk的重要性什么为最佳匹配?6参数估计方法一:最小化误差平方和 机器学习背景7 正则化 L2(Ridge)Regularization限制参数的大小,以避免过拟合8 正则化 L1 Regularization
2、(Lasso)限制参数的大小,以避免过拟合Noclosedformfor9逻辑回归 jG10逻辑回归 -参数训练jG训练目标函数:最大似然对数概率牛顿迭代:11目录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考12神经元网络 p单层前向网络p两阶段回归或分类pK-Class分类p最底层为数据层p最上层为输出层p中间层为隐含层p这种简单的NN称为Perceptron13神经元网络 -输入层到隐含层p中间层为输入层线性组合的某函数p其中为激活函数:sigmoid14神经元网络-激活函数p为激活(Activation)函数(红线)p0线性函数15神经元网络 ,
3、隐含层到输出层 p输出层为中间层的线性组合p回归问题pK-Class分类问题,softmax函数16训练神经元网络:参数集合及维度p神经元网络参数集合17训练神经元网络 优化参数求导 p最小化目标函数:最小误差平方和及求导18训练神经元网络-Back Propagationp梯度下降迭代算法输出层误差:ki隐含层误差:smi19BP 算法 p初始化参数p两阶段算法:Two-Passp前向Forward-Pass:给定参数,计算输出值p后向Backward-Pass:计算输出层误差,计算隐含层误差,更新参数BP算法图示(1985)inputvectorhiddenlayersoutputsBac
4、k-propagateerrorsignaltogetderivativesforlearningCompareoutputswithcorrectanswertogeterrorsignal21神经元网络小结22目录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考24BP算法在深层神经元网络中的问题依赖于标注的训练数据目前大量数据为非标注数据训练时间长,很难规模化多层神经元网络训练很慢会停驻在性能较差的本地优化点浅层网络,该问题不明显深层网络,问题显著25支持向量基(SVM)一个特殊的神经元网络StillPerceptron一个特殊的单隐含层网络每个训练
5、案例用于构造一个特征,该特征用于测量改训练案例和测试案例的距离SVM训练选择自由特征集以及特征的权重1990-2010很多让放弃NN,选择SVMnon-adaptivehand-codedfeaturesoutputunitse.g.classlabelsinputunitse.g.pixelsSketchofatypicalperceptronfromthe1960sBombToy深层信任网络(DeepBeliefNet,DBN)是部分解决了以上问题的神经元网络2728谁重新激活了神经元网络?Geoffrey Hinton 出生于:1947专业:学士,心理学,1970,博士,人工智能,197
6、8多伦多大学教授Google研究中心1986:神经元网络BP算法发明人之一深度学习主要贡献人I GET VERY EXCITED WHEN WE DISCOVER A WAY OF MAKING NEURAL NETWORKS BETTER AND WHEN THATS CLOSELY RELATED TO HOW THE BRAIN WORKS.29谁重新激活了神经元网络?NCAP:神经计算和自适应感知项目2004NCAPResearchersYoshuaBengioYannLecun(FaceBook)AndrewNg(Baidu)20OthersCoreTeam30深度学习的2006年,
7、GeofferyHintonScience发表DBN文章。2012年,Hinton,ImageNet,26%-15%。2012年,AndrewNg和分布式系统顶级专家JeffDean,GoogleBrain项目,16000个CPU核的并行,10亿个神经元的深度神经网络2012年,微软首席研究官RickRashid在21世纪的计算大会上演示了一套自动同声传译系统2013年,Hinton-Google;YannLeCun-Facebook;用户图片信息提取2013年,百度成立了百度研究院及下属的深度学习研究所(IDL),2014年,AndrewNg-Badidu3132可信任网络 Belief N
8、ets(BN)一个BN是一个由随机变量组成的有向非循环图一部分变量为可观察已知变量如何由已知变量推断出非观察变量的状态调整变量之间连接的参数优化:最大可能重新生成观察变量stochastichiddencausevisibleeffectWewillusenetscomposedoflayersofstochasticbinaryvariableswithweightedconnections.Later,wewillgeneralizetoothertypesofvariable.可信任,信任什么?随机的二元单元(Bernoullivariables)隐含层的神经元的状态为0或1该神经元激活
9、的概率为输入层加权和的sigmoid函数00134Restricted Boltzmann Machines(RBM)限制神经元之间的链接以简化参数学习.只包含一个隐含层.多隐含层后期引入隐含层单元之间无链接.给定输入可观察矢量,隐含层单元之间独立隐含层和输入层之间为无向链接hiddenijvisible35RBM 训练训练ijijijijt=0t=1t=2t=infinity从可观察训练矢量开始,交替更新隐含层和可观察矢量层单元afantasy36小结一个基础的DBN网络p决定DBN的隐含层数以及隐含层的神经元数p每两层之间依据RBM单独依次训练参数p训练完的两层网络简单叠加起来成为深层网络
10、p利用BP算法对叠加后的网络连接参数进一步优化pRBMPseudo代码pFort=0ton:pVt-Ht基于sigmoid函数和Gibbs采样pHt-Vt+1基于sigmoid函数和Gibbs采样pVt+1-Ht+1基于sigmoid函数和Gibbs采样p更新参数W:pRBMCode37目录p机器学习的基础p神经元网络p深层神经元网络p延伸和应用p深层学习实现架构p未来和思考38 深度学习目前常用的架构深度神经元全连网络DNN(DeepNeuralNets),Tensor-DNN卷积神经元网络CNN(ConvolutionalNeuralNets)深度叠拼神经元网络DSN(DeepStacki
11、ngNets);Kernel-DSN,Tensor-DSN循环神经元网络RNNs(RecurrentandrecursiveNeuralNets)39DNN在语音识别中的应用40DNN在语音识别中的应用41语音识别中的BottleNeck 特征42图像识别中的神经元网络应用卷积神经元网络ConvolutionNeuralNetwork(CNN)输入层可以使多元的,也可以是一元的43图像识别中的神经元网络应用:卷积层p输入:维度的矩阵Xp输出:维度的矩阵p连接输入和输出的参数:维度的矩阵W44图像识别中的神经元网络应用:Pooling 层p输入:region,矩阵p输出:Asinglevalue
12、,p连接输入输出层参数:无p最大值poolingp均值pooling45图像识别中的神经元网络应用:全连层p同DNN46卷积神经元网络的架构47ImageNet 2012年 竞赛48ImageNet 2013年 竞赛目前图像中物体识别性能49语音识别中CNN的使用(2013,Sainath IEEE)50循环神经元网络 RNN51RNN 同 DNN 的比较52Back Propagation Through Time(BPTT)p三类参数p训练方式可等同于前向网络在时域的组合53双向RNN 实现训练算法:uRBM初始化每个时间点t的网络uBPTT,BP算法的扩展优化参数训练54神经元网络在自然
13、语言处理中的应用语言模型信息分类信息聚类信息提取搜索翻译词向量语义表示55一批关键的文章YoshuaBengio,RejeanDucharme,PascalVincent,andChristianJauvin.A neural probabilistic language model.JournalofMachineLearningResearch(JMLR),3:11371155,2003.PDFRonanCollobert,JasonWeston,LonBottou,MichaelKarlen,KorayKavukcuogluandPavelKuksa.Natural Language P
14、rocessing(Almost)from Scratch.JournalofMachineLearningResearch(JMLR),12:2493-2537,2011.PDFAndriyMnih&GeoffreyHinton.Three new graphical models for statistical language modelling.InternationalConferenceonMachineLearning(ICML).2007.PDFAndriyMnih&GeoffreyHinton.A scalable hierarchical distributed langu
15、age model.TheConferenceonNeuralInformationProcessingSystems(NIPS)(pp.10811088).2008.PDFMikolovTom.Statistical Language Models based on Neural Networks.PhDthesis,BrnoUniversityofTechnology.2012.PDFTurianJoseph,LevRatinov,andYoshuaBengio.Word representations:a simple and general method for semi-superv
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 深度
限制150内