《大数据挖掘与统计机器学习》教学ppt课件 .pptx
《《大数据挖掘与统计机器学习》教学ppt课件 .pptx》由会员分享,可在线阅读,更多相关《《大数据挖掘与统计机器学习》教学ppt课件 .pptx(83页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、五、决策树与组合方法五、决策树与组合方法5.1.决策树决策树 5.1.1 决策树的基本知识 常用算法ID3C4.5CART核心归纳算法1二分类示意需要说明的一些问题1.二叉树还是多叉树2.自变量的进一步处理3.其他的决策树算法4.决策树的一些问题7 5.2.4 讨论Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。Bagging算法可以让好的分类器(错分率e0.5)效果更坏。对于回归问题,M的值可以取得小一些,对于分类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量
2、n。当提高Bootstrap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(variance),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。11125.3.2 可加模型:从统计的角度看Adaboost各种理论解释偏差-方差分解减小偏差,boosting树桩或者很小的树提升边际博弈论可加模型可以证明二分类AdaBoost算法是最小化指数损失L(y,f(x)=exp(-yf(x)的分步向前可加模型y取值+1或-113
3、1617六、神经网络与深度学习六、神经网络与深度学习6.1.神经网络神经网络 6.1.1 人工神经元的模型 (1)生物神经元1822神经元的常用激活函数 6.1.2 人工神经网络的结构 (1)前向网络 前向网络中神经元是分层排列的,每层神经元只接收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。(2)反馈网络 反馈网络又称递归网络、回归网络,它和前向网络的区别在于它至少有一个反馈环,形成封闭回路,即反馈网络中至少有一个神经元将自身的输出信号作为输入信号反馈给自身或其他神经元。6.1.3 人工神经网络的学习 (1)学
4、习方式有监督学习(有导师学习)无监督学习(无导师学习)强化学习(2)学习规则误差纠正学习规则 Hebb学习规则 6.1.4 感知机 感知器神经网络是一种典型的前向神经网络,具有分层结构,信息从输入层进入网络并逐层向前传递至输出层。(1)单层感知器(2)多层感知器 由于单层感知器只能处理线性可分的数据,而现实世界中的数据大多不是线性可分的,因此相关研究者提出在单层感知器的输入层和输出层之间增加一个或多个隐层,由此构成多层感知器,也称为多层前向神经网络。反向传播算法(Back Propagation Algorithm,简称BP算法):BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播
5、过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号对网络连接权值进行调整。反复执行信号的正向传播与误差的反向传播这两个过程,直至网络输出误差小于预先设定的阈值,或进行到预先设定的学习次数为止。BP网络的输入层与输出层的节点数依据所处理的任务确定后,还需确定隐层数和隐层节点数。确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。这意味着可以先从隐层节点数少的神经网络开始训练,然后增加节点数,选
6、取网络误差最小时对应的节点数;也可一开始加入足够多的隐层节点数,通过学习把不太起作用的隐层节点删去。296.2.深度学习深度学习 深度神经网络是指含有多个隐层的神经网络,与含有一个隐层的浅层神经网络相对应。它模仿大脑皮层的深度架构来处理数据。对含有一个隐层的浅层网络使用BP算法能获得较好效果,对深度神经网络使用BP算法进行训练存在一定的问题:梯度弥散问题局部极值问题数据获取问题深度学习方法:卷积神经网络(Convolutioal Neural Networks,CNN)深度玻尔兹曼机(Deep Boltzmann Machine,DBM)深度信念网栈式自编码网络(Stacked Autoenc
7、oder)306.2.2 深度信念网深度信念网 DBN最顶部两层间的连接是无向的,它们的联合分布形成一个RBM;较低的其他层构成有向的图模型。DBN可作为一个生成模型,顶层RBM与具有P()分布的实线箭头构成生成路径。DBN也可提取数据的多层次的表示进行推理与识别,具有Q()分布的虚线箭头与顶层RBM构成识别路径。当自下而上进行学习时,顶层RBM 从隐层学习;当自上而下学习时,顶层RBM作为生成模型的起始器。鉴于传统的梯度下降算法针对多隐层网络训练效果不佳,Hinton 等人提出了深度信念网的贪婪逐层预训练学习方法(greedy layer-wise training),获得较好的效果。贪婪逐
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据挖掘与统计机器学习 大数据挖掘与统计机器学习教学ppt课件 数据 挖掘 统计 机器 学习 教学 ppt 课件
限制150内