【机器学习】回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)...-精品文档资料整理.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《【机器学习】回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)...-精品文档资料整理.docx》由会员分享,可在线阅读,更多相关《【机器学习】回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)...-精品文档资料整理.docx(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【机器学习】回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现). 11月30日,2021亚马逊云科技 re:Invent全球大会,即将浩大开启! 2021 re:Invent 十周年度十分活动,内容的饕餮盛宴,涵盖产品、行业、社区等专题!立即预约 点击上方 选择星标或者置顶 每天给你送干货 浏览大概需要17分钟 跟随小博主 每天进步一丢丢 选自 | EliteDataScience 编译 | 机器之心 在本教程中 作者对当代机器学习算法进展一次扼要的实战梳理。固然类似的总结有很多 但是它们都没有真正解释清楚每个算法在理论中的好坏 而这正是本篇梳理祈望完成的。因此本文力
2、图基于理论中的经历 讨论每个算法的优缺点。 对机器学习算法进展分类不是一件容易的事情 总的来看 有如下几种方式 生成与判别、参数与非参数、监视与非监视等等。 然而 就理论经历来看 这些都不是实战经过中最有效的分类算法的方式。因为对于应用机器学习而言 开发者一般会在脑海中有一个最终目的 比方预测一个结果或者是对你的观察进展分类。 因此 我们想介绍另一种对算法进展分类的路数 其基于机器学习任务来分类。 没有免费午餐定理 在机器学习中 有个定理被称为没有免费的午餐。简而言之 就是讲没有一个算法可以完美解决所有问题 而且这对于监视学习 即对预测的建模 而言尤其如此。 举个例子 你不能讲神经网络就一定任
3、何时候都比决策树优秀 反过来也是。这其中存在很多影响因素 比方你数据集的规模以及构造。 所以 当你使用一个固定的数据测试集来评估性能 挑选最合适算法时 你应该针对你的问题尝试多种不同的算法。 当然 你所使用的算法必需要合适于你试图解决的问题 这也就有了怎样选择正确的机器学习任务这一问题。做个类比 假如你需要清扫你的房子 你可能会用吸尘器、扫帚或是拖把 但是你绝不会掏出一把铲子然后开场挖地。 机器学习任务 在本次梳理中 我们将涵盖目前三大最常见机器学习任务 回归方法 分类方法 聚类方法 讲明 本文的梳理不会涵盖详细领域的问题 比方自然语言处理。 本文也不会对每个算法都进展梳理。因为现有过多算法
4、而且新的算法也层出不穷。然而 这份清单将向读者展现对每个任务而言目前具有代表性的算法概览。 1、回归方法 回归方法是一种对数值型连续随机变量进展预测以及建模的监视学习算法。使用案例一般包括房价预测、股票走势或者测试成绩等连续变化的案例。 回归任务的特点是标注的数据集具有数值型的目的变量。也就是讲 每一个观察样本都有一个数值型的标注真值以监视算法。 1.1 线性回归 正那么化 线性回归是处理回归任务最常用的算法之一。该算法的形式特别简单 它期望使用一个超平面拟合数据集 只有两个变量的时候就是一条直线 。假如数据集中的变量存在线性关系 那么其就能拟合地非常好。 在理论中 简单的线性回归通常被使用正
5、那么化的回归方法 LASSO、Ridge 以及 Elastic-Net 所代替。正那么化其实就是一种对太多回归系数采取惩罚以减少过拟合风险的技术。当然 我们还得确定惩罚强度以让模型在欠拟合以及过拟合之间到达平衡。 优点 线性回归的理解与解释都特别直观 并且还能通过正那么化来降低过拟合的风险。另外 线性模型很容易使用随机梯度下降以及新数据更新模型权重。 缺点 线性回归在变量是非线性关系的时候表现很差。并且其也不够灵敏以捕捉更复杂的形式 添加正确的交互项或者使用多项式很困难并需要大量时间。 Python 实现 :/scikit-learn.org/stable/modules/linear_mod
6、el.html R 实现 s:/cran.r-project.org/web/packages/glmnet/index.html 1.2 回归树 集成方法 回归树 决策树的一种 通过将数据集重复分割为不同的分支而实现分层学习 分割的标准是最大化每一次别离的信息增益。这种分支构造让回归树很自然地学习到非线性关系。 集成方法 如随机森林 RF 或者梯度提升树 GBM 那么组合了许多独立训练的树。这种算法的主要思想就是组合多个弱学习算法而成为一种强学习算法 不过这里并不会详细地展开。在理论中 RF 通常很容易有出色的表现 而 GBM 那么更难调参 不过通常梯度提升树具有更高的性能上限。 优点 决策
7、树能学习非线性关系 对异常值也具有很强的鲁棒性。集成学习在理论中表现非常好 其经常赢得许多经典的 非深度学习 机器学习竞赛。 缺点 无约束的 单棵树很容易过拟合 因为单棵树可以保存分支 不剪枝 并直到其记住了训练数据。集成方法可以削弱这一缺点的影响。 随机森林 Python 实现 :/scikit-learn.org/stable/modules/ensemble.html#random-forests 随机森林 R 实现 s:/cran.r-project.org/web/packages/randomForest/index.html 梯度提升树 Python 实现 :/scikit-le
8、arn.org/stable/modules/ensemble.html#classification 梯度提升树 R 实现 s:/cran.r-project.org/web/packages/gbm/index.html 1.3 深度学习 深度学习是指能学习极其复杂形式的多层神经网络。该算法使用在输入层以及输出层之间的隐藏层对数据的中间表征建模 这也是其他算法很难学到的局部。 深度学习还有其他几个重要的机制 如卷积以及 drop-out 等 这些机制令该算法能有效地学习到高维数据。然而深度学习相对于其他算法需要更多的数据 因为其有更大数量级的参数需要估计。 优点 深度学习是目前某些领域最先
9、进的技术 如计算机视觉以及语音识别等。深度神经网络在图像、音频以及文本等数据上表现优异 并且该算法也很容易对新数据使用反向传播算法更新模型参数。它们的架构 即层级的数量以及构造 可以适应于多种问题 并且隐藏层也减少了算法对特征工程的依赖。 缺点 深度学习算法通常不合适作为通用目的的算法 因为其需要大量的数据。实际上 深度学习通常在经典机器学习问题上并没有集成方法表现得好。另外 其在训练上是计算密集型的 所以这就需要更富经历的人进展调参 即设置架构以及超参数 以减少训练时间。 Python 资源 s:/keras.io/ R 资源 :/mxnet.io/ 1.4 最近邻算法 最近邻算法是基于实例
10、的 这就意味着其需要保存每一个训练样本观察值。最近邻算法通过搜寻最相似的训练样本来预测新观察样本的值。 而这种算法是内存密集型 对高维数据的处理效果并不是很好 并且还需要高效的间隔 函数来度量以及计算相似度。在理论中 根本上使用正那么化的回归或者树型集成方法是最好的选择。 2、分类方法 分类方法是一种对离散型随机变量建模或者预测的监视学习算法。使用案例包括邮件过滤、金融欺诈以及预测雇员异动等输出为类别的任务。 许多回归算法都有与其相对应的分类算法 分类算法通常适用于预测一个类别 或者类别的概率 而不是连续的数值。 2.1 Logistic 回归 正那么化 Logistic 回归是与线性回归相对
11、应的一种分类方法 且该算法的根本概念由线性回归推导而出。Logistic 回归通过 Logistic 函数 即 Sigmoid 函数 将预测映射到 0 到 1 中间 因此预测值就可以看成某个类别的概率。 该模型仍然还是线性的 所以只有在数据是线性可分 即数据可被一个超平面完全别离 时 算法才能有优秀的表现。同样 Logistic 模型能惩罚模型系数而进展正那么化。 优点 输出有很好的概率解释 并且算法也能正那么化而防止过拟合。Logistic 模型很容易使用随机梯度下降以及新数据更新模型权重。 缺点 Logistic 回归在多条或者非线性决策边界时性能比拟差。 Python 实现 :/scik
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习 机器 学习 回归 分类 大方向 剖解 算法 优缺点 Python 实现 精品 文档 资料 整理
![提示](https://www.taowenge.com/images/bang_tan.gif)
链接地址:https://www.taowenge.com/p-73272566.html
限制150内