书签分享收藏举报版权申诉 / 21

立即下载

当前位置：首页 > 技术资料 > 工程图纸 > 【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）...-精品文档资料整理.docx

【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）...-精品文档资料整理.docx

上传人：安***

文档编号：73272566

上传时间：2023-02-17

格式：DOCX

页数：21

大小：21.42KB

( 4.5 )

《【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）...-精品文档资料整理.docx》由会员分享，可在线阅读，更多相关《【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）...-精品文档资料整理.docx（21页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）. 11月30日，2021亚马逊云科技 re:Invent全球大会，即将浩大开启！ 2021 re:Invent 十周年度十分活动，内容的饕餮盛宴，涵盖产品、行业、社区等专题！立即预约点击上方选择星标或者置顶每天给你送干货浏览大概需要17分钟跟随小博主每天进步一丢丢选自 | EliteDataScience 编译 | 机器之心在本教程中作者对当代机器学习算法进展一次扼要的实战梳理。固然类似的总结有很多但是它们都没有真正解释清楚每个算法在理论中的好坏而这正是本篇梳理祈望完成的。因此本文力

2、图基于理论中的经历讨论每个算法的优缺点。对机器学习算法进展分类不是一件容易的事情总的来看有如下几种方式生成与判别、参数与非参数、监视与非监视等等。然而就理论经历来看这些都不是实战经过中最有效的分类算法的方式。因为对于应用机器学习而言开发者一般会在脑海中有一个最终目的比方预测一个结果或者是对你的观察进展分类。因此我们想介绍另一种对算法进展分类的路数其基于机器学习任务来分类。没有免费午餐定理在机器学习中有个定理被称为没有免费的午餐。简而言之就是讲没有一个算法可以完美解决所有问题而且这对于监视学习即对预测的建模而言尤其如此。举个例子你不能讲神经网络就一定任

3、何时候都比决策树优秀反过来也是。这其中存在很多影响因素比方你数据集的规模以及构造。所以当你使用一个固定的数据测试集来评估性能挑选最合适算法时你应该针对你的问题尝试多种不同的算法。当然你所使用的算法必需要合适于你试图解决的问题这也就有了怎样选择正确的机器学习任务这一问题。做个类比假如你需要清扫你的房子你可能会用吸尘器、扫帚或是拖把但是你绝不会掏出一把铲子然后开场挖地。机器学习任务在本次梳理中我们将涵盖目前三大最常见机器学习任务回归方法分类方法聚类方法讲明本文的梳理不会涵盖详细领域的问题比方自然语言处理。本文也不会对每个算法都进展梳理。因为现有过多算法

4、而且新的算法也层出不穷。然而这份清单将向读者展现对每个任务而言目前具有代表性的算法概览。 1、回归方法回归方法是一种对数值型连续随机变量进展预测以及建模的监视学习算法。使用案例一般包括房价预测、股票走势或者测试成绩等连续变化的案例。回归任务的特点是标注的数据集具有数值型的目的变量。也就是讲每一个观察样本都有一个数值型的标注真值以监视算法。 1.1 线性回归正那么化线性回归是处理回归任务最常用的算法之一。该算法的形式特别简单它期望使用一个超平面拟合数据集只有两个变量的时候就是一条直线。假如数据集中的变量存在线性关系那么其就能拟合地非常好。在理论中简单的线性回归通常被使用正

5、那么化的回归方法 LASSO、Ridge 以及 Elastic-Net 所代替。正那么化其实就是一种对太多回归系数采取惩罚以减少过拟合风险的技术。当然我们还得确定惩罚强度以让模型在欠拟合以及过拟合之间到达平衡。优点线性回归的理解与解释都特别直观并且还能通过正那么化来降低过拟合的风险。另外线性模型很容易使用随机梯度下降以及新数据更新模型权重。缺点线性回归在变量是非线性关系的时候表现很差。并且其也不够灵敏以捕捉更复杂的形式添加正确的交互项或者使用多项式很困难并需要大量时间。 Python 实现 :/scikit-learn.org/stable/modules/linear_mod

6、el.html R 实现 s:/cran.r-project.org/web/packages/glmnet/index.html 1.2 回归树集成方法回归树决策树的一种通过将数据集重复分割为不同的分支而实现分层学习分割的标准是最大化每一次别离的信息增益。这种分支构造让回归树很自然地学习到非线性关系。集成方法如随机森林 RF 或者梯度提升树 GBM 那么组合了许多独立训练的树。这种算法的主要思想就是组合多个弱学习算法而成为一种强学习算法不过这里并不会详细地展开。在理论中 RF 通常很容易有出色的表现而 GBM 那么更难调参不过通常梯度提升树具有更高的性能上限。优点决策

7、树能学习非线性关系对异常值也具有很强的鲁棒性。集成学习在理论中表现非常好其经常赢得许多经典的非深度学习机器学习竞赛。缺点无约束的单棵树很容易过拟合因为单棵树可以保存分支不剪枝并直到其记住了训练数据。集成方法可以削弱这一缺点的影响。随机森林 Python 实现 :/scikit-learn.org/stable/modules/ensemble.html#random-forests 随机森林 R 实现 s:/cran.r-project.org/web/packages/randomForest/index.html 梯度提升树 Python 实现 :/scikit-le

8、arn.org/stable/modules/ensemble.html#classification 梯度提升树 R 实现 s:/cran.r-project.org/web/packages/gbm/index.html 1.3 深度学习深度学习是指能学习极其复杂形式的多层神经网络。该算法使用在输入层以及输出层之间的隐藏层对数据的中间表征建模这也是其他算法很难学到的局部。深度学习还有其他几个重要的机制如卷积以及 drop-out 等这些机制令该算法能有效地学习到高维数据。然而深度学习相对于其他算法需要更多的数据因为其有更大数量级的参数需要估计。优点深度学习是目前某些领域最先

9、进的技术如计算机视觉以及语音识别等。深度神经网络在图像、音频以及文本等数据上表现优异并且该算法也很容易对新数据使用反向传播算法更新模型参数。它们的架构即层级的数量以及构造可以适应于多种问题并且隐藏层也减少了算法对特征工程的依赖。缺点深度学习算法通常不合适作为通用目的的算法因为其需要大量的数据。实际上深度学习通常在经典机器学习问题上并没有集成方法表现得好。另外其在训练上是计算密集型的所以这就需要更富经历的人进展调参即设置架构以及超参数以减少训练时间。 Python 资源 s:/keras.io/ R 资源 :/mxnet.io/ 1.4 最近邻算法最近邻算法是基于实例

10、的这就意味着其需要保存每一个训练样本观察值。最近邻算法通过搜寻最相似的训练样本来预测新观察样本的值。而这种算法是内存密集型对高维数据的处理效果并不是很好并且还需要高效的间隔函数来度量以及计算相似度。在理论中根本上使用正那么化的回归或者树型集成方法是最好的选择。 2、分类方法分类方法是一种对离散型随机变量建模或者预测的监视学习算法。使用案例包括邮件过滤、金融欺诈以及预测雇员异动等输出为类别的任务。许多回归算法都有与其相对应的分类算法分类算法通常适用于预测一个类别或者类别的概率而不是连续的数值。 2.1 Logistic 回归正那么化 Logistic 回归是与线性回归相对

11、应的一种分类方法且该算法的根本概念由线性回归推导而出。Logistic 回归通过 Logistic 函数即 Sigmoid 函数将预测映射到 0 到 1 中间因此预测值就可以看成某个类别的概率。该模型仍然还是线性的所以只有在数据是线性可分即数据可被一个超平面完全别离时算法才能有优秀的表现。同样 Logistic 模型能惩罚模型系数而进展正那么化。优点输出有很好的概率解释并且算法也能正那么化而防止过拟合。Logistic 模型很容易使用随机梯度下降以及新数据更新模型权重。缺点 Logistic 回归在多条或者非线性决策边界时性能比拟差。 Python 实现 :/scik

12、it-learn.org/stable/modules/linear_model.html#logistic-regression R 实现 s:/cran.r-project.org/web/packages/glmnet/index.html 2.2 分类树集成方法与回归树相对应的分类算法是分类树。它们通常都是指决策树或者更严谨一点地称之为分类回归树 CART 这也就是非常著名的 CART 的算法。简单的随机森林优点同回归方法一样分类树的集成方法在理论中同样表现特别优良。它们通常对异常数据具有相当的鲁棒性以及可扩展性。因为它的层级构造分类树的集成方法能很自然地对非线性决策边

13、界建模。缺点不可约束单棵树趋向于过拟合使用集成方法可以削弱这一方面的影响。随机森林 Python 实现 :/scikit-learn.org/stable/modules/ensemble.html#regression 随机森林 R 实现 s:/cran.r-project.org/web/packages/randomForest/index.html 梯度提升树 Python 实现 :/scikit-learn.org/stable/modules/ensemble.html#classification 梯度提升树 R 实现 s:/cran.r-project.org/web

14、/packages/gbm/index.html 2.3 深度学习深度学习同样很容易适应于分类问题。实际上深度学习应用地更多的是分类任务如图像分类等。优点深度学习非常适用于分类音频、文本以及图像数据。缺点以及回归问题一样深度神经网络需要大量的数据进展训练所以其也不是一个通用目的的算法。 Python 资源 s:/keras.io/ R 资源 :/mxnet.io/ 2.4 支持向量机支持向量机 SVM 可以使用一个称之为核函数的技巧扩展到非线性分类问题而该算法本质上就是计算两个称之为支持向量的观测数据之间的间隔。SVM 算法寻找的决策边界即最大化其与样本间隔的边界因此

15、支持向量机又称为大间距分类器。支持向量机中的核函数采用非线性变换将非线性问题变换为线性问题例如 SVM 使用线性核函数就能得到类似于 logistic 回归的结果只不过支持向量机因为最大化了间隔而更具鲁棒性。因此在理论中 SVM 最大的优点就是可以使用非线性核函数对非线性决策边界建模。优点 SVM 能对非线性决策边界建模并且有许多可选的核函数形式。SVM 同样面对过拟合有相当大的鲁棒性这一点在高维空间中尤其突出。缺点然而 SVM 是内存密集型算法由于选择正确的核函数是很重要的所以其很难调参也不能扩展到较大的数据集中。目前在工业界中随机森林通常优于支持向量机算法。 P

16、ython 实现 :/scikit-learn.org/stable/modules/svm.html#classification R 实现 s:/cran.r-project.org/web/packages/kernlab/index.html 2.5 朴素贝叶斯朴素贝叶斯 NB 是一种基于贝叶斯定理以及特征条件独立假设的分类方法。本质上朴素贝叶斯模型就是一个概率表其通过训练数据更新这张表中的概率。为了预测一个新的观察值朴素贝叶斯算法就是根据样本的特征值在概率表中寻找最大概率的那个类别。之所以称之为朴素是因为该算法的核心就是特征条件独立性假设每一个特征之间互相独立而这一假设

17、在现实世界中根本是不现实的。优点即使条件独立性假设很难成立但朴素贝叶斯算法在理论中表现出乎意料地好。该算法很容易实现并能随数据集的更新而扩展。缺点因为朴素贝叶斯算法太简单了所以其也经常被以上列出的分类算法所替代。 Python 实现 :/scikit-learn.org/stable/modules/naive_bayes.html R 实现 s:/cran.r-project.org/web/packages/naivebayes/index.html 3、聚类聚类是一种无监视学习任务该算法基于数据的内部构造寻找观察样本的自然族群即集群。使用案例包括细分客户、新闻聚类、文

18、章推荐等。因为聚类是一种无监视学习即数据没有标注并且通常使用数据可视化评价结果。假如存在正确的答复即在训练集中存在预标注的集群那么分类算法可能更加适宜。 3.1 K 均值聚类 K 均值聚类是一种通用目的的算法聚类的度量基于样本点之间的几何间隔即在坐标平面中的间隔。集群是围绕在聚类中心的族群而集群呈现出类球状并具有相似的大小。聚类算法是我们推荐给初学者的算法因为该算法不仅特别简单而且还足够灵敏以面对大多数问题都能给出合理的结果。优点 K 均值聚类是最流行的聚类算法因为该算法足够快速、简单并且假如你的预处理数据以及特征工程特别有效那么该聚类算法将拥有令人惊叹的灵敏性。

19、缺点该算法需要指定集群的数量而 K 值的选择通常都不是那么容易确定的。另外假如训练数据中的真实集群并不是类球状的那么 K 均值聚类会得出一些比拟差的集群。 Python 实现 :/scikit-learn.org/stable/modules/clustering.html#k-means R 实现 s:/stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html 3.2 Affinity Propagation 聚类 AP 聚类算法是一种相对较新的聚类算法该聚类算法基于两个样本点之间的图形间隔 graph distan

20、ces 确定集群。采用该聚类方法的集群拥有更小以及不相等的大小。优点该算法不需要指出明确的集群数量但是需要指定sample preference以及damping等超参数。缺点 AP 聚类算法主要的缺点就是训练速度比拟慢并需要大量内存因此也就很难扩展到大数据集中。另外该算法同样假定潜在的集群是类球状的。 Python 实现 :/scikit-learn.org/stable/modules/clustering.html#affinity-propagation R 实现 s:/cran.r-project.org/web/packages/apcluster/index.ht

21、ml 3.3 层次聚类 Hierarchical / Agglomerative 层次聚类是一系列基于以下概念的聚类算法最开场由一个数据点作为一个集群对于每个集群基于一样的标准合并集群重复这一经过直到只留下一个集群因此就得到了集群的层次构造。优点层次聚类最主要的优点是集群不再需要假设为类球形。另外其可以以扩展到大数据集。缺点有点像 K 均值聚类该算法需要设定集群的数量即在算法完成后需要保存的层次。 Python 实现 :/scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering R 实

22、现 s:/stat.ethz.ch/R-manual/R-devel/library/stats/html/hclust.html 3.4 DBSCAN DBSCAN 是一个基于密度的算法它将样本点的密集区域组成一个集群。最近还有一项被称为 HDBSCAN 的新进展它允许改变密度集群。优点 DBSCAN 不需要假设集群为球状并且它的性能是可扩展的。此外它不需要每个点都被分配到一个集群中这降低了集群的异常数据。缺点用户必需要调整epsilon以及min_sample这两个定义了集群密度的超参数。DBSCAN 对这些超参数非常敏感。 Python 实现 :/scikit-learn

23、.org/stable/modules/clustering.html#dbscan R 实现 s:/cran.r-project.org/web/packages/dbscan/index.html 原文地址 s:/elitedatascience /machine-learning-algorithms#regression 下载一中文版学习TensorFlow、PyTorch、机器学习、深度学习以及数据构造五件套后台回复【五件套】下载二南大形式识别PPT后台回复【南大形式识别】讲个正事哈由于微信平台算法改版公号内容将不再以时间排序展示假如大众想第一时间看到我们的推送强烈建议星标我们以及给我们多点点【在看】。星标详细步骤为 1 点击页面最上方“深度学习自然语言处理进入公众号主页。 2 点击右上角的小点点在弹出页面点击“设为星标就可以啦。感谢支持比心。投稿或者沟通学习备注昵称-学校公司 -方向进入DL NLP沟通群。方向有很多机器学习、深度学习 python 情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦推荐两个专辑给大众专辑 |李宏毅人类语言处理2020笔记专辑 | NLP论文解读专辑 |情感分析整理不易还望给个在看 zenRRan

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

14.8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 机器学习机器学习回归分类大方向剖解算法优缺点 Python 实现精品文档资料整理

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：【机器学习】回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现）...-精品文档资料整理.docx
链接地址：https://www.taowenge.com/p-73272566.html