机器学习算法常用模型逻辑回归(附上r和python程序).doc
《机器学习算法常用模型逻辑回归(附上r和python程序).doc》由会员分享,可在线阅读,更多相关《机器学习算法常用模型逻辑回归(附上r和python程序).doc(19页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date机器学习算法常用模型逻辑回归(附上r和python程序)机器学习算法常用模型逻辑回归(附上r和python程序)机器学习算法常用模型逻辑回归(附上R和python程序) 这个介绍主要是方便刚入行的数据科学家。通过这个指导,使你直接解决机器学习的问题以及从中获得经验。而且我会尽量用简单易懂的方式来介绍每一个算法,不会涉及很多数学,而是帮助你从原理上理解每个算法,每一个算
2、法都附上R和Python的程序来帮助你直接去应用程序解决问题。一般经常使用的机器学习算法有以下11种1.线性回归Linear Regression(已完成)2.逻辑回归Logistic Regression(已完成)3. 决策树Decision Tree4.随机森林Random Forest5.支持向量机SVM6.朴素贝叶斯Naive Bayes7.最近邻居法KNN8.K平均算法K-Means9.神经网络Neural Networks10.降维算法Dimensionality Reduction Algorithms11.梯度提升Gradient Boost & Adaboost第二期
3、我们介绍逻辑回归(2)。逻辑回归和线性回归其实都属于广义线性模型的一种,而在决策制定等领域,逻辑回归的应用更加广泛。所以在第一期学习了线性回归之后很自然的就是学习逻辑回归了。什么是逻辑回归?逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归,只是因为最后的结果是类别变量,所以我们需要用胜算比取对数来作为因变量(Dependent Variable)。简单来说,逻辑回归是利用logit 函数拟合数据来预测某一个事件发生的概率的。逻辑回归的起源逻辑回归其实是属于广义线性
4、模型(Generalized Linear Model)的一部分。1972年 Nelder和Wedderburn发明了这种方法来处理那些用线性回归没法处理的问题。因为如果你用线性回归去处理逻辑回归的二元或类别输出变量时候,最后的结果就是你会得到极低的校正R平方。当然广义线性模型是一个统计上用的非常广的模型,它包含了不止线性回归,逻辑回归,还有泊松回归,ANOVA等等,感兴趣的可以继续进行这方面的阅读。广义线性回归的基本公式是g(E(y) = + x1 + x2这里,g()是联系函数(link function),E(y) 是目标输出变量Y的期望值,而 + x1 + x2 是输入变量的线性组合(
5、, 都是需要用数据估计的参数)。联系函数的作用是将输出变量Y的期望值和输入变量X的线性组合可以连接起来,起到一个桥的作用。主要备注:I.广义线性模型(简称GLM)因为有联系函数的存在,所以不需要输出变量和输入变量一定有线性关系。但是它假设输出变量Y的期望值算出来的联系函数的值必须和输入变量有线性关系。II. GLM并不使用回归分析中经常使用的最小二乘法来估计模型参数的值,而是使用最大似然法则来估计参数的值(Maximum Likelihood Estimation,简称MLE)。MLE是统计学中只要涉及到参数模型一定都要搞清楚的重要基础概念。大部分的参数模型都会假设随机变量的分布,有了分布之后
6、能写出模型的似然函数,而模型中的参数就可以用最大似然函数来估计。III.因为有联系函数的存在,所以输出变量Y也不需要一定是正态分布的。IV.模型中的误差项必须要是独立分布的但是也不需要假设正态分布。而在线性回归中,误差项是要假设独立分布加正态分布的。逻辑回归的定义与表示为了便于没有太多统计背景的朋友们理解,下面会用一个简单的例子来说明。我们提供一个1000个顾客的样本。我们需要预测是否一个顾客会买杂志,这个是我们的类别结果(买/不买)。对于这个问题,我们会使用逻辑回归如下g(y) = o + (Age) - (a)这里的输入变量是年龄(Age)。g()是联系函数。这个函数包含两个东西,买杂志的
7、概率(p)和不买杂志的概率(1-p)。概率p需要满足下列标准:1.概率p大于02.概率p小于等于1有了概率的这两个条件,下面我们来写出概率p的函数。首先因为概率是总是大于0的,逻辑回归里面使用一个指数函数的形式表示概率p,因为对于任何输入变量,它的指数函数形式永远不会是负值。这个就满足了条件1p = exp(o + (Age) = e(o + (Age) - (b)由条件2,概率p不能大于1,所以我们需要对p做下面的变换p = exp(o + (Age) / exp(o + (Age) + 1 = e(o + (Age) / e(o + (Age) + 1 - (c)由(a),(b),(c)可
8、以得到,概率p可以写成p = ey/ 1 + ey - (d)而(d)就是我们常说的logit函数。然后我们继续做以下变换我们对这个等式两边同时去对数的话,可以得到log(p/(1-p)就是所谓的联系函数(link function),对于输出变量取对数的变换有利于我们对于非线性的关联性用线性模型去拟合。所以我们新的输出变量是Y而不是原来的p。Y可以写成上面这个式子就是逻辑回归使用的方程式。这里(p/1-p)是所谓的比值比,或者叫机会比(odds ratio),当比值比取对数之后是正值的话,那么意味着(p/1-p)>1,那么事件发生的概率p是大于50%的。我用一个用的很多逻辑回归的概率图
9、来说明逻辑回归的函数永远是在0和1 之间(因为是为了拟合概率)怎么评估逻辑回归模型的的表现在你建立好逻辑回归模型之后,很自然的我们需要去评估这个模型的表现好不好,不管你用的是什么软件(SAS,R,Python),你总是需要看1.AIC (Akaike Information Criteria) AIC准则AIC其实是和校准R平方很类似的一个测量量,校正R平方可以理解为,给进入模型的输入变量一个惩罚机制,你加入的输入变量X越多,我的惩罚越大。因此校正R平方可以理解为计算真正和Y有关的输入变量X可以解释的Y的百分比。AIC同样会给出这样的一个惩罚机制,你加入的输入变量个数越多,惩罚越大。AIC可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 常用 模型 逻辑 回归 附上 python 程序
限制150内