基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf





《基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf》由会员分享,可在线阅读,更多相关《基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Spark ML 算法简单介绍 一、线性回归算法 线性回归(Linear Regression),数理统计中回归分析,用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为 y=wx+e,e 为误差服从均值为 0 的正态分布,其中只有一个自变量的情况称为简单回归,多个自变量的情况叫多元回归。这个例子中近简化使用房屋面积一个因子作为自变量,y 轴对应其因变量房屋价格。所以我们机器学习的线性回归就变为对于给定有限的数据集,进行一元线性回归,即找到一个一次函数 y=y(x)+e,使得 y 满足 当 x=2104,1600,2400,1416,3000,.,y=400,330,
2、369,232,540,.如下图所示:至于公式的求解,大家可以自己去看一下源码或者方程求解,这里就不讲解了。二、逻辑回归算法 logistic 回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数 g(z)将最为假设函数来预测。g(z)可以将连续值映射到 0 和 1 上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到 0 和 1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这个范围还有个很好的好处,就是可以消除特别冒尖的变量的影响。三、贝叶斯分类算法 贝叶斯定理 贝叶斯定理解决的是
3、这样一个问题:已知在事件 B 发生的条件下,事件 A 的发生概率 P(A|B),怎样得到事件 A 发生的条件下,事件 B 的发生概率 P(B|A)?贝叶斯定理为我们打通了从 P(A|B)到 P(B|A)的道路。P(B|A)=P(A|B)P(B)/P(A)举例说明,假设已经有了 100 个 email,其中:垃圾邮件占比 60%,即 P(Spam)=0.6 80%的垃圾邮件包含关键字“buy”,即 P(Buy|Spam)=0.8 20%的垃圾邮件不包含关键字“buy”正常邮件占比 40%,即 P(NotSpam)=0.4 10%的正常邮件包含关键字“buy”,即 P(Buy|NotSpam)=0
4、.1 90%的正常邮件不包含关键字“buy”现在,第 101 个 email 进来了,它包含关键字“buy”,那么它是垃圾邮件的概率 P(Spam|Buy)是多少?P(Spam|Buy)=P(Buy|Spam)P(Spam)/P(Buy)P(Buy)=P(Buy|Spam)P(Spam)+P(Buy|NotSpam)P(NotSpam)P(Spam|Buy)=(0.8 0.6)/(0.8 0.6+0.1 0.4)=0.48/0.52=0.923 由此得出,这个 email 有 92.3%的可能是一个垃圾邮件。四、SVM 支持向量机算法 支持向量机是一个类分类器,它能够将不同类的样本在样本空间中
5、践行分割,其中生成的分隔面叫作分隔超平面。给定一些标记好的训练样本,SVM 算法输出一个最优化的分隔超平面。五、决策树算法 决策树就是通过一系列规则对数据进行分类的一种算法,可以分为分类树和回归树两类,分类树处理离散变量的,回归树是处理连续变量。样本一般都有很多个特征,有的特征对分类起很大的作用,有的特征对分类作用很小,甚至没有作用。如决定是否对一个人贷款是,这个人的信用记录、收入等就是主要的判断依据,而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程,就是根据特征的决定性程度,先使用决定性程度高的特征分类,再使用决定性程度低的特征分类,这样构建出一棵倒立的树,就是我们需要的决策树模型,
6、可以用来对数据进行分类。决策树学习的过程可以分为三个步骤:1)特征选择,即从众多特征中选择出一个作为当前节点的分类标准;2)决策树生成,从上到下构建节点;3)剪枝,为了预防和消除过拟合,需要对决策树剪枝。六、Kmeans 聚类算法 聚类(clustering)与分类(classification)的不同之处在于:分类是一种示例式的有监督学习算法,它要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应,很多时候这个条件是不成立的,尤其是面对海量数据的时候;而聚类是一种观察式的无监督学习算法,在聚类之前可以不知道类别甚至不给定类别数量,由算法通过对样本数据的特征进行观察,然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Spark 机器 学习 资料 43 其它 SparkML 算法 简单 介绍

限制150内