基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf

上传人：l***

文档编号：74072444

上传时间：2023-02-24

格式：PDF

页数：4

大小：448.03KB

( 4.5 )

《基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf》由会员分享，可在线阅读，更多相关《基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf（4页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、Spark ML 算法简单介绍一、线性回归算法线性回归（Linear Regression），数理统计中回归分析，用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，其表达形式为 y=wx+e，e 为误差服从均值为 0 的正态分布，其中只有一个自变量的情况称为简单回归，多个自变量的情况叫多元回归。这个例子中近简化使用房屋面积一个因子作为自变量，y 轴对应其因变量房屋价格。所以我们机器学习的线性回归就变为对于给定有限的数据集，进行一元线性回归，即找到一个一次函数 y=y(x)+e，使得 y 满足当 x=2104,1600,2400,1416,3000,.,y=400,330,

2、369,232,540,.如下图所示：至于公式的求解，大家可以自己去看一下源码或者方程求解，这里就不讲解了。二、逻辑回归算法 logistic 回归本质上是线性回归，只是在特征到结果的映射中加入了一层函数映射，即先把特征线性求和，然后使用函数 g(z)将最为假设函数来预测。g(z)可以将连续值映射到 0 和 1 上。它与线性回归的不同点在于：为了将线性回归输出的很大范围的数，例如从负无穷到正无穷，压缩到 0 和 1之间，这样的输出值表达为“可能性”才能说服广大民众。当然了，把大值压缩到这个范围还有个很好的好处，就是可以消除特别冒尖的变量的影响。三、贝叶斯分类算法贝叶斯定理贝叶斯定理解决的是

4、.1 90%的正常邮件不包含关键字“buy”现在，第 101 个 email 进来了，它包含关键字“buy”，那么它是垃圾邮件的概率 P(Spam|Buy)是多少？P(Spam|Buy)=P(Buy|Spam)P(Spam)/P(Buy)P(Buy)=P(Buy|Spam)P(Spam)+P(Buy|NotSpam)P(NotSpam)P(Spam|Buy)=(0.8 0.6)/(0.8 0.6+0.1 0.4)=0.48/0.52=0.923 由此得出，这个 email 有 92.3%的可能是一个垃圾邮件。四、SVM 支持向量机算法支持向量机是一个类分类器，它能够将不同类的样本在样本空间中

5、践行分割，其中生成的分隔面叫作分隔超平面。给定一些标记好的训练样本，SVM 算法输出一个最优化的分隔超平面。五、决策树算法决策树就是通过一系列规则对数据进行分类的一种算法，可以分为分类树和回归树两类，分类树处理离散变量的，回归树是处理连续变量。样本一般都有很多个特征，有的特征对分类起很大的作用，有的特征对分类作用很小，甚至没有作用。如决定是否对一个人贷款是，这个人的信用记录、收入等就是主要的判断依据，而性别、婚姻状况等等就是次要的判断依据。决策树构建的过程，就是根据特征的决定性程度，先使用决定性程度高的特征分类，再使用决定性程度低的特征分类，这样构建出一棵倒立的树，就是我们需要的决策树模型，

6、可以用来对数据进行分类。决策树学习的过程可以分为三个步骤：1）特征选择，即从众多特征中选择出一个作为当前节点的分类标准；2）决策树生成，从上到下构建节点；3）剪枝，为了预防和消除过拟合，需要对决策树剪枝。六、Kmeans 聚类算法聚类（clustering）与分类（classification）的不同之处在于：分类是一种示例式的有监督学习算法，它要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应，很多时候这个条件是不成立的，尤其是面对海量数据的时候；而聚类是一种观察式的无监督学习算法，在聚类之前可以不知道类别甚至不给定类别数量，由算法通过对样本数据的特征进行观察，然

7、后进行相似度或相异度的分析，从而达到“物以类聚”的目的。七、LDA 主题模型算法隐含狄利克雷分配（LDA，Latent Dirichlet Allocation）是一种主题模型(Topic Model，即从所收集的文档中推测主题)。甚至可以说 LDA 模型现在已经成为了主题建模中的一个标准，是实践中最成功的主题模型之一。那么何谓“主题”呢？，就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说，我们是用一个特定的词频分布来刻画主题的，并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。也就是说在主题模型中，主题表现为一系列相关的单词，是这些单词的条件概率。形象

8、来说，主题就是一个桶，里面装了出现概率较高的单词，这些单词与这个主题有很强的相关性。LDA 可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。LDA 可以被认为是如下的一个聚类过程：（1）各个主题（Topics）对应于各类的“质

9、心”，每一篇文档被视为数据集中的一个样本。（2）主题和文档都被认为存在一个向量空间中，这个向量空间中的每个特征向量都是词频（词袋模型）（3）与采用传统聚类方法中采用距离公式来衡量不同的是，LDA 使用一个基于统计模型的方程八、FPGrowth 关联规则算法关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品（项）之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响，分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。九、ALS 交替最小二乘算法 ALS(Alternating Least Square)，交替最小二乘法。在

10、机器学习中，特指使用最小二乘法的一种协同推荐算法。如下图所示，u 表示用户，v 表示商品，用户给商品打分，但是并不是每一个用户都会给每一种商品打分。比如用户 u6 就没有给商品 v3 打分，需要我们推断出来，这就是机器学习的任务。由于并不是每个用户给每种商品都打了分，可以假设 ALS 矩阵是低秩的，即一个 m*n 的矩阵，是由 m*k 和k*n 两个矩阵相乘得到的，其中 km,n。Amn=UmkVkn 这种假设是合理的，因为用户和商品都包含了一些低维度的隐藏特征，比如我们只要知道某个人喜欢碳酸饮料，就可以推断出他喜欢百世可乐、可口可乐、芬达，而不需要明确指出他喜欢这三种饮料。这里的碳酸饮料就相

11、当于一个隐藏特征。上面的公式中，Umk 表示用户对隐藏特征的偏好，Vkn 表示产品包含隐藏特征的程度。机器学习的任务就是求出 Umk 和 Vkn。可知 uiTvj 是用户 i 对商品 j 的偏好，使用 Frobenius范数来量化重构 U 和 V 产生的误差。由于矩阵中很多地方都是空白的，即用户没有对商品打分，对于这种情况我们就不用计算未知元了，只计算观察到的(用户,商品)集合 R。这样就将协同推荐问题转换成了一个优化问题。目标函数中 U 和 V 相互耦合，这就需要使用交替二乘算法。即先假设 U 的初始值 U(0)，这样就将问题转化成了一个最小二乘问题，可以根据 U(0)可以计算出 V(0)，

12、再根据 V(0)计算出 U(1)，这样迭代下去，直到迭代了一定的次数，或者收敛为止。虽然不能保证收敛的全局最优解，但是影响不大。十、协同过滤推荐算法基于协同过滤的推荐，可以理解为基于用户行为的推荐。依赖于用户过去的行为的协同过滤，行为可以是过往的交易行为和商品评分，这种方式不需要显性的属性信息。协同过滤通过分析用户和商品的内在关系来识别新的 user-item 关系。协同过滤领域主要的两种方式是最近邻（neighborhood）方法和潜在因子（latent factor）模型。最近邻方法主要集中在 item 的关系或者是 user 的关系，是比较基础的过滤引擎。而潜在因子模型并不是选取所有的关系，而是通过矩阵分解的技术将共现矩阵的分解，比如提取 20-100 个因子，来表示原始矩阵信息（可以对比上面提到的音乐基因，只不过潜在因子模型是通过计算机化的实现）。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

11.9 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Spark 机器学习资料 43 其它 SparkML 算法简单介绍

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：基于Spark的机器学习资料43、其它SparkML算法简单介绍.pdf
链接地址：https://www.taowenge.com/p-74072444.html