数据挖掘十大经典算法总结ppt课件.pptx
《数据挖掘十大经典算法总结ppt课件.pptx》由会员分享,可在线阅读,更多相关《数据挖掘十大经典算法总结ppt课件.pptx(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘十大经典算法总结内容nC4.5nThek-meansalgorithm即K-Means算法nSupportvectormachinesnTheApriorialgorithmn最大期望(EM)算法nPageRanknAdaBoostnkNN:k-nearestneighborclassificationnNaiveBayesnCART:分类与回归树C4.5uC4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2
2、)在树构造过程中进行剪枝;3)能够完成对连续属性的离散化处理;4)能够对不完整数据进行处理。uC4.5算法有如下优点:产生的分类规则易于理解,准确率较高。u其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。u 此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。The k-means algorithm即K-Means算法uk-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,kn。它与处理混合正态分布的最大期望算法很相似,因为它们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间
3、向量,并且目标是使各个群组内部的均方误差总和最小。u假设有k个群组Si,i=1,2,.,k。i是群组Si内所有元素xj的重心,或叫中心点。uk平均聚类发明于1956年,该算法最常见的形式是采用被称为劳埃德算法(Lloydalgorithm)的迭代式改进探索法。劳埃德算法首先把输入点分成k个初始化分组,可以是随机的或者使用一些启发式数据。然后计算每组的中心点,根据中心点的位置把对象分到离它最近的中心,重新确定分组。继续重复不断地计算中心并重新分组,直到收敛,即对象不再改变分组(中心点位置不再改变)。u从算法的表现上来说,它并不保证一定得到全局最优解,最终解的质量很大程度上取决于初始化的分组。由于
4、该算法的速度很快,因此常用的一种方法是多次运行k平均算法,选择最优解。uk平均算法的一个缺点是,分组的数目k是一个输入参数,不合适的k可能返回较差的结果。另外,算法还假设均方误差是计算群组分散度的最佳参数。Support vector machinesu支持向量机,英文为SupportVectorMachine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。uSVM的主要思想可以概括为两点:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征
5、空间采用线性算法对样本的非线性特征进行线性分析成为可能;它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。u支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。The Apriori algorithmuApriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维
6、、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。u该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。u可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。最大期望(EM)算法u在统计计算中,最大期望(EM,Expect
7、ationMaximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(LatentVariabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(DataClustering)领域。u最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E步上找到的最大似然的期望值从而计算参数的最大似然估计。uM步上找到的参数然后用于另外一个 E步计算,这个过程不断交替进行。PageRankuPageRank是Goo
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 经典 算法 总结 ppt 课件
限制150内