《大数据挖掘工具培训ppt课件.ppt》由会员分享,可在线阅读,更多相关《大数据挖掘工具培训ppt课件.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据BIG DATA第四章大数据挖掘工具4.1Mahout4.2SparkMLlib4.3其他数据挖掘工具习题o f 44 24.1 Mahout大数据配套PPT课件uMahout 简介定义:ApacheMahout是一个由Java语言实现的开源的可扩展的机器学习算法库2008年之前2010年以后ApacheLucene开源搜索引擎的子项目实现Lucene框架中的聚类以及分类算法吸纳协调过滤项目Taste成为独立子项目发展历史成为Apache顶级项目实现聚类、分类和协同过滤等机器学习算法既可以单机运行也可在Hadoop平台上运行目标:机器学习平台,提供类似R的DSL以支持线性代数运算(如分布
2、式向量计算)、大数据统计等基本功能驱象人o f 44 34.1 Mahout大数据配套PPT课件u Mahout在各平台支持的机器学习算法算法 单机 MapReduce Spark H2O聚类算法 Canopy deprecated deprecated k-means x x 模糊k-means x x 流k-means x x 谱聚类 x 分类算法 逻辑回归 x 朴素贝叶斯 x x 随机森林 x 隐马尔可夫模型 x 多层感知器 x 协同过滤算法 基于用户的协同过滤 x x 基于物品的协同过滤 x x x 基于ALS 的矩阵分解 x x 基于ALS 的矩阵分解(隐式反馈)x x 加权矩阵分解
3、 x 降维算法 奇异值分解 x x x xLanczos deprecated deprecated 随机SVD x x x xPCA x x x xQR 分解 x x x xo f 44 44.1 Mahout大数据配套PPT课件1.下载Mahout安装包2.解压并安装Mahout3.启动并验证Mahout安装环境:Linux操作系统(CentOS6.5)、Hadoop平台(Hadoop2.5.1)镜像网站http:/f 44 54.1.1 Mahout 安装4.1 Mahout大数据配套PPT课件K-means聚类算法基于Mahout命令运行k-means算法基于MahoutAPI运行k-
4、means算法基于多维输入数据运行k-means算法同一个簇中对象具有高相似度无监督学习算法Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法本节重点o f 44 64.1.2 聚类算法4.1 Mahout大数据配套PPT课件u 基于Mahout命令运行k-means算法12个二维数据110111210211101102运行聚类算法(1.5,10.5)(10.5,1.5)(10.5,10.5)聚类中心坐标以上述3个坐标为中心,半径为(0.5,0.5),生成3个聚类,每个聚类4个成员3次迭代o f 44 74.1 Mahout大数据配套PPT课件u 基于Ma
5、hout API运行k-means算法给出初始聚类中心1101011010调用MahoutAPI运行k-means聚类算法,指定Hadoop配置信息、输入数据、初始聚类中心,迭代2次得到聚类结果o f 44 84.1 Mahout大数据配套PPT课件u 基于多维输入数据运行k-means算法60维数据样本n 600条60维趋势数据(600行60列)n 表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势n 每类100条n 每类取一条做初始聚类中心n 运行KmeansDemo类n 将计算出的聚类中心数据导入到Excel文件6个聚类中心所代表的趋势曲线o f 44 94.1 Mahout大数据
6、配套PPT课件考察已被分类的样本数据,学习训练分类规则有监督学习算法进行输入数据的类别判定分类预测垃圾邮件检测o f 44 104.1.3 分类算法4.1 Mahout大数据配套PPT课件u 逻辑回归算法Mahout下基于随机梯度下降(SGD)实现的逻辑回归(LogisticRegression)算法是一种二元分类算法,只能在单机上运行,适合分类算法的入门学习。可视化表达样本数据 分类模型 正确分类训练学习模型评估o f 44 114.1 Mahout大数据配套PPT课件u 朴素贝叶斯算法新闻网页数据 数据清洗 训练分类模型 新闻类别判定l 共53条测试数据l 正确分类51条l 未正确分类2条
7、o f 44 124.1 Mahout大数据配套PPT课件通过收集大量用户(协同)的喜好信息,以自动预测(过滤)用户感兴趣的商品协同过滤算法基于物品的协同过滤算法基于ALS的矩阵分解算法计算物品相似性矩阵通过矩阵分解进行预测o f 44 134.1.4 协同过滤算法4.1 Mahout大数据配套PPT课件u 基于物品的协同过滤算法物品1 物品2 物品3 物品4用户1 55 2 用户2 2 3 5用户3 5 3用户4 3 5物品1 物品2 物品3 物品4物品1 0.25 0.66 0.5物品2 0.25 0.33 0.25物品3 0.660.33 0.25物品4 0.50.25 0.25 物品1
8、 物品2 物品3 物品4用户1 55 2 4.25用户2 23.3 3 5用户3 3.675 4.14 3用户4 34.0 3.55 5用户评分矩阵物品相似性矩阵用户评分矩阵(补入预测评分)o f 44 144.1 Mahout大数据配套PPT课件u 基于物品的协同过滤算法实现代码publicclassItemCFDemoextendsConfiguredimplementsToolpublicstaticvoidmain(Stringargs)throwsExceptionToolRunner.run(newConfiguration(),newItemCFDemo(),args);Over
9、ridepublicintrun(Stringargs)throwsExceptionConfigurationconf=getConf();tryFileSystemfs=FileSystem.get(conf);Stringdir=/itemcfdemo;if(!fs.exists(newPath(dir)System.err.println(Pleasemakedirector/itemcfdemo);return2;Stringinput=dir+/input;if(!fs.exists(newPath(input)System.err.println(Pleasemakedirect
10、or/itemcfdemo/input);return2;Stringoutput=dir+/output;Pathp=newPath(output);if(fs.exists(p)fs.delete(p,true);Stringtemp=dir+/temp;Pathp2=newPath(temp);if(fs.exists(p2)fs.delete(p2,true);RecommenderJobrecommenderJob=newRecommenderJob();recommenderJob.setConf(conf);recommenderJob.run(newString-input,i
11、nput,-output,output,-tempDir,temp,-similarityClassname,TanimotoCoefficientSimilarity.class.getName(),-numRecommendations,4);catch(Exceptione)e.printStackTrace();return0;o f 44 154.1 Mahout大数据配套PPT课件u 基于ALS的矩阵分解算法特征维度1 特征维度2 特征维度3用户1 1.12 1.49 0.48用户2 1.31-0.52 0.59用户3 1.13 0.67-0.52用户4 1.39 0.05 0.4
12、5用户特征矩阵U特征维度1 特征维度2 特征维度3物品11.81 1.62 0.74物品22.66 1.71-1.08物品31.73-0.23 0.78物品43.16-0.24 0.90物品特征矩阵M物品1 物品2 物品3 物品4用户14.796 5.009 1.969 3.614用户21.965 1.958 2.846 4.795用户32.746 4.713 1.395 2.942用户42.930 3.297 2.744 4.785预测评分矩阵A_k用户评分矩阵A用户评分矩阵U 用户评分矩阵MA=U MT预测评分矩阵A_ko f 44 16第四章大数据挖掘工具4.1Mahout4.2Spar
13、kMLlib4.3其他数据挖掘工具习题o f 44 174.2 Spark MLlib大数据配套PPT课件离散型 连续型有监督的机器学习分类逻辑回归支持向量机(SVM)朴素贝叶斯决策树随机森林梯度提升决策树(GBT)回归线性回归决策树随机森林梯度提升决策树(GBT)保序回归无监督的机器学习聚类k-means高斯混合快速迭代聚类(PIC)隐含狄利克雷分布(LDA)二分k-means流k-means协同过滤、降维交替最小二乘(ALS)奇异值分解(SVD)主成分分析(PCA)MLlib支持的机器学习算法MLlibl 运行在Spark平台上专为在集群上并行运行而设计l 内存中更快地实现多次迭代,适用于
14、大规模数据集o f 44 184.2 Spark MLlib大数据配套PPT课件importorg.apache.spark.mllib.clustering.KMeans,KMeansModelimportorg.apache.spark.mllib.linalg.Vectors/Loadandparsethedatavaldata=sc.textFile(data/mllib/points.txt)valparsedData=data.map(s=Vectors.dense(s.split(s+).map(_.toDouble).cache()/Clusterthedataintothre
15、eclassesusingKMeansvalk=3valnumIterations=20valclusters=KMeans.train(parsedData,k,numIterations)for(c-clusters.clusterCenters)println(c)clusters.predict(Vectors.dense(10,10)/EvaluateclusteringbycomputingWithinSetSumofSquaredErrorsvalWSSSE=puteCost(parsedData)println(WithinSetSumofSquaredErrors=+WSSS
16、E)1.5,10.510.5,1.510.5,10.52WithinSetSumofSquaredErrors=6.000000000000057实现代码 输出结果与Mahout下的k-means聚类应用相比,无论在代码量、易用性及运行方式上,MLlib都具有明显的优势o f 44 194.2.1 聚类算法4.2 Spark MLlib大数据配套PPT课件回归算法和分类算法都是有监督的学习,分类算法预测的结果是离散的类别,而回归算法预测的结果是连续的数值l 线性回归最常用的算法之一,使用输入值的线性组合来预测输出值l 类LinearRegressionWithSGDMLlib实现线性回归算法的
17、常用类之一,基于随机梯度下降实现线性回归输入函数y=0.5*x1+0.2*x2输入数据weights:0.5000000000539042,0.1999999999989402,intercept:0.0trainingMeanSquaredError=9.576567731363342E-20输出结果o f 44 204.2.2 回归算法4.2 Spark MLlib大数据配套PPT课件0,1000,2000,3000,4001,0101,0201,0301,0402,0012,0022,0032,004Scala代码加载训练数据文件解析每行数据训练模型预测分类Vector(009)slab
18、elis2.0Accuracy:1.0输出程序o f 44 214.2.3 分类算法4.2 Spark MLlib大数据配套PPT课件l 先加载了训练数据文件,然后解析每行数据,并将其转换为Rating对象l 定义特征矩阵的维度rank和算法迭代次数numIterationsl 调用ALS的类方法train(),根据训练数据ratings学习出评分模型l 调用recommendProductsForUsers()向用户推荐指定个数的物品MLlib中支持的是基于模型的协同过滤,即交替最小二乘(ALS)算法依旧以4.1.4节中用户物品数据为例:o f 44 224.2.4 协同过滤算法第四章大数据
19、挖掘工具4.1Mahout4.2SparkMLlib4.3其他数据挖掘工具习题o f 44 234.3 其他数据挖掘工具大数据配套PPT课件MahoutSpark MLlibl 提供标准算法,无法满足个性化需求l 提供的并行化机器学习算法数量有限SystemML GraphLabParameterServerWEKA scikit-learn基于R语言的机器学习库H2O腾讯大规模主题模型训练系统Peacock与深度学习平台Mariana百度大规模机器学习框架ELF与机器学习云平台BML阿里数据挖掘平台DTPAI其他数据挖掘工具o f 44 244.3 其他数据挖掘工具大数据配套PPT课件u S
20、ystemMLIBMWastonResearchCenter和IBMAlmadenResearchCenter联合研发的大数据机器学习系统提供大量的监督和非监督的机器学习算法所需要的线性代数原语,统计功能和ML指定结构,可更容易也更原生地表达ML算法具有较好的可编程性和易用性,用户不需要具备任何分布式系统的概念或编程经验,即可写出可扩展的机器学习算法o f 44 254.3 其他数据挖掘工具大数据配套PPT课件u GraphLab卡内基梅隆大学的Select实验室开发的以顶点为计算单元的大规模图处理系统,是一个基于图模型抽象的可扩展的机器学习框架稀疏数据集 迭代可收敛 异步执行解决优点缺点高效
21、处理大数据图像算法问题或者可归结为图问题的机器学习和数据挖掘问题提供的接口细节比较复杂,使用难度大o f 44 264.3 其他数据挖掘工具大数据配套PPT课件u Parameter Server基于模型参数的抽象方法,即把所有机器学习算法抽象为对学习过程中一组模型参数的管理和控制,并提供对大规模场景下大量模型参数的有效管理和访问机器学习算法研究者、深度优化机器学习算法的数据分析程序员 适用为大规模机器学习提供了非常灵活的模型参数调优和控制机制 优点缺少对大规模机器学习时的数据及编程计算模型的高层抽象 缺点o f 44 274.3 其他数据挖掘工具大数据配套PPT课件u scikit-lear
22、n基于Python的机器学习库,建立在NumPy、SciPy和matplotlib基础之上,使用BSD开源许可证开发案例分类 回归 聚类数据降维模型选择数据预处理支持算法SVM K-Means SVR Lassorandomforest主要模块o f 44 284.3 其他数据挖掘工具大数据配套PPT课件u WEKA现今最完备的数据挖掘工具之一,数据挖掘和机器学习历史上的里程碑WEKA可视化GUI界面o f 44 294.3 其他数据挖掘工具大数据配套PPT课件u 基于R语言的机器学习库R语言目前在数据分析应用领域最广为使用的数据分析、统计计算及制图的开源软件系统,提供了大量的专业模块和实用工
23、具R R语言 语言R中处理大数据RHadoop RHDFS RHBaseSparkRMapReduceo f 44 304.3 其他数据挖掘工具大数据配套PPT课件u H2O服务于数据科学家和开发者的开源机器学习和深度学习的平台o f 44 314.3 其他数据挖掘工具大数据配套PPT课件u 腾讯大规模主题模型训练系统Peacock与深度学习平台MarianaPeacock:大规模LDA主题模型训练系统,用于语义理解、兴趣挖掘、用户拓展、QQ群推荐等大规模矩阵分解隐含语义学习Peacock应用于QQ群推荐Mariana应用于微信语音识别Mariana:大规模并行化机器学习处理,用于微信语音和图
24、像识别的深度学习平台大规模样本数据处理Peacock多GPU的深度神经网络并行计算系统MarianaDNN多GPU的深度卷积神经网络并行计算系统MarianaCNNCPU集群的深度神经网络并行计算系统MarianaClusterMarianao f 44 324.3 其他数据挖掘工具大数据配套PPT课件u 百度大规模机器学习框架ELF与机器学习云平台BMLELF:大规模分布式机器学习框架,基于ParameterServer模型的通用化大规模机器学习系统BML:大规模并行化机器学习处理,用于微信语音和图像识别的深度学习平台ELF(EssentialLearningFramework)吸收了Had
25、oop、Spark和MPI等大数据平台的优点,用类似于Spark的全内存DAG计算引擎,可基于数据流的编程模式,通过高度抽象的编程接口,让用户方便地完成各种机器学习算法的并行化设计和快速计算BML(BaiduMachineLearning)支持数据预处理算法、分类算法、聚类算法、深度学习等20多种机器学习算法,通过分布和并行化计算实现优异的计算性能,承载百度公司如网页搜索、百度推广(凤巢、网盟CTR预估)、百度地图、百度翻译等业务应用4.3 其他数据挖掘工具大数据配套PPT课件u 阿里数据挖掘平台DT PAIDTPAI基于阿里云大数据处理平台ODPS构建,集成了阿里巴巴核心智能算法库,包括特征
26、工程、数据探查与统计、大规模机器学习、深度学习,以及阿里在文本、图像和语音处理方面的数据技术数据分析挖掘 用户行为预测 行业走势预测 图形化编程1.简述常用机器学习系统和大数据挖掘工具有哪些?2.安装好Mahout环境后,演示Mahout操作实例?3.Mahout的适用场合与特点有哪些?5.SparkMLlib的适用场合与特点有哪些?6.简述SystemML的体系结构。7.简述GraphLab的体系结构。8.简述ParameterServer的工作原理。9.简述scikit-learn的主要模块及开发案例。10.简述WEKA的工作原理。11.基于R语言的机器学习库有哪些?12.简述H2O机器学
27、习系统的主要功能。习题:感谢聆听 11、人生的某些障碍,你是逃不掉的。与其费尽周折绕过去,不如勇敢地攀登,或许这会铸就你人生的高点。12、有些压力总是得自己扛过去,说出来就成了充满负能量的抱怨。寻求安慰也无济于事,还徒增了别人的烦恼。13、认识到我们的所见所闻都是假象,认识到此生都是虚幻,我们才能真正认识到佛法的真相。钱多了会压死你,你承受得了吗?带,带不走,放,放不下。时时刻刻发悲心,饶益众生为他人。14、梦想总是跑在我的前面。努力追寻它们,为了那一瞬间的同步,这就是动人的生命奇迹。15、懒惰不会让你一下子跌倒,但会在不知不觉中减少你的收获;勤奋也不会让你一夜成功,但会在不知不觉中积累你的成
28、果。人生需要挑战,更需要坚持和勤奋!16、人生在世:可以缺钱,但不能缺德;可以失言,但不能失信;可以倒下,但不能跪下;可以求名,但不能盗名;可以低落,但不能堕落;可以放松,但不能放纵;可以虚荣,但不能虚伪;可以平凡,但不能平庸;可以浪漫,但不能浪荡;可以生气,但不能生事。17、人生没有笔直路,当你感到迷茫、失落时,找几部这种充满正能量的电影,坐下来静静欣赏,去发现生命中真正重要的东西。18、在人生的舞台上,当有人愿意在台下陪你度过无数个没有未来的夜时,你就更想展现精彩绝伦的自己。但愿每个被努力支撑的灵魂能吸引更多的人同行。19、积极的人在每一次忧患中都看到一个机会,而消极的人则在每个机会中看到
29、了某种忧患。莫找借口失败,只找理由成功。20、每一个成就和长进,都蕴含着曾经受过的寂寞、洒过的汗水、流过的眼泪。许多时候不是看到希望才去坚持,而是坚持了才能看到希望。1、有时候,我们活得累,并非生活过于刻薄,而是我们太容易被外界的氛围所感染,被他人的情绪所左右。2、身材不好就去锻炼,没钱就努力去赚。别把窘境迁怒于别人,唯一可以抱怨的,只是不够努力的自己。3、大概是没有了当初那种毫无顾虑的勇气,才变成现在所谓成熟稳重的样子。4、世界上只有想不通的人,没有走不通的路。将帅的坚强意志,就像城市主要街道汇集点上的方尖碑一样,在军事艺术中占有十分突出的地位。5、世上最美好的事是:我已经长大,父母还未老;
30、我有能力报答,父母仍然健康。6、没什么可怕的,大家都一样,在试探中不断前行。7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。8、世上的事,只要肯用心去学,没有一件是太晚的。要始终保持敬畏之心,对阳光,对美,对痛楚。9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。11、失败不可怕,可怕的是从来没有努力过,还怡然自得地安慰自己,连一点点的懊悔都被麻木所掩盖下去。不能怕,没什么比自己背叛自己更可怕。12、跌倒了
31、,一定要爬起来。不爬起来,别人会看不起你,你自己也会失去机会。在人前微笑,在人后落泪,可这是每个人都要学会的成长。13、要相信,这个世界上永远能够依靠的只有你自己。所以,管别人怎么看,坚持自己的坚持,直到坚持不下去为止。14、也许你想要的未来在别人眼里不值一提,也许你已经很努力了可还是有人不满意,也许你的理想离你的距离从来没有拉近过.但请你继续向前走,因为别人看不到你的努力,你却始终看得见自己。15、所有的辉煌和伟大,一定伴随着挫折和跌倒;所有的风光背后,一定都是一串串揉和着泪水和汗水的脚印。16、成功的反义词不是失败,而是从未行动。有一天你总会明白,遗憾比失败更让你难以面对。17、没有一件事情可以一下子把你打垮,也不会有一件事情可以让你一步登天,慢慢走,慢慢看,生命是一个慢慢累积的过程。18、努力也许不等于成功,可是那段追逐梦想的努力,会让你找到一个更好的自己,一个沉默努力充实安静的自己。19、你相信梦想,梦想才会相信你。有一种落差是,你配不上自己的野心,也辜负了所受的苦难。20、生活不会按你想要的方式进行,它会给你一段时间,让你孤独、迷茫又沉默忧郁。但如果靠这段时间跟自己独处,多看一本书,去做可以做的事,放下过去的人,等你度过低潮,那些独处的时光必定能照亮你的路,也是这些不堪陪你成熟。所以,现在没那么糟,看似生活对你的亏欠,其实都是祝愿。
限制150内