《大数据》第4章大数据挖掘工具324.pptx
《《大数据》第4章大数据挖掘工具324.pptx》由会员分享,可在线阅读,更多相关《《大数据》第4章大数据挖掘工具324.pptx(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据BIGDATA第四章大数据挖掘工具4.1Mahout4.2SparkMLlib4.3其他数据挖掘工具习题of4424.1Mahout大数据配套PPT课件uMahout简介定义:ApacheMahout是一个由Java语言实现的开源的可扩展的机器学习算法库2008年之前2010年以后ApacheLucene开源搜索引擎的子项目实现Lucene框架中的聚类以及分类算法吸纳协调过滤项目Taste成为独立子项目发展历史成为Apache顶级项目实现聚类、分类和协同过滤等机器学习算法既可以单机运行也可在Hadoop平台上运行目标:机器学习平台,提供类似R的DSL以支持线性代数运算(如分布式向量计算)
2、、大数据统计等基本功能驱象人of4434.1Mahout大数据配套PPT课件uMahout在各平台支持的机器学习算法算法单机MapReduceSparkH2O聚类算法Canopydeprecateddeprecatedk-meansxx模糊k-meansxx流k-meansxx谱聚类x分类算法逻辑回归x朴素贝叶斯xx随机森林x隐马尔可夫模型x多层感知器x协同过滤算法基于用户的协同过滤xx基于物品的协同过滤xxx基于ALS的矩阵分解xx基于ALS的矩阵分解(隐式反馈)xx加权矩阵分解x降维算法奇异值分解xxxxLanczosdeprecateddeprecated随机SVDxxxxPCAxxxx
3、QR分解xxxxof4444.1Mahout大数据配套PPT课件1.下载Mahout安装包2.解压并安装Mahout3.启动并验证Mahout安装环境:Linux操作系统(CentOS6.5)、Hadoop平台(Hadoop2.5.1)镜像网站http:/ R语言语言R中处理大数据RHadoopRHDFSRHBaseSparkRMapReduceof44304.3其他数据挖掘工具大数据配套PPT课件uH2O服务于数据科学家和开发者的开源机器学习和深度学习的平台of44314.3其他数据挖掘工具大数据配套PPT课件u腾讯大规模主题模型训练系统Peacock与深度学习平台MarianaPeacoc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据 数据 挖掘 工具 324
限制150内