基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf
-
资源ID:73138455
资源大小:43.80KB
- 资源格式: PDF
下载积分:11.9金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
基于Spark的机器学习资料48、系统整体架构再次介绍+技术串联介绍(将学习的技术全部整合到项目中).pdf
系统整体架构再次介绍+技术串联介绍 项目结构:ETL-Mongodb-IK-HDFS-Spark ML/Spark Streaming-Kafka 课程学到的技术:scala、IK、Hdfs、Spark ML、Spark Streaming、Spark SQL、Kafka、Zookeeper、Mongodb、Spring-data-mongodb 等 项目需要的工程结构:1、父类工程,主要是管理各个 jar 的版(ml-sdk)-java 实现 2、avro 序列化 jar,用于客户端和机器学习实现序列化和反序列化(*-store-api)-java 实现 3、kafka 发送数据 jar,给 app 调用并实现切词并发送数据到 kafka(*-avro-kafka)-java 实现 4、工具类 jar,实现操作 hdfs、切词以及操作 mongodb(*-extract-facade)-java 实现 5、操作类 jar,调用工具类具体进行切词以及数据清洗并且存储到 Hdfs(*-extract)-java 实现 6、机器学习集合 jar,主要用来存放 record(ml-common)-scala 实现 7、机器学习算法 jar,主要进行 tf-idf 以及 kmeans 计算,主要实现企业上下游、供求上下游模型计算(ml-kmeans)-scala 实现 8、流式计算 jar,主要是接受客户端发送到 kafka 的数据加载模型进行计算(ml-kmeans-streaming)-scala 实现 9、测试模拟 jar,主要模拟实现用户加载 avro 序列化 jar 写数据到 kafka(*-test)-java 实现