2022年产品数据分析建模方案 .pdf
《2022年产品数据分析建模方案 .pdf》由会员分享,可在线阅读,更多相关《2022年产品数据分析建模方案 .pdf(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、产品数据分析建模方案一、概述建设背景对于企业在人才管理上的问题:不能有效的发现自己的人才储备落后于行业的发展,在职员工可能存在上面异常的方面,更好的规划薪酬范围,让员工在个人岗位上获得满足感。依据能力制定合理的薪酬范围。依据行业画像,个人能力画像,提供分层数据,做决策展示。项目经理对人才的选拔。建设目标通过建立大数据体系下的数据挖掘平台,分析业务数据,为我们的客户提供更好的决策,并开发可视化模块,将结果展示给我们的客户,并且确定经营方向,做好推广工作。二、需求分析数据来源主要的数据来源之一是现有的数据库数据,接通到大数据平台进行分析,还有一部分外部数据,使用爬虫爬的数据,实时更新每日的趋势展示
2、,另外一部分从业者的信息,能否通过购买其它合作企业的信息,满足分析需求。数据提取整体思路,算法需求设计行业信息展示的数据提取,主要是为了展示某职位在行业的各个特征维度下的占比,比方说以地域来划分行业对当前职业的需求饼名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 13 页 -图。某职位在每个行业的每日需求趋势。每个行业对某主要需求的职位的技能词云统计。洞悉趋势薪酬预测的数据,需要职位的分类信息,以及每个分类下的每日整体数据,包括最大值,最小值,平均值。以预测这一部分数据为指导,通过数据分析是手段,找到相关的特征信息,比方说,每日上线的从业者,每日简历的更新次数,发布新需求的企业个
3、数等等作为特征,由数据挖掘工程师进行抽取。人才倾斜,造成竞争力处于行业底层客户画像展示将从业者对当前行业投递的简历信息聚合,进行多维度的展示,并对聚集的数据,进行算法分层,提供一个标签输入栏,输入标签数据,获得从业者在分层系统。客户当前的行业画像展示,由人才构成图,工资趋势,行业的趋势,每年发布招聘的行业个数的变化,新公司名称的个数。行业招的岗位分布情况。三、建设方案数据挖掘算法系统框架图参考名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 13 页 -产品的可视化原型展示大数据算法模型平台架构数据采集实时数据处理数据存储离线数据处理JAVA,SCALA,PYTHON,R业务系统数
4、据(数据接入)实时类数据(爬取,内部数据)互联网数据(数据爬取)其它离线数据(购买数据等.)StromSparkMySQL集群MongoDB 集群HDFSHbaseMLLIBHiveSpark集群服务节点规划机器 1 机器 2 机器 3 机器 4 机器 5 机器 6 机器 7 HDFS NameNode NameNode DataNode DataNode DataNode DataNode YARN Resource Resource Node Node Node Node ZOOKEPER Zookeeper Zookeeper Zookeeper Zookeeper Zookeeper
5、Zookeeper KAFKA Kafka Kafka Kafka 名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 13 页 -Hbase Master Master Master Region Region Region flume Flume Flume Flume Flume hive Hive mysql Mysql spark Spark mongodb mongodb 爬虫Python 另外提供爬虫提取互联网数据方案。四、算法实现举例回归模型算法设计案例薪酬回归预测算法构建案例(算法方案来自于携程赛十四个月出行产品预测,我们所在的队伍荣获大赛一等奖第一名)回归预测的数
6、据场景非常的相似,整体的数据架构和算法评分,都可以进行移植。赛题介绍商家信息数据23 个月的历史数据未来 14 个月的数据预测如何使用现有的历史数据与商店信息,预测出行产品未来14 个月每月的销量,从而指导产品的库存管理和定价策略,这对于收益管理和客户价值的提升有着重要作用。名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 13 页 -特征工程下面我将用图表的形式,向大家展示一下我们数据分析的整个过程。首先,筛选一批从14 年一月起就有历史数据的商家,以此为基础,分析每个月份占全年的比重,为剔出整体增长趋势的影响,我们采用了以下的方法。可以看出总体每个月趋势变化如下图所示:通过对地
7、区进行分析,发现 district_id1 中 10201 地区的商家占了97.5%,且district_id1、district_id2、district_id3、district_id4 依次属于从属关系,所以做名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 13 页 -出以下推断:district_id1是国家代码,district_id2是省级代码,district_id3是市级代码,district_id4是县级代码。并且为了更加细致分析商家历史趋势变换趋势,同时又不过多的加入噪声,我们对市级区域内的商家做了聚类分析。对于同一个市内商家个数多于16 个的,归为一类,对于
8、同一个市内商家个数少于16 个的,按省份进行归类,对于国外的商家按同一地区进行归类,对于都不属于以上几种情况的商家,按照坐标地址归属到最邻近的地区。对每个商家进行区域分类之后,利用分析总体每月趋势变化的方法,对每个区域内进行单独的分析,提取出每个区域的历史变化趋势。解决框架下面就是第二个核心部分模型。如何学习好关于月份的变化趋势是本题的一个重点难点,为了更好的学习每个月份的趋势,我们设计一个分12 个月去单独预测每个月份这样的一个模型。名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 13 页 -我们的模型能够保证足够多数据量的情况下,由为每个月份提供了更加合适的训练集,起到了放大
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年产品数据分析建模方案 2022 年产 数据 分析 建模 方案
限制150内