回归与神经网络.docx
《回归与神经网络.docx》由会员分享,可在线阅读,更多相关《回归与神经网络.docx(9页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如有侵权,请联系网站删除,仅供学习与交流回归与神经网络【精品文档】第 9 页回归和神经网络分析目标零售行业拥有大量消费者特征和行为数据,通过对数据进行探索挖掘得到的信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分类决策树模型是一种对实例进行分类的树形结构。决策树学习算法包含特征选择、决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就是上一层的子节点。直到数据集为空,或者数据集只有一维特征为止。logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据
2、挖掘,疾病自动诊断,经济预测等领域。神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决策树模型、逻辑回归模型、神经网络模型对企业的Organics数据进行分析,通过划分训练集和验证集判断模型拟合优劣,最终选择最优模型来得到购买Organics的消费者的特征,从而为企业提供精准营销的客户。数据情况1.添加数据源我们发现AGEGRP1与AGEGRP2与Age内容相似,只是用不同形式表示年龄,因此选择拒绝这两组变量;同时,Number of Organic Pro
3、ducts Purchased代表购买的有机产品的数量,而我们分析的目的是对消费者是否购买有机产品进行预测,因此该变量相关性较弱,可以拒绝;最后,我们将Organics Purchased?设为目标变量进行分析。2.数据集右键探索从图中可以看到,该数据集共有18个变量,22223个观测。从样本统计量中可以看到,大部分变量缺失值都比较严重, 后面应该进行相应的补缺处理。上图显示了数据集的前面15条数据。从所有变量的频数统计图中可以看到,除了已经拒绝的变量,其余大部分呈现正态分布,只有变量BILL和LITME变量呈现偏态分布,因此后期数据预处理时应该对这两个变量进行转化处理。3.统计探索从目标变量
4、的频数分布图可以看到购买人数占比大概是25%,而不购买的人数占比大概是75%,说明我们的样本还是有意义的。数据预处理1.数据分区设置训练集比例70%,验证集比例30%。经过上次决策树实验得出70%&30%比例较好,因此本次建模直接这样分区。分区结果如上2.转换变量根据以上数据探索分析,将BILL变量转换为对数,将LTIME变量转换为对数。转换结果如上,将BILL和LTIME变量转换为对数。3.替换变量分类变量TV_REG明显有多个重复情况,但是用不同名称表示,因此我们将部分变量值进行替换,将数据规约成较为简洁的结果。4.补缺模型建立所有模型的流程图如下:模型一:默认回归查看-结果从结果看,默认
5、回归模型选择的变量太多,并且将P值较大的变量也选入了模型中,这种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归属性参数,从而得出更好的回归模型。模型二:逐步回归查看-结果设IMP_GENDER_F为X1,IMP_GENDER_M为X2,IMP_REP_AFFL为X3,IMP_REP_AGE为X4则logistic方程如下:模型三:自动神经查看-权重(最终)神经网络图如下:模型四:自动神经(4)选择只用Tanh激活函数由图中可以看到,模型选择了第1步迭代的结果模型五:神经网络由图中可以看到,模型迭代了18步,已经在现有的条件下满足停止条件。由图中可以看到,模型选择了第6步迭代的结果
6、模型六:神经网络(2)在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200(尝试过几次,发现一共需要迭代189次才能满足停止条件),并且将模型选择准则改为“误分类率”。模型结果由图中可以看到,模型迭代了189步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率由图中可以看到,模型选择了第27步迭代的结果查看-模型-权重(最终)模型七:默认回归-神经网络(3)由图中可以看到,模型迭代了17步,已经在现有的条件下满足停止条件。查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重(最终)模型八:默认回归-自动神经(2)由图中可以看到,模型选择了第5步迭代的结果模
7、型九:逐步回归-神经网络(4)本模型的神经网络参数和前面神经网络(2)的设置保持一致查看-迭代图-误分类率由图中可以看到,模型选择了第1步迭代的结果查看-权重神经网络图如下:模型十:逐步回归-自动神经(3)查看-迭代图-误分类率由图中可以看到,模型选择了第18步迭代的结果查看-权重分析结果1.训练集和验证集的ROC曲线如下:2.拟合统计量如下从拟合统计量中,我们可以看到模型比较中的选择准则是验证数据集的误分类率,从误分类率结果看,最后选中了神经网络(4),也就是在逐步回归后面再加上一个神经网络模型,并且在网络中设置隐藏单元数为13,在优化中设置最大迭代次数为200,模型选择准则改为“误分类率”
8、。对比自动神经,可以知道在本数据集中,隐藏单元数越多误分类率月低,选择的准则为“误分类率”也会相应地降低。同时,我们可以看到神经网络的效果普遍比回归效果好,回归效果普遍比决策树好。神经网络通过自学习不断修正误差,最终得到较好的效果。 结果讨论与建议通过对十二个模型(自动决策树、优化决策树、回归、逐步回归,自动神经、神经网络、回归+自动神经、回归加神经网络、逐步回归加自动神经、逐步回归加神经网络)的比较,我们最终选择了逐步回归加神经网络模型。先通过逐步回归选择变量,再通过神经网络优化参数。接下来对每种类型的模型选择一个结果较优的进行分析,最后对商家提供建议。决策树模型中,我们最终选择40%&60
9、%进行数据分区,设置最大分支数为3、评估测度为ASE的模型。表1 模型二购买人群特征AGEAFFLGENDER39.5(7.5,34.5)F44.5(18.5,34.5)ALL44.5(15.5,34.5)F我们从图中可以看到购买人群女性居多,其中小于39.5岁的女性,只要财富等级大于7.5就会购买有机产品,39.5岁到44.5岁之间的女性只要财富等级达到11.5就会购买有机产品,大于44.5岁的女性只要财富等级达到15.5就会购买有机产品。而小于39.5岁的男性财富等级达到11.5才会购买有机产品,大于44.5岁的男性财富等级达到18.5岁才会购买有机产品。一些性别情况缺失以顾客购买有机产品
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 神经网络
限制150内