欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    大数据解析与应用导论 (38).pdf

    • 资源ID:96400850       资源大小:1.70MB        全文页数:12页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据解析与应用导论 (38).pdf

    大数据解析与应用导论Introduction to Big Data Analytics and Application第十一章 案例分析二手车交易价格预测1.糖尿病的血糖预测2.工业蒸汽量预测3.4.双盲降噪自编码器实现降噪5.心电数据分析11.1 二手车交易价格预测二手车交易价格预测数据由Datawhale提供,是来自某交易平台的二手车交易记录。每条记录包括30项属性,以及交易价格price。数据量:数据量:15w条训练集数据,5w条测试集数据。目标:目标:输入样本属性,预测该样本的交易价格(本质是常规的回归问题)数据中有含义不明的特征训练集数据有,测试集数据没有(预测对象)注意范围限制赛题链接:https:/ 二手车交易价格预测二手车交易价格预测(2)整体思路)整体思路40%工作量20%工作量 交叉构造 特征筛选数据分析与预处理特征工程单模型训练+调参模型融合40%工作量 数据概览 纵向清洗 异常值 缺失值数据建模的工作量并不算大,但相对的,数据处理是极为关键的步骤!11.1 二手车交易价格预测二手车交易价格预测(3)数据概览)数据概览连续型变量类别型变量 连续型变量在训练集与测试集上的分布情况大致相同,降低了任务难度 部分样本的 power 为0或超出了600,此处视为异常值 训练集上的 price 等变量具有明显的长尾分布特点,对数化后的效果会更好 seller 和 offerType 取值不变,可直接剔除11.1 二手车交易价格预测二手车交易价格预测(4)异常值处理)异常值处理以 power 属性为例:题中限制 power 范围 0,600,但实际数据总有例外 等于0:平均值填充 大于600:截断至600当然,也可以认为 power 为 0 代表的是某种特殊汽车(电动汽车之类),从而不对 0 做处理。11.1 二手车交易价格预测二手车交易价格预测(5)缺失值填充)缺失值填充缺失数据概览多分类字段:采用众数填充 车身类型 bodyType 燃油类型 fuelType0-1 分类字段:采用 0.5 填充 变速箱类型 gearbox 是否有损坏 notRepairedDamage白线代表样本特征缺失11.1 二手车交易价格预测二手车交易价格预测(6)特征工程)特征工程原始数据预处理第一期特征工程第二期特征工程特征选择特征选择平均值编码PCA降维树模型数据线性、nn模型数据第一期特征工程:实名变量处理、筛选第二期特征工程:匿名变量交叉、筛选模型不同,对数据的要求也不同11.1 二手车交易价格预测二手车交易价格预测(6)特征工程)特征工程实名变量处理:匿名变量交叉:最大值、最小值中位数平均值标准差二者相加&相乘11.1 二手车交易价格预测二手车交易价格预测(7)特征筛选)特征筛选经过特征工程,生成了许多新的特征,需要从中挑选出真正有用的特征。相关分析:相关分析:剔除相关系数高的二者间的交叉特征重要性检验:重要性检验:利用一些模型的重要性排序功能(如LightGBM),剔除重要性低的特征11.1 二手车交易价格预测二手车交易价格预测(8)数据建模)数据建模采用多模型按权重加和的方法,对多个模型的结果进行集成。线性模型树模型神经网络LassoElasticNetXGBoostLightGBMCatBoostRandomForest简单MLPStackingStackingMixing模型单模型十折验证线下MAE单模型训练耗时Lasso1000+1minElasticNet1000+1minRandomForest550.2110minXGBoost520.762hLightGBM441.9946hCatBoost430.8979hMLP414.782hStacking+Mix412.56/评价准则:平均绝对误差MAE=11.1 二手车交易价格预测二手车交易价格预测(9)小结)小结数据清洗:数据清洗:数据的预处理,消除缺失数据和异常数据的影响。特征工程:特征工程:直接影响了最终模型的精度,是数据处理的重要环节。模型融合:模型融合:“集思广益”,能够一定程度上提高最终结果的准确率。数据分析与预处理特征工程融合模型建立

    注意事项

    本文(大数据解析与应用导论 (38).pdf)为本站会员(奉***)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开