欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    03项目三 大数据采集与清洗ppt课件.pptx

    • 资源ID:14854734       资源大小:3.83MB        全文页数:40页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    03项目三 大数据采集与清洗ppt课件.pptx

    03项目三 大数据采集与清洗ppt课件项目三 大数据采集与清洗项 目 三 大 数 据 采 集 与 清 洗能运用大数据采集与清洗的知识,做好大数据清洗与采集的全面准备工作能准确把握数据清洗的内容和目的能使用大数据采集工具采集所需数据熟练使用数据清洗工具能分析数据并定义清洗规则、搜寻并标识错误实例、纠正发现的错误职业能力职业素养具备大数据平台实践能力知 识 图 谱数据采集任务描述知识准备课堂研讨拓展训练目 录任 务 描 述大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5%1%。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。勤奋好学的张明找到老师并提问:什么是数据采集呢?知 识 准 备 数据采集就是使用某种技术或手段,将数据收集起来并存储在某种设备上。数据采集处于大数据生命周期中的第一个环节,之后的分析挖掘都建立在数据采集的基础上。数据采集技术广泛应用在各个领域,比如摄像头和麦克风,都是数据采集工具。定义数据采集的概念一知 识 准 备数据采集的三大要点二全面性01多维性02高效性03知 识 准 备数据采集的数据源三1线上行为数据2内容数据页面数据、交互数据、表单数据、会话数据等应用日志、电子文档、机器数据、语音数据、社交媒体数据等新数据源的归纳与分类知 识 准 备数据采集的数据源三商业数据互联网数据传感器数据商业数据主要来源于公司业务平台的日志文件以及业务处理系统互联网数据的采集通常是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。课 堂 研 讨在一些专业二手平台上,网售大数据采集和定制业务颇为盛行。有些从事信息贩卖的“商家”,正大肆兜售着覆盖诸多行业的用户信息,内容颇为庞杂,可谓五花八门,无所不包。有的还以行业明码标价,成行成市。这些人打着“专业定制”的旗号,无论需要哪类信息,只要客户提出要求,其都能从网上为你采集到。这些数据商的背后隐藏着一条非法获取用户数据的产业链。他们通过专业的“爬虫软件”,侵入搜索引擎、企业网页、公众号及微信朋友圈等,采集各类个人信息及实时数据,经过汇总、整理然后生成所谓大数据产品出售。思考:如果任由此类行业继续发展,将会带来怎样的后果?拓 展 训 练01请在网上查找有关数据采集的企业应用实例。数据采集工具及采集方法任务描述知识准备课堂研讨拓展训练目 录近年来,由于互联网大数据技术的快速发展,以及消费者需求不断发生变化,对企业的营销方式也提出了更高的要求,以“产品为中心”的营销观念和手段无法适应目前市场和消费者需求多样化发展的形势。某烟草企业就面临这样的问题,想要找到基于大数据采集技术的企业营销的创新模式,能够实现对消费者的需求变化及时把控,真正做到以消费者为导向,从而进行有针对性的市场营销活动。任 务 描 述作为一名普通大学生,张明也想为该烟草公司筹谋划策,并准备从寻找合适的数据采集工具与方法开始入手。在上一任务中,张明了解到数据采集的数据源主要分为商业数据、互联网数据、传感器数据三大类,根据烟草公司的特性,张明想知道,可以采集到商业数据、互联网数据的工具及方法有哪些呢?任 务 描 述知 识 准 备Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到的应用,其体系架构如图3-1所示。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。(一)Scribe一日志收集系统图3-1 Scribe体系架构图知 识 准 备Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。(二)Flume一日志收集系统图3-2 Flume体系架构图知 识 准 备Chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在Hadoop 的HDFS和Mapreduce框架之上的,继承了Hadoop的可伸缩性和健壮性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。(三)Chukwa一日志收集系统图3-3 Chukwa结构图知 识 准 备二网络爬虫(一)Python网络爬虫Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言,随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。知 识 准 备二网络爬虫(二)八爪鱼采集器八爪鱼采集器是一款可视化免编程的网页采集软件,可以从不同网站中快速提取规范化数据,帮助用户实现数据的自动化采集、编辑以及规范化,降低工作成本。图3-4 八爪鱼采集器工作流程知 识 准 备二网络爬虫(三)集搜客集搜客采集器是一款简单易用的网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素。同样可以通过简单可视化流程进行采集,服务于任何对数据有采集需求的人群。图3-5 集搜客使用向导知 识 准 备二网络爬虫图3-6 集搜客工作台课 堂 研 讨哪一种数据采集工具更适合张明?理由是什么?拓 展 训 练01尝试使用至少两种工具,采集“链家”平台广州地区的租房信息数据。数 据 清 洗任务描述知识准备课堂研讨拓展训练目 录数据质量的高低严重影响了工业、经济等社会的方方面面,数据质量问题及其所导致的知识和决策错误已经在全球范围内造成了恶劣的后果,严重困扰着信息社会,大数据的广泛应用对数据质量的保障提出了迫切需求。数据清洗是数据质量管理的重要问题,其内容十分丰富,包括缺失值处理、实体识别与真值发现,错记的主动发现和修复等问题。张 明 对 此 产 生 了 疑 惑 : 什 么 是 数 据 清 洗 呢 ? 如 何 清 洗“脏数据”呢?任 务 描 述知 识 准 备 数据清洗是一种对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。定义数据清洗的概念一知 识 准 备“脏数据”的类型二残缺数据重复数据“脏数据”的类型错误数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如:数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。对于这一类数据需将重复数据记录的所有字段导出来,让客户确认并整理。知 识 准 备数据清洗流程三在实际操作中,数据清洗通常会占据分析过程的50%80%的时间。图3-7为浅层次的数据清洗流程图。知 识 准 备三数据清洗流程(一)预处理阶段查看数据看元数据抽取一部分数据,使用人工查看方式将数据导入处理工具12知 识 准 备三数据清洗流程(二)阶段1:缺失值清洗缺失值是最常见的数据问题,处理缺失值也有很多方法。首先,确定缺失值范围。对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用图3-8表示。图3-8 数据的重要性与缺失率关系比例图知 识 准 备三数据清洗流程(三)阶段2:格式内容清洗时 间 、 日 期 、 数 值 、 全 半角等显示格式不一致内容中含有不该存在的字符内容与该字段应有内容不符知 识 准 备三数据清洗流程(四)阶段3:逻辑错误清洗这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含去重、去除不合理值以及修正矛盾内容。去重A去除不合理值B修正矛盾内容C知 识 准 备三数据清洗流程(五)阶段4:非需求数据清洗在进行数据清洗时人们往往会把看上去不需要但实际上对业务很重要的字段删了,又或者某个字段觉得有用,但又没想好怎么用,不知道是否该删。此时,如果数据量没有大到不删该字段就无法处理,则能不删的字段尽量不删。此外,应该勤备份数据,以免误删数据影响后续分析。(六)阶段5:关联性验证如果数据有多个来源,则有必要进行关联性验证。例如,同时获得某品牌汽车的线下购买信息,以及相应汽车品牌的电话客服问卷信息,两者通过姓名和手机号关联。同一个人线下登记的车辆信息和线上问卷问出来的车辆信息如果不是同一辆,则该条数据需要调整或去除数据。课 堂 研 讨张明现在收集到一份“链家”平台广州地区的房屋出租信息,但不知道该用什么工具对这份数据进行清洗,请你帮帮他。拓 展 训 练01请使用至少两种工具对采集后的“链家”平台数据进行数据清洗。谢谢观看

    注意事项

    本文(03项目三 大数据采集与清洗ppt课件.pptx)为本站会员(春哥&#****71;)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开