欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    数据采集解决方案ppt课件.pptx

    • 资源ID:31982170       资源大小:3.84MB        全文页数:16页
    • 资源格式: PPTX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据采集解决方案ppt课件.pptx

    目录1234航空业务背景分析思路数据质量提升解决方案数据采集解决方案 随着产业互联网时代的到来,各行业开始认真思考大数据带来的商业价值。所有的企业都希望能提高信息系统的数据分析能力、获取隐含在数据中的额外商业价值。大数据已经在为企业提高运营质量、指导高层决策中发挥着重要贡献。 目前航空公司的信息系统不断发展,使运行数据大量堆集,由于设计和管理不规范导致数据质量问题越来越突出。根据“garbage in,garbage out”的原理,错误的数据最终会误导决策,降低企业运营质量。因此数据质量的高低成为信息系统建设成败的关键因素,直接关系到信息系统的有效应用。 亚信基于电信行业多年数据分析经验,指导航空公司在数据质量提升、数据采集等方向布局,提出基于数据稽核+清洗的常态化质量提升方案,以及通过亚马逊云计算和分布式爬虫的数据采集方案,以此为智慧航运奠定基础。大数据形势业务背景数据质量提升数据质量提升数据采集数据采集数据质量是信息变现的基石据IDC公司一份质量报告所述,全球范围内的98.7%的BI系统受数据质量所困不能充分发挥其价值,在这其中80%全球以上的系统正因数据质量问题二遭受投资者的质疑,如何对系统数据进行有效的质量管理,已成为IT界的一项世界性难题 信息是企业重要的战略资源,使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘,谬以千里。数据质量问题分类模型重复时效管理完整 数据结构不规范 数据冗余度大 过期数据 目标数据缺失 录入错误信息仓库目录1234业务背景分析思路数据质量提升解决方案数据采集解决方案数据质量的问题原因分解模型时效管理完整信息仓库重复人员人员业务流程培训业务流程培训应用应用系统缺陷修复系统缺陷修复新数据新数据规范信息模型规范信息模型存量数据存量数据数据稽核清洗数据稽核清洗解决思路数据质量的提升是一项系统工程,任何一方面的缺失都会导致数据质量的降低,因此,数据质量提升应该综合考虑数据处理、业务应用和使用人员三大方面的因素目录3214数据质量提升解决方案分析思路业务背景数据采集解决方案稽核作业稽核作业稽核作业稽核作业数据清洗解决方案CRMEDW行业信息库客服系统电子商务more统计报告人工审核离线FTP稽查审核清洗审核ETL抽取规则配置流程配置清洗作业清洗作业清洗作业清洗作业数据源管理数据源管理知识总结实时消息机器学习目录1234业务背景分析思路数据质量提升解决方案数据采集解决方案数据采集解决方案走势预测机票报表价格监控业务层应用展现舆情分析消息总线MoreREST+WEBSERVICEMR+Hive+StormOTA航空公司国外网站分布式爬虫分布式爬虫分布式爬虫大数据中心亚太节点内部数据库欧洲节点北美节点RDBMS采集调度处理层采集站点采集层大数据之上,丰富的应用场景AWS部署方案动态Web服务EC2、Auto ScalingRPC服务EC2、Auto ScalingMySQL数据库RDS负载均衡服务ELBDNS服务Route 53爬虫服务弹性存储S3弹性存储S3Region 3(亚太)Region 2(欧洲)Region 1(北美)爬虫服务爬虫服务爬虫服务爬虫服务AWS内网传输Hadoop集群EMRAWS上设多个Regions, 欧洲、北美作为采集节点,亚太Region作为采集和运算节点,并提供动态Web服务访问。Thank you

    注意事项

    本文(数据采集解决方案ppt课件.pptx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开