工信版(中职)数据采集技术(初级)项目1:数据采集技术教学课件.pptx
《工信版(中职)数据采集技术(初级)项目1:数据采集技术教学课件.pptx》由会员分享,可在线阅读,更多相关《工信版(中职)数据采集技术(初级)项目1:数据采集技术教学课件.pptx(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、YCF(中职)数据采集技术(初级)项目1:数据采集技术教学课件CONTENTS任务一:数据采集项目情景零数据采集是大数据产业的基石基石。不开采石油,就无法得到汽油等衍生品。当然,石油开采并不容易。各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、数据源多种多样,数据量大、更新快更新快。数据采集的重点不在数据本身,而在于如何能够真正地解决解决数据运营中的实际商业问题实际商业问题。但是,要解决商业问题,就得让数据采集产生价值数据采集产生价值,就得做数据分析和数据挖掘。而在数据分析和数据挖掘之前,首先必须保证采集到高质量的高质量的数据数据。只有通过
2、对所需数据的全面准确采集,形成数据流规模,然后再对数据流进行分析,这样分析出的数据结果对决策行为才有指导性作用指导性作用。学习目标零u 理解理解定义定义u 掌握特点掌握特点u 掌握过程掌握过程知识储备任务一:数据采集壹u 数据数据的应用价值的应用价值知识储备任务一:数据采集壹u 数据采集的意义数据采集的意义No SQLDBBlobC#MapReduceHivePigStored ProceduresVM知识储备任务一:数据采集壹结构化数据结构化数据 具有固定格式或有限长度的数据,如数据库,元数据等。半半结构化数据结构化数据非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSO
3、N文档等。非非结构化数据结构化数据数据结构不规则或不完整,没有预定义的数据模型,包括所有格式的办公文档、文本、图片、图像和音频/视频信息等等。u 数据数据的类型的类型知识储备任务一:数据采集壹数据采集,又称数据获取,是利用一种程序或装置从系统外部采集采集数据数据,经过数据清洗数据清洗,最终输入到存储存储系统中。以自动化自动化手段为主,摆脱人工录入的方式涵盖了全量采集全量采集、增量采集增量采集,不对数据进行采样采集方式多样化、内容丰富化内容丰富化,摆脱以往只采集基本数据的方式u 定义定义u 特点特点知识储备任务一:数据采集壹123采集采集范围范围 能够从多多个个数数据据领领域域内采集、清洗、存储
4、目标数据。业务系统日志数据业务系统日志数据数据库数据数据库数据45互联网应用数据互联网应用数据容器日志数据容器日志数据操作系统日志数据操作系统日志数据6网络设备日志数据网络设备日志数据u 数据采集范围数据采集范围知识储备任务一:数据采集壹u 采集流程采集流程数据采集数据采集数据数据清洗清洗采集:多领域范围清洗:验证、拆分、过滤存储:灵活、合理数据数据存储存储知识储备任务一:数据采集壹u 采集流程采集流程网页网页爬取的采集爬取的采集流程流程采集:通过python编写代码,爬取网页。清洗:通过python完成网页数据的拆分等存储:通过python将最终的采集结果存入数据库,或者文件。数据场景数据场
5、景被被采集端采集端采集层采集层清洗层清洗层存储层存储层PythonPython知识储备任务一:数据采集壹u 采集流程采集流程日志日志数据类型的数据采集数据类型的数据采集流程流程采集:通过采集工具(filebeat等)配置,完成采集。清洗:通过开源工具(logstash等)配置来接收原始的日志数据并进行拆分、验证。存储:通过开源工具(logstash)将采集结果存入数据库,或者文件中。被采集端被采集端采集层采集层清洗层清洗层存储层存储层知识储备任务一:数据采集壹 全面性全面性数据量具有分析价值、数据面足够支撑分析需求。多维多维性性数据更重要的是能满足分析需求。灵活、快速自定义数据的多种属性和不同
6、类型,从而满足不同的分析目标。高效高效性性采集数据一定要明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性。及时及时性性 对于实时监控性质的系统来说,要实时采集数据并上报。u 要求要求知识储备任务一:数据采集壹u 数据采集的知识、能力体系数据采集的知识、能力体系基基础础知知识识数据采集理论网页基础数据网络爬虫移动端应用采集技术框架采集客户端开发互联网应用数据业务系统体系dotNet框架体系Java技术体系业务系统行为业务系统日志主流关系数据库非关系数据库数据存储数据采集行为日志数据数据库数据操作系统基础操作系统行为Windows系统体系Linux系统体系操作系统数据场场景景实实战战数
7、据验证数据拆分虚拟化关系数据库非关系数据库网络技术Python服务容器多媒体数据基础中间件容器基础Web容器中间件容器行为中间件容器网络工程网络设备设备流量协议设备模拟仿真网络设备工控设备工控协议数据多媒体终端多媒体数据硬件终端 分析各种数据的发生场景,掌握数据的产生方式和意义。场景分析综综合合能能力力数据筛选 运用合适的编程语言编写数据采集功能和系统。开发能力 根据采集流程各环节要求,对各种采集工具进行深度定制。工具定制 根据采集的数据规模,制定和编排不同集群规模的数据采集流程,高效完成数据采集、清洗。数据处理 熟悉领域内第三方系统和平台,能够熟练使用、借鉴和学习。平台使用 根据不同数据特点
8、,选择合适的数据存储系统,设计数据存储表结构。数据存储知识储备任务一:数据采集壹数据分析能力数据分析能力数据的种类千差万别种类千差万别,软件主体软件主体直接产生的数据,有数据库存储数据、数据库行为数据、互联网应用数据、业务系统行为/状态数据、操作系统行为数据、中间件容器行为/状态数据等;硬件主体硬件主体直接产生的数据,有互联网设备数据、工控设备数据、多媒体设备数据等。随着计算机领域软硬件技术的快速发展,各种软件数据、硬件数据的种类规模都在快速增加快速增加,差异性也变得越来越大。不同种类的数据都有自己特定特定的格式、标准、含义、协议规范等,需要专业人员具备对各种数据场景进行分析分析的能力,用科学
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工信版 数据 采集 技术 初级 项目 教学 课件
限制150内