网络数据采集技术概述.ppt
《网络数据采集技术概述.ppt》由会员分享,可在线阅读,更多相关《网络数据采集技术概述.ppt(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网网络络爬虫爬虫简简介介爬虫与反爬技爬虫与反爬技术术目目录录前言前言 robots.txt:robots.txt:RobotsRobots协议协议被称被称为为爬虫爬虫协议协议,或机器人,或机器人协议协议。是国。是国际际互互联联网界通行的道德网界通行的道德规规范。范。User-agent:User-agent:用于描述搜索引擎用于描述搜索引擎robotrobot的名字的名字;Disallow:Disallow:禁止禁止robotrobot访问该访问该网站的目网站的目录录或文件或文件;Allow:Allow:允允许许robotrobot访问该访问该网站的目网站的目录录或文件或文件;sitemap.
2、xml/txt/html/.:Sitemapssitemap.xml/txt/html/.:Sitemaps协议协议使网站能使网站能够够告知搜索引擎网站中可供抓取的网址。告知搜索引擎网站中可供抓取的网址。自自动动生成生成:更方便地了解一个网站的内容、布局、架构。更方便地了解一个网站的内容、布局、架构。主主动动提交提交:向百度、向百度、GoogleGoogle、雅虎、和微、雅虎、和微软软等提交,被搜索引擎收等提交,被搜索引擎收录录。数据采集流程数据采集流程 需求分析:需求分析:业务类业务类型型/方向决定抓取策略和抓取方向决定抓取策略和抓取频频率。(干什么用)率。(干什么用)抓取内容:具体需要什么
3、数据抓取内容:具体需要什么数据/字段。(怎么用)字段。(怎么用)数据来源:数据来源于具体网站或其他。数据来源:数据来源于具体网站或其他。抓取方式:抓取方式:获获取数据的方式、网取数据的方式、网页结页结构分析、构分析、APIAPI等。等。代代码实现码实现:自定:自定义义或开源爬虫框架。或开源爬虫框架。数据清洗:根据数据清洗:根据业务业务具体情况具体情况转换转换数据格式、数据格式、类类型,型,进进行数据行数据计计算等。数据清洗分算等。数据清洗分为为入入库库前点清洗和入前点清洗和入库库后点清洗。后点清洗。数据存数据存储储:写文件或入:写文件或入库库方式,方式,远远程数据入程数据入库库,数据加密等。,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 数据 采集 技术 概述
限制150内