2022年网络爬虫基本原理 .pdf
《2022年网络爬虫基本原理 .pdf》由会员分享,可在线阅读,更多相关《2022年网络爬虫基本原理 .pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、网络爬虫基本原理网络爬虫根据需求的不同分为不同种类:1. 一种是爬取网页链接,通过url 链接得到这个html 页面中指定的链接,把这些链接存储起来,再依次以这些链接为源,再次爬取链接指向html 页面中的链接 如此层层递归下去, 常用的方法是广度优先或者深度优先,根据爬取层次需求不同而选择不同的方法达到最优效果,爬虫的效率优化是一个关键。搜索引擎的第一个步骤就是通过爬虫得到需要索引的链接或数据,存放于数据库,然后对这些数据建立索引,然后定义查询语句,解析查询语句并利用检索器对数据库里的数据进行检索。2. 一种是爬取数据信息,如文本信息、图片信息等,有时需要做数据分析,通过某种手段来获取数据样
2、本以供后续分析,常用的方法是爬虫获取指定数据样本或利用现有的公共数据库。本文的微博爬虫和新闻数据爬取都属于第二种类,根据自定义搜索关键字爬取微博信息数据。3. 对于网络爬虫原理,其实并不复杂。基本思路是:由关键字指定的url 把所有相关的 html页面全抓下来( html即为字符串),然后解析html文本(通常是正则表达式或者现成工具包如jsoup ),提取微博文本信息,然后把文本信息存储起来。重点在于对 html 页面源码结构的分析,不同的html 需要不同的解析方法;还有就是长时间爬取可能对IP 有影响, 有时需要获取代理IP,甚至需要伪装浏览器爬取。(主要是针对像新浪等这些具有反扒功能的
3、网站,新闻网站一般不会有这样的情况)。对于微博,通常情况下是必须登录才能看到微博信息数据(比如腾讯微博),但是有的微博有搜索机制,在非登录的情况下可以直接通过搜索话题 来查找相关信息(如新浪微博、网易微博)。考虑到某些反爬虫机制,如果一个账号总是爬取信息可能会有些影响(比如被封号),所以本文采用的爬虫都是非登录、直接进入微博搜索页面爬取。这里关键是初始url 地址。网络爬虫是搜索引擎抓取系统的重要组成部分。爬虫的主要目的是是将互联网上的网页下载到本地形成一个活互联网内容的镜像备份。这篇博客主要对爬虫及抓取系统进行一个简单的概述。一、网络爬虫的基本结构及工作流程通用的网络爬虫的框架如图所示:名师
4、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 10 页 - - - - - - - - - 网络爬虫框架图网络爬虫的基本工作流程如下:1首先选取一部分精心挑选的种子URL;2将这些 URL 放入待抓取 URL 队列3. 从待抓取 URL 队列中取出待抓取URL,解析 DNS,并且得到主机的ip,并将 URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL 放进已抓取 URL队列。4. 分析已抓取 URL 队列中的 URL,分析其中的其他URL,并且将 URL放入
5、待抓取URL 队列,从而进行下一个循环。二、从爬虫角度对互联网进行划分可将互联网所有页面分为五个部分:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - 1. 已下载未过期网页2. 已下载已过期网页:抓取到的网页实际上是互联网内容的一个镜像与备份,互联网是动态变化的,一部分互联网上的内容已经发生了变化,这时,这部分抓取到的网页就已经过期了。3. 待下载网页:也就是带抓取URL 队列中的那些页面4. 克制网页:还没抓取下来,也没有在
6、待抓取URL 队列中,但是可以通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL,认为是可知网页5. 还有一部分网页,爬虫是无法抓取下载的,称为不可知网页三、抓取策略在爬虫系统中,待抓取URL 队列是很重要的一部分。待抓取URL队列中的 URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面,这也是所谓的抓取策略问题。下面重点介绍几种常见的抓取策略1. 深度优先遍历策略深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。名师资料总结 - - -精品资料欢迎下载 - - - - -
7、 - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 10 页 - - - - - - - - - 遍历的路径: A-F-G E-H-I B C D 1. 宽度优先遍历策略宽度优先遍历策略的基本思路是将新下载网页中发现的链接直接插入待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,以上图为例:遍历路径为:A-B-C-D-E-F G H I 2. 反向链接数策略反向链接数是指一个网页被其他网页链接指向的数量,反向链接数表示的是一个网页的内容受到其他人的
8、推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。在真实的网络环境中, 由于广告链接、 作弊链接的存在, 反向链接数不能完全可靠,因此搜索引擎往往考虑一些可靠的反向链接数4Partial PageRank策略名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - Partial PageRank算法借鉴了 PageRank算法的思想:对于已经下载的网页,连同待爬取 URL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年网络爬虫基本原理 2022 网络 爬虫 基本原理
限制150内