基于Python的网络爬虫的设计与实现.doc





《基于Python的网络爬虫的设计与实现.doc》由会员分享,可在线阅读,更多相关《基于Python的网络爬虫的设计与实现.doc(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于Python的网络爬虫的设计与实现【摘要】一个爬虫从网上爬取数据的大致过程可以概括为:向特定的网站服务器发出请求,服务器返回请求的网页数据,爬虫程序收到服务器返回的网页数据并加以解析提取,最后把提取出的数据进行处理和存储。因此,一个爬虫程序可以主要分为三大部分:向服务器请求并获取网页数据、解析网页数据、数据处理和存储。【关键词】Python;网络爬虫;设计与实现 一、引言随着网络技术的飞速发展,互联网中的信息呈现爆炸式的增长,互联网的信息容量也达到了一个前所未有的高度。为了方便人们获取互联网中的信息,出现了一批搜索引擎。传统的搜索引擎在返回的结果方面有局限性,网络爬虫因此而诞生。网络爬虫又
2、名叫网络机器人,它是一种按照特定规则爬取网页信息的程序。与传统搜索引擎不同,网络爬虫只爬取想要获得的特定类型的信息,进而提高搜索引擎的效率。二、Python语言Python语言是一种比较常用的开发网址工具,这种语言自身具有非常强大功能。近些年,随着互联网行业的快速发展,各种行业自身都需要拥有自己的网址,这就给Phthon语言的应用提供了很大发展机会。Python语言能够兼容各种不同类型的操作系统。站在网址开发的角度上分析来说Python是属于面向对象语言,这种编程语言能夠在短时间内实现对象编程,Python属于解释性语言,整体通过简单的语法与动态输入有力支持,使得Python逐渐成为各种操作系
3、统平台上常用的脚本语言之一,特别是那些追求高性能的综合应用程序开发过程中Python语言占有重要地位。三、获取网页数据在Python中,一般爬虫主要是通过一个python的第三方库requests来实现这个过程的,requests库提供了两种发起请求的方法,分别为get()何post(),这也是大部分网站都会实现的两个接口。一般地,get()方法直接通过url参数(有时候还需要请求头参数)便可以发起有效请求;post()方法除此之外还需要一些额外的表单参数,才可以发起有效请求。在获取网页数据的这个过程中,常遇到的问题是网站运用了异步加载技术(AJAX)和需要用户登录才可以进入相应的页面。所谓异
4、步加载就是一种通过只和服务器交换少量的每页不同的数据就可以实现页面更新的技术,而不是每次都需要重新加载整个页面,这个可以更小的消耗服务器资源,也更高效快速。四、解析网页数据当我们获取到网页数据之后,接下来就是对此进行解析并从中提取需要的数据。网站返回的数据格式有三种:HTML、XML、JSON,但是一般我们从网站上爬取到的从服务器中返回的是HTML格式的,有些从网站提供的API返回的数据格式是JSON,下面我们只针对HTML格式的数据进行分析。要解析HTML格式的数据,python中一般有三种方法,分别对应三个库:BeautifulSoup库、re库、Lxml库。BeautifulSoup库可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Python 网络 爬虫 设计 实现

限制150内