(2.3)--3.Python爬虫Python程序设计基础.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《(2.3)--3.Python爬虫Python程序设计基础.pdf》由会员分享,可在线阅读,更多相关《(2.3)--3.Python爬虫Python程序设计基础.pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python 爬虫一、爬虫定义什么是互联网?互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿 U 盘去别人的计算机上拷贝数据了。我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。只不过,用户获取网络数据的方式是:浏览器提交请求-下载网页代码-解析/渲染成页面。而爬虫程序要做的就是:模拟浏览器发送请求-下载网页代码-只提取有用的数据-存放于数据库或文件中。两者的区别在
2、于:我们的爬虫程序只提取网页代码中对我们有用的数据。因此,爬虫被定义为:向网站发起请求,获取资源后分析并提取有用数据的程序。当我们进行数据分析工作时,获取外部数据是我们迈出的第一步,而获取的方式有两种:一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。另一种获取外部数据的方式就是爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。在爬虫之前
3、你需要先了解一些Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数以及,如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。下面我们就一起学习一下如何使用 Python 进行爬虫。二、爬虫流程一般,我们将爬虫分为两类:通用爬虫和聚焦爬虫。其中通用爬虫是搜索引擎(Baidu、Google、Yahoo 等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去
4、掉广告),最后提供一个用户检索接口。聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如:获取豆瓣上电影的名称和影评,而不是获取整张页面中所有的数据值。爬虫的基本流程如下图所示:第一步:发起请求。使用 http 库向目标站点发起请求,即发送一个 RequestRequest 包含:请求头、请求体等;第二步:获取响应内容。如果服务器能正常响应,则会得到一个 ResponseResponse 包含:html,json,图片,视频等;第三步:解析内容。解析 html 数据:正则表达式,第三方解析库如Beautifulsoup,pyquery 等;解析 json 数据:json 模块;解析二进制数据:以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2.3 Python 爬虫 程序设计 基础
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内