(2.3)--3.Python爬虫Python程序设计基础.pdf

上传人：奉***

文档编号：96400935

上传时间：2023-11-22

格式：PDF

页数：10

大小：958.14KB

( 4.5 )

《(2.3)--3.Python爬虫Python程序设计基础.pdf》由会员分享，可在线阅读，更多相关《(2.3)--3.Python爬虫Python程序设计基础.pdf（10页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、Python 爬虫一、爬虫定义什么是互联网？互联网是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。互联网的核心价值在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿 U 盘去别人的计算机上拷贝数据了。我们所谓的上网便是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。只不过，用户获取网络数据的方式是：浏览器提交请求-下载网页代码-解析/渲染成页面。而爬虫程序要做的就是：模拟浏览器发送请求-下载网页代码-只提取有用的数据-存放于数据库或文件中。两者的区别在

2、于:我们的爬虫程序只提取网页代码中对我们有用的数据。因此，爬虫被定义为：向网站发起请求，获取资源后分析并提取有用数据的程序。当我们进行数据分析工作时，获取外部数据是我们迈出的第一步，而获取的方式有两种：一种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。另一种获取外部数据的方式就是爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息，爬取租房网站上某城市的租房信息，爬取豆瓣评分评分最高的电影列表，获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据，你可以对某个行业、某种人群进行分析。在爬虫之前

3、你需要先了解一些Python 的基础知识：元素（列表、字典、元组等）、变量、循环、函数以及，如何用 Python 库（urllib、BeautifulSoup、requests、scrapy）实现网页爬虫。下面我们就一起学习一下如何使用 Python 进行爬虫。二、爬虫流程一般，我们将爬虫分为两类：通用爬虫和聚焦爬虫。其中通用爬虫是搜索引擎（Baidu、Google、Yahoo 等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去

4、掉广告)，最后提供一个用户检索接口。聚焦爬虫是根据指定的需求抓取网络上指定的数据。例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。爬虫的基本流程如下图所示：第一步：发起请求。使用 http 库向目标站点发起请求，即发送一个 RequestRequest 包含：请求头、请求体等；第二步：获取响应内容。如果服务器能正常响应，则会得到一个 ResponseResponse 包含：html，json，图片，视频等；第三步：解析内容。解析 html 数据：正则表达式，第三方解析库如Beautifulsoup，pyquery 等；解析 json 数据：json 模块；解析二进制数据:以

5、 b 的方式写入文件；第四步：保存数据。将数据保存到数据库或文件中。三、requests 与 response统一资源定位符（Uniform Resource Locator，URL）是因特网的万维网服务程序上用于指定信息位置的表示方法。统一资源定位符 URL 用来标识万维网上的各种资源，使每一个资源在整个因特网的范围内具有唯一的标识符。URL 的一般形式是：HTTP:/:/路径，各部分含义如下：HTTP：表示使用 HTTP 协议；主机：存放资源的主机域名或主机 IP 地址；端口：HTTP 的默认端口号是 80，通常可省略；路径：访问资源的路径。在谷歌浏览器地址栏中输入百度网址并回车，浏览器会

6、做如下的处理：（1）当人们在浏览器地址栏输入的时候，浏览器发送一个Request 请求给服务器，要求服务器返回的网站主页的 HTML 文件，接着服务器响应用户请求，把 Response 文件对象发送回给浏览器。（2）浏览器分析 Response 中的 HTML，发现其中引用了很多其他文件，比如 Images 文件、CSS 文件、JS 文件等，浏览器会自动再次发送 Request 去获取网页中加载的图片文件、CSS 文件或者 JS 文件。（3）当网页中包含的所有文件都下载成功后，浏览器会根据 HTML 语法结构，完整的显示出网页。所以，在网页上进行爬虫时，最主要的就是 requests 请求

7、与 response 响应。两者相应的报文内容如下图所示：1.requests 请求客户端向服务器发送请求时，会给服务器发送一个请求报文。请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。URL 只是标识资源的位置，而 HTTP 报文用来提交和获取资源。客户端发送的 HTTP 请求消息，包括请求行、请求头部、空行和请求体 4 个部分。请求报文格式如下：请求报文实示例：请求方法主要有：请求属性有：2.response 响应HTTP 响应报文由 4 个部分组成，分别是：状态行、响应头部、空行、响应体，格式如下图：常见响应状态如下表所示：3.案例例一：爬取搜狗首页的源码数据import

8、requests#导入 requests 模块url=https:/ urlresponse=requests.get(url=url)#发送请求sougou_text=response.text#获取响应数据，返回的是 unicode 型的文本数据with open(sougou.html,w,encoding=utf-8)as f:#持久化存储f.write(sougou_text)例二：获取新冠肺炎实时数据使用的工具为 PyCharm，新建 Python 文件，命名为 get_data；使用爬虫最常用的 request 模块。第一部分：获取网页信息：第二部分：可以观察数据的特点：数据包含

9、在 script 标签里，使用 xpath 来获取数据。导入一个模块 from lxml import etree。生成一个 html 对象并且进行解析，可以得到一个类型为 list 的内容，使用第一项就可以得到全部内容；接下来首先获取component 的内容，这时使用 json 模块，将字符串类型转变为字典(Python 的数据结构）。为了获取国内的数据，需要在 component 中找到 caseList。具体代码如下：第三部分：将国内的数据存储到 excel 表格中：使用 openyxl 模块（importopenpyxl）。首先创建一个工作簿，在工作簿下创建一个工作表；接下来给工作表命名和给工作表赋予属性。代码如下：第四部分：将国外数据存储到 excel 中：在 component 的 globalList 中得到国外的数据；然后创建 excel 表格中的 sheet 即可，分别表示不同的大洲。代码如下：运行结果：国内：国外：

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2.3 Python 爬虫程序设计基础

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：(2.3)--3.Python爬虫Python程序设计基础.pdf
链接地址：https://www.taowenge.com/p-96400935.html