（本科）第11章网络爬虫入门ppt课件.pptx

上传人：春哥&#****71;

文档编号：16399014

上传时间：2022-05-17

格式：PPTX

页数：41

大小：1.28MB

( 4.5 )

《（本科）第11章网络爬虫入门ppt课件.pptx》由会员分享，可在线阅读，更多相关《（本科）第11章网络爬虫入门ppt课件.pptx（41页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、课程主讲人：（本科）第11章网络爬虫入门ppt课件Chap11 Introduction to Web Crawler Department of Computer Science and TechnologyDepartment of University Basic Computer TeachingNanjing UniversityNanjing University用Python获取网络数据网络数据如何获取（爬取）? 抓取网页，解析网页内容抓取 urllib内建模块 urllib.request Requests第三方库 Scrapy框架解析 Beautiful Soup库

2、re模块14API/Web API获取数据3Nanjing University网页抓取4Nanjing University网页抓取的过程5客户机服务器RequestResponseNanjing University11.1.1 Requests库基本使用6Nanjing UniversityRequests库7Requests库是简单、方便和人性化的Python HTTP第三方库Requests官网：http/$ pip install requests（Anaconda中预装）Nanjing UniversityRequests库8 import requests r = reques

3、ts.get(https:/) r.status_code200Sourcerequests.get()请求获取指定URL位置的资源，对应HTTP协议的GET方法，返回一个Response对象Nanjing UniversityRequests库9 r.text:150nn n nnnnnnnnnnn n n var aPageStart = (new Date().getTime(); r.encoding # 根据HTTP头部自动推测UTF-8 r.encoding = gb2312 r.encoding = r.apparent_encodingSourceNanjing Univers

4、ityRequests库r.content # 以字节方式访问Response对象11requests.get(http:/.sample.jpg)with open(data.txtpic.jpg, wb) as f: f.write(r.content)FileNanjing UniversityJSON格式12 JSON格式 JavaScript Object Notation，JS对象标记）一种轻量级的数据交换格式actor: avatar_url: https:/ display_login: magpte, gravatar_id: , id: 29223112, login:

5、magpte, type: PushEventid:9057040574,type:WatchEvent,actor:id:29223112,login:magpte,public:true,created_at:2019-02-13T03:00:10ZNanjing University*JSON格式转化13 import json PythonData = a:1, b:2, c:3 jsonData = json.dumps(PythonData) jsonDataa: 1, b: 2, c: 3 PythonData = json.loads(jsonData) PythonDataa

6、: 1, b: 2, c: 3 PythonFile = json.load(open(sample.json)SourceNanjing UniversityRequests14 headers = User-Agent: Mozilla/5.0 (Macintosh: Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36 r = requests.get(url, headers = headers) #定制请求头 payload = key1: va

7、lue1, key2: value2 r = requests.get(http:/httpbin.org/get, params = payload) r = requests.post(url, data = payload)SourceNanjing University11.1.2 Robots 协议15Nanjing UniversityRobots协议Robots协议也称为爬虫协议，全称为爬虫排除协议（The Robots Exclusion Protocol）检查站点根目录下是否存在robots.txt例如：网站允许爬取数据吗？ https16网站允许爬取数据吗？Nanjing

8、UniversityRobots协议17User-agent 表示搜索引擎Disallow 禁止抓取的目录Allow 允许抓取的目录Nanjing UniversityRobots协议-豆瓣网18Nanjing University网页数据解析19Nanjing UniversityRequests库网页源代码20豆瓣读书豆瓣读书小王子短评十几岁的时候渴慕着小王子，一天之间可以看四十四次日落。是在多久之后才明白，看四十四次日落的小王子，他有多么难过。 Nanjing University11.2.1Beautiful Soup库21Nanjing University1.Beautiful S

9、oup 基础 Beautiful Soup 一个可以从HTML或XML文件中提取数据的Python第三方库 https:/22Nanjing University1.Beautiful Soup 基础 $ pip install beautifulsoup4 （Anaconda中预装）23lxml: HTML解析器$ pip install lxmlPython内置的HTML解析器BeautifulSoup(markup, html.parser) import requests from bs4 import BeautifulSoup r = requests.get(url) # 需要填

10、写真实网址 soup = BeautifulSoup(r.text, lxml)SourceNanjing University2.Beautiful Soup 使用 BeautifulSoup对象 Tag NavigableString BeautifulSoup Comment24标签内容访问方式BeautifulSoup对象.Tag markup = The Little Prince soup = BeautifulSoup(markup, lxml) soup.bThe Little PrinceSourceNanjing University2.Beautiful Soup 使用2

11、5 markup = The Little Prince soup = BeautifulSoup(markup, lxml) soup.bThe Little Prince type(soup.b)bs4.element.Tag tag = soup.p tagThe Little Prince tag.namepSourceNanjing University2.Beautiful Soup 使用26 tagThe Little Prince tag.attrsclass: title tagclasstitle tag.stringThe Little Prince print(soup

12、.get_text()The Little Prince soup.find_all(b)The Little PrinceSourceNanjing University2.Beautiful Soup 使用27# Filename: Prog11_1.pyimport requestsfrom bs4 import BeautifulSoup url = https:/ = requests.get(url)soup = BeautifulSoup(r.text, lxml)pattern = soup.find_all(span, class:short)for item in patt

13、ern: print(item.string)File十几岁的时候渴慕着十几岁的时候渴慕着小王子，一天之间可小王子，一天之间可以看四十四次日落。以看四十四次日落。是在多久之后才明白，是在多久之后才明白，看四十四次日落的小看四十四次日落的小王子，他有多么难过。王子，他有多么难过。 Nanjing University思考：抓取图书短评前3页28for i in range(3): r = requests.get(url + str(i+1) Nanjing University11.2.2 re正则表达式29Nanjing Universityre正则表达式30豆瓣读书豆瓣读书小王子推荐星级N

14、anjing Universityre正则表达式简介31 正则表达式是对字符串（包括普通字符和特殊字符）操作的一种逻辑公式 re正则表达式模块进行各类正则表达式处理参考网站：https:/Nanjing Universityre正则表达式简介正则表达式举例 “bdayb” 正则表达式在线测试/调试工具 https:/ Universityre正则表达式简介33元字符元字符描述描述元字符元字符描述描述. .匹配除换行符外的任意字符n,m重复n到m次* *重复前面的子表达式0次或多次b匹配单词的开始或结尾即单词边界，“B”匹配非单词边界+ +重复前面的子表达式1次或更多次d匹配数字，“D”匹配

15、任意非数字字符？重复前面的子表达式0次或1次s匹配任意空白符，“S”匹配任意非空白符匹配字符串的开始w匹配任意字母、数字或下划线的标识符字符，“W”匹配任意非标识符字符$ $匹配字符串的结束a-z匹配指定范围内的任意字符nn重复n次a-z匹配任何不在指定范围内的任意字符n,n,重复n次或更多次Nanjing Universityre正则表达式简介 “bpib.*appleb” “d1,3” “a.*b”34Nanjing Universityre正则表达式模块35span class=user-stars allstar(.*?) ratingpattern = pile(span clas

16、s=user-stars allstar(.*?) rating)p = re.findall(pattern, r.text)50, 50, 50, 10, 50, 30, 50, 50, 40, 40, 20, 50, 50, 50, 40, 50Nanjing Universityre正则表达式模块36# Filename: Prog11_2.pyimport requestsfrom bs4 import BeautifulSoupimport reurl = https:/ = requests.get(url)soup = BeautifulSoup(r.text, lxml)pa

17、ttern = pile(.*?) s+s+s+(.*?)s+(.*?)s+(.*?)Nanjing Universityre正则表达式模块成组信息38# Filename: Prog11_3.pyimport requestsimport redef crawler(url): try: r = requests.get(url) except requests.exceptions.RequestException as err: return err r.encoding = r.apparent_encoding pattern = pile(href=/en/vnl/women/te

18、ams/.*?(.*?) s+s+s+(.*?)s+(.*?)s+(.*?) p = re.findall(pattern, r.text) return pFileurl = http:/www.volleyball.world/en/vnl/2018/women/results-and-ranking/round1result = crawler(url)print(result)Nanjing UniversityWeb API获取数据用GET方法获得的数据是JSON格式的，需要先解码（data = r.json()）。39 r = requests.get(url / book/ 1084336) r.json()SourceNanjing University小结40Nanjing University小结网页抓取网页数据解析41

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 本科第11章网络爬虫入门ppt课件本科 11 网络爬虫入门 ppt 课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：（本科）第11章网络爬虫入门ppt课件.pptx
链接地址：https://www.taowenge.com/p-16399014.html

（本科）第11章 网络爬虫入门ppt课件.pptx

（本科）第11章网络爬虫入门ppt课件.pptx