python爬虫入门——邓旭东.ppt
《python爬虫入门——邓旭东.ppt》由会员分享,可在线阅读,更多相关《python爬虫入门——邓旭东.ppt(70页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、自我介绍2009-2013 哈尔滨工业大学经济管理学院2015-至今 中南大学商学院 主要研究方向为线上社群及消费者行为, 在学习研究过程中,习得了数据科学相关技术, 如数据采集、数据清理、数据规整、统计分析熟悉R、python、MongoDB。目录二、准备知识一、引言三、网页请求四、网页解析五、开始采集六、如何应对反爬七、高级爬虫 爬虫工作原理 HTML+CSS Python基本知识 找规律构建url requests库 如何解析网页 BeautifulSoup re库的使用 条件、循环语句 try。Except异常处理。 数据存储 控制访问频率 伪装装成浏览器 使用代理IP seleniu
2、m+Firefox(36版) 抓包应对动态网页 引言 爬虫能做什么?微博最近有啥热门话题淘宝京东上某商品价格变动邮箱通知女/男神最新动态谁点赞最活跃BBS抢沙发社交网络分析. 引言 爬虫能做什么一句话,只要浏览器有的,你都可以抓可以爬引言 爬虫好学吗?from math import powYouJoinUs = is:TrueIf YouJoinUsis: result = pow(1.01,365) print(result)37.7834简单的道理目录 一、引言三、网页请求四、网页解析五、开始采集六、如何应对反爬七、高级爬虫爬虫工作原理HTMLPython基本知识 找规律构建url re
3、quests库 如何解析网页 BeautifulSoup re库的使用 条件、循环语句 try。Except异常处理。 数据存储 控制访问频率 伪装装成浏览器 使用代理IP selenium+Firefox(36版) 抓包应对动态网页 二、准备知识爬虫工作原理 蓝色线条:发起请求 (request) 红色线条:返回响应(response)HTML标签访问Python中文社区https:/ (for循环)条件语句 (if else while)表达式 (如age = 20)字符串str字符串:单(双、三)引号及其夹住的字符String = 我叫邓旭东String2:5 邓旭东列表list1, 2
4、, 3, 4, 51, 2, 3, 4, 5a, b, c, d(1,2),(1,2)列表中的元素可以是字符串,数字,元组,字典,集合下面的写法是不对的a, b, c (除非a,b, c是变量)元组tuple(1,2,3,4)(1, 2, 3, 4) (a, b, c, d)集合seta, b, c集合是不重复的元素组成的一个基本数据类型。字典dictDict = name: 邓旭东, age: 26, gender: male在大括号中,数据成对存储,冒号左边是键(key),冒号右边是值(value)Dictage26for循环for x in 1, 2, 3: print(x)123目录
5、一、引言三、网页请求四、网页解析五、开始采集六、如何应对反爬七、高级爬虫 爬虫工作原理 HTML Python基本知识找规律构建urlrequests库 如何解析网页 BeautifulSoup re库的使用 条件、循环语句 try。Except异常处理。 数据存储 控制访问频率 伪装装成浏览器 使用代理IP selenium+Firefox(36版) 抓包应对动态网页 二、准备知识找规律构建url通过点击翻看同一个目录下的多个页面,发现规律,定制url发现规律定制url发现规律定制url这里的url规律是页码数减1后乘以20构建网址Base_url = https:/ page in ran
6、ge(1,94,1): Num = page - 1 url = Base_url.format(num=Num*20) print(url)https:/ is an elegant and simple HTTP library for Python, built for human beings.Requests是一个优雅简洁的Python HTTP库,给人类使用。requests常用方法最普通的访问url = http:/ = requests.get(url)伪装成浏览器的访问Headers = User-Agent: Mozilla/5.0 (Macintosh; Intel Ma
7、c OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36r = requests.get(url,headers = Headers)requests常用方法使用cookie访问Cookie = Cookie: UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ
8、0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D-ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252F%252F%7C1489923851r = requests.get(url, cookies=cookies)requests常用方法 r.text u“repository”:“open_issues”:0,“url”:“https:/ #(4开头客户端问题,5开头服务器问题)200
9、 目录 一、引言三、网页请求四、网页解析五、开始采集六、如何应对反爬七、高级爬虫 爬虫工作原理 HTML Python基本知识 找规律构建url requests库如何解析网页BeautifulSoup re库的使用 条件、循环语句 try。Except异常处理。 数据存储 控制访问频率 伪装装成浏览器 使用代理IP selenium+Firefox(36版) 抓包应对动态网页 二、准备知识如何解析网页火狐Firebug/谷歌的开发者工具BeaufifulSoup/re库Python基本知识BeautifulSoupbsObj = BeautifulSoup(html, “html.parse
10、r”)格式化输出bsObj对象的内容4567891011html = The Dormouses storyThe Dormouses storyOnce upon a time there were three little sisters; and their names were,Lacie andTillie;and they lived at the bottom of a well.两种主要的对象: Tag、NavigableStringtag对象bsObj.titleThe Dormouses storybsObj.headThe Dormouses storybsObj.a注意
11、:它查找的是在所有内容中的第一个符合要求的标签,如果要查询所有的标签,这种方法不奏效BeautifulSoup 遍历文档树#直接子节点 .contentsbsObj.head.contents #输出的为列表The Dormouses storybsObj.head.contents0 从列表中取出子节点The Dormouses storyBeautifulSoup 遍历文档树#直接子节点 .childrenbsObj.head.children #返回生成器,可以迭代取出来 for child in soup.body.children: print child The Dormouses
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- python 爬虫 入门 邓旭东
限制150内