工信版(中职)Python编程基础与应用电子课件网络爬虫库的应用.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《工信版(中职)Python编程基础与应用电子课件网络爬虫库的应用.pptx》由会员分享,可在线阅读,更多相关《工信版(中职)Python编程基础与应用电子课件网络爬虫库的应用.pptx(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、YCF(中职)Python编程基础与应用电子课件网络爬虫库的应用网络爬虫库的应用主讲:Python编程基础与应用配套课件Python编程基础与应用配套课件编程基础与应用配套课件contents目录1.requests的安装和简介2.Beautifulsoup4的安装和简介3.SQLite数据库的使用4.案例:新闻网页爬虫项目Python编程基础与应用配套课件编程基础与应用配套课件requests的安装和简介的安装和简介01Python编程基础与应用配套课件编程基础与应用配套课件requests的简介requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便地对网
2、页进行爬取,是学习python爬虫的较好的http请求模块。requests库支持非常丰富的链接访问功能,包括域名和URL的获取、HTTP长连接和连接缓存、HTTP会话和cookie保持、浏览器的SSL验证、基本的制作摘要认证、有效的键值对cookie记录、自动解压缩、自动内容解码、文件分块上传、HTTP和HTTPS代理功能、连接超时处理、流数据下载等。Requests 支持 Python 2.62.7以及3.33.7,而且能在 PyPy 下运行。Python编程基础与应用配套课件编程基础与应用配套课件requests的安装有关它的更多介绍请访问英文网站https:/2.python-requ
3、ests.org/en/latest/或者中文网站https:/2.python-requests.org/zh_CN/latest/index.html。它的安装方法很简单,可以直接使用PIP进行安装:pip install requestsPython编程基础与应用配套课件编程基础与应用配套课件requests的常用函数Python编程基础与应用配套课件编程基础与应用配套课件response对象的一些属性Python编程基础与应用配套课件编程基础与应用配套课件范例11-4 requests的基本方法以下范例中使用简单的几行代码就可以实现抓取百度首页的信息。Python编程基础与应用配套课件
4、编程基础与应用配套课件范例11-4 requests的基本方法其中response.text和response.content可以获取网页源码,读者可以自己尝试一下它的结果如下Python编程基础与应用配套课件编程基础与应用配套课件范例11-5使用requests下载一个网页到本地应用requests库可以快速地所一个URL网页的源码信息下载下来,并保存到本地。以下范例把百度新闻首页抓取下来并保存到文本文件newshtml.txt中。Python编程基础与应用配套课件编程基础与应用配套课件范例11-5使用requests下载一个网页到本地结果如下:网页抓取结束,并写入文件newshtml.tx
5、t成功提示:使用requests.get(url)可以抓取网页,也可以加上超时要求,如r=requests.get(url,timeout=30)表示请求超时时间为30秒。在文件夹中找到newshtml.txt并打开它,Python编程基础与应用配套课件编程基础与应用配套课件阅读角阅读角Python编程基础与应用配套课件编程基础与应用配套课件爬虫与职业道德据说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。曾有报道程序员因写爬虫而被刑侦的事件。Python编程基础与应用配套课件编程基础与应用配套课件爬虫与职业道德我家颁布中华人
6、民共和国网络安全法之后,对网络安全有了更高的要求。随着中国经济的不断往前走,知识产权问题会越来越重视,非法爬虫是现在一个重要的打击部分。技术是无罪的,技术本身确实是没有对错的,但使用技术的人是有对错的。公司或者程序员如果明知使用其技术是非法的,那么他们就需要为之付出代价。Python编程基础与应用配套课件编程基础与应用配套课件爬虫与职业道德编写爬虫程序爬取数据之前,为了避免某些有版权的数据后期带来的诸多法律问题,可以通过查看网站的robots.txt文件来避免爬取某些网页。Python编程基础与应用配套课件编程基础与应用配套课件爬虫与职业道德robots协议,告知爬虫等搜索引擎那些页面可以抓取
7、,哪些不能。它只是一个通行的道德规范,没有强制性规定,完全由个人意愿遵守。作为一名有道德的技术人员,遵守robots协议,有助于建立更好的互联网环境。网站的robots文件地址通常为网页主页后加robots.txt,如 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。于是,就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中,lxml 有很高的解析效率,支持 xPath 语法(一种可以在 HTML 中查找信息的规则语法);pyquery 得名于 jQuery(知名的前端 js 库),可以用类似 jQuery 的语
8、法解析网页。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Python编程基础与应用配套课件编程基础与应用配套课件Beautifulsoup4的安装Beautiful Soup会帮你节省很多的工作时间。它的安装方法很简单,可以直接使用PIP进行安装:pip install beautifulsoup4要注意,包名是beautifulsoup4。如果不加上4,会是老版本,它是为了兼容性而存在,目前已不推荐使用。有关它的更多介绍请访问网站https:/beautifulsoup.readt
9、hedocs.io/zh_CN/v4.4.0/或者https:/ install lxmlpip install html5libPython编程基础与应用配套课件编程基础与应用配套课件范例11-6使用beautifulsoup4进行简单的网页解析有一段百度新闻首页的源代码,通过beautifulsoup4解析,把一些信息提取出来。因为HTML源代码比较复杂,这里使用了三引号把源代码引用。调用了lxml解析器。Python编程基础与应用配套课件编程基础与应用配套课件范例11-6使用beautifulsoup4进行简单的网页解析代码Python编程基础与应用配套课件编程基础与应用配套课件范例11
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工信版 Python 编程 基础 应用 电子 课件 网络 爬虫
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内