2023年【python实现简单爬虫功能】python爬虫代码示例.docx
《2023年【python实现简单爬虫功能】python爬虫代码示例.docx》由会员分享,可在线阅读,更多相关《2023年【python实现简单爬虫功能】python爬虫代码示例.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2023年【python实现简单爬虫功能】python爬虫代码示例 一,获得整个页面数据 首先我们可以先获得要下载图片的整个页面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml() print html Urllib 模块供应了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数: urllib.urlopen(
2、)方法用于打开一个URL地址。 read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。 二,筛选页面中想要的数据 Python 供应了特别强大的正则表达式,我们须要先要了解一点python 正则表达式的学问才行。 假如我们百度贴吧找到了几张美丽的壁纸,通过到前段查看工具。找到了图片的地址,如:src=”.jpg”pic_ext=”jpeg” 修改代码如下: import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- python实现简单爬虫功能 2023 python 实现 简单 爬虫 功能 代码 示例
限制150内