2023年【python实现简单爬虫功能】python爬虫代码示例.docx

上传人：wj151****6093

文档编号：66297224

上传时间：2022-12-14

格式：DOCX

页数：6

大小：12.02KB

( 4.5 )

《2023年【python实现简单爬虫功能】python爬虫代码示例.docx》由会员分享，可在线阅读，更多相关《2023年【python实现简单爬虫功能】python爬虫代码示例.docx（6页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、2023年【python实现简单爬虫功能】python爬虫代码示例一，获得整个页面数据首先我们可以先获得要下载图片的整个页面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html = getHtml() print html Urllib 模块供应了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数: urllib.urlopen(

2、)方法用于打开一个URL地址。 read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。二，筛选页面中想要的数据 Python 供应了特别强大的正则表达式，我们须要先要了解一点python 正则表达式的学问才行。假如我们百度贴吧找到了几张美丽的壁纸，通过到前段查看工具。找到了图片的地址，如：src=”.jpg”pic_ext=”jpeg” 修改代码如下： import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.

3、read() return html def getImg(html): reg = r'src=.php?url=(.+?.jpg) pic_ext' imgre = pile(reg) imglist = re.findall(imgre,html) return imglist html = getHtml() print getImg(html) 我们又创建了getImg()函数，用于在获得的整个页面中筛选须要的图片连接。re模块主要包含了正则表达式： pile() 可以把正则表达式编译成一个正则表达式对象. re.findall() 方法读取html 中包含 imgr

4、e（正则表达式）的数据。运行脚本将得到整个页面中包含图片的URL地址。三，将页面筛选的数据保存到本地把筛选的图片地址通过for循环遍历并保存到本地，代码如下： #coding=utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src=.php?url=(.+?.jpg) pic_ext' imgre = pile(reg) imglist = re.findall(imgre,html) x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x) x+=1 html = getHtml() print getImg(html) 这里的核心是用到了urllib.urlretrieve()方法，干脆将远程数据下载到本地。通过一个for循环对获得的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放书目。程序运行完成，将在书目下看到下载到本地的文件。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

12 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: python实现简单爬虫功能 2023 python 实现简单爬虫功能代码示例

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2023年【python实现简单爬虫功能】python爬虫代码示例.docx
链接地址：https://www.taowenge.com/p-66297224.html