工信版(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件.pptx
-
资源ID:90586787
资源大小:4.36MB
全文页数:23页
- 资源格式: PPTX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
工信版(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件.pptx
YCF(中职)数据采集技术(初级)项目6:项目实战 网络爬虫教学课件CONTENTS任务一:爬取手机端数据任务二:爬取浪潮优派信息项目情景零经理:小张,Python模块中爬取网络数据的内容学习完成之后,需要你使用所学的技术爬取一些网站?小张:爬取什么内容?经理:爬取网站的标题、图片、路径等等!小张:网站多种多样,爬取哪类的呢?经理:爬取一个豆瓣电影网,还有需要练习一下手机端数据爬取。小张:也就是爬取手机端和PC端?经理:是的。一种是通过所学的内容直接爬取,一种借助网页分析工具。小张:好的,保证完成任务。小张和经理谈完话后,开始调研手机端数据采集分析软件有哪些,并决定使用fiddler软件进行手机端网页分析,除此之外分析豆瓣电影网,并把爬取的数据进行保存。本项目是练习request、urllib等模块,学习步骤为:步骤一:Fiddler抓包工具配置及使用获取手机端数据内容。步骤二:爬取爬取浪潮优派信息,并保存在文件中。学习目标零【知识目标】掌握Fiddler抓包工具的使用掌握手机端数据的获取掌握网站的分析方法掌握网络数据的爬取流程【技能目标】能够使用Fiddler对网站进行抓包能够使用Requests模块进行手机端数据的爬取能够使用Requests模块进行浪潮优派网站数据的爬取能够把爬取的数据进行保存任务描述任务一:爬取手机端数据壹使用Requests库与抓包工具(拦截查看网络数据包内容的软件)的结合实现一个APP页面内容的爬取。能够通过Fiddler抓包工具配置及使用获取APP数据内容及相关信息,之后使用Requests库相关方法通过链接地址实现APP内数据的爬取。爬取思路如下:1.安装Fiddler抓包工具。2.使用Fiddler抓包工具进行网站分析。3.分析网站。任务步骤任务一:爬取手机端数据壹第一步:下载抓包工具。这里使用Fiddler抓包工具,点击下载按钮后,根据相关提示信息完成内容填写即可实现Fiddler下载,效果如下图所示。任务步骤任务一:爬取手机端数据壹第二步:Fiddler安装。双击下载好的软件安装包,之后点击“I Agree”“Install”按钮即可安装Fiddler工具。安装完成效果如下图所示。任务步骤任务一:爬取手机端数据壹第三步:Fiddler工具配置。打开刚刚安装完成的Fiddler软件,效果如下图所示。任务步骤任务一:爬取手机端数据壹点击上图中“Tools”菜单下的“Options”按钮进入工具配置界面,效果如下图所示。任务步骤任务一:爬取手机端数据壹点击图中“Connections”按钮,之后进行端口号的配置,效果如下图所示。任务步骤任务一:爬取手机端数据壹第四步:手机配置。由于抓取的是手机APP数据,因此需要在同一局域网内进行手机网络的配置,进入手机WiFi修改界面,设置手动代理并进行主机IP和端口号的配置,效果如下图所示。任务步骤任务一:爬取手机端数据壹第五步:APP页面分析。配置完成后,即可使用当前手机打开需要爬取的APP,这里使用的是美团APP,页面结构如下图所示。任务步骤任务一:爬取手机端数据壹第六步:查看APP信息。找到需要抓取的页面后,在Fiddler抓包工具页面中会获取到当前APP请求网络的路径,点击路径后即可查看当前APP的相关信息,效果如下图所示。任务步骤任务一:爬取手机端数据壹第七步:代码编辑基本配置和信息获取完成后即可进行代码的编辑,将上面获取的相关请求头信息填入代码相应的位置,之后将爬取路径放入请求方法中进行页面内容的请求,之后通过JSON信息的分析,爬取需要的页面信息,如有需要可将信息保存到本地文件,代码如下所示。任务步骤任务一:爬取手机端数据壹运行代码,效果如下图所示任务描述任务二:爬取浪潮优派信息贰任务描述任务描述本任务是爬取浪潮优派首页中的新闻列表和所有的图片信息,然后将新闻列表保存到本地文本文档中,将图片保存到爬虫的所在目录。(1)明确爬取目标及所需要的效果。(2)根据URL爬取网页数据信息。(3)对数据进行保存。任务步骤任务二:爬取浪潮优派信息贰任务步骤任务步骤第一步:打开浪潮优派教育首页(http:/:9090/),如下图所示。任务步骤任务二:爬取浪潮优派信息贰第二步:分析新闻列表部分代码的页面结构,抓取每条新闻的标题,发布时间、阅读量和类型,如图下图所示:任务步骤任务二:爬取浪潮优派信息贰第三步:引入需要使用的库,并设置请求头信息以及要访问的连接,然后访问连接并获取页面代码,代码如下。任务步骤任务二:爬取浪潮优派信息贰第四步:提取新闻信息。通过上图可知新闻列表所在div的class属性为clear newInfor,然后新闻的标题在其每个字标签的/ol/li/h3中,抓取新闻标题的语句如下:news=bsobj.xpath(/divclass=clear newInfor/ol/li/h3)发布时间在p标签的time标签中,获取发布时间的代码如下所示:date=bsobj.xpath(/divclass=clear newInfor/ol/li/p/time)阅读量在p标签的第一个span标签中的samll标签中,获取阅读量的代码如下:readnum=bsobj.xpath(/divclass=clear newInfor/ol/li/p/span1/small)新闻类型在阅读量在p标签的第二个span标签中的samll标签中,获取新闻类型的代码如下。newstype=bsobj.xpath(/divclass=clear newInfor/ol/li/p/span2/small)页面中的图片全部在class为contents的div标签的img标签中,如图所示:任务步骤任务二:爬取浪潮优派信息贰提取页面中图片链接的代码如下。第五步:将获取到的新闻信息和图片保存到本地,代码如下image=bsobj.xpath(/divclass=contents/img/src)任务步骤任务二:爬取浪潮优派信息贰第六步:运行代码,结果如下两图所示任务总体评价任务二:爬取浪潮优派信息贰