2022年Python网络爬虫实习报告.pdf

上传人：C****o

文档编号：12935864

上传时间：2022-04-27

格式：PDF

页数：12

大小：115.92KB

( 4.5 )

《2022年Python网络爬虫实习报告.pdf》由会员分享，可在线阅读，更多相关《2022年Python网络爬虫实习报告.pdf（12页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、Python 网络爬虫实习报告精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 1 页，共 12 页 - - - - - - - - - - 目录一、选题背景 . 错误!未定义书签。二、爬虫原理 . 错误!未定义书签。三、爬虫历史和分类. 错误!未定义书签。四、常用爬虫框架比较. 错误!未定义书签。五、数据爬取实战（豆瓣网爬取电影数据） . 错误!未定义书签。1 分析网页 . 错误!未定义书签。2 爬取数据 . 错误!未定义书签。3 数据整理、转换 . . 错误!未定义书签。4 数据保存、展示 . . 错误

2、!未定义书签。5 技术难点关键点 . . 错误!未定义书签。六、总结 . 错误!未定义书签。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 2 页，共 12 页 - - - - - - - - - - 一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy 框架: Scrapy 框架是一套比较成熟的Python 爬虫框架，是使用Python 开发的快速、高层次的信息爬取框架，可以高效的爬取web页面并提取出结构化数据。 Scrapy 应用范围很广，爬虫开发、数据挖掘、数据监测

3、、自动化测试等。Crawley 框架: Crawley 也是 Python 开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Portia框架: Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架: newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。Python-goose 框架： Python-goose 框架可提取的信息包括：文章主体内容 ;文章主要图片 ;文章中嵌入的任 heYoutube/Vimeo 视频;元描述 ;元标签精品资料 - - - 欢迎下载 - - - - - - - -

4、 - - - 欢迎下载名师归纳 - - - - - - - - - -第 3 页，共 12 页 - - - - - - - - - - 五、数据爬取实战（豆瓣网爬取电影数据）1 分析网页# 获取 html 源代码def _getHtml(): data = pageNum = 1 pageSize = 0 try: while (pageSize = 125): # headers = User-Agent:Mozilla/ (Windows NT AppleWebKit/ (KHTML, like Gecko) Chrome/ Safari/, # Referer:None #注意如果依然

5、不能抓取的话，这里可以设置抓取网站的 host # # opener = # = headers url = + str(pageSize) + &filter= + str(pageNum) # datahtml%s % i =utf-8) utf-8) pageSize += 25 pageNum += 1 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 4 页，共 12 页 - - - - - - - - - - print(pageSize, pageNum) except Exception a

6、s e: raise e return data2 爬取数据def _getData(html): title = # 电影标题 #rating_num = # 评分range_num = # 排名 #rating_people_num = # 评价人数movie_author = # 导演data = # bs4 解析 html soup = BeautifulSoup(html, ) for li in (ol, attrs=class: grid_view).find_all(li): (span, class_=title).text) #(div, class_=star).find

7、(span, class_=rating_num).text) (div, class_=pic).find(em).text) #spans = (div, class_=star).find_all(span) 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 5 页，共 12 页 - - - - - - - - - - #for x in range(len(spans): # if x = 2: # pass # else: # (spansx.string-len(spansx.string):-

8、3) str = (div, class_=bd).find(p, class_=).() index = (主) if (index = -1): index = (.) print(div, class_=pic).find(em).text) if (div, class_=pic).find(em).text = 210): index = 60 # print(aaa) # print(str4:index) (str4:index) datatitle = title #datarating_num = rating_num datarange_num = range_num #d

9、atarating_people_num = rating_people_num datamovie_author = movie_author return data精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 6 页，共 12 页 - - - - - - - - - - 3 数据整理、转换def _getMovies(data): f = open(, w,encoding=utf-8) () (Insert title here) () (爬取豆瓣电影 ) ( 作者：刘文斌 ) ( 时间： + n

10、owtime + ) () () () () (电影) #(评分) (排名) #( 评价人数) (导演) 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 7 页，共 12 页 - - - - - - - - - - () ()() for data in datas: for i in range(0, 25): () (%s % datatitlei) # (%s % datarating_numi) (%s % datarange_numi) # (%s % datarating_people_num

11、i) (%s % datamovie_authori) 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 8 页，共 12 页 - - - - - - - - - - () ()() () () () () if _name_ = _main_: datas = htmls = _getHtml() for i in range(len(htmls): data = _getData(htmlsi) (data) _getMovies(datas)4 数据保存、展示结果如后图所示：精品资料 - - - 欢迎

12、下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 9 页，共 12 页 - - - - - - - - - - 5 技术难点关键点数据爬取实战（搜房网爬取房屋数据）from bs4 import BeautifulSoup import requests rep = ( ) = gb2312 # 设置编码方式html = soup = BeautifulSoup(html, ) f = open( , w , encoding =utf-8) ( ) (Insert title here) ( ) ( 新房成交 TOP3 ) ()

13、( 房址 ) ( 成交量 ) ( 均价) for li in (ul , class_ =ul02 ).find_all(li): 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 10 页，共 12 页 - - - - - - - - - - name=(div , class_ =pbtext).find(p ).text chengjiaoliang=(span , class_ =red-f3).text try : junjia=(div , class_ =ohter ).find(p , cl

14、ass_ =gray-9 )#.(?O, 平方米) except Exception as e: junjia=(div , class_ =gray-9 )#.(?O, 平方米) ( %s % name) (%s % chengjiaoliang) (%s % junjia) print (name) () ( )精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 11 页，共 12 页 - - - - - - - - - - 六、总结教师评语：成绩：指导教师：精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载名师归纳 - - - - - - - - - -第 12 页，共 12 页 - - - - - - - - - -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022 Python 网络爬虫实习报告

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年Python网络爬虫实习报告.pdf
链接地址：https://www.taowenge.com/p-12935864.html