2022年Python网络爬虫实习报告.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年Python网络爬虫实习报告.pdf》由会员分享,可在线阅读,更多相关《2022年Python网络爬虫实习报告.pdf(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python 网络爬虫实习报告精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 12 页 - - - - - - - - - - 目录一、选题背景 . 错误!未定义书签。二、爬虫原理 . 错误!未定义书签。三、爬虫历史和分类. 错误!未定义书签。四、常用爬虫框架比较. 错误!未定义书签。五、数据爬取实战(豆瓣网爬取电影数据) . 错误!未定义书签。1 分析网页 . 错误!未定义书签。2 爬取数据 . 错误!未定义书签。3 数据整理、转换 . . 错误!未定义书签。4 数据保存、展示 . . 错误
2、!未定义书签。5 技术难点关键点 . . 错误!未定义书签。六、总结 . 错误!未定义书签。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 12 页 - - - - - - - - - - 一、 选题背景二、 爬虫原理三、 爬虫历史和分类四、 常用爬虫框架比较Scrapy 框架: Scrapy 框架是一套比较成熟的Python 爬虫框架,是使用Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。 Scrapy 应用范围很广, 爬虫开发、数据挖掘、数据监测
3、、自动化测试等。Crawley 框架: Crawley 也是 Python 开发出的爬虫框架, 该框架致力于改变人们从互联网中提取数据的方式。Portia框架: Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架: newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。Python-goose 框架: Python-goose 框架可提取的信息包括:文章主体内容 ;文章主要图片 ;文章中嵌入的任 heYoutube/Vimeo 视频;元描述 ;元标签精品资料 - - - 欢迎下载 - - - - - - - -
4、 - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 12 页 - - - - - - - - - - 五、数据爬取实战(豆瓣网爬取电影数据)1 分析网页# 获取 html 源代码def _getHtml(): data = pageNum = 1 pageSize = 0 try: while (pageSize = 125): # headers = User-Agent:Mozilla/ (Windows NT AppleWebKit/ (KHTML, like Gecko) Chrome/ Safari/, # Referer:None #注意如果依然
5、不能抓取的话,这里可以设置抓取网站的 host # # opener = # = headers url = + str(pageSize) + &filter= + str(pageNum) # datahtml%s % i =utf-8) utf-8) pageSize += 25 pageNum += 1 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 12 页 - - - - - - - - - - print(pageSize, pageNum) except Exception a
6、s e: raise e return data2 爬取数据def _getData(html): title = # 电影标题 #rating_num = # 评分range_num = # 排名 #rating_people_num = # 评价人数movie_author = # 导演data = # bs4 解析 html soup = BeautifulSoup(html, ) for li in (ol, attrs=class: grid_view).find_all(li): (span, class_=title).text) #(div, class_=star).find
7、(span, class_=rating_num).text) (div, class_=pic).find(em).text) #spans = (div, class_=star).find_all(span) 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 12 页 - - - - - - - - - - #for x in range(len(spans): # if x = 2: # pass # else: # (spansx.string-len(spansx.string):-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 Python 网络 爬虫 实习 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内