Python网络爬虫实习报告总结归纳.docx
《Python网络爬虫实习报告总结归纳.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫实习报告总结归纳.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python网络爬虫实习报告一、选题背景二、爬虫原理三、爬虫历史和分类 四、常用爬虫框架比较Scrapy 框架:Scrapy 框架是一套比较成熟的Python 爬虫框架,是使用Python 开发的快速、高层次的信息爬取框架,可以高效的爬取web 页面并提取出结构化数据。Scrapy 应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley 框架:Crawley 也是Python 开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia 框架:Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper 框架:newspap
2、er 框架是一个用来提取新闻、文章以及内容分析的Python 爬虫框架。Python-goose 框架:Python-goose 框架可提取的信息包括:文章主体内容;文章主要图片;文章中嵌入的任heYoutube/Vimeo 视频;元描述;元标签五、数据爬取实战(豆瓣网爬取电影数据)1 分析网页# 获取html 源代码def getHtml(): data = pageNum = 1pageSize = 0 try:while (pageSize = 125):# Referer:None 注# 意如果依然不能抓取的话,这里可以设置抓取网站的host# #= headerspageNum)pa
3、geSize += 25pageNum += 1 print(pageSize, pageNum)except Exception as e: raise ereturn data2 爬取数据def getData(html):title = # 电影标题#rating_num = #评分range_num = # 排名#rating_people_num = #评价人数movie_author = # 导演data = # bs4 解析htmlsoup = BeautifulSoup(html, ) for li in (ol, attrs=class:grid_view).find_all
4、(li):(span, class_=title).text)#(div, class_=star).find(span, class_=rating_num).text)(div, class_=pic).find(em).text)#spans = (div, class_=star).find_all(span) #for x in range(len(spans):#if x = 2:#pass# else:#(spansx.string-len(spansx.string):-3)str = (div, class_=bd).find(p, class_=).() index = (
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 网络 爬虫 实习 报告 总结 归纳
限制150内