Python网络爬虫实习报告.doc

上传人：一***

文档编号：2744846

上传时间：2020-05-02

格式：DOC

页数：13

大小：163.50KB

( 4.5 )

《Python网络爬虫实习报告.doc》由会员分享，可在线阅读，更多相关《Python网络爬虫实习报告.doc（13页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、#+ Python 网络爬虫实习报告 #+ 目录目录一、选题背景一、选题背景.- 2 - 二、爬虫原理二、爬虫原理.- 2 - 三、爬虫历史和分类三、爬虫历史和分类.- 2 - 四、常用爬虫框架比较四、常用爬虫框架比较.- 5 - 五、数据爬取实战（五、数据爬取实战（豆瓣网爬取电影数据豆瓣网爬取电影数据） .- 6 - 1 分析网页 .- 6 - 2 爬取数据 .- 7 - 3 数据整理、转换 .- 10 - 4 数据保存、展示 .- 12 - 5 技术难点关键点 .- 12 - 六、总结六、总结.- 14 - #+ 一、一、选题背景选题背景二、二、爬虫原理爬虫原理三、三、爬虫历史和分类

2、爬虫历史和分类四、四、常用爬虫框架比较常用爬虫框架比较 ScrapyScrapy 框架框架: :Scrapy 框架是一套比较成熟的 Python 爬虫框架，是使用 Python 开发的快速、高层次的信息爬取框架，可以高效的爬取 web 页面并提取出结构化数据。Scrapy 应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。 CrawleyCrawley 框架框架: :Crawley 也是 Python 开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。 PortiaPortia 框架框架: :Portia 框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬

3、虫框架。 newspapernewspaper 框架框架: :newspaper 框架是一个用来提取新闻、文章以及内容分析的 Python 爬虫框架。 Python-goosePython-goose 框架：框架：Python-goose 框架可提取的信息包括：文章主体内容;文章主要图片;文章中嵌入的任 heYoutube/Vimeo 视频;元描述;元标签 #+ 五、五、数据爬取实战（豆瓣网爬取电影数据）数据爬取实战（豆瓣网爬取电影数据） 1 分析网页分析网页 # # 获取获取 htmlhtml 源代码源代码 defdef _getHtml():_getHtml(): datadata

4、= = pageNumpageNum = = 1 1 pageSizepageSize = = 0 0 try:try: whilewhile (pageSize(pageSize = 125):125): # # headersheaders = = User-Agent:Mozilla/5.0User-Agent:Mozilla/5.0 (Windows(Windows NTNT 6.1)6.1) AppleWebKit/537.11AppleWebKit/537.11 (KHTML,(KHTML, likelike Gecko)Gecko) Chrome/23.0.1271.64Chro

5、me/23.0.1271.64 Safari/537.11,Safari/537.11, # # Referer:NoneReferer:None # #注意如果依然不能抓取的话，这里注意如果依然不能抓取的话，这里可以设置抓取网站的可以设置抓取网站的 hosthost # # # # openeropener = = urllib.request.build_opener()urllib.request.build_opener() # # opener.addheadersopener.addheaders = = headersheaders urlurl = = + + str(pag

6、eSize)str(pageSize) + + &filter=&filter= + + str(pageNum)str(pageNum) # # datahtml%sdatahtml%s % % i i =urllib.request.urlopen(url).read().decode(utf-8)=urllib.request.urlopen(url).read().decode(utf-8) #+ data.append(urllib.request.urlopen(url).read().decode(utf-data.append(urllib.request.urlopen(ur

7、l).read().decode(utf- 8)8) pageSizepageSize +=+= 2525 pageNumpageNum +=+= 1 1 print(pageSize,print(pageSize, pageNum)pageNum) exceptexcept ExceptionException asas e:e: raiseraise e e returnreturn datadata 2 爬取数据爬取数据 defdef _getData(html):_getData(html): titletitle = = # # 电影标题电影标题 #rating_num#rating

8、_num = = # # 评分评分 range_numrange_num = = # # 排名排名 #rating_people_num#rating_people_num = = # # 评价人数评价人数 movie_authormovie_author = = # # 导演导演 datadata = = # # bs4bs4 解析解析 htmlhtml soupsoup = = BeautifulSoup(html,BeautifulSoup(html, html.parser)html.parser) forfor lili inin soup.find(ol,soup.find(ol,

9、 attrs=class:attrs=class: grid_view).find_all(li):grid_view).find_all(li): #+ title.append(li.find(span,title.append(li.find(span, class_=title).text)class_=title).text) #rating_num.append(li.find(div,#rating_num.append(li.find(div, class_=star).find(span,class_=star).find(span, class_=rating_num).t

10、ext)class_=rating_num).text) range_num.append(li.find(div,range_num.append(li.find(div, class_=pic).find(em).text)class_=pic).find(em).text) #spans#spans = = li.find(div,li.find(div, class_=star).find_all(span)class_=star).find_all(span) #for#for x x inin range(len(spans):range(len(spans): # # ifif

11、x x = 2:2: # # passpass # # else:else: # # rating_people_num.append(spansx.string-rating_people_num.append(spansx.string- len(spansx.string):-3)len(spansx.string):-3) strstr = = li.find(div,li.find(div, class_=bd).find(p,class_=bd).find(p, class_=).text.lstrip()class_=).text.lstrip() indexindex = =

12、str.find(str.find(主主) ifif (index(index = -1):-1): indexindex = = str.find(.)str.find(.) print(li.find(div,print(li.find(div, class_=pic).find(em).text)class_=pic).find(em).text) ifif (li.find(div,(li.find(div, class_=pic).find(em).textclass_=pic).find(em).text = 210):210): #+ indexindex = = 6060 #

13、# print(aaa)print(aaa) # # print(str4:index)print(str4:index) movie_author.append(str4:index)movie_author.append(str4:index) datatitledatatitle = = titletitle #datarating_num#datarating_num = = rating_numrating_num datarange_numdatarange_num = = range_numrange_num #datarating_people_num#datarating_p

14、eople_num = = rating_people_numrating_people_num datamovie_authordatamovie_author = = movie_authormovie_author returnreturn datadata 3 数据整理、转换数据整理、转换 defdef _getMovies(data):_getMovies(data): f f = = open(F:/douban_movie.html,open(F:/douban_movie.html, w,encoding=utf-8)w,encoding=utf-8) f.write()f.w

15、rite() f.write(Insert titletitle here)here) f.write()f.write() f.write(f.write(爬取豆瓣电影爬取豆瓣电影) f.write(f.write( 作者：刘文斌作者：刘文斌) f.write(f.write( 时间：时间： + + nowtimenowtime + + ) #+ f.write()f.write() f.write() f.write()f.write() f.write()f.write() f.write(电影电影 ) #f.write( 评分评分) f.write(排排名名) #f.write( 评

16、价人数评价人数) f.write(导演导演 ) f.write()f.write() f.write()f.write() f.write()f.write() forfor datadata inin datas:datas: forfor i i inin range(0,range(0, 25):25): f.write()f.write() f.write(%s % % datatitlei)datatitlei) #+ # # f.write(%s % % datarating_numi)datarating_numi) f.write(%s % % datarange_numi)d

17、atarange_numi) # # f.write(%s % % datarating_people_numi)datarating_people_numi) f.write(%s % % datamovie_authori)datamovie_authori) f.write()f.write() f.write()f.write() f.write()f.write() f.write()f.write() f.write()f.write() f.write()f.write() f.close()f.close() ifif _name_name_ = _main_:_main_:

18、datasdatas = = htmlshtmls = = _getHtml()_getHtml() forfor i i inin range(len(htmls):range(len(htmls): datadata = = _getData(htmlsi)_getData(htmlsi) datas.append(data)datas.append(data) #+ _getMovies(datas)_getMovies(datas) 4 4 数据保存、展示数据保存、展示结果如后图所示： 5 技术难点关键点技术难点关键点数据爬取实战（搜房网爬取房屋数据）数据爬取实战（搜房网爬取房屋数

19、据） #+ fromfrom bs4 importimport BeautifulSoup importimport requests rep = requests.get( rep.encoding = gb2312gb2312 # 设置编码方式 html = rep.text soup = BeautifulSoup(html, html.parserhtml.parser) f = open(F:/fang.htmlF:/fang.html, ww,encoding=utf-8utf-8) f.write() f.write(Insert titletitle herehere) f.w

20、rite() f.write(新房成交新房成交 TOP3TOP3) f.write() f.write(房址房址) f.write(成交量成交量) f.write(均价均价) forfor li inin soup.find(ulul,class_=ul02ul02).find_all(lili): name=li.find(divdiv,class_=pbtextpbtext).find(pp).text chengjiaoliang=li.find(spanspan,class_=red-f3red-f3).text trytry: #+ junjia=li.find(divdiv,cla

21、ss_=ohterohter).find(pp,class_=gray-gray- 99)#.text.replace(O, 平方米) exceptexcept Exception asas e: junjia=li.find(divdiv,class_=gray-gray- 99)#.text.replace(O, 平方米) f.write(%s % name) f.write(%s % chengjiaoliang) f.write(%s % junjia) printprint(name) f.write() f.write() #+ 六、总结六、总结教师评语：教师评语：成绩：成绩：指导教师：指导教师：

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

8 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: python 网络爬虫实习报告讲演呈文

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：Python网络爬虫实习报告.doc
链接地址：https://www.taowenge.com/p-2744846.html