2022年Python面试题总结 .pdf
《2022年Python面试题总结 .pdf》由会员分享,可在线阅读,更多相关《2022年Python面试题总结 .pdf(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python 面试题总结精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 7 页 - - - - - - - - - - 资料仅供参考1.Python 线程池原理?我理解为线程池是一个存放很多线程的单位,同时还有一个对应的任务队列。整个执行过程其实就是使用线程池中已有有限的线程把任务队列中的任务做完。这样做的好处就是你不需要为每个任务都创立一个线程,因为当你创立第 100 个线程来执行第100 个任务的时候,可能前面已经有50 个线程结束工作了。 超过最大值的线程能够排队,但她们要等到其它线程完
2、成后才启动。因此重复利用线程来执行任务,减少系统资源的开销。2.Python 合并字典,相同 key 的 value 如何相加?利用 collections.Counter 可轻松办到 x = apple:1, banana:2 y = banana:10, pear:11 from collections import Counter X,Y = Counter(x), Counter(y) z = dict(X+Y) zapple: 1, banana: 12, pear: 11另一种写法from collections import Counterdict(Counter(x)+Coun
3、ter(y)( 合并两个字典的方法方法 1:dictMerged1=dict(dict1.items()+dict2.items() 方法 2:dictMerged2=dict(dict1, *dict2) 方法 2 等同于:dictMerged=dict1.copy() dictMerged.update(dict2)或者dictMerged=dict(dict1) dictMerged.update(dict2)3.解释 GUI 和 GPL?精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共
4、7 页 - - - - - - - - - - 资料仅供参考GUI图形用户 界面(Graphical User Interface,简称GUI,又称图形 用户接口)是指采用图形方式显示的计算机操作用户界面。GPL(GNU 通用公共许可证 )GPL 同其它的自由软件许可证一样,许可社会公众享有:运行、复制软件的自由,发行传播软件的自由,获得软件源码的自由,改进软件并将自己作出的改进版本向社会发行传播的自由。4.简述爬虫的基本步骤和流程?网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的URL; 2.将这些 URL 放入待抓取 URL 队列; 3.从待抓取 URL 队列中取出待抓取在URL
5、 ,(解析 DNS,而且得到主机的ip,)并将 URL 对应的网页下载下来,存储进已下载网页库中。另外,将这些URL 放进已抓取 URL 队列。4.分析已抓取 URL 队列中的 URL 和其中的有价值的数据,将新的URL ,放入待抓取 URL 队列,将数据存储起来,从而进入下一个循环。5.你们公司的业务中,并发能达到多少?6. 如何循环抓取一个网站的1000张图片?流程大概是这样找到所有页数-遍历所有的页数-遍历当前页的所有相册 ( 给每个相册建立一个目录) -遍历当前相册的所有图片( 遍历此相册的所有页 ( 遍历当前页的所有照片并找到图片的 url) -获得图片 url 就存起来 , 然后经
6、过图片 url 下载图片。-引用计数当图片下载量达到1000 张时,停止爬取。7. 如果对方网站能够反爬取,封ip 怎么办?1、放慢抓取速度,减小对于目标网站造成的压力。可是这样会减少单位时间类的抓取量。2、第二种方法是经过设置代理IP 等手段,突破反爬虫机制继续高频率抓取。可是这样需要多个稳定的代理IP。代理 IP 能够搜索到免费的,可是可能不太稳定,也有收费的,可是不一定划算,也可能不是长久之计。普通的基于 ADSL拨号的解决办法精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 7 页 -
7、- - - - - - - - - 资料仅供参考一般,在抓取过程中遇到禁止访问,能够重新进行ADSL 拨号,获取新的IP,从而能够继续抓取。可是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,同时也影响到了其它网站的抓取,整体来说也会降低抓取速度。一种可能的解决办法同样也是基于 ADSL 拨号,不同的是,需要两台能够进行ADSL 拨号的服务器,抓取过程中使用这两台服务器作为代理。假设有 A、B 两台能够进行 ADSL 拨号的服务器。爬虫程序在C 服务器上运行,使用 A 作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为 B,然后将 A 进行重新拨号。如果再遇到禁
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年Python面试题总结 2022 Python 试题 总结
限制150内