初中信息技术--Python编程——【网络爬虫爬数据】.docx





《初中信息技术--Python编程——【网络爬虫爬数据】.docx》由会员分享,可在线阅读,更多相关《初中信息技术--Python编程——【网络爬虫爬数据】.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、初中信息技术Python【网络爬虫爬数据】随着信息化社会的到来,万维网已经堆积了大量信息,这就需要我们寻找一种方 式来帮助我们过滤掉无用的信息,并且筛选更多有用的信息作为反应,于是网络爬虫 技术应运而生。在日常生活中,同学们可能听说过网络爬虫这个词,但到底什么是爬 虫,如何利用网络爬虫爬取自己需要的数据呢?通过本节的学习,你将掌握以下技能:* 了解网络爬虫的工作过程*编写程序爬取B站弹幕专题一:初识爬虫在编写爬虫程序之前,我们需要先了解下网络爬虫的概念、爬虫的基本过程和爬 虫的基本架构。1.1 什么是爬虫网络爬虫,也叫网络蜘蛛,它是一段自动访问互联网并从中提取数据的程序。我 们浏览的每一个网页
2、都对应着唯一的网页地址,即URL,而一个网页中又包含着指向 其他网页的URL ,这种URL相互指向的关系就形成了互联网。为了从互联网中获取需 要的信息,以前我们需要人工翻开网页进行检索,但是有了爬虫后,我们就可以借助 网络爬虫自动获取网络上的信息并从中提取有价值的数据。网络爬虫按照系统结构和 实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络 爬虫、深层网络爬虫。D、json 和 xml2、在编写爬虫程序爬取数据时,以下观点正确的选项是()A、互联网是开放的,所有数据都可为我所用B、站点不让爬取的数据偷偷爬取不被发现就好C、遵守Robots协议,不做“恶意爬虫”D、网络
3、爬虫有风险,最好不要学人工URL是统一资源定位符(Uniform Resource Locator )的英文缩写,也就是我们常 说的网址,比方大家熟悉的百度搜索地址就是一个URLO互联 网上的每一个URL都是唯一的,URL指出了资源的具体位置以及浏览器如何处理这些 资源。在大数据时代,信息的采集是一项重要的工作,因此我们可以使用网络爬虫对数 据信息进行自动采集并合理处理这些信息以方便我们的工作和生活,比方我们可以爬 取热门新闻形成一个新闻聚合阅读器、爬取好笑的故事制作一款爆笑故事APP、爬取 不同网站的图书价格做比照等等。大数据时代离不开爬虫,在未来,爬虫的地位会越 来越重要。1.2 爬虫的基
4、本过程爬虫的基本过程分为4个步骤,即向服务器发起请求、获取响应内容、解析内容 和保存数据。1、向服务器发起请求。服务器是提供数据的设备,而发起数据请求的设备叫做客 户端。在客户端获取服务资源前需要先和服务器建立连接。当我们在地址栏输入网址 按下回车键后即向服务器发起了请求,如输入后浏览器会先将该URL解析成IP地址14.215.177.39 #然后通过TCP三次握手与百度服务器建立连接,并发起 请求,即 Request ;2、获取响应内容。服务器在接收到客户端发送来的Request后,会根据客户端的 请求找到客户端需要的资源文件,然后打包发送给客户端,即Response ;3、解析内容。客户端
5、获取到服务器发来的数据后,开始解析内容,解析的数据可 以是图片、视频、html数据、json数据等;4、保存数据。将解析的数据以文本或数据库的形式存储下来。由此我们可以得出一个简单爬虫架构:其中,爬虫调度端主要是负责爬虫的启动、停止以及监视爬虫的调度情况;在爬 虫程序中,URL管理器主要负责管理未爬取的URL集合和已爬取的URL集合,防止 重复或循环爬取;网页下载器是指将互联网上URL对应的网页下载到本地的工具,在 Python中常用的网页下载器有Python官方基础模块urllib2和第三方库requests ;网页 解析器是从网页中提取有价值数据的工具,主要有re正那么匹配、Python自
6、带的 html.parser模块、第三方库BeautifulSoup、xpath、Ixm库等;网页解析器将有价值的数据输出形成价值数据。爬虫程序在执行时,首先从URL管理器中获取一个待爬取的URL ,然后该URL 传送给网页下载器,网页下载器将URL指定的网页下载下来并存储成一个字符串,然 后传送给网页解析器解析,网页解析器一方面将字符串里包含的新的URL传送给URL 管理器,另一方面字符串里的有价值的信息形成价值数据并输出保存。专题二:爬取B站弹幕接下来我们爬取一个URL中的数据。为了爬取B站的弹幕,我们采用的网页下载 器为Requests库、网页解析器为BeautifulSoup库,Bea
7、utifulSoup库能够帮助我们在不 用编写正那么表达式情况下也可以方便的实现网页信息提取。在使用之前,我们需要先 安装 Requests 库和 BeautifulSoup 库。2.1安装第三方库点击离线版海龟编辑器菜单栏中的库管理,在弹出的库管理界面选择爬虫,然后 分别点击Requests库和BeautifulSoup库后的安装即可。未登录 文件 。设置,6硬件 。库管理|。运行/发布旧新的作品库管理靠常用库官方游戏爬虫数据处理图袤爬虫RequestsRequestsReque比库可以用来发送请求、处理响应结果;学会Requests库,我们能轻 易调用网络ap】接口,实现爬虫、翻译、智能机
8、器人等各种有趣的效果。Beautiful SoupBeautiful Soup是一个可以从网站抓取数据并解析的Python库。学会 BeautifiilSoup库,我们可以用更简洁、高效的方式编写爬虫程序。2.1编写爬虫程序第一步:导入 Requests 库和 BeautifulSoup 库。1 #爬取B站弹幕数据 2 import requests 3 from bs4 import BeautifulSoup在导入库的时候,注意requests的大小写,在导入BeautifulSoup库时,不能直接 写成import BeautifulSoup ,这是因为BeautifulSoup已经被移
9、植到BS4模块中了,所以 我们在导入 BeautifulSoup 库时还需要导入 bs4 ,即 from bs4 import BeautifulSoupo第二步:找到弹幕的URL地址,这是爬虫的关键步骤。翻开B站的视频连接,如 科技类作品110还:上山13山(01111(10/84(4114781;然后按下F12键,翻开开发 者工具栏,选中功能模块Network下的XHR标签并按下F5键刷新页面(如图一), 在刷新出的资源信息中找到list.so?oid= 189825423 (如图二)并双击,弹出的窗口中可 以看到视频中所有弹幕的内容(如图三),这就是我们要找的弹幕信息了。在这一步 中,我
10、们需要保存的是。id后面的编号189825423 , B站每一个视频的弹幕都有着唯一 的编号。注意图二中的Requests URL地址并不是弹幕的实际地址,B站弹幕的实际地 址为 ,在这里将 oid 替换为 189825423 ,即 这就是我们需要爬取的 URL。QElements Console Sources I Network I Performance X 0, * Q View: = , U Group by frame U Preserve log U Disable cacFilter1 1 Hide data URLsJS CSS Img Media Font Doc WS M
11、anifest Other60000 ms 70000 ms60000 ms 70000 ms10000 ms 20000 ms 30000 ms 40000 ms 50000 ms图Namei 189825423-l-30280.m4s?expi 人 189825423-l-30280.m4s?expi u 189825423-l-30280.m4s?expi 189825423-l-30032.m4s?expi l_ report?cross_domain=true _ report?cross_domain=true 189825423-l-30280.m4s?expi H0list.s
12、o?oid=189825423X Headers Preview Response Timing GeneralRequest URL: o?oid=189825423Request Method: GETStatus Code: 6 200Remote Address: 120.92.174.135:443Referrer Policy: no-referrer-when-downgrade Response Headersaccess-control-allow-credentials: trueaccess-control-allow-headers: Origin,No-CacheX-
13、Req d-With,If-Modified-Since?Pragma,Last-Modified,Ci Control, Expires, Content-Type Access-Control-Alli edentialsDNTX-CustomHeaderKeep-Alive,User-Agiweb?001111158Q43645Q4801.图二, U, befl IdU,叉b611NUU391U悦 1 ”外长的再苜落人并吊刖女主燃/dd p=534,19900, 1,25, 16777215, 1589254210, 0, 1c 135477,32564594622332933”薪分作文
14、。d 尸13.0190Q 1,25,167772应 1589254370,0,dff0b24,32564678676185093“)汶川亲历,四川成都,永远铭记。原一切都好d 尸212.64000,1,25, 16777215,1589254917,0, 8956388,32564965576015875王毅! 想念温爷爷d 尸98. 65100, 1, 25, 16777215, 1589255077,0, 18f 73e5b, 32565049439551495温胡十年晒/dd p=M214.29900, 王外长国d 2.69000, 1,25, 16777215, 1589255673,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络爬虫爬数据 初中 信息技术 Python 编程 网络 爬虫 数据

限制150内