Python网络爬虫基础教程 教案第1章 认识网络爬虫.docx
《Python网络爬虫基础教程 教案第1章 认识网络爬虫.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫基础教程 教案第1章 认识网络爬虫.docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、样的教育,不一样的品质黑马程序员 itheima 传智教育旗下 高端IT教育品牌黑马程序员Python网络爬虫基础教程教学设计课程名称: 授课年级:授课学期:教师发名:课题名称第1章认识网络爬虫H2课时课时教学引入随着网络的蓬勃开展,万维网成为大量信息的载体,如何有效提取并利用 这些信息成为一个巨大的挑战。网络爬虫作为一种自动采集数据技术,它凭借 自身强大的自动提取网页数据的能力,成为当下万维网收集数据高效灵活的解 决方案之一。本章主要对网络爬虫的基础知识进行详细地讲解。教学目标 使学生熟悉网络爬虫的概念及分类,能够归纳通用网络爬虫和聚焦网络爬 虫的区别 使学生了解网络爬虫的应用场景,能够列举
2、至少3个网络爬虫的应用场景 使学生熟悉网络爬虫的Robots协议,能够说明robots.txt文件中每个选项 的含义 使学生熟悉防网络爬虫的应对策略,能够列举至少3个应对防网络爬虫的 策略 使学生掌握网络爬虫的工作原理,能够定义通用爬虫和聚焦爬虫的工作原 理 使学生熟悉网络爬虫抓取网页的流程,能够归纳网络爬虫抓取网页的完整 流程 使学生了解网络爬虫的实现技术,能够说出使用Python实现网络爬虫有哪 些优势 使学生熟悉网络爬虫的实现流程,能够归纳使用Python实现网络爬虫的流 程教学重点 什么是网络爬虫 防网络爬虫应对策略 网络爬虫的工作原理 网络爬虫抓取网页的流程 Python实现网络爬虫
3、的流程教学难点无教学方式课堂教学以PPT讲授为主,并结合多媒体进行教学教 学 过 程第一课时(什么是网络爬虫、网络爬虫的应用场景、Robots协议、防爬虫应对 策略)、创设情景,导入新课在学习网络爬虫之前,我们需要了解什么是网络爬虫?教师首先讲解网络 爬虫的概念,其次讲解网络爬虫历经几十年的开展,衍生出的爬虫类型,了解 了什么是网络爬虫,然后讲解网络爬虫的应用场景,最后讲解Robots协议以及 防爬虫对应策略。二、新课讲解知识点1什么是网络爬虫教师通过PPT的方式讲解什么是网络爬虫。(1)熟悉网络爬虫的概念。(2)熟悉网络爬虫的分类。教师通过PPT的方式讲解网络爬虫的概念。黑马程序员 ithe
4、ima 传智教育旗下 高端IT教育品牌样的教育,不一样的品质黑马程序员传智教育旗下 itheima I高端IT教育品牌一样的教育,不一样的品质网络爬虫(Web Crawler)又称网络蜘蛛、网络机器人,它是一种按照一定 规那么,自动浏览万维网的程序或脚本。通俗地讲,网络爬虫就是一个模拟真人 浏览万维网行为的程序,这个程序可以代替真人自动请求万维网,并接收从万 维网返回的数据。与真人浏览互联网相比,网络爬虫能够获取的信息量更大, 效率也更高。教师通过PPT的方式讲解网络爬虫的分类。(1)通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web
5、Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是互联网早 期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的 重要组成局部,主要用于将互联网中的网页下载到本地,形成一个互联网内容 的镜像备份。(2)聚焦网络爬虫(Focused Crawler)又称主题网络爬虫(Topical Crawler), 是指选择性地访问那些与预先定义好的主题相关网页的网络爬虫,它根据预先 定义好的目标,有选择性地访问与目标主题相关的网页,获取所需要的数据。(3)增量式网络爬虫(Incremental Web Crawler)是指对已下载的网页采 取增量式更新,只爬行新产生或者已经发生
6、变化的网页的爬虫。(4)深层网络爬虫(Deep WebCrawler)是指爬行深层网页的网络爬虫, 它要爬行的网页层次比拟深,需要通过一定的附加策略才能够自动爬行,实现 难度稍微大一些。知识点2-网络爬虫的应用场景教师通过PPT的方式讲解网络爬虫的应用场景。随着互联网信息的“爆炸”,网络爬虫渐渐为人们所熟知,并被应用到社 会生活的众多领域。作为一种自动采集网页数据的技术,很多人其实并不清楚 网络爬虫具体能应用到什么场景。事实上,大多数依赖数据支撑的应用场景都 离不开网络爬虫,包括搜索引擎、舆情分析与监测、聚合平台、出行类软件等。知识点3- Robots协议教师通过PPT的方式讲解Robots协
7、议。(1)熟悉什么是robots协议。Robots协议又称爬虫协议,它是网站国际互联网界通行的道德规范,其目 的是保护网站数据和敏感信息,确保网站用户的个人信息和隐私不受侵犯。为 了让网络爬虫了解网站的访问范围,网站管理员通常会在网站的根目录下放置 一个符合Robots协议的robots.txt文件,通过这个文件告知网络爬虫在抓取该 网站时存在哪些限制,哪些网页是允许被抓取的,哪些网页是禁止被抓取的。知识点4-防爬虫应对策略教师通过PPT的方式讲解防爬虫应用策略。(1)添加 User-Agent 字段浏览器在访问网站时会携带固定的User-Agent (用户代理,用于描述浏览 器的类型及版本、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python网络爬虫基础教程 教案 第1章 认识网络爬虫 Python 网络 爬虫 基础教程 认识
限制150内