《数据采集与网络爬虫》实验教学大纲.docx

资源ID：86712716 资源大小：14.33KB 全文页数：3页
资源格式： DOCX 下载积分：15金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

《数据采集与网络爬虫》实验教学大纲.docx

数据采集与网络爬虫实验教学大纲(Data collection and Web crawlers)课程代码：0600074总学时：32学时(其中：讲课16学时、实验16学时、讨论0学时)先修课程：高翎学、侬据科粘灿据技术导潜、C语言程序设计、python 程序设计等。一、目的随着互联网技术的飞速发展，以及国家产业信息化进程的大力推进下，在大数据时代背景下，产生了对基于Web网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出。作为大数据“采集-存储-分析-应用"中首要环节的“采集”，是大数据的第一环节，是非常重要的学科，如果没有采集数据，就得不到可供加工研究的数据对象。本课程的实验教学目的是：1)引导学生对各类网站、各类网页的结构进行研究; 2)让学生熟练掌握运用Python和各类资源/包以多种方式采集网络数据；3)结合数据处理的相关包和工具实现数据处理。通过自己设计和动手操作，从实验中学习、探索和发现数据源，爬取数据，分析数据，激发学生学习爬取数据应用数据的兴趣。二、要求1 .知识要求(D 理解爬虫程序设计理念；学习数据提取与存储方法；(3)掌握scrapy爬虫框架设计技巧；掌握对爬取的数据进行正确的数据分析。2 .能力要求(1)熟练使用ullib下载网页；(2)学会BeautifulSoup工具包选择数据；(3)掌握scrapy网页爬取的工作流程；(4)各种资源包工具综合使用获取数据；(5)爬取数据后续处理；二、实验项目内容及学时分配共设计了 5个实验。实验课题会在专业建设、人才培养的探索中与时俱进、增量更新。实验一、Web网站与访问，使用ullib实现网页下载（2学时）1 .实验目的要求熟悉Python操作环境、工作原理与命令形式，熟悉urllib> numpy> pandas 等工具箱的应用，熟练编写Python程序。能够通过ullib网页下载函数方法下载网页能够实现编码的转换；3）初步掌握网页爬取的方法；爬取学生信息、爬虫程序开发环境。2 .实验主要内容应用python的urllib从大型网站百度下载网页并且存储，爬取学生信息。3 .实验类别：基础4 .实验类型：综合5 .实验要求：必做6 .主要仪器：计算机实验二、网页数据爬取方法，用BeautifulSoup工具选择数据（2学时）1 .实验目的要求（D 熟练编写Python程序，熟悉BeautifulSoup工具箱在相关领域的应用。能够使用BeautifulSoup工具选择数据，掌握End_all等常用方法。2 .实验主要内容应用python的BeautifulSoup工具从网站资源中进行相关数据的提取，爬取天气预报数据。3 .实验类别：基础4 .实验类型：综合5 .实验要求：必做6 .主要仪器：计算机实验三、网站数据爬取路径(2学时).实验目的要求(1)爬取图像；2) 了解网站图像格式、图像资源在大型网站中的存储方式。1 .实验主要内容(1)单线程爬取图像的程序；(2)多线程爬取图像的程序。2 .实验类别：基础.实验类型：验证、综合3 .实验要求：必做.主要仪器：计算机实验四、scrapy框架爬虫程序(2学时).实验目的要求(1)使用scrapy编写网页爬虫程序。掌握应用scrapy网页爬取的工作流程爬取单个网页的某几个特征数据；(3)网站图书数据分析。1 .实验主要内容(1)使用scrapy实现网页递归爬取；(2)能够使用scrapy中Spider的网页递归爬取循环，能实现数据的提取与存储。2 .实验类别：专业基础.实验类型：综合3 .实验要求：选做主要仪器：计算机；建议实验项目及学时分配合计序号实验项目名称内容提要学时实验属性开出要求1Web网站与访问爬取学生信息、爬虫程序开发环境4综合必做2网页数据爬取方法爬取天气预报数据4综合必做3网站数据爬取路径爬取图像4探索必做4scrapy框架爬虫程序网站图书数据分析4综合选做16

注意事项

本文（《数据采集与网络爬虫》实验教学大纲.docx）为本站会员（太**）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。