欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    《数据采集与网络爬虫》实验教学大纲.docx

    • 资源ID:86712716       资源大小:14.33KB        全文页数:3页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据采集与网络爬虫》实验教学大纲.docx

    数据采集与网络爬虫实验教学大纲(Data collection and Web crawlers)课程代码:0600074总学时:32学时(其中:讲课16学时、实验16学时、讨论0学时)先修课程:高翎学、侬据科粘灿据技术导潜、C语言程序设计、python 程序设计等。一、目的随着互联网技术的飞速发展,以及国家产业信息化进程的大力推进下,在大数 据时代背景下,产生了对基于Web网站的数据的大量需求。快速、稳定、健 壮、 分布式的爬虫程序呼之欲出。作为大数据“采集-存储-分析-应用"中首要环节的“采集”,是大数据的第一环 节,是非常重要的学科,如果没有采集数据,就得不到可供加工研究的数据对象。本课程的实验教学目的是:1)引导学生对各类网站、各类网页的结构进行研究; 2)让学生熟练掌握运用Python和各类资源/包以多种方式采集网络数据;3)结合数据 处理的相关包和工具实现数据处理。通过自己设计和动手操作,从实验中学习、探索 和发现数据源,爬取数据,分析数据,激发学生学习爬取数据应用数据的兴趣。二、要求1 .知识要求(D 理解爬虫程序设计理念; 学习数据提取与存储方法;(3)掌握scrapy爬虫框架设计技巧;掌握对爬取的数据进行正确的数据分析。2 .能力要求(1)熟练使用ullib下载网页;(2)学会BeautifulSoup工具包选择数据;(3)掌握scrapy网页爬取的工作流程;(4)各种资源包工具综合使用获取数据;(5)爬取数据后续处理;二、实验项目内容及学时分配共设计了 5个实验。实验课题会在专业建设、人才培养的探索中与时俱进、增量 更新。实验一、Web网站与访问,使用ullib实现网页下载(2学时)1 .实验目的要求 熟悉Python操作环境、工作原理与命令形式,熟悉urllib> numpy> pandas 等工具箱的应用,熟练编写Python程序。 能够通过ullib网页下载函数方法下载网页能够实现编码的转换;3)初步掌握网页爬取的方法; 爬取学生信息、爬虫程序开发环境。2 .实验主要内容应用python的urllib从大型网站百度下载网页并且存储,爬取学生信息。3 .实验类别:基础4 .实验类型:综合5 .实验要求:必做6 .主要仪器:计算机实验二、网页数据爬取方法,用BeautifulSoup工具选择数据(2学时)1 .实验目的要求(D 熟练编写Python程序,熟悉BeautifulSoup工具箱在相关领域的应用。 能够使用BeautifulSoup工具选择数据,掌握End_all等常用方法。2 .实验主要内容应用python的BeautifulSoup工具从网站资源中进行相关数据的提取,爬取天气预 报数据。3 .实验类别:基础4 .实验类型:综合5 .实验要求:必做6 .主要仪器:计算机实验三、网站数据爬取路径(2学时).实验目的要求(1)爬取图像;2) 了解网站图像格式、图像资源在大型网站中的存储方式。1 .实验主要内容(1)单线程爬取图像的程序;(2)多线程爬取图像的程序。2 .实验类别:基础.实验类型:验证、综合3 .实验要求:必做.主要仪器:计算机实验四、scrapy框架爬虫程序(2学时).实验目的要求(1)使用scrapy编写网页爬虫程序。掌握应用scrapy网页爬取的工作流程爬取单个网页的某几个特征数据;(3)网站图书数据分析。1 .实验主要内容(1)使用scrapy实现网页递归爬取;(2)能够使用scrapy中Spider的网页递归爬取循环,能实现数据的提取与存储。2 .实验类别:专业基础.实验类型:综合3 .实验要求:选做主要仪器:计算机;建议实验项目及学时分配合计序号实验项目名称内容提要学 时实验 属性开出 要求1Web网站与访问爬取学生信息、爬虫程序开发环境4综合必做2网页数据爬取方法爬取天气预报数据4综合必做3网站数据爬取路径爬取图像4探索必做4scrapy框架爬虫程序网站图书数据分析4综合选做16

    注意事项

    本文(《数据采集与网络爬虫》实验教学大纲.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开