欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    《数据采集与网络爬虫》理论教学大纲.docx

    • 资源ID:86720322       资源大小:15.03KB        全文页数:4页
    • 资源格式: DOCX        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据采集与网络爬虫》理论教学大纲.docx

    数据采集与网络爬虫理论 教学大纲(Data collection and Web crawlers)课程代码:0600074总学时:32学时(其中:讲课16学时、实验16学时、讨论0学时)先修果程:高翎:学、黜科学与曲据技术导触、C语言程序设计、(python程 序设计等。一、课程性质数据采集与网络爬虫是数据科学与大数据技术专业的必修课程、主干课程、 核心课程,是大数据采集、存储、分析与应用中最重要环节“采集”的具体技术化课 程,是Internet技术和计算机技术及数据处理相结合的数据类课程。课程包含 Internet技术、Python编程技术、数据分析理论教学,充分应用python的各种资源/ 包以多种方式采集网络数据,并结合已经学习过的可视化方法进行分析处理,是实践 性极强的课程。二、课程目的本课程主要针对大数据技术与应用、数据科学、计算机与电子信息等专业3年级 以上本科生,主要讲解互联网大数据采集技术及各种典型爬虫的技术,并结合相关的 开源包使用Python进行实现,以加深学生对所学内容的理解。通过本课程教学,使学 生对互联网大数据采集技术有一个全面的了解,掌握基本的信息内容采集、提取和分 析方法,并且具备一定的针对具体信息采集需求的实际运用和解决能力。三、课程任务要求理解互联网大数据采集的技术体系、主要技术;掌握各种典型爬虫的技术原 理、技术框架、实现方法、主要开源包的使用;通过本课程的学习,使学生学会使用 Python在静态网页、动态网页、需要登录后才能访问的网页、PC客户端、APP中爬取 数据,将理论与实践相结合,为将来从事数据爬虫、分析研究工作奠定基础。U!本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层 次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同 时,注重综合职业素质的养成,课程采用启发诱导式教学,鼓励学生“勤于 思考, 勤于动手”。五、基本要求1、基本理论要求:(1)掌握爬虫程序设计理念;(2)掌握数据提取与存储思想;(3)掌握scrapy爬虫框架设计思想。2、基本技能要求:(1)熟练掌握ullib网页下载方法;(2)熟练掌握正则表达式选取数据的规则;(3)熟练掌握BeautifulSoup工具选择数据的方法;(4)熟练掌握xpath、css选择数据的方法;(5)熟练掌握scrapy网页爬取的工作流程;(6)熟练掌握scrapy中Item、Pipeline数据的序列化输出方法;(7)熟练掌握scrapy中Spider的网页递归爬取技术;(8)熟练掌握scrapy中中间件的使用方法;3、职业素质要求:(1)能够完成真实业务逻辑向代码的转化;(2)能够独立分析解决技术问题;(3)自学能力强,能够快速准确地查找参考资料;(4)能够按照规范编写技术文档;(5)沟通能力强,能够与小组其他成员通力合作。本门着重培养学生独立完成交互式爬虫程序项目的设计、开发以及测试等能 力。六、教学内容及学时分配数据科学与大数据技术专业是新兴专业,尚在在摸索中建设。本课程在参考众多有价值的文献及网站资源的基础上采用了黄锐军主编的数据采集技术一一Python网 络爬虫项目化教程作为主教材,这是高等教育出版社的Python大数据技术与应用系 列教材。学时分配表(以课题或知识单元编排)序号模块名称学时其中讲授实验1Web网站与访问8622网页数据爬取方法8623网站数据爬取路径8624scrapy框架爬虫程序862总计32248七、建议实验项目及学时分配序号实验项目名称内容提要学 时实验 属性开出 要求1Web网站与访问爬取学生信息、爬虫程序开发环境2综合必做2网页数据爬取方法爬取天气预报数据2综合必做3网站数据爬取路径爬取图像2探索必做4scrapy框架爬虫程序网站图书数据分析2综合选做合计8八、教学方法与教学手段.教学方法:课堂讲解、课堂讨论、上机实验、多媒体应用1 .教学手段:多媒体、Python3. 9 + PyCharm IDEO九、建议教材与参考书目教材Python网络爬虫技术,黄锐军编写,深圳信息职业技术学院参考书Python程序设计赵家刚主编,人民邮电出版社,2016年版十、大纲编写的依据与说明本课程教学大纲是根据数据科学与大数据技术专业培养目标和基本要求,结合本 课程的性质、教学的基本任务和基本要求,及铜陵学院应用型本科院校建设及应用性 人才培养方案等来制定的。

    注意事项

    本文(《数据采集与网络爬虫》理论教学大纲.docx)为本站会员(太**)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开