《互联网数据采集》课程标准.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《《互联网数据采集》课程标准.docx》由会员分享,可在线阅读,更多相关《《互联网数据采集》课程标准.docx(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、互联网数据采集课程标准一、课程名称互联网数据采集。二、适用专业大数据技术应用专业。三、课程学时与学分72学时,4学分。四、课程性质本课程是大数据技术应用专业的一门专业核心课程,是从事数据采集工程师、数据分析 师等岗位必须学习的课程,将为后续学习数据清洗与预处理、数据可视化、大数 据分析、大数据ETL等课程奠定基础。本课程开设在第3学期,学习该课程之前需具 备一定的Python编程、数据库操作能力,大数据基础、计算机网络技术应用基础、 Python程序设计基础、web前端技术应用是该课程的前导课程。本课程学习的知识 和技能可以为第4学期考取数据采集X证书(初级)做知识和技能准备。五、课程目标通过
2、本课程的学习,能完成热点舆情数据采集任务、农产品营销数据采集任务、招聘网 站数据采集任务、农作物监控数据采集任务,达到以下具体目标:(一)素养目标1 .培养社会主义核心价值观、爱国主义情操、家国情怀。(培养规格1)2 .能够熟练掌握互联网数据采集的相关知识与技能,了解大数据产业文化,遵守国家数 据相关法律法规,具备社会责任感和担当精神。(培养规格3)3 .遵守互联网安全伦理规范,防范信息泄露,保护数据安全。(培养规格6)4 .具备数据思维、数字化素养,具有较强的逻辑思维能力。(培养规格8)5.具备良好的自我管理能力,拥有较为清晰的职业与人生目标以及较好的职业生涯规划能力。(培养规格2)2、考核
3、项目2农产品营销数据采集考核项目2农产品营销数据采集采用过程性评价,考核评价表如下表所示:考核项目2农产品营销数据采集考核评价表班级:姓名:学号:考核项目2农产品营销数据采集序号评价标准分值自我评 价30%小组评 价30%教师评 价40%1能快速总结呈现数据采集项目的实施流程。52能独立使用浏览器开发者工具分析页面加载数据的方式。53能快速使用八爪鱼完成单页数据采集。104能准确使用八爪鱼完成多页数据采集。205能成功使用Python第三方库完成商品定价数据的采 集。206能成功存储采集的数据,并熟练使用Pandas对数据 进行清洗。207能成功搭建可视化看板108能独立撰写项目需求分析报告、
4、项目总结实施报告。10合计1003、考核项目3招聘网站数据采集考核项目3招聘网站数据采集采用过程性评价,考核评价表如下表所示:考核项目3招聘网站数据采集考核评价表班级:姓名:学号:考核项目3招聘网站数据采集序号评价标准分值自我评价30%小组评 价30%教师评 价40%1能快速下载安装用于项目的Python第三方库,并 输出安装成功信息。102能准确展示项目中正则表达式的构成,成功输出匹配结果。103能成功展示Xpath语句与目标数据页面位置的对 应关系。104能快速使用Python编写程序抓取目标网页。205能熟练使用BeautifulSoup解析目标网页,输出 目标结果。206能准确展示JS
5、0N格式数据的转换流程,能列举JS0N对象与Python数据结构的转换方法。207能独立撰写网页页面解析报告。10合计1004、考核项目4农作物监控数据采集考核项目4农作物监控数据采集采用过程性评价,考核评价表如下表所示:考核项目4农作物监控数据采集考核评价表班级:姓名:学号:考核项目4农作物监控数据采集序号评价标准分值自我评 价30%小组评 价30%教师评 价40%1能成功配置服务器和监控设备的网络环境。152能快速编写测试程序,完成与监控该设备数据接 口的通信。153能快速在服务器端搭建Web服务。204能成功编写Python程序接收数据接口推送的数30据5能快速将服务器端硬件设备推送的数
6、据保存到木 地。106能独立撰写传感器数据分析报告。10合计1006.具备主动学习的意识与能力,能适应大数据行业的不断变革发展,具备解决实际问题、 持续学习的能力,能从事实际的数据采集工作,具有较强的规划观念、精益求精意识。(培 养规格5)(二)知识目标1 . 了解数据采集在大数据分析流程中的重要作用。(培养规格13)2 .掌握数据采集项目的行业企业规范流程。(培养规格7)3 . 了解数据采集的定义、数据采集的类型和主要实践工具,掌握互联网数据采集的流程。 (培养规格13)4 .掌握HTML语言的基础知识,熟悉HTML语言的常用标签。(培养规格13)5 . 了解计算网络的基础知识,掌握HTTP
7、协议的GET、POST请求。(培养规格11)6 . 了解正则表式的基础语法,掌握使用正则表达式匹配字符串的方法。(培养规格H)7 .掌握Xpath的语法规则,了解JavaScript的工作机制。(培养规格11)8 .掌握八爪鱼等数据采集工具的应用流程和操作步骤。(培养规格H)9 .掌握 Python 语言的 re 库、requests 库、Pandas 库、JSON 库 BeautifulSoup 库的安 装、配置和使用方法。(培养规格11)10 . 了解静态数据采集和动态数据采集的异同点,掌握处理动态数据采集的方法。(培 养规格13)11 . 了解常见的反爬手段,根据反爬手段制定相应的反爬虫
8、策略。(培养规格13)12 .掌握简单的数据预处理方法,基于处理数据绘制简单的可视化图形。(培养规格17) (三)能力目标1 .能够基于数据采集项目需求分析,规划数据采集顶层设计,制定相数据采集策略。(培 养规格13)2 .能够使用八爪鱼数据采集工具完成简单的互联网数据采集任务。(培养规格13)3 .能够使用Python语言及第三方库编写数据采集程序,完成多种类型的数据采集任务。 (培养规格13)4 .能够使用Python第三方库完成简单的数据预处理并进行数据核验。(培养规格16)5 .能够基于采集处理后的数据规划可视化看板,提供解决方案。(培养规格17)6 .能够独立分析、解决互联网数据采集
9、项目中的技术问题,能够快速准确参考技术资料帮助解决问题。(培养规格13)7 .能够按照规范编写项目需求文档、项目实施文档以及相关技术文档。(培养规格3)8 .能够独立完成互联网数据采集项目的设计、开发以及测试等工作。(培养规格13)9 .具备考取大数据采集X证书(初级)的能力。(培养规格13)六、课程内容与要求本课程以各种不同类型的数据采集任务为载体,坚持立德树人的根本要求,结合学生学 习特点,遵循职业教育人才培养规律,落实课程思政要求,有机融入思想政治教育内容,紧 密联系工作实际,突出应用性和实践性,注重学生职业能力和可持续发展能力的培养。合理 设计:学习单元、能力点、学习内容与要求。本课程
10、按照知识难度和工艺流程从简单到复杂,技能水平从单一技能到综合技能、技术 沿革从传统技术到智能技术的规律确定学习单元的编排顺序,合理序化教学内容。学习单元 1、2、3、4在知识体系上是并列关系,在难易度上是递进关系。表1课程内容与要求序号学习单元能力点学习内容与要求学习成果建议 学时1热点舆情数据 采集1 .能够理解互联网数据采集 的流程。2 .能够理解互联网网站站点 的数据加载过程。3 .能够分析网页页面结构, 找到目标数据位置。4 .能够使用数据采集工具完 成目标数据的采集与存储。1 .了解互联网舆情 网站的页面结构。2 .掌握舆情数据源 的数据协议格式。3 .掌握计算机网络 的基础知识。4
11、 .掌握八爪鱼数据 采集工具的安装方 法。5 .掌握八爪鱼数据 采集工具自定义采 集模式的步骤和规 则。7 .树立正确的职业 观,注意不侵犯他 人肖像权、保障他 人隐私,爱岗敬业、 德技并修。1 .热点舆情网站网 页结构分析报告1 份。2 .八爪鱼数据采集 工具安装使用手册1 份。3 .热点舆情数据1 份。142农产品营销数 据采集1 .能够撰写数据采集项目需1.掌握数据采集项 目的实施流程和规1 .农产品营销数据 采集项目需求分析16求分析报告、总结实施报告。2 .能够根据需求配置单页 面、分类标签多页面、多页 页面数据采集的流程规则。3 .能够按照规范对采集的数 据进行加工和预处理。4 .
12、能够准确分析采集数据与 项目目标的关联性,并提出 合理的解决方案。5 .能够根据采集数据特点规 划可视化看板解决方案。范。2 .掌握浏览器开发 人员工具分析浏览 器渲染页面、加载 数据的方式。3 .掌握八爪鱼采集 工具进行单页数 据、多页网页数据 的采集规则。4 . 了解静态网页和 动态网页的区别。5 .掌握逆向分析爬 取动态网页数据的 方法。7 .掌握Python第 三方库Pandas清 洗数据的方法。8 .掌握数据可视化 看板的配置使用方 法。报告1份。2 .农产品营销数数 据集1份。3 .项目总结实施报 告1份。3招聘网站数据 采集1 .掌握使用浏览器开发者工 具查看网页页面的元素、源
13、码、网络数据加载流程。2 .能够了解反爬虫的概念以 及制定相应的爬取策略。3 .能够掌握使用Python语言 编写数据采集程序抓取静 态、动态数据的方法。4 .能够熟练使用正则表达 式、Xpath语言以及Python 第三方库BeautifulSoup等 多种方式从页面提取目标数 据。1.掌握查看 Requests HTTP 请 求、状态码与编码、 处理请求头与响应 头、设置超时的方 法。2 . 了解正则表达式 的基础语法、匹配 字符串的规则。3 .掌握Xpath工具 的基础语法,与网 页标签的对应关 系。4 .掌握BeautifulSoup 库 的 BeautifulSoup 对象、对象类型
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网数据采集 互联网 数据 采集 课程标准
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内