《互联网数据采集》课程标准.docx
互联网数据采集课程标准一、课程名称互联网数据采集。二、适用专业大数据技术应用专业。三、课程学时与学分72学时,4学分。四、课程性质本课程是大数据技术应用专业的一门专业核心课程,是从事数据采集工程师、数据分析 师等岗位必须学习的课程,将为后续学习数据清洗与预处理、数据可视化、大数 据分析、大数据ETL等课程奠定基础。本课程开设在第3学期,学习该课程之前需具 备一定的Python编程、数据库操作能力,大数据基础、计算机网络技术应用基础、 Python程序设计基础、web前端技术应用是该课程的前导课程。本课程学习的知识 和技能可以为第4学期考取数据采集X证书(初级)做知识和技能准备。五、课程目标通过本课程的学习,能完成热点舆情数据采集任务、农产品营销数据采集任务、招聘网 站数据采集任务、农作物监控数据采集任务,达到以下具体目标:(一)素养目标1 .培养社会主义核心价值观、爱国主义情操、家国情怀。(培养规格1)2 .能够熟练掌握互联网数据采集的相关知识与技能,了解大数据产业文化,遵守国家数 据相关法律法规,具备社会责任感和担当精神。(培养规格3)3 .遵守互联网安全伦理规范,防范信息泄露,保护数据安全。(培养规格6)4 .具备数据思维、数字化素养,具有较强的逻辑思维能力。(培养规格8)5.具备良好的自我管理能力,拥有较为清晰的职业与人生目标以及较好的职业生涯规划能力。(培养规格2)2、考核项目2农产品营销数据采集考核项目2农产品营销数据采集采用过程性评价,考核评价表如下表所示:考核项目2农产品营销数据采集考核评价表班级:姓名:学号:考核项目2农产品营销数据采集序号评价标准分值自我评 价30%小组评 价30%教师评 价40%1能快速总结呈现数据采集项目的实施流程。52能独立使用浏览器开发者工具分析页面加载数据的方式。53能快速使用八爪鱼完成单页数据采集。104能准确使用八爪鱼完成多页数据采集。205能成功使用Python第三方库完成商品定价数据的采 集。206能成功存储采集的数据,并熟练使用Pandas对数据 进行清洗。207能成功搭建可视化看板108能独立撰写项目需求分析报告、项目总结实施报告。10合计1003、考核项目3招聘网站数据采集考核项目3招聘网站数据采集采用过程性评价,考核评价表如下表所示:考核项目3招聘网站数据采集考核评价表班级:姓名:学号:考核项目3招聘网站数据采集序号评价标准分值自我评价30%小组评 价30%教师评 价40%1能快速下载安装用于项目的Python第三方库,并 输出安装成功信息。102能准确展示项目中正则表达式的构成,成功输出匹配结果。103能成功展示Xpath语句与目标数据页面位置的对 应关系。104能快速使用Python编写程序抓取目标网页。205能熟练使用BeautifulSoup解析目标网页,输出 目标结果。206能准确展示JS0N格式数据的转换流程,能列举JS0N对象与Python数据结构的转换方法。207能独立撰写网页页面解析报告。10合计1004、考核项目4农作物监控数据采集考核项目4农作物监控数据采集采用过程性评价,考核评价表如下表所示:考核项目4农作物监控数据采集考核评价表班级:姓名:学号:考核项目4农作物监控数据采集序号评价标准分值自我评 价30%小组评 价30%教师评 价40%1能成功配置服务器和监控设备的网络环境。152能快速编写测试程序,完成与监控该设备数据接 口的通信。153能快速在服务器端搭建Web服务。204能成功编写Python程序接收数据接口推送的数30据5能快速将服务器端硬件设备推送的数据保存到木 地。106能独立撰写传感器数据分析报告。10合计1006.具备主动学习的意识与能力,能适应大数据行业的不断变革发展,具备解决实际问题、 持续学习的能力,能从事实际的数据采集工作,具有较强的规划观念、精益求精意识。(培 养规格5)(二)知识目标1 . 了解数据采集在大数据分析流程中的重要作用。(培养规格13)2 .掌握数据采集项目的行业企业规范流程。(培养规格7)3 . 了解数据采集的定义、数据采集的类型和主要实践工具,掌握互联网数据采集的流程。 (培养规格13)4 .掌握HTML语言的基础知识,熟悉HTML语言的常用标签。(培养规格13)5 . 了解计算网络的基础知识,掌握HTTP协议的GET、POST请求。(培养规格11)6 . 了解正则表式的基础语法,掌握使用正则表达式匹配字符串的方法。(培养规格H)7 .掌握Xpath的语法规则,了解JavaScript的工作机制。(培养规格11)8 .掌握八爪鱼等数据采集工具的应用流程和操作步骤。(培养规格H)9 .掌握 Python 语言的 re 库、requests 库、Pandas 库、JSON 库 BeautifulSoup 库的安 装、配置和使用方法。(培养规格11)10 . 了解静态数据采集和动态数据采集的异同点,掌握处理动态数据采集的方法。(培 养规格13)11 . 了解常见的反爬手段,根据反爬手段制定相应的反爬虫策略。(培养规格13)12 .掌握简单的数据预处理方法,基于处理数据绘制简单的可视化图形。(培养规格17) (三)能力目标1 .能够基于数据采集项目需求分析,规划数据采集顶层设计,制定相数据采集策略。(培 养规格13)2 .能够使用八爪鱼数据采集工具完成简单的互联网数据采集任务。(培养规格13)3 .能够使用Python语言及第三方库编写数据采集程序,完成多种类型的数据采集任务。 (培养规格13)4 .能够使用Python第三方库完成简单的数据预处理并进行数据核验。(培养规格16)5 .能够基于采集处理后的数据规划可视化看板,提供解决方案。(培养规格17)6 .能够独立分析、解决互联网数据采集项目中的技术问题,能够快速准确参考技术资料帮助解决问题。(培养规格13)7 .能够按照规范编写项目需求文档、项目实施文档以及相关技术文档。(培养规格3)8 .能够独立完成互联网数据采集项目的设计、开发以及测试等工作。(培养规格13)9 .具备考取大数据采集X证书(初级)的能力。(培养规格13)六、课程内容与要求本课程以各种不同类型的数据采集任务为载体,坚持立德树人的根本要求,结合学生学 习特点,遵循职业教育人才培养规律,落实课程思政要求,有机融入思想政治教育内容,紧 密联系工作实际,突出应用性和实践性,注重学生职业能力和可持续发展能力的培养。合理 设计:学习单元、能力点、学习内容与要求。本课程按照知识难度和工艺流程从简单到复杂,技能水平从单一技能到综合技能、技术 沿革从传统技术到智能技术的规律确定学习单元的编排顺序,合理序化教学内容。学习单元 1、2、3、4在知识体系上是并列关系,在难易度上是递进关系。表1课程内容与要求序号学习单元能力点学习内容与要求学习成果建议 学时1热点舆情数据 采集1 .能够理解互联网数据采集 的流程。2 .能够理解互联网网站站点 的数据加载过程。3 .能够分析网页页面结构, 找到目标数据位置。4 .能够使用数据采集工具完 成目标数据的采集与存储。1 .了解互联网舆情 网站的页面结构。2 .掌握舆情数据源 的数据协议格式。3 .掌握计算机网络 的基础知识。4 .掌握八爪鱼数据 采集工具的安装方 法。5 .掌握八爪鱼数据 采集工具自定义采 集模式的步骤和规 则。7 .树立正确的职业 观,注意不侵犯他 人肖像权、保障他 人隐私,爱岗敬业、 德技并修。1 .热点舆情网站网 页结构分析报告1 份。2 .八爪鱼数据采集 工具安装使用手册1 份。3 .热点舆情数据1 份。142农产品营销数 据采集1 .能够撰写数据采集项目需1.掌握数据采集项 目的实施流程和规1 .农产品营销数据 采集项目需求分析16求分析报告、总结实施报告。2 .能够根据需求配置单页 面、分类标签多页面、多页 页面数据采集的流程规则。3 .能够按照规范对采集的数 据进行加工和预处理。4 .能够准确分析采集数据与 项目目标的关联性,并提出 合理的解决方案。5 .能够根据采集数据特点规 划可视化看板解决方案。范。2 .掌握浏览器开发 人员工具分析浏览 器渲染页面、加载 数据的方式。3 .掌握八爪鱼采集 工具进行单页数 据、多页网页数据 的采集规则。4 . 了解静态网页和 动态网页的区别。5 .掌握逆向分析爬 取动态网页数据的 方法。7 .掌握Python第 三方库Pandas清 洗数据的方法。8 .掌握数据可视化 看板的配置使用方 法。报告1份。2 .农产品营销数数 据集1份。3 .项目总结实施报 告1份。3招聘网站数据 采集1 .掌握使用浏览器开发者工 具查看网页页面的元素、源 码、网络数据加载流程。2 .能够了解反爬虫的概念以 及制定相应的爬取策略。3 .能够掌握使用Python语言 编写数据采集程序抓取静 态、动态数据的方法。4 .能够熟练使用正则表达 式、Xpath语言以及Python 第三方库BeautifulSoup等 多种方式从页面提取目标数 据。1.掌握查看 Requests HTTP 请 求、状态码与编码、 处理请求头与响应 头、设置超时的方 法。2 . 了解正则表达式 的基础语法、匹配 字符串的规则。3 .掌握Xpath工具 的基础语法,与网 页标签的对应关 系。4 .掌握BeautifulSoup 库 的 BeautifulSoup 对象、对象类型、 遍历文档树、搜索4.招聘网站页面解 析分析报告1份。2 .招聘网站数据集1 份。184农作物监控数 据采集1 .能够根据相应数据源协 议格式完成数据采集需求分 析。2 .能够掌握边缘设备的接 口调用,接收设备推送数据 信息。3 .能够在服务器端部署 Python Web框架,快速搭建 Web服务。4 .能够正确理解和尊重不同 区域的文化与当地的风土人 情。5 .能够熟练使用数字农业场 景下的规范专业术语与行业 用语,与团队保持顺畅沟通 交流。文档树的使用方 法。5.掌握JS0N格式 文件的处理方法、 JS0N对象的转换 方式。1 . 了解监控设备传 感器的基础知识, 数据源的数据协议 格式。2 .理解监控设备传 感器的工作原理及 SDK数据接口的使 用方式。3 .掌握传感器数据 的特点、字段含义。4 .掌握编写测试脚 本程序与传感器硬 件交互的方法。5 .掌握Python数 据采集第三方库 requests库处理 数据API的方式。6 .掌握 Python Web 框架的搭建与配置 方法。7 .了解软件与信息 技术行业信息,掌 握基于边缘设备的 数据采集技术。L传感器数据分析 报告1份。2 .与传感器交互的 测试程序1份。3 .农作物监控数据 集1份。24七、课程实施(一)师资队伍1.专任教师职业能力:具备优秀的专业课教学开展与组织能力,掌握计算机网络技术、Python编程能力、网络爬虫使用能力,能够以情境任务要求爬取数据。知识结构:了解数据采集工程师的各项职业岗位要求;在专业领域中,具备数据采集、 数据预处理等较为深入的专业知识背景。资质:具备中职学校专业课任教资格和企业实践经历。2.兼职教师职业能力:企业优秀讲师或行业企业专家,具备有3到5年的数据采集相关行业从业经 验,参与过多个数据采集项目开发过程,具有较强的专业技能,具备良好的专业课教学开展 与组织能力,具备优秀的Python编程能力,精通网络爬虫,掌握数据数据采集实战工具,能 够以情境任务要求采集数据。知识结构:在行业领域中,深入了解数据采集工程师的各项职业岗位要求;在专业领域 中,具备数据采集、数据预处理等深入的专业知识背景。资质:具备数据采集相关行业从业背景和企业工作经历。(二)实验实训条件1 .校内实训基地根据不同的项目学习需要,选择教室、校企合作实习实训基地、实训设备等进行教学。(1)实训场地:大数据开发测试实训室;(2)实训设备:台式计算机40台、服务器1台,满足互联网数据采集的要求。2 .校外实训基地目前大数据技术有1个联想校外实训室,能够同时满足50名学生进行实习实训。能够满 足学校教师、企业专家共同办公,满足专业人才学徒制人才培养要求,符合企业研发、生产 要求。本校外实训基地具备如下条件:(1)联想组织机构健全,领导和工作(或技术)人员素质高,管理规范,在新一代信息 技术领域发展前景好。(2)基于联想“端-边-云-网-智”技术框架下,其研究方向与经营的业务与本专业对口, 且联想属于世界五百强企业,社会形象好。(3)符合学生专业实习实训条件,并且能够满足学生顶岗实训一个月以上。(4)有相应的技术人员担任实训指导教师。(三)教学资源1 .教材按照教材必须在政治上坚持四项基本原则,符合党和国家的方针和政策,能运用辩证唯物主义和历史唯物主义的观点阐述本课程的基本规律的原则选择教材.。教材必须符合本课程 教学大纲的要求,符合学生层次的实际,教材内容的阐述要循序渐进,富于启发,有利于对 学生能力和素质的培养。充分考虑教材的变动与更新,保证教材内容有用、新鲜和实用。为 保证教学质量,优先选择国家规划教材。数据采集技术(初级)按照数据采集的开发流程介绍了数据采集各方面的技术,涵 盖了从事互联网数据采集工作所要求的实践技能,作为主要教材;数据采集技术逐层深 入,从数据采集的知识、技术等角度提供了阶梯式的知识内容和技术,满足不同层次的教学 需求,作为辅助教材。两本教材相辅相成有助于同学们提高互联网数据采集的实战能力,在 教材内容基础上也可以结合学习单元自主开发模块化教材,包括活页式工作页、学习页、评 价表等,同时也可采用校企合作资源库课程资源包。2 .图书文献配备数据采集与预处理、Python3网络爬虫开发实战等图书可用于学生课余时间巩 固课堂所学知识技能,拓展视野,有助于学生加强理解互联网数据采集的流程,提升互联网 数据采集实践工具的操作能力,对于本课程扎实理论基础,拓展实践技术技能有辅助作用。 亦可用于专业教师教科研等工作的开展,方便师生查询、借阅。(四)教学方法面对新的教学变革,采用线上线下混合式教学模式组织教学,在教学中渗透理实一体化、 思政育人的教学理念。该课程是大数据技术应用专业核心课程之一,在教学的过程中应注重 锻炼学生的实操能力为主,把互联网数据采集的知识技能融入到课程的实操训练当中,通过 本门课程的学习,学生能够完成主流的互联网站点数据采集等任务。在教学过程中采用:讲演法、任务驱动法、项目教学法、案例分析法等教学方法,辅以 餐垫法、工作站法、展览馆法等特色的教学组织方式,提升学生自主探究、合作学习的意识, 培养良好的学习习惯;在每个学习单元,学生进行自主探究学习与小组合作讨论学习,加强 操作训练;以企业生产过程中实际的工作任务作为案例,在实践中引导学生学会分析问题、 解决问题。在教学过程中应充分利用实训环境,按照行动导向六步骤,采用任务驱动法等教 法,引导学生开展自主、探究、合作的学习活动,在实践中引导学生学会分析问题、解决问 题。通过教师示范操作,强调岗位标准,强化学生的职业规范,提升学生使用数据采集工具 完成数据采集任务的实操能力,提高学生自主探究的能力,逐步养成严谨科学的职业习惯。 在解决问题的过程中,学生养成耐心、细致、精益求精的工作态度,强化学生的质量意识。 本课程在课堂上除了板书讲解等教学手段外,还采用多媒体教学课件、学习网站、视频演示、 模拟系统,职教云平台等现代化教学手段,使用了大数据、人工智能、虚拟仿真实训等信息 技术,以提高学生的学习兴趣、拓展学习方法,使学生可以有更多的途径获取知识和技能。(五)教学评价严格落实培养目标和培养规格要求,围绕大数据技术应用专业的人才培养目标,通过教 师、企业、学生三个评价主体从核心素质、关键知识、综合能力、实践成果四个维度,通过 课堂评价(占比20%)、项目评价(占比50%)、课程评价(占比30%)三种形式收录反映学 生成长过程和发展水平的描述与实证材料,全面评价学生综合素质,客观反映学生的个性差 异和特长,突出评价对学生全面发展的促进作用。1 .课堂评价(20%):通过教师评价、学生互评、学生自评三个主体侧重核心素质的评价。课堂评价采用线上线下混合评价方式,借助职教云、雨课堂、云班课等信息化平台对学 生在课堂上的学习过程、互动情况等展开评价,结合学生自评、互评等多种评价方式,利用 数字信息化直观展示学生的整体情况,让教师在课程中帮助学生更清晰的认识自己。学习笔记的检查20% (学生将学习笔记在规定时间内拍照上传信息化平台):评价标准 为四级式:A、B、C、D,要求完整、字迹工整、有重点、难点的标记。学习材料的保存15% (教师线下课堂检查):评价标准为四级式:A、B、C、D,要求完 整、字迹工整、有错误工作页进行了正确的修改。教师评价40% (借助信息化平台开展评价):学生出勤(10%)、学习成果展示(10%)、 学习过程表现(师生互动、课堂练习、随堂测试等)(10%)、实操(10%)。学生互评15%:组内其他同学的评价(10%),组外同学的评价(5%) o学生自评10%:自己对自己的评价。2 .项目评价(50%):阶段测评项目评价以小组为单位,进行综合素质评价及每一个项目作品成果评价,针对每一个项 目,累计各个工作阶段实施评分、素质评分、项目成果评分,将评分数据由学习平台进行统 计,最终项目结束后按照评分公布优秀项目组,学生素质通过多维能力雷达图展示,实现学 生的增值性评价,学生养成职业认同感。其中素质评分表如下表所示,每个项目素质评 价内容相同,各项目评价考核表详见附件1项目评价考核明细表,每个项目考核内容不 同。3 .课程评价(30%):期末考试理论考试(30%):试卷,从试题库中抽取100分的试题进行考核,试题类型有主观题:80%,填空题、选择题和判断题组成;客观题:20%,简答题、论述题。考核时间为:90分钟、 闭卷。考核内容为:学习内容中涉及到的所有内容,重点为技术类要求掌握的知识以及其它 能够用试卷考核的内容。项目测试(70%):为学生提供4个真实案例项目,每个小组随机抽取一个工作项目,并 且按照任务书的要求完成1个完整的工作项目。考核时间:6节课。前四节课为项目制作, 最后两节课为项目结果说明展示。考核人员:企业员工和专业教师组成。考核内容:数据中心 私有云平台管理,数据中心私有云平台部署,数据中心私有云平台资源分配,数据中心云主 机派发。重在考核学生通过运用综合能力,做出的实践成果,详见附件2互联网数据采集 课程综合评价表。附件1:项目评价考核明细表4 、考核项目1一一热点舆情数据采集5 核项目1热点舆情数据采集采用过程性评价,考核评价表如下表所示:考核项目1一一热点舆情数据采集考核评价表班级:姓名:学号:考核项目1热点舆情数据采集序号评价标准分值自我评 价30%小组评 价30%教师评 价40%1能快速从网页页面中定位目标数据位置。102能独立下载安装八爪鱼数据采集工具。103能准确使用八爪鱼的自定义采集模式204能成功启动八爪鱼的自定义数据采集任务。205能准确将采集数据从八爪鱼导出到本地。206能独立撰写页面结构分析报告、八抓鱼使用步骤 手册。20合计100