《大数据采集与清洗》课程教学大纲.docx





《《大数据采集与清洗》课程教学大纲.docx》由会员分享,可在线阅读,更多相关《《大数据采集与清洗》课程教学大纲.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据采集与清洗教学大纲一、课程基本信息课程名称大数据采集与清洗Big Data Col lection And Cleaning课程编码SCC320421030开课院部理学院课程团队数据科学团队学分3.0课内学时56 |讲授| 32实聆|0上机24 |实践0课外学时56适用专业数据科学与大数据技术授课语言中文先修课程Python语言与实训课程简介 (限选)大数据的采集、清洗和组织是进行大数据统计分析、机器学习、可视化的必要前提,大数据采集与清洗是数据科学与大数据技术专业的一门专业选修课。通过前期课程的学习,该专业学生掌握了计算机程序设计、 Pylhon编程、数据科学与大数据技术等方面的基础理
2、论.具备了相应的专业技能,设置本课程.目的是通过Python网络度虫和Pylhon数 据清洗实例学习与训练,培育认识和发现问题的能力,培育团队协作解决大数据问题的能力、培育数据采集与清洗获取能力。本课程内容 主要涉及数据采集与清洗的基本方法、Python胆虫、Python数据清洗等,通过本课程学习,学生应具备良好的运用Python采集与清洗数 据的能力。The collection, cleaning and organization of big data are necessary prerequisites for statistical analysis, machine 1earni
3、ng and visualizaiion of big data.Big data acquisition and cleaning, is a professional elective course for data science and big data technology majors. Through the study of the previous courses, the students of this major have mastered the basic theories of computer program design, Python programming
4、, data science and big data technology, and have the corresponding professional skills. The purpose of setting up this course is to cultivate the abi1ity to recognize and discover problems through Python web crawler and Python dala cleaning instance I earn i ng and training, and to cult i vale the a
5、bi1ity of team cooperation to solve big data problems, cultivate data collection and cleaning acquisition capabilities. This course mainly involves the basic methods of data collection and cleaning, Python crawler, Python data cleaning, etc. Through this course, students should have good ability to
6、use Python to collect and clean data.负责人大纲执笔人审核人二、课程目标序号代号课程目标OBE毕业要习R指标点任务自选1Ml目标1 :掌握数据采集与清洗的基本知识是5.25.22M2目标2 :具有运用Python采集与清洗数据的能力是8. 18. 13M3目标3:通过Python网络胆虫和Python数据清洗实例学习与训练,培育认识和发现问题的能力,培 育团队协作解决大数据问题的能力、培育数据采集与清洗获取能力是6. 1, 7.26. 1. 7.24M4目标4 :能保障课程正常秩序(政治层面、课堂保障层面,非学生能力层面)否三、课程内容序号章节号标题课程内容
7、/重难点支撑课程目标课内学时教学方式课外学时课外环节1第一章第一基概述本章重点难点:数据获取途径;数据清洗方法。21. 11.1数据分析步骤采集原始数据,使用数据清洗工具和统计知识来正则化数据 集;开展描述性和探索性分析;数据建模;数据预测;因果分 析;机制性数据分析Ml0.2讲授/31.21.2数据获取途径数据的三个主要来源是因特网(即万维网)、数据库,以及本地 文件(可能是先前手动下载或利用其他软件下载得到的)。Ml0.2讲授/41.31.3数据清洗方法数据分组、分割、合并、变形,缺失值、异常值和重复值处理Ml0.2讲授/51.41.1数据存储文件存储和数据库存储Ml0.2讲授/61.51
8、-5数据变换透视表;压缩与展开;哑变国与因子化Ml0.2讲授2自学7第二章第二至数据科学 的Python核心本章重点难点:基本数据结构;正则表达式;Pickling和 Unpickl ing 数据。/82.12.1理解基本的字 符串函数内置的str类的成员函数,包括大小写转换函数、判断函数、 连接函数join。、查找函数find。、计数函数count。等Ml0.2讲授/92.22.2选择合适的数 据结构列表、元组、集合和字典是Pylhcn中最常用的复合数据结构Ml0.3讲授/102.32.3理解列表推导 式列表列表推导式的定义和作用;转换过程Ml0.2讲授/112.42.4使用计数器使用col
9、lections模块给集合项目计数Ml0.3讲授/122.52.5使用文件打开文件;从文件读取数据或将数据写入文件;关闭文件;with语句Ml0.5讲授/132.62.6上网urllib. request模块包含从Web下载数据的函数;urllib. parse模块提供了用于解析和构建网址的友好工具Ml0.5讲授/142.72. 7使用正则表达 式实现模式匹配理解正则表达式语言;使用模块re进行搜索、拆分和替换Ml0.5讲授2自学152.82.8 Pickling 和Unpickling 数据pickle模块用于实现序列化Ml0.5讲授/16上机1上机1Python数据保存与读取Ml2上机2撰
10、写上机 报告17第三章第三至使用文本 数据本章重点难点:处理HTMI.文件;读取JSON文件。/183.13. 1处理HTML文 件了解网页;HTMLParser ;解析HTML文件Ml0.5讲授/193.23. 2处理CSV文 件读取与写入CSY文件Ml0.5讲授/203.33.3读取JSON文 件json库;读取JSON文件并解析Ml0.5讲授2自学213.43. 1处理自然语言 中的文本自然语言处理常用包(英文:NLTK ;中文:pynlpir);分词处 理;词性分布分析;高频词分析;词频统计;关键词分析;生 成词云图Ml0.5讲授2自学22上机2上机2处理HTML文件与JSON文件。M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据采集与清洗 数据 采集 清洗 课程 教学大纲

限制150内