《大数据技术导论》课程教学大纲.docx
大数据技术导论课程教学大纲Techno Iogy of Cloud Comput i ng and Big Data一、课程基本情况课程编号:课程类别:专业基础课课程学分:3学分课程总学时:48学时,其中讲课:32学时,实验(含上机):16学时课程性质:考试开课学期:第1学期先修课程:大学生计算机基础适用专业:大数据技术、计算机应用技术、人工智能技术应用相关专业教 材:大数据技术导论(第2版),程显毅任越美主编,机械工业出版社,2022.8 开课单位:计算机科学与技术学院二、课程性质、教学目标和任务大数据技术导论课程是计算机应用技术专业、大数据技术专业、人工智能技术应用 专业必修的一门基础课程,具有很强的实践性和应用性。主要培养学生大数据平台运维、大 数据分析和数据可视化基本思想和基本技能,为后续的数据挖掘应用性课程和数据产品开发 课程的学习打好编程基础。本课程设置的目的是通过对Hadoop, HDFS, MapReduce, HBase, Hive的学习,较好地训练 学生大数据平台运维、数据分析和数据展现,使学生具有数据分析和数据展现的能力,为培 养学生有较强数据开发能力打下良好基础。本课程的思政目标1)理解全量思维源自量变到质变,大事业都是从点滴小事情积累起来的。2)理解相关思维是善于抓机遇,良机只有一次,错过就不再来。3)理解容错思维源理解和大度,学习别人的优点,完善自身。4)理解数据分析源自发现人生价值,在有限生命中实现无限价值的人生。5)理解数据敏感源自用数据讲故事,用数据展现祖国的开展,感受祖国的强大。6)理解分布式处理源自协作,合作可以充实你的人生。7)理解数据清洗源自质量第一,保证在激烈竞争中利于不败之地。8)理解业务理解源自知己知彼,莫愁前路无知己,天下谁人不识君。9)理解数据平安源自责任重于泰山,少年智那么国智,少年强那么国强。10)理解大数据让世界变得透明源自自知者明,最难了解的自己。三、教学内容和要求L概论(8学时)(1) 了解大数据技术产生的历史必然;(2)理解大数据的特征;(3)理解大数据生命周期;(4)理解大数据、云计算、物联网之间的相互关系;(5) 了解大数据带来的变革;(6)理解大数据思维的基本原理;(7)理解数据的价值;(8)熟练安装部署虚拟机;(9)掌握Linux常用操作;目的:通过上述知识的学习,使学生了解大数据基本概念、特征、思维、工具和技术。重点:Linux操作;难点:虚拟机部署。2.大数据生态系统(8学时)(1)理解大数据生态Hadoop;(2)部署伪分布式Iladoop环境;(3)掌握HDFS分布式文件系统的结构;(4)掌握HDFS Shell基本操作;(5)理解HDFS读写原理;(6)理解MapReduce结构及原理(7)掌握MapReduce编程模型(8)理解词频统计经典案例的MapReduce思想;(9)理解 zookeeper 原理;(10)部署 zookeeper;目的:通过上述知识的学习,使学生了解大数据生态组件,认识Hadoop,熟练IIDFS基 本操作、基本掌握Mapreduce编程。重点:Hadoop组件,HDFS操作;难点:Mapreduce编程。3 .大数据采集与预处理(6学时)(1)了解数据分类、度量和维度;(2) 了解数据采集及其分类;(3)掌握日志采集组件Flume部署及其应用;(4) 了解数据清洗的作用及其方法;(5)理解缺失值、异常值;(6)掌握数据规范化方法;(7)掌握数据透视表原理;(8)掌握列联表、聚合表的应用;(9) 了解特征编码的作用及其方法;目的:通过上述知识的学习,使学生了解数据清洗相关技术和过程,了解数据变换相关 技术和过程,掌握日志采集组件Flume部署及其应用。重点:日志采集组件Flume部署及其应用,数据清洗,数据变换;难点:数据清洗,数据变换。4 .大数据管理(4学时)(1)理解 NoSQL 与 RDBMS;(2)认识HBase数据库;(3)理解 NoSQL 与 NewSQL;(4)掌握HBase数据模型;(5)熟练基于HBase的表操作;目的:通过上述知识的学习,使学生掌握HBase表操作及数据结构,了解NoSQL分类。重点:HBase表操作;难点:HBase数据结构。5 .大数据可视化技术(6学时)(1) 了解数据可视化概念和作用(2)理解可视化建议;(3) 了解图表的作用;(4)能用图表讲故事;5 5) 了解可视化工具FineReport;目的:通过上述知识的学习,使学生了解常用图表的使用方法。重点:绘制散点图、直方图、气泡图、面积图、密度图等。难点:FineReporto.大数据分析(8学时)(1)理解数据分析师素养;(2)理解大数据分析流程;(3) 了解数据分析要素;(4) 了解业务理解的意义;(5)掌握数据认知方法;(6)掌握Spark机构及其基本原理;(7)部署 Spark;(8)掌握scale编程及其应用;(9)掌握Hive基本原理和基本操作;目的:通过上述知识的学习,使学生掌握大数据分析流程和相关技术;重点:scale编程及其应用,hive的基本操作;难点:业务理解。6 .大数据应用(6学时)(1)理解电商大数据及应用场景;(2)理解交通大数据及应用场景;(3)理解医疗大数据及应用场景;(4) 了解农业大数据及应用场景;(5) 了解环保大数据及应用场景;(6) 了解教育大数据及应用场景;(7) 了解政府大数据及应用场景;(8) 了解工业大数据及应用场景;目的:通过上述知识的学习,使学生在遇到实际问题时该如何分析和建模。重点:场景认知。难点:能根据具体应用场景给出数据分析基本思路。7 .大数据平安(2学时)(1)了解大数据平安的意义和面临的挑战;(2)理解平安威胁的种类和特征;(3) 了解大数据平安技术;(4) 了解大数据平安架构;四、课程考核(1)作业和报告:作业:至少5次(2)考核方式:笔试(3)总评成绩计算方式:平时成绩30% (考勤、实验报告、期中考试各占10%),期末考试70% o五、参考书目(1)大数据技术基础中科普开编著清华大学出版社,2017.7(2)大数据技术入门杨正洪编著清华大学出版社,2017.8(3)大数据数据管理与管理工程 赵眸光编著 清华大学出社,2017.6制定人:审定人:批准人: 年月6日制定