《数据科学与大数据技术导论》课程教学大纲.docx
数据科学与大数据技术导论教学大纲一、课程基本信息课程名称数据科学与大数据技术导论Introduction To Data Science And Big Data Technology课程编码SCC322111020开课院部理学院课程团队数据科学团队学分2.0课内学时32讲授32实验0上机0实践0课外学时32适用专业数据科学与大数据技术授课语言中文先修课程程序设计(C)课程简介 (必倒数据科学与大数据技术导论是数据科学与大数据技术专业的一门必修课。本课程以数据科学与大数据技术中相关概念和处理过程 为主题,结合大数据案例,了解和掌握大数据处理过程和基本方法。通过本课程的学习,学生自主选择相关课题,利用大数据思想进行研 究,形成研究报告。本课程内容主要包括大数据基础理论、流程与技术、技术与工具、典型案例及实践。这些课程内容的学习,有助于学 习后继大数据类相关课程。aIntroduction to Data Science and big data technologyis a required course for the major of data science and big data technology. This course takes the relevant concepts and processing processes in data science and big data technology as the theme, and combines big data cases to understand and master the big data processing process and basic methods. Through the study of this course, students choose relevant topics independently, use the idea of big data to conduct research and form research reports. The content of this course mainly includes the basic theory of big data, process and technology, technology and tools, typical cases and practices. The learning of the contents of these courses is helpful for learning the subsequent big data related courses.负责人大纲执笔人审核人二、课程目标序号代号课程目标0BE毕业要求指标点任务自选1Ml目标1 : 了解数据科学与大数据技术发展的历史概况以及前沿。掌握数据科学与大数据技术的基本概 念和原理。是3. 1, 3. 32M2目标2 :掌握常见数据集的处理和分析方法,并用Python程序实现。是3.23M3目标3 :通过课程项目的实践,培育认识和发现问题的能力和解决工程问题的能力。是8. 14M4目标4 :能保障课程正常秩序(政治层面、课堂保障层面,非学生能力层面)否三、课程内容序号章节号标题课程内容/重难点支撑课 程目标课内 学时教学方式课外学时课外环节1第1章第1章基础理论本章重点难点:大数据挑战的本质、数据科学的研究目的、数 据科学的理论体系、数据科学的基本原则。/21. 11.1术语定义数据、大数据、数据科学Ml0.5讲授0.5自学资 料、课后 作业31.21.2研究目的从数据到智慧的转换、数据洞见、数据业务化、数据产品、数 据生态系统Ml1讲授1自学资 料、课后 作业41. 3L3研究视角数据能为我做什么Ml0.5讲授0.5自学资 料、课后 作业51.4L4发展简史萌芽期、快速发展期、逐渐成熟期Ml0.5讲授0.5自学资 料、课后 作业61.51.5理论体系统计学、机器学习、数据加工、数据计算、数据管理、数据分 析、数据产品开发Ml0.5讲授0.5自学资 料、课后 作业71.61.6基本原则三世界原则、三要素原则、数据密集型原则、以数据为中心的 原则、数据范式原则、数据资产原则、数据驱动原则Ml1讲授1自学资 料、课后 作业81. 7L7相关理论数据科学、数据工程Ml1讲授1自学资 料、课后作业91.8L8人才类型数据科学家、数据工程师Ml1讲授1自学资 料、课后 作业10第2章第2章理论基础本章重点难点:数据科学的学科地位、数据科学视角下的机器 学习知识体系、数据科学视角下的统计学知识体系、数据科学 视角下的可视化理论知识体系。/112. 12.1数据科学的学 科地位数据科学与数学和统计学的区别、黑客精神与技能、领域知识Ml, M20.2讲授0.2自学资 料、课后 作业122.22. 2统计学常用的统计学知识、应用案例Ml, M21讲授1自学资 料、课后 作业132.32. 3机器学习常用的机器学习算法、应用案例Ml, M21.5讲授1.5自学资 料、课后 作业142.42. 4数据可视化常用的数据可视化方法、应用案例Ml, M21.3讲授1. 3自学资 料、课后 作业15第3章第3章流程与方 法本章重点难点:数据加工、探索性数据分析、数据洞见、数据 故事化、数据可视化。/163. 13.1基本流程数据化、数据加工及规整化处理、探索性分析、数据分析与洞 见Ml, M21讲授1自学资 料、课后 作业173.23. 2数据加工数据清洗、数据变换、数据集成、数据脱敏、数据规约、数据 标注Ml, M23讲授3自学资 料、课后 作业183.33.3数据审计预定义审计、自定义审计、可视化审计Ml, M20.5讲授0.5自学资 料、课后 作业193.43. 4数据分析描述性分析、诊断性分析、预测性分析Ml, M22讲授2自学资 料、课后 作业203.53. 5数据可视化可视分析学、方法体系、视觉感知与认知、视觉通道的选择方 法、案例Ml, M23讲授3自学资 料、课后 作业213.63. 6数据故事化故事化描述、故事的展开方式、故事化描述的基本原则Ml, M20.5讲授0. 5自学资 料、课后 作业223.73.7数据科学项目管理主要角色、基本流程Ml, M20.5讲授0.5自学资 料、课后 作业233.83. 8数据科学中的 常见错误12种常见错误Ml, M20.5讲授0.5自学资 料、课后 作业24第4章第4章技术与工 具本章重点难点:MapReduce及其开源实现、Spark. NoSQL和 NewSQL关键技术、Hadoop生态系统。/254. 14.1数据科学的技 术体系基础设施、分析工具、企业应用、行业应用、跨平台基础设施 和分析工具、开源工具、数据源与APPMl, M30.5讲授0. 5自学资 料、课后 作业264.24.2 MapReduce实现过程、主要特征、关键技术、实现及改进Ml, M31讲授1自学资 料、课后 作业274.34.3 HadoopHadoop MapReducex HDFS、 Hive、 Pig、 Mahouts Hbases ZoopKeepers SqoopMl, M31讲授1自学资 料、课后作业284.44.4 Spark主要特点、技术架构、基本流程、关键技术、RDDMl, M30.5讲授0.5自学资 料、课后 作业294.54. 5 NoSQL 与 NewSQLNoSQL技术、数据类型、数据分布、数据一致性、视图、典型 产品Ml, M31讲授1自学资 料、课后 作业304.64. 6 R 与 Python简单介绍这两者语言的对比Ml, M30.5讲授0. 5自学资 料、课后 作业314.74. 7发展趋势数据计算层的发展趋势、数据管理层的发展趋势Ml, M30.5讲授0.5自学资 料、课后 作业32第5章第5章数据产品 及开发本章重点难点:数据产品的开发方法、数据能力的评估方法、 数据治理的重要内容、数据柔术的基本思想。/335. 15.1定义数据加工、数据柔术Ml, M30.2讲授0.2自学资 料、课后 作业345.25. 2主要特征以数据为中心、多样性、层次性、增值性Ml, M30.5讲授0. 5自学资 料、课后 作业355.35. 3关键活动基本原则、活动要素Ml, M30.3讲授0.3自学资 料、课后 作业365.45. 4数据柔术引入设计思维、支持人机协同、善于留住用户、避免导致数据 “恶心”、预估可能产生的“副产品”Ml, M30.5讲授0.5自学资 料、课后 作业375.55. 5数据能力DMM模型、CMM模型Ml, M30.5讲授0. 5自学资 料、课后 作业385.65. 6数据战略数据战略定位、范畴Ml, M30.2讲授0.2自学资 料、课后 作业395.75. 7数据治理主要内容、基本过程Ml, M30.3讲授0.3自学资 料、课后 作业405.85. 8数据安全、隐 私、道德与伦理数据安全、数据偏见、算法歧视、数据攻击、隐私保护Ml, M30.5讲授0.5自学资 料、课后 作业41第6章第6章典型案例 及实践本章重点难点:基于Python的数据科学实践、2012美国总统 大选。/426. 16.1统计分析数据加工、描述性统计、探索性数据分析M2, M30.5讲授0.5自学资 料、课后 作业436.26. 2机器学习常见机器学习算法实践M2, M30.5讲授0. 5自学资 料、课后 作业446.36. 3数据可视化常见可视化图形绘制M2, M30.5讲授0.5自学资 料、课后 作业456.46. 4 Spark 编程Spark基本编程M2, M30.5讲授0.5自学资 料、课后 作业466.56.5 2012年美国 总统大选2012年美国总统大选财务数据分析M2, M31讲授1自学资 料、课后四、考核方式作业序号考核环节操作细节总评占比1平时作业1 .每周布置23道题目,平均每次课1道题以上。2 .成绩采用百分制,根据作业完成准确性、是否按时上交、是否独立完成评分。3 .考核学生对数据科学与大数据技术基本知识的掌握能力,学生综合运用所学知识分析问题、解决问题的能力题型主要 有作图、分析和统计计算题。20%2总结1 .使用思维导图对每章节进行提炼总结。2 .成绩采用百分制,根据思维导图的中心主题、整体布局、关键词和层级完成评分。3 .考核学生对数据科学与大数据技术基本知识的掌握能力、学习总结能力。15%3实验1 .本课程依托数据酷客或科赛网平台,课外完成610次实验。2 .成绩采用百分制,根据实验完成情况评分。3 .考核学生基本数据处理和分析能力。15%4大作业1 .本课程要求学生组队自选一个往年大数据竞赛题目或实际问题,并利用Python语言进行求解。2 .成绩采用白分制,根据数据预处理、建模、分析、可视化过程的完整性和准确性评分。3 .考核学生认识和发现问题的能力,以及解决实际问题的能力。40%5考勤刷卡点名5%6课堂表现课堂回答问题情况5%五、评分细则序号课程目标考核环节大致占比评分等级1Ml平时作业50%A-独立思考、按时完成,解题思路清晰、步骤完整、格式合理、答案准确。B-独立思考、按时完成,解题 思路比较清晰、步骤比较完整、格式合理、答案基本准确。C-基本按时完成,解题思路比较清晰、步骤比 较完整、格式比较合理、答案有少量错误。D-作业抄袭,未能按时完成,解题思路混乱,答案错误多。2Ml总结50%A-中心主题明确,整体布局合理,关键词提取精准、合理、完整,层级科学。B-中心主题明确,整体布局合理,关键词提取比较精准、合理、完整,层级科学。c-中心主题比较明确,整体布局比较合理,关键词 提取比较精准、合理、完整,层级乱。D-中心主题小明确,整体布局比较混乱,关键词提取不精准、不合 理、不完整,层级乱。3M2实验100%A-实验过程中认真完成实验要求,得到正确的实验结果,实验报告格式正确,步骤叙述清楚,正确分析实 验数据,从技术角度优选解决方案获得有效结论。B-实验过程中认真完成实验要求,得到正确的实验结 果,实验报告格式正确,步骤叙述比较清楚,正确分析实验数据,从技术角度优选解决方案获得比较有效 的结论。c-实验过程中认真完成实验要求,不能得到正确的实验结果,实验报告格式正确,步骤叙述清 楚,没有正确分析实验数据,但是结合理论分析可以从技术角度优选解决方案认得有效的结论。D-实验过 程中不能完成实验要求,不能得到正确的实验结果,不能从技术角度优选解决方案获得有效的结论。4M3实验40%A-实验过程中认真完成实验要求,得到正确的实验结果,实验报告格式正确,步骤叙述清楚,正确分析实 验数据,从技术角度优选解决方案获得有效结论。B-实验过程中认真完成实验要求,得到正确的实验结 果,实验报告格式正确,步骤叙述比较清楚,正确分析实验数据,从技术角度优选解决方案获得比较有效 的结论。C-实验过程中认真完成实验要求,不能得到正确的实验结果,实验报告格式正确,步骤叙述清 楚,没有正确分析实验数据,但是结合理论分析可以从技术角度优选解决方案获得有效的结论。D-实验过 程中不能完成实验要求,不能得到正确的实验结果,不能从技术角度优选解决方案获得有效的结论。5M3大作业60%A-利用Python语言建立的数据模型正确,完整实现数据预处理、建模、分析、可视化过程,结果验证合 理。B-利用Python语言建立的数据模型正确,比较完整实现数据预处理、建模、分析、可视化过程,结果 验证合理。C-利用Python语言建立的数据模型正确,比较完整实现数据预处理、建模、分析、可视化过 程,结果验证比较合理。D-利用Python语言建立的数据模型不正确,不能完整实现数据预处理、建模、分 析、可视化过程,结果验证不合理。6M4考勤100%A-全勤且积极参加课堂讨论。B-缺勤1-2次且比较积极参加课堂讨论。C-缺勤3-4次且很少参加课堂讨 论。D-缺勤5次以上且很少参加课堂讨论。评分等级说明:A, B, C, D = 90700, 75-89, 60-74, 0-59;六、教材与参考资料序号教学参考资料明细1图书1数据科学理论与实践(第2版),朝乐门,清华大学出版社,2019.09, ISBN:9787302531913. (*主教材)2图书1数据科学与大数据技术导论,张祖平,中南大学出版社,2018.12, ISBN:9787548733744.