Python数据分析与可视化教学大纲8105.pdf
Python 数据分析与可视化课程教学大纲 课程代码:课程名称:Python数据分析与可视化开课学期:学分/学时:3/48课程类型:必修 适用专业/开课对象:先修课程:开课单位:团队负责人:责任教授:执笔人:核准院长:一,课程地性质,目地与任务 Python数据分析与可视化是软件工程专业中地一门数据分析入门课程,该课程介绍了 Python语言在数据分析方面地应用,按照数据分析地步骤,从数据预 处理,分析,可视化等方面介绍了数据分析地方式,并通过六个完整地数据分析实 例进行有关知识地学习。主要内容包括Python基础知识介绍,数据预处理,数据分 析基础工具NumPy,处理结构化数据工具Pandas,数据分析与知识发现,scikit-leam 实现数据分析,Matplotlib交互式图表绘制以及六个完整实例。本课程地目地与任务是使学生通过本课程地学习,从数据分析地基础理论知 识入手,按照数据分析地基本流程循序渐进地学习数据分析知识,并使用Python编 程进行实战操作。实验局部通过完整数据分析实例地学习,帮助学生更好地掌握 数据分析技能,做到理论与实践相结合,方法与应用相结合。本课程除要求学生掌 握数据分析地基础知识与有关Python库使用,更重要地是要求学生掌握理论与实 践结合地学习方式,为更深入地学习打下良好地基础。二,学习内容及教学基本要求 1.数据分析概述与基本概念(4学时)了解数据分析地定义与历史背景;了解数据分析地目地与任务;了解数据分析 与数据挖掘地关系;了解机器学习与数据分析地关系;了解数据分析地基本步骤,即数据收集,数据预处理,数据分析与知识发现与数据后处理,以及每个基本步骤 地概念与内容;了解Python在数据分析领域所具有地优点。2.Python基础知识(4学时)了 解Python地开展史;了 解 Python 及 Pandas,scikit-learn,Matplotlib 地安装;掌握 Python地基础知识及Python地一些特性,包括缩进在Python地重要性,Python包地 使用方法,注释地使用方法,Python语法知识;了解Pandas,scikit-learn,Matplotlib等 重要Python库;了解Jupyter交互式数据科学与科学计算开发环境。3.数据预处理(4学时)了解数据地集中趋势,离散程度,有关性测量,数据缺失,噪声,离群点等概念;了 解数据质量标准评估地完整性,一致性,准确性与及时性4个要素。了解数据清洗地 概念及方式,包括缺失值地处理,噪声数据地处理,不一致数据地处理与异常数据 地处理;了解数据地特征选择,特征构建与特征提取。4.NumPy数据分析基础工具(4学时)了解NumPy库地作用;掌握多维数组对象ndarray地使用,包括ndarray地创 建,ndarray地索引,切片与迭代,ndarray地shape地操作,ndarray地基础操作等。5.Pandas处理结构化数据(4学时)了解Pandas库地作用与特色功能;了解Pandas中Series与DataFrame两种主要 数据结构;掌握Series对象地创立,访问与操作;掌握DataFrame对象地创立,访问与 操作;掌握基于Pandas地Index对象地访问操作;了解Pandas地有关数学统计与计算 工具;了解Pandas地数学聚合与分组运算。6.数据分析与知识发现(4学时)了解分类分析地基本概念;了解逻辑回归,线性判别分析,支持向量机,决策 树,K近邻与朴素贝叶斯地有关知识;了解关联分析地基本概念,包括关联规那么定义,指标定义与关联规那么挖掘定义;了解关联分析地Apriori算法,FP-Tree算 法,PrefixSpan算法;了解聚类分析地概念;了解K均值算法与DBSCAN;了解回归分析地基本概念与常用方法。7.scikit-leam实现数据地分析(4学时)了解SciPy与scikit-learn地作用;掌握scikit-learn地分类方法,回归方法与聚类 方法,分类方法包括Logistic回归,SVM,最近邻分类器,决策树,随机梯度下降,高斯 过程分类,神经网络分类与朴素贝叶斯,回归方法包括最小二乘法,岭回归,Lasso,贝 叶斯岭回归,决 策 树 回 归,高 斯 过 程 回 归 与 最 近 邻 回 归,聚 类 方 法 包 括 K-means,Affinity propagation,Mean-shift,Spectral clustering,Hierarchical clustering,DBSCAN 与 Birch。8.Matplotlib交互式图表绘制(4学时)了解Matplotlib地作用;掌握Matplotlib中地基本布局对象地建立;掌握修改图 表样式,修改装饰项与添加注释地方法;掌握基础图表地绘制,包括直方图,散点图,柱状图,折线图与表格;了解使用Matplot3D绘制三维图形地方法;了解Matplotlib与 Jupy ter结合使用地方法。10.实验(16学时)教学说明及教学基本要求见Python数据分析与可视化实验教学大纲。三,教学方法 本课程教学方法以教师为主导地启发式讲授教学法为主,讨论(提问)式教 学为辅,结合课外学习地教学方法。实验以学生动手实验为主,教师地启发式讲授 教学法为辅,并结合讨论(提问)式教学,以及结合课外学习地教学方法。1.本课程概念较多,因此教学形式以讲授方式为主。本课程拟采用多媒体PPT地 教学方法,增加课堂信息,浅显通俗地对概念,定义与原理进行解释,增加教学地直 观性,教学过程中注意各个知识点地关联性,以使学生更好地理解课程内容。2.对课程中关键性概念,设计思想方面地问题可辅以课堂讨论地形式。3.为加强与落实动手能力地培养,每章课后应安排作业,帮助学生学习与应用。四,课内外教学环节及基本要求 本课程共48个学时,其中理论32个学时,讲授16周(每周2学时);实验16 个学时,讲授8周(每周2学时)。课外学习要求:1.做好课前预习,预习时以为主,了解有关地概念,定义,原理。预习中认真思考,以便带着问题主动地听课。2.课后要复习,有余力地学生复习时还应阅读参考资料,认真整理课堂听课笔记。3.要求学生课外自主学习,学生课外阅读地参考资料以本大纲所列参考资料为主。五,考核内容及方式 本课程成绩由平时成绩与期末考核成绩组合而成,课程成绩以百分制计算,分 配比例如下:1.平时成绩占30%,主要考查作业地完成程度,理论课与实验课地出勤率,实验 课地考试结果。其中作业占10%,实验占15%,出勤率占5%。2.期末成绩占70%,采用考试地考核方式。考试采用闭卷形式,题型为选择题,正确/错误题,填空题,简答题,以及应用题。六,持续改进 本课程根据学生作业,课堂讨论,平时考核情况与学生,教学督导等反应,及时 对教学中缺乏处进行改进,并在下一轮课程教学中改进。七,建议及参考资料建议:1吕云翔,李伊琳主编.Python数据分析与可视化M.北京:,2021.2Python 数据分析与可视化实验教学大纲 学习内容及教学基本要求.Python地安装与使用(2学时)了解Python地安装方法;了解Python在本课程中起到地作用;掌握Python地基 础知识,如Python包地使用方法,注释地使用方法,Python语法知识等;掌握使用 Python编写并运行简单程序地能力。1.数据分析有关工具地安装与使用(2学时)了解NumPy,Pandas,scikit-learn地基本功能与安装方式;掌握多维数组对象 ndarray地使用方式;掌握Pandas库地使用方式;掌握scikit-learn库地使用方式;了解 Matplotlib地基本功能与安装方式;掌握Matplotlib库地使用方式;掌握修改图表样 式,修改装饰项与添加注释地方法;掌握基础图表地绘制方法;.实战:影评数据分析与电影推荐(2学时)了解本实例中对数据地采集与处理;使用pandas对用户评分数据与电影信息 数据进行初步分析;了解用户评分统计信息地查看方式与有关图表地绘制方式;了 解电影评分分布地查看方式与图表绘制方式;了解使用协同过滤算法实现电影推 荐地方法。2.实战:汽车贷款违约地数据分析(2学时)了解本实例中用到地数据地各项属性以及变量类型;了解数据预处理有关方 法,如连续变量与分类变量地缺失值处理;了解模型建立与模型评估,包括采用回 归模型进行数据分析,采用决策树模型进行数据分析,采用随机森林模型优化决策 树模型等。3.实战:Python表格数据分析(2学时)了解openpyxl地背景与安装方式;了解如何使用openpyxl创立工作簿;掌握使 用openpyxl从Excel工作簿中读取,迭代访问,修改与插入数据;了解为Excel工作簿 添加公式,条件格式,图表地方法;了解将openpyxl读取到地数据转为Dataframe对 象地方式;了解绘制数据列直方图,有关性矩阵与散布矩阵地方式,并能够将可视 化结果插入Excel工作簿;.实战:利用手机地购物评论分析手机特征(2学时)了解利用Kaggle获取本实例地数据地方式;了解数据地筛选过程;了解词袋算 法(Count Vectorizer与TFDF)与无监督学习算法;了解使用Count Vectorizer结 合k均值提取数据;了解使用spaCy进行名词提取与使用TextBlob进行情感分析地 方法,并根据数据生成柱状图。4.实战:基于k近邻模型预测葡萄酒种类地数据分析与可视化(2学时)了解k近邻模型地工作原理;了解k近邻模型地初步建立方式;了解数据归一化 地方式;了解训练集,测试集地划分以及分类器正确率地测试方法;了解使用 N umPy与scikit-learn建立k近邻模型并进行测试地方式;了解使用Matplotlib进行数 据可视化地方法。5.实战:美国波士顿房价预测(2学时)了解Jupyter Notebook地安装方式与使用方法;了解本实例用到地数据集地引 入,描述与条件检索;了解对缺失值与异常值地处理方法;了解成对矩阵图地绘制;了解独热编码;了解有关度地热力图地绘制;了解箱线图地绘制;了解对目的变量 分布地拟合以及概率曲线图;选择合适地模型进行拟合;了解集成学习;了解评估 模型地指标auc地计算方法。