Python数据分析与可视化教学大纲 及 习题答案(吕云翔 ).docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Python数据分析与可视化教学大纲 及 习题答案(吕云翔 ).docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化教学大纲 及 习题答案(吕云翔 ).docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python数据分析与可视化课程教学大纲课程代码:课程名称:Python数据分析与可视化开课学期:学分/学时:3/48课程类型:适用专业/开课对象:先修课程:开课单位:团队负责人:责任教授:执笔人:核准院长:一、课程的性质、目的与任务Python数据分析与可视化是计算机相关中的一门数据分析入门课程,该 课程介绍了Python语言在数据分析方面的应用,按照数据分析的步骤,从数据预 处理、分析、可视化等方面介绍了数据分析的方式,并通过两个完整的数据分析 实例进行相关知识的学习。主要内容包括Python基础知识介绍、数据预处理、数 据分析基础工具NumPy、处理结构化数据工具Pandas、数据分析与
2、知识发现、 scikit-learn实现数据分析、Matplotlib交互式图表绘制、实例:科比职业生涯进球 分析、实例:世界杯等。本课程的目的与任务是使学生通过本课程的学习,从数据分析的基础理论知 识入手,按照数据分析的基本流程循序渐进的学习数据分析知识,并使用Python 编程进行实战操作。通过两个完整数据分析实例的学习,帮助学生更好的掌握数 据分析技能,做到理论与实践相结合,方法与应用相结合。本课程除要求学生掌 握数据分析的基础知识和相关Python库使用,更重要的是要求学生掌握理论与实 践结合的学习方式,为更深入地学习打下良好的基础。1、python中的多行注释使用三引号表示。2、pa
3、ndas能对数据进行排序、分组、归并等操作。3、Scikitjearn包括多种分类、回归、聚类、降维、模型选择和预处 理的算法。4、Matplotlib是一个绘图库。5、将Ipython项目中与其程序设计语言无关的部分独立出来形成的新项目是Jupyter。第三章选择题1、下列不是集中趋势的主要测度的是?(D)A、均值B、中位数C、众数D、方差2、下列不是离散程度的主要测度的是?(D)A、极差B、方差C、标准差D、中位数3、下列不属于数据质量的评估标准的是?(C)A、完整性B、一致性C、可控性D、及时性4、下列不属于噪声数据处理方法的是你?(B)A、分箱技术B、同化技术C、聚类技术D、回归技术5
4、、下列不属于特征提取方法的是?(B)A、主成分分析B、多重判别分析C、独立成分分析D、线性判别分析对错题1、数据库中不含缺失值的变量被称为完全变量(T)2、噪声是指被观测变量的随机误差或标准差(F)3、一致性是指数据是否合乎规范,数据内的数据是否保持一致的格式(T)4、及时性是指数据产生到可以查看的时间间隔,也叫数据的延时时长(T)5、特征构建是指从预处理的数据中人工构建新的特征(F)填空题1、数据分析需要特别关注集中趋势、离散程度两点。2、般可以通过数据统计中的记录值和唯一值两个值来评估数据质3、3、4、5、量的完整性。数据质量是数据分析结果的有效性和准确性的前提保证。异常数据如果没哟规律可
5、循几乎不可能被还原,只能将其过滤。特征提取是在原始特征的基础上,自动构建新的特征,将源石特 征转换为一组更具物理意义、统计意义或者核的特征。第四章选择题:lx关于NumPy说法不正确正确的是(D)A、NumPy是Python处理数组和矢量运算的库。B、NumPy是高性能计算的基础。C、NumPy是数据分析的基础。D、Pandas scikit-learn 和 Matplotlib 是 NumPy 的基础2、关于ndarray对象说法不正确正确的是(D)A、Ndarray对象指的是多维数组对象。B、Ndarray对象是NumPy中很重要的对象。C、Ndarray保存的是同一类型的对象。D、Nda
6、rray的访问方式不同于列表。3、下列哪些不是描述ndarray对象的属性(C)A、 shapeB、ndimC、arrayD、size4、创建单位矩阵,对角线元素为1,其余为。需要用到下列哪个函数(D)A、 onesB、onesjikeC、empty J ikeD、eye、identity5、对下列函数说法正确的是(B)A、reshape会修改原adarray对象Bs reveal不会修改原adarray对象C、T会修改原adarray对象D、resize不会修改原adarray对象判断题1、floatl6为半精度浮点数。(对)2、floatl28为双精度浮点数(错)扩展精度3、complex
7、l28 (cl6)使用两个双精度浮点数表示的复数。(对)4、empty指定shape,创建新数组,且填充为0 (错)不填充5、size指ndarray对象的维度。(错)元素个数填空题1、代码中用指代NumPy。2、查询某个ndarray对象的dtype属性,会返回一个(dtype)类型的对象。3、T函数返回原ndarray对象的(转置)4、布尔值的字节长度为(1)5、ndim指ndarray对象的(维度)。第五章一、单选题1 .以下哪一个Series对象不同()AA disc = 1 :1,,2, :2, 3 :3 obj c = Series (disc, index=,T , 2, 3)B
8、 disc =1 :1, 2 :2, 3 :3 obj_c = Series (disc, index= 1, 2, 3)C disc =a : 1, b :2, c :3 obj_c = Series (disc, index=,T , 2, 3)D disc = ,a : 1, b :2, c :3 obj_c = Series(disc, index= 1, 2, 3).以下哪一项不是DataFrame对象的属性()DA columnsB indexC valuesD length2 .以下哪一项可以对DataFrame对象进行行的删除()AAdrop, axis=0Bdrop, axi
9、s=lC delD pop. Index对象中,以下哪一项针对时间间隔数据()DA Int64IndexB MultilndexC DatetimeindexD Periodindex3 . group by” 包括 “” 3 个阶段()AAsplit-app1y-combineB split-combine-applyC combine-apply-splitDcombine-split-app1y二、判断题1. Index对象可以修改。Falsepandas提供了缺失值处理功能。TrueIndex对象支持并、差、交的操作。True在创建Series对象时并没有指定索引,pandas自动创建
10、一个1 - n的序列作为索引。Falsepanadas提供的cov函数,能够自动进行数据对齐的操作。 True三、填空题pandas两种基本的数据结构为 和 。 (SeriesDataFrame )1. In 1: obj a = Series(1, 2, 3, 4)In 2 : obj_a.Out 2: Int64Index(0, 1, 2, 3)In 3 : obj_a.Out 3: array(1, 2, 3, 4) (index values )loc函数接收Index对象的, iloc函数接收Index对象的。 (标签位置)2. 可以通过GroupBy对象的 函数实现自定义函数;函数
11、会将数据对象分成多个组,然后对每个组调用传入的函数,最后将其组合到一起。(agg apply )对象产生的是定长窗口; 对象产生的是扩展窗口; 对象产生 的是指数加权窗口。(Rolling Expanding EWM )弟八早一、单选题.以下哪一项不属于非线性分类模型()AA 逻辑回归B 支持向量机C 决策树D k近邻1 .以下哪一项属于懒惰学习()DA逻辑回归B支持向量机C 决策树D k近邻.以下哪一项算法用于序列数据中频繁序列的挖掘()DA DijstraB AprioriC FP-TreeD PrefixSpan2 .支持度用概率公式表示为()AP(B|A)BP(An B )CP(B)D
12、P(B|A) / P( B ). 是把一组数据按照相似性和差异性分为几个类别()A分类分析B关联分析C聚类分析D 回归分析二、判断题. k近邻算法的训练时间开销为0。True.线性判别分析,针对训练集,将其投影到一条直线上,使得同类样本点尽可能接近,异 类样本点尽量远离。True.同一个问题和样本产生的决策树一定相同。False.回归分析的目的在于了解变量间是否相关、相关方向和相关强度,并建立数学模型来进 行预测。True. DBSCAN聚类速度快且能够有效处理噪声和发现任意形状的空间聚类。True三、填空题1 .贝叶斯公式:O(p(y|x) = (p(x|y)p(y)/(p(x)2 .关联规
13、则挖掘分为 和 o(生成频繁项集生成强规则)3 . Apriori算法定律1:如果一个集合是频繁项集,则它的所有 都是频繁项集;Apriori算法定律2:如果一个集合不是频繁项集,则它的所有 都不是频繁项集。(子集超集).关联规则分析中,如果穷举项集的所有组合,并测试每个组合是否满足条件。那么对于一个元素个数为n的项集,所需要的时间复杂度为 o(0(2n)4 .列举典型的无监督学习:和 o(关联分析聚类分析)第七章 一、单选题1、在支持向量机分类方法中,在拟合以后,可以通过以下哪一个参数获取支持向量的索引()BB support_D以上均不是B NuSVCD以上均是B support_D以上均
14、不是B NuSVCD以上均是A support_vectors_C n_support2、下列能够实现多元分类的是()DA SVCC高斯过程分类3、下列说法不正确的是()AA scikit-learn实现的lineajmodel. Lasso类使用了坐标上升算法来拟合系数B linear_model. BayesianRidge类实现了贝叶斯岭回归,能够在回归问题的估计过程中引入参数正规化Cgaussian process. GaussianProcessRegressor 类实现了一个用于回归问题的高斯过程D与最近邻分类一样,scikit-learn也实现了两种邻回归,KNeighborsR
15、egressor与RadiusNeighborsRegressor分别基于每个查询点的k个最近邻、每个查询点的固定半径内 的“邻居”数量实现4、下列关于k均值下列说法不正确的是()CA两种k均值算法在使用时都需要通过n_clusters参数指定聚类的个数。B给足够多的时间,k均值算法总能够收敛,但可能得到的是局部最小值。C 在使用cluster. KMeans时,通过n_jobs参数能指定该模型使用的处理器个数。若为正 值,则使用“n_jobs”个处理器,-3代表使用全部处理器,-2代表除了两个处理器以外全 部使用,T代表除了某个处理器以外全部使用。D cluster. MiniBatchKM
16、eans类实现了 k均值的算法的小批量变体5、下列关于聚类说法不正确的是()CA在谱聚类中,可以设置assignabels参数以使用不同的分配策略。B在层次聚类中使用n_clusters参数可以指定聚类个数,linkage参数用于指定合并的 策略,可选用 ward、complete averageC DBSCAN的核心概念是Core Samples,即位于高密度区域的样本,其中较小的min_samples二、教学内容及教学基本要求1. 数据分析概述与基本概念(2学时)了解数据分析的定义和历史背景;了解数据分析的目的和任务;了解数据分 析与数据挖掘的关系;了解机器学习与数据分析的关系,了解数据分
17、析的基本步 骤,即数据收集、数据预处理、数据分析与知识发现和数据后处理,以及每个基 本步骤的概念与内容;了解Python在数据分析领域所具有的优点。2. Python基础知识(4学时)了解Python的发展史;了解Python及Pandas、scikit-leam、Matplotlib的安装; 掌握Python的基础知识及Python的一些特性,包括缩进在Python的重要性、Python 包的使用方法、注释的使用方法、Python语法知识;了解Pandas、scikit-learn. Matplotlib等重要Python库;了解Jupyter交互式数据科学与科学计算开发环境。3. 数据预处
18、理(2学时)了解数据的集中趋势、离散程度、相关性测量、数据缺失、噪声、离群点等 概念;了解数据质量标准评估的完整性、一致性、准确性和及时性4个要素。了 解数据清洗的概念及方式,包括缺失值的处理、噪声数据的处理、不一致数据的 处理和异常数据的处理;了解数据的特征选择、特征构建和特征提取。4. NumPy数据分析基础工具(4学时)了解NumPy库的作用;掌握多维数组对象ndarray的使用,包括ndarray的创 建、ndarray的索弓|、切片和迭代、ndarray的shape的操作、ndarray的基础操作等。5. Pandas处理结构化数据(4学时)了解Pandas库的作用和特色功能;了解P
19、andas中Series和DataFrame两种主要 数据结构;掌握Series对象的创建、访问和操作;掌握DataFrame对象的创建、访 或者较大的esp表示形成聚类的密度较高。D 在BIRCH中,有两个重要的参数:branching_factor (分支因子)和threshold (阈值), 分支因子限制了一个节点中的子集群的数量,阈值限制了新加入的样本和存在于现有子集群 中样本的最大距离。二、对错题1、在逻辑回归中,saga求解器基于随机平均梯度下降算法,其在大数据集上的收敛速度更 快。O错2、在最近邻分类方法中,KNeighborsClassifier是基于每个查询点的固定半径r内的
20、邻居 数量实现,其中r是用户指定的浮点数。()是k,是数量,是整数,错3、MultinomialNB BernoulliNB GaussianNB 还提供了 partial_fit 方法,该方法能够动 态地解决加载大数据集的问题。与fit使用方法相同,操作比较简单。,错,与fit使用方 法不同4、岭回归从本质上来说也是最小二乘法,只不过是通过对系数的大小施加惩罚来改进。对5、Mean-Shift算法不是高度可扩展的,因为在执行算法期间需要执行多个最近邻搜索。因 为当质心较少时,会停止迭代,所以此算法不收敛,错,是收敛的三、填空题1、scikit-learn是SciPy中一个非常著名的分支,sc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据分析与可视化 教学大纲 习题答案吕云翔 Python 数据 分析 可视化 习题 答案 吕云翔
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内