Python数据分析与可视化 习题答案(吕云翔).docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《Python数据分析与可视化 习题答案(吕云翔).docx》由会员分享,可在线阅读,更多相关《Python数据分析与可视化 习题答案(吕云翔).docx(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Python数据分析与可视化习题答案弟一早1、阐述统计分析与数据挖掘的特点。传统的统计分析是在已定假设、先验约束的内情况下,对数据进行整理筛选 和加工,由此得到一些信息。数据挖掘是将信息需要进一步处理以获得认知,继而转为有效的预测和决策。统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。2、数据分析的基本步骤包括哪些?(1)数据收集;(2)数据预处理;(3)数据分析与知识发现;(4)数据后处理。3、相比R语言、MATLAB、SAS、SPSS等语言或工具,Python有哪些优点?(1) Python是面向生产的;(2)强大的第三方库的支持;(3) Python的胶水语言特性。AA*
2、 弟一早选择题1、python之父是以下哪位?(A)A、吉多范罗苏姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的缩进功能有什么作用? (C)A、增加代码可读性B、方便放置各类符号C、决定程序的结构D、方便修改程序3、python的单行注释通过什么符号完成?(B)A、双斜杠(/)B、井号(#)C、三引号(”)D 回归分析二、判断题1. k近邻算法的训练时间开销为0。True.线性判别分析,针对训练集,将其投影到一条直线上,使得同类样本点尽可能接近,异 类样本点尽量远离。True.同一个问题和样本产生的决策树一定相同。False.回归分析的目的在于了解变量间是否相关、相关方向和相
3、关强度,并建立数学模型来进 行预测。True. DBSCAN聚类速度快且能够有效处理噪声和发现任意形状的空间聚类。True三、填空题1 .贝叶斯公式:。(p (y | x) = (p (x | y) p (y) / (p (x).关联规那么挖掘分为 和 o(生成频繁项集生成强规那么). Apriori算法定律1:如果一个集合是频繁项集,那么它的所有 都是频繁项集;Apriori算法定律2:如果一个集合不是频繁项集,那么它的所有 都不是频繁项集。(子集超集).关联规那么分析中,如果穷举项集的所有组合,并测试每个组合是否满足条件。那么对于一个元素个数为n的项集,所需要的时间复杂度为 o(0(2n)
4、2 .列举典型的无监督学习:和 o(关联分析聚类分析)第七章一、单项选择题1、在支持向量机分类方法中,在拟合以后,可以通过以下哪一个参数获取支持向量的索引()BB support.D以上均不是B NuSVCD以上均是B support.D以上均不是B NuSVCD以上均是A support_vectors_C nsupport2、以下能够实现多元分类的是()DA SVCC高斯过程分类3、以下说法不正确的选项是()AA scikit-learn实现的lineajmodel. Lasso类使用了坐标上升算法来拟合系数B linear_model. BayesianRidge类实现了贝叶斯岭回归,能
5、够在回归问题的估计过程中引入参数正规化C gaussian_process. GaussianProcessRegressor 类实现 f 一个用于回归问题的高斯过 程D与最近邻分类一样,scikit-learn也实现了两种邻回归,KNeighborsRegressor与RadiusNeighborsRegressor分别基于每个查询点的k个最近邻、每个查询点的固定半径内 的“邻居”数量实现4、以下关于k均值以下说法不正确的选项是()CA两种k均值算法在使用时都需要通过n_clusters参数指定聚类的个数。B给足够多的时间,k均值算法总能够收敛,但可能得到的是局部最小值。C 在使用clust
6、er. KMeans时,通过n_jobs参数能指定该模型使用的处理器个数。假设为正 值,那么使用“n_jobs”个处理器,-3代表使用全部处理器,-2代表除了两个处理器以外全 部使用,代表除了某个处理器以外全部使用。D cluster. MiniBatchKMeans类实现了 k均值的算法的小批量变体5、以下关于聚类说法不正确的选项是()CA在谱聚类中,可以设置assignabels参数以使用不同的分配策略。B在层次聚类中使用n_clusters参数可以指定聚类个数,linkage参数用于指定合并的策略, 可选用 ward、 complete、 averageC DBSCAN的核心概念是Cor
7、e Samples,即位于高密度区域的样本,其中较小的min_samples 或者较大的esp表示形成聚类的密度较高。D 在BIRCH中,有两个重要的参数:branching_factor (分支因子)和threshold(阈值), 分支因子限制了一个节点中的子集群的数量,阈值限制了新加入的样本和存在于现有子集群 中样本的最大距离。二、对错题1、在逻辑回归中,saga求解器基于随机平均梯度下降算法,其在大数据集上的收敛速度更 快。()错2、在最近邻分类方法中,KNeighborsClassifier是基于每个查询点的固定半径r内的邻居 数量实现,其中r是用户指定的浮点数。()是k,是数量,是整
8、数,错3、MultinomialNB BernoulliNB GaussianNB 还提供了 partial_f it 方法,该方法能够动 态地解决加载大数据集的问题。与fit使用方法相同,操作比拟简单。,错,与fit使用方 法不同4、岭回归从本质上来说也是最小二乘法,只不过是通过对系数的大小施加惩罚来改进。对 5、Mean-Shift算法不是高度可扩展的,因为在执行算法期间需要执行多个最近邻搜索。因 为当质心较少时,会停止迭代,所以此算法不收敛,错,是收敛的三、填空题1、scikit-learn是SciPy中一个非常著名的分支,scikit-learn所支持的算法、模型均 是经过广泛验证的。
9、在本章的学习中,主要介绍了、等3大类。2、在随机梯度下降分类方法中,lineajmodel.SGDClassifier类实现了简单的随机梯度下 降分类,可以通过loss函数来设置损失函数,要软件间隔对应向量机、平滑Hinge或逻辑 回归,loss的值应分别选用、o3、目前,MLPClassifier只支持 函数,通过运行 方法进行概率估计,MLP算法使用的是 传播的方式。4、Scikit-learn支持高斯朴素贝叶斯、多项分布朴素贝叶斯与伯努利朴素贝叶斯算法,分 别由、实现。5、AffinintyPropagation类中,假设要设置相似度度量方式,设置阻尼因子,设置向量,代 表对各个点的偏好
10、应该要分别设置、等参数。答案:1、分类方法;回归方法;聚类方法2、 hinge; modifiedhuber; log3、交叉嫡损失函数;predict_proba;反向传播naive_bayes. GaussianNB naive bayes. MultinomialNB naive bayes. BernoulliNB4、 Affinity damping、 preferencedpitight如以下图所示,In3表示的意思是:()B第八章一、单项选择题1、在使用savefile函数将生成的函数图像保存为图片时,可以使用以下哪个参数来指定图 片清晰度()AB bbox_inchesD ax
11、esIn 1 : import matplotlib.pyplot as pitIn 2 : fig=plt.figure ()In 3 : axes=plt.subplot (2,2,1) axes=plt . subplot (2,2,3)In 4 : fig.suptitle(Example of multiple subplots *) In 5 : pit . show ()A figure对象中的subplot布局为2X2,B figure对象中的subplot布局为2X 1,C figure对象中的subplot布局为2义3,D figure对象中的subplot布局为2X2,A
12、 figure对象中的subplot布局为2X2,B figure对象中的subplot布局为2X 1,C figure对象中的subplot布局为2义3,D figure对象中的subplot布局为2X2,选中了索引为1的subplot同时分别选中了索引为1和3的subplot选中了索引为1的subplot选中了索引为3的subplot3、代码“axes, plot (t, s, color=k , linestyle=一的意思是()AA以t为横轴,s为纵轴,A以t为横轴,s为纵轴,画函数图像,线条类型为虚线B以s为横轴,t为纵轴,B以s为横轴,t为纵轴,画函数图像,线条类型为虚线C以t为横
13、轴,s为纵轴,C以t为横轴,s为纵轴,画函数图像,线条类型为实线D以s为横轴,t为纵轴,D以s为横轴,t为纵轴,画函数图像,线条类型为实线4、如以下图所示,请问哪一行代码创立了两个柱状图()BIn 1 : import matplotlib.pyplot as pit import numpy as npIn 2 : figraxes=plt.subplots()In 3 : data_m=(40r 120, 20, 100, 30, 200) data_f=(60r 180, 30, 150, 20, 50)In 4 : index = np.arange(6)width=0 . 4In 5
14、 : axes.bar(index, data_m, width, color= * c1z label= * men1) axes.bar(index+width, data_fz width, color=1b, label=1 women *)In 6 : axes.set_xticks(index + width / 2)axes . set_xticklabels (TaxiMetro, Walk*, * Bus * f * Bicycle * r * Driving axes.legend()In 7 : pit.show()A In 4B In 6A In 4B In 6B In
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python数据分析与可视化 习题答案吕云翔 Python 数据 分析 可视化 习题 答案 吕云翔
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内