Python大数据处理与分析期末考试试卷习题题库及习题答案16.pdf
《Python大数据处理与分析期末考试试卷习题题库及习题答案16.pdf》由会员分享,可在线阅读,更多相关《Python大数据处理与分析期末考试试卷习题题库及习题答案16.pdf(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章1.简述什么是Python以及Python有哪些特点。答:Python是 1989年荷兰人Guido van Rossum发明地一种面向对象地解释型编程语言。Python语言简洁,易读以及可扩展性好,语法非常清晰,而且Python地拓展库丰富,具有脚本语言中最丰富与强大地类库。Python语言及其众多地扩展库构成地开发环境十分适合工程技术,科研人员处理实验数据,制作图表,甚至开发科学计算应用程序。2.Python在 Linux系统地安装主要分为哪几步。答:(1)检查Python版 本(2)下载源码包(3)解压编译源码(4)安装Python(5)调整系统默认Python指向3.简述Anac
2、onda地特点与作用。答:Anaconda是基于Python地数据处理与科学计算平台,它内置了许多非常有用地第三方库,其内部包含了 conda,Python在内地超过180个科学包及其依赖项。Anaconda是在conda(一个包管理器与环境管理器)上发展出来地。安装Anaconda.就相当于把Python与一些如Numpy,Pandas,Scrip,Matplotlib等常用地库自动安装好了,比在常规Python环境下安装这些组件更容易。总结起来,Anaconda具有四大特点:开源;集成安装;高性能使用Python与 R 语言;免费地社区支持。4.简述Jupyter与 PyCharm地区别。
3、答:Jupyter Notebook是一个交互式笔记本,一种模块化地Python编辑器,支持运行 4 0 多种编程语言。它地本质是一个Web应用程序,便于创建与共享程序文档,数学方程,可视化与markdown等。在 Jupyter中,可以把大段地Python代码碎片化处理,分开每一段来运行。在软件开发中,Jupyter可能显得并没有那么好用,这个模块化地功能反而会破坏掉程序地整体性。但是当在做数据处理,分析,建模,观察结果等地时候,Jupyter模块化地功能不仅会提供更好地视觉体验,更能大大缩小运行代码及调试代码地时间,同时还会让整个处理与建模地过程变得异常清晰。Pychann是一种Pytho
4、n IDE,其有一整套可以帮助用户在使用Python语言开发时提高其效率地工具,如调试,语法高亮,Project管理,代码跳转,智能提示,自动补全,单元测试,脚本控制等。此外,该 IDE还提供了用户支持Django框架下地专业Web开发。Pycharm作为专业地IDE,比Jupyter Notebook更适合完整项目地开发,而 Jupyter Notebook则更适合数据分析与建模。第 2 章1.简述什么是NumPy,如何安装NumPy。答:NumPy(Numerical Python)是 Python地一种开源地数值计算扩展。这种工具可用来存储与处理大型矩阵,比Python自身地嵌套列表(n
5、ested list structure)结构要高效地多(该结构也可以用来表示矩阵(matrix),支持大量地维度数组与矩阵运算,此外也针对数组运算提供大量地数学函数库。NumPy地安装需要在电脑上打开d,然后使用pip工具安装。2.数组对象地属性有哪些?答:属性具体说明ndarray.ndim维度个数,也就是数组轴地个数,比如一维,二维,三维等ndarray.shape数组地维度。这是一个整数地元组,表示每个维度上数组地大小。例如,一个n 行与m 列地数组,它地shape属性为(n,m)ndarray.size数组元素地总个数,等于shape属性中元组元素地乘积描述数组中元素类型地对象,既可
6、以使用标准地Python类型创建或ndarray.dtype指定,也可以使用NumPy特有地数据类型来指定,比如NumPy.int32,NumPy.float64 等ndarray.itemsize数组中每个元素地字节大小。例如,元素类型为float64地数组有8(64/8)个字节,这相当于 ndarray.dtype.itemsize3.Python中数组地自增自减运算有什么特点?答:Python中没有-或+”运算符,因此,对变量进行自增自减需要使用“+=或-=运算符来完成,运算地结果不是赋值给一个新数组,而是修改实际数据,即原来地数值发生了改变。4.求下列矩阵地逆:arrayl=np.ar
7、ray(l,4,7,2,5,8,3,6,9)答:import NumPy as nparrayl=np.array(l,4,7,2,5,8,3,6,9)#创建一个二维数组np.linalg.inv(array 1)5.编程题:使用NumPy数组对象,创建两个3*3地矩阵,并计算矩阵乘法。答:import NumPy.matlibimport NumPy as nparray 1 =np.array(2,4,6,81D#创建一个二维数组array2=np.array(22,44,66,88)#创建一个二维数组np.dot(array 1,array2)#使用dot。函数求数组地乘积6.计算吗+.
8、+专地与。答:import NumPy as nparray 1 =np.arange(l,l 00,2)sum=0for i in array 1:sum+=(l/i)print(sum)第3章1.简述什么是Pandas,如何安装Pandas?答:Pandas是基于NumPy地一种工具,该工具是为解决数据分析任务而创建地。Pandas纳入了大量库与一些标准地数据模型,提供了高效地操作大型数据集所需地工具。Pandas提供了大量能使我们快速便捷地处理数据地函数与方法,是使Python成为强大而高效地数据分析环境地重要因素之一。Pandas地安装需要在电脑上打开d,然后使用pip工具安装2.简述
9、Pandas与 NumPy地区别与联系。答:NumPy中地ndarray用于处理多维数值型数组,重点在于进行数值运算,无索引。Pandas中地Series类似于DataFrame地子集,DataFrame中地每一列都可以看作是一个Series,有索引,方便进行数据地查询,筛选,所 以 Pandas重点在于进行数据分析。在数学与统计方法上,NumPy中地ndarray只能进行数值型统计,而Pandas中地DataFrame既可以进行数值型,也可以进行非数值型统计。3.Series对象与DataFrame对象有什么区别?答:Series是 Pandas中最基本地对象,类似于一维数组地对象,由一组数
10、据与一组与之有关地数据标签(索引)组成。DataFrame对象地数据结构跟excel表相似,其目地是将Series地使用场景由一维扩展到多维,它由按一定顺序排列地多列数据组成,各列地数据类型可以有所不同。4.如何使用对象快速导入导出数据?答:导入数据使用函数 read_csv(filrpath,sep,names,encoding)。导出数据使用 to_csv(filrpath,sep,names,encoding)。5.尝试掷骰子100次,在 excel表格里记录每一次地值,尝试将此数据使用Pandas做统计分析。答:使用导入数据使用read_csv(filrpath,sep,names,e
11、ncoding)函数将数据导入Pandas变量中,然后使用各种统计函数对数据进行分析。6.创建学生成绩excel表,快速完成成绩统计与分析。答:使用导入数据使用函数read_csv(filrpath,sep,names,encoding)将数据导入Pandas变量中,然后使用各种统计函数对数据进行分析,如 3.5案例所示,然后完成数据分析与修改补充后,导出数据使用 to csv(filrpalh,sep,names,encoding)函数。第4章1.简述使用Matplotlib进行数据可视化地绘图步骤。答:(1)导 入 第 三 方 包(2)准 备 数 据(3)函 数 绘 图(4)完 善 图 表
12、(5)展示结2.折线图,柱状图,直方图撤点图,等值线图分别用什么函数绘制,它们地常用参数有哪些?答:(1)折线图:pyplot.plot。常用参数:x,y,format_string,*kwargs(2)柱状图:pyplot.bar()常用参数:x,height,width,bottom,align,data,*kwargs(3)直方图:pyplot.hist。常 用 参 数:x,bins,weights,bottom,histtype,align,orientation,rwidth,color,label,stacked,*kwargs(4)散点图:pyplot.scatter。常 用 参
13、 数:x,y,s,c,marker,ap,vmin,vmax,alpha,linewidths,edgecolors,*kwargs(5)等值线图:pypk)t.contourf()常用参数:x,y,z,levels,*kwargspyplot.contour()常用参数:x,y,z,levels,*kwargs3.简述基础类元素与容器类元素分别有哪些,它们地关系是什么?答:基础类元素:线(l i n e),点(m ar k e r),文字(t e x t),图例,图表标题,图片(i m ag e)等容器类元素:图形,坐标图形,坐标轴(ax i s)与刻度(t i c k)。容器类元素可以包含
14、许多基础类元素并将它们组织成一个整体,它们也有层级结构:图形包含坐标图形;坐标图形包含坐标轴;坐标轴又包含刻度。4.常用地图形元素设置函数有哪些,它们地作用分别是什么?答:1 .添加图例与标题。添加图例一般使用l e g e n d。函数,添加标题使用t i t l e。函数。2 .调整刻度格式与设置刻度标签。对x,y轴地刻度范围设置一般用到x l i m()与yl i m()两个函数;标题设置一般使用x l ab e l()与yl ab e l()两个函数;内容与格式设置一般使用x t i c k s()与yt i c k s()两个函数。3.为图表添加网格线。绘制网格线一般使用g r i
15、d()函数。4.绘制参考线。绘制参考线一般使用ax h l i n e。与ax v l i n e。两个函数。5.添加图表注释。绘制注释一般使用an n o t at e。与t e x t。函数,分别用于添加指向型注释文本与无指向型注释文本。6.向统计图形添加表格。绘制表格一般使用t ab l e。函数。5.简述怎样使用用颜色参数与颜色映射来调整图形。答:1 .在函数中使用颜色参数。a.使用英文全称来给c o l o r参数赋值从而进行颜色设置。b.使用英文缩写来进行颜色设置。C.使用H e x模式地#RRGGBB字符串来进行颜色设置。d.用三元(RGB)或四元(RGBA)元组来进行颜色配置。
16、2.在函数中使用颜色映射表。a.使用给关键字参数指定颜色映射表名地方式来配置图表颜色。b.使用给m a t p l o t l i b.p y p l o t.s e ti p()函数传入相应颜色映射表名地方式来配置图表颜色。常 用 地 颜 色 映 射 表有:a u t u m n,b o n e,c o o l,c o p p e r,f l a g,g r a y,h o t,h s v,j e t,p i n k,s p r i n g,s u m m e r,w i n t e r 等。第5章1.字符串有哪些方法?它们地特点分别是什么?答:字母小写str.lower。,字母大写str.
17、upper。,统计次数str.count(sub),将字符串str按 sep分 割 str.split(sep=None),字符替换str.replace(o】d,new)等方法,特点是对字符串分别实现各自对应地功能。2.什么是正则表达式?答:正则表达式(英文:Regular Expression),在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则地字符串地单个字符串。在很多文本编辑器或其它工具里,正则表达式通常被用来检索与/或替换那些符合某个模式地文本内容3.Python中异常值如何处理?答:(1)重复数据地预处理重复数据指多次出现地数据。对于一般数量可控地重复数据,通常采用地
18、方法是简单地比较算法剔除。对于重复地可控数据而言,一般通过代码实现对信息地匹配比较,进而确定,剔除不需要地数据。(2)异常数据地预处理异常数据是无意义地数据,这个词通常作为损坏数据地同义词使用,但现阶段其意义已经扩展到包含所有难以被计算机正确理解与翻译地数据,如非结构化文本。任何不可被源程序读取与运用地数据,不管是已经接收地,存储地,还是改变地,都被称为噪声数据。(3)缺失数据地预处理缺失数据表示数据不完整,信息丢失,因而无法完成有关匹配与计算,如信息统计中年龄与性别丢失地情况。缺失数据地处理主要有4 种方式:均值补差,利用同类均值补差,极大似然估计,多重补差。从简单意义上讲,均值补差与利用同
19、类均值补差是思维简单地处理方式,在实际中应用比较广泛。极大似然估计是在概率上用最大可能地方式处理数据地缺失问题,其存在局部极值而且收敛速度过慢,计算较为复杂等问题。多重补差是为每一个缺失值提供一个可能地替换值,以确保其无关性,构成替换阈,再根据其自由组合,从而对每一个替换结果进行总体预测,对结 论 进 行 总 体 评 判。多重补差这种思想来源于贝叶斯极大似然法,但比该方法在预 判 性 上 产 生 更 多 地 多 元 化 操 作。4.如何整理数据并对数据进行预处理?答:数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。数据清洗是 对 脏 数 据 地 处 理,需 要 被 清 理 地
20、数 据 一 般 有 以 下 类 型:重 复 数 据,异 常 数 据,缺失 数 据。数 据 集 成 是 把 不 同 来 源,格式,特 点 性 质 地数据在逻辑上或物理上有机地集 中。数 据 变 换 主 要 找 到 数 据 地 特 征 表 示,用 维 变 换 成 转 换 方 法 减 少 有 效 变 量 地数 目 或 找 到 数 据 地 不 变 式,包 括 规 格 化,归约,切 换,旋 转 与 投 影 等 操 作。数据归约是指 在 尽 可 能 保 持 数 据 原 貌 地 前 提 下,最 大 限 度 地 精 简 数 据 量。5.数据降维地好处是什么?答:运 用PCA对 高 维 数 据 进 行 降 维,
21、有 一 下 几 个 特 点:(1)数据从高维空 间 降 到 低 维,因为求方差地缘故,相 似 地 特 征 会 被 合 并 掉,因此 数 据 会 缩 减,特 征 地 个 数 会 减 小,这 有 利 于 防 止 过 拟 合 现 象 地 出 现。但PCA并不是 一 种 好 地 防 止 过 拟 合 地 方 法,在防止过拟合地时候,最好是对数据进行正则化;(2)使用降维地方法,使 算 法 地 运 行 速 度 加 快;(3)减 少 用 来 存 储 数 据 地 内 存 空 间;(4)从x(i)到z地 映 射 过 程 中,对训练数据进行降维,然后对测试数据或验证 数 据 进 行 降 维;6.什么是稀疏矩阵?如
22、 何 使 用 字 典 学 习?答:稀 疏 表 示 就 是 用 较 少 地 基 本 信 号 地 线 性 组 合 来 表 达 大 部 分 或 者 全 部 地 原 始信 号。其 中,这 些 基 本 信 号 被 称 作 原 子,是从过完备字典中选出来地;而过完备字典则 是 由 个 数 超 过 信 号 维 数 地 原 子 聚 集 而 来 地。可见,任一信号在不同地原子组下有 不 同 地 稀 疏 表 示。假 设 用 一 个M*N地 矩 阵 表 示 数 据 集X,每一行代表一个样本,每 一 列 代 表 样 本 地 一 个 属 性,一般而言,该 矩 阵 是稠密地,即 大 多 数 元 素 不 为O o稀疏 表
23、示 地 意 义 是 寻 找 一 个 系 数 矩 阵A(K*N)以 及 一 个 字 典 矩 阵B(M*K),使得B*A尽 可 能 地 还 原X,且A尽 可 能 地 稀 疏。A便 是X地 稀 疏 表 示。像列表一样,字典 是许多值地集合。但 不 像 列 表 地 下 标,字典地索引可以使用许多不同数据类型,不只是整数。字 典 地 索 引 被 称 为“键”,键及其关联地值称为 键-值”对。在代码中,字典输入时代花括号 。字典学习地算法理论包含两个阶段:字典构建阶段(Dictionary Generate)与利用字典(稀疏地)表示样本阶段(Sparsecoding with a preputed dic
24、tionary),这两个阶段地每个阶段都有许多不同算法可供选择。字典学习地第一个好处是它实质上是对于庞大数据集地一种降维表示;第二个好处是正如同字是句子最质朴地特征一样,字典学习总是尝试学习蕴藏在样本背后最质朴地特征(假如样本最质朴地特征就是样本最好地特征)。稀疏表示地本质:用尽可能少地资源表示尽可能多地知识,这种表示还能带来一个附加地好处,即计算速度快。我们希望字典里地字可以尽能地少,但是却可以尽可能地表示最多地句子。这样地字典最容易满足稀疏条件。第6章上机实验3.实验步骤(1)打 开Jupyter Notebook工具,使 用Pandas模块读取6.3节所提供压缩文件(房产信息.ra r)
25、中地锦江.xlsx,按 照6.3.1节中地步骤与格式完成数据地预处理,预处理完成之后保存为xlsx文件,文件名:锦江一预处理.xlsx。注意:由于读入数据存在一定差异,步骤可能略有不同。步 骤1)中地代码大部分与6.3.1节中代码相同,仅在数据读取部分不同,这里仅给出数据读取部分地代码:file=,锦江.xlsx,data=pd.read_excel(file)data#预览数据(2)读入第一步处理好地数据文件:锦江一预处理.xlsx,结 合Pandas,Matlibplot模块,绘制以下图表:房源所在楼层分布地柱 状 图(横坐标:低楼层,中楼层与高楼层,纵坐标:房源数量),二手房总价前10名
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 数据处理 分析 期末考试 试卷 习题 题库 答案 16
限制150内