书签分享收藏举报版权申诉 / 15

立即下载

当前位置：首页 > 应用文书 > 解决方案 > Python数据分析基础教程-课后思考练习答案.docx

Python数据分析基础教程-课后思考练习答案.docx

上传人：太**

文档编号：39801817

上传时间：2022-09-08

格式：DOCX

页数：15

大小：40.21KB

( 4.5 )

《Python数据分析基础教程-课后思考练习答案.docx》由会员分享，可在线阅读，更多相关《Python数据分析基础教程-课后思考练习答案.docx（15页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、python数据分析基础教程课后思考练习答案第一章数据分析概述1 .简述数据的概念，数据、信息和知识三者之间的关系。参见：教材1.1.1数据的概念2 .数据分析：是指用适当的统计分析方法对收集来的大量原始数据进行分析，为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析步骤如下：问题定义数据采集数据预处理数据探索数据可视化预测模型评估模型部署解决方案3 .数数据的获取方式有：从企业管理数据库中调取相关业务数据。到特定的网站上去下载一些科研机构、企业、政府开放的公开数据集。编写网页爬虫，去收集互联网上的数据。4 .为什么要进行数据预处理？数据预处理包括哪些方面

2、？数据预处理就是将数据采集所获得的原始数据，经过数据清洗和数据转换后，将原始数据转变为“干净”的数据。数据预处理包括数据清洗和数据转换。5 .数据可视化作用：通过视觉化呈现数据的方式，不仅能快速抓住要点信息，而且，还可以揭示通过简单统计不能观察到的模式和结论。6 .数据分析具有三大作用：第一：现状分析。第二：原因分析。第三：预测分析。数组进行重复操作，而repeat。函数是对数组中的每个元素进行重复操作。9.在NumPy中，可以通过unique ()函数找出数组中去重后的元素并返回已排序的数组，从而实现去除数组中重复数据的目的。二.编程题1 .代码如下# - coding: UTF-8

3、import numpy as np a =625,0,1,3,4,7,8,9 b =2,卬,3,157,5.9 arr_a = np. array (a) print，第 1 个数组：arr_a) print,第1个数组的去金(去重后的值)数组：，) arr_a_u = np.unique(arr_a) print(arr_a_u) arr_b = np.array(b)print，第 2 个数组：1arr_b)print,第2个数组的去金(去重后的值)数组：，) arr_b_u = np.unique(arr_b) print(arr_b_u)print,返回主重后的值的重复数量：，)ar

4、r_a_u, u_a_inverse = np.unique(arr_a, return_counts=True) print(u_a_in verse)arr_b_u, u_b_inverse 二 np.unique(arr_b, return_counts=True) print(u_b_inverse)2 .代码如下 data_date. csv文件中数据 date20-01-201902-02-201903-04-2018# - coding: utf-8 -*- import numpy as np import datetimedate = np.loadtxt(!data_dat

5、e.csvdtype=np.str,skiprows=l) listl =for i in date.tolist(): y = int(i6:10) m = int(i3:5) d = int(i0:2) a = datetime.date(y,m,d) week = a.isoweekday()list 1 .append( week) print(listl)arr_week = np.array(listl) print(arr_week)3.代码如下# - coding: UTF-8 import numpy as np a =1.13.3,5.5,7.7,9.9 b = 0.0,2

6、.2,44,6.6,8.8 arr_a = np. array (a) print(arr_a) cl = arr_aarr_a6 c2 = arr_aarr_a 绑定(binding)或堆叠(stacking)。可使用 concat()函数。合并重叠数使用是combine_first ()函数，该函数的作用是用函数参数对象中的数据为函数调用对象的缺失数据“打补丁”。即填充函数调用对象中的数据缺失值。6 .字段拆分是按照固定的字符，拆分已有的字符串。字符分割函数有正序分割列split ()函数和逆序分割列rsplit ()函数。字段抽取是根据已知列数据的开始和结束位置，抽取出新的列。

7、字段抽取采用slice。函数。记录抽取是指根据一定的条件，对数据进行抽取。记录抽取函数的语法如下:dataframcondition,其中，condition为过滤条件。函数返回值是 DataFramo7 .重塑层次化索引，使用stack。函数会将数据从”表格结构“变成”花括号结构“，即将其行索引变成列索引，反之，unstack()函数将数据从“花括号结构“变成” 表格结构“，即要将其中一层的列索引变成行索引。8 .利用映射实现数据转换的过程：首先创建映射关系，例如，创建字典fruits用于指明水果标识和水果名称的映射关系，然后运用replace。函数，通过fruits映射关系来实现元素的

8、替换；或是利用map （）函数，通过构建fruits映射关系来实现元素的添加。9 .使用join。函数可以将字符串、元组、列表中的元素以指定的字符（分隔符）连接生成一个新的字符串。使用split。函数，可通过指定分隔符对字符串进行拆分，使用replace。函数可将字符串中的old （旧字符串）替换成new（新字符串），使用find。函数可查找子字符串，若找到返回从0开始的下标值，若找不到返回T。第9章机器学习库scikit-learn入门一、简答题1 .机器学习是人工智能的一种类型，从广义上来说，机器学习是一种能够赋予机器学习的能力，这种学习能力是不需要通过编程来实现的。但从实践的

9、意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测未知属性的一种方法。机器学习的基本流程如图9-2所示。2 .机器学习的问题分为监督学习和非监督学习两大类。督学习的算法有线性回归、逻辑回归、神经网络和SVM （支持向量机），常见的非监督式学习算法有聚类算法。3 . scikit-learn 的简称为 sklearn, scikit-learn 库是面向 Python 的免费机器学习库。sklearn不仅包含有分类、回归、聚类算法，如SVM、随机森林、 k-means等，而且还包含有降维、模型选择和数据预处理等机器学习算法。 sklearn支持NumPy和SciPy数

10、据结构，以及Matplotlib库。4 .在sklearn中的数据表示的最佳方式就是数据表。一个基本的数据表就是一个二维数据网格，其中行表示数据集的各个元素，也称为样本，列表示这些元素（样本）的特定定量信息。在scikit-learn模型中，数据除了特征矩阵X 之外，通常还使用标签或目标数组。5 .在机器学习中，所谓特征归一化，就是将各特征的数值进行缩放，使特征的数值大小范围转换为相同的区间。在机器学习中，进行特征归一化原因是在同一个样本中，由于各特征的评价指标不同，往往会使各特征具有不同的量纲和量纲单位，从而造成各特征的数值大小范围不一致。为了消除指标之间的量纲影响，需要对数据进行

11、归一化处理，以解决数据指标之间的可比性问题。6 .在scikit-learn中，最常用的特征归一化方法有MinMaxScaler()和 StandardScaler () 0实现特征归一化具体参见示例代码example9-7. py和示例代码 example9-8. py。7 .使用scikit-learn进行机器学习的流程：首先数据清洗，准备好数据集, 然后根据机器学习问题选择相应的模型，并进行调整参数训练和测试模型。8 .超参数是指在模型开始学习过程之前人为预先定义的参数，而不是通过训练得到的参数数据。通过调整超参数来训练模型的过程称为调参。调参就是寻找k取多少值时为最优值。寻找最优

12、超参数的方法，一种是依靠经验取值，另一种是依靠实验确定，如通过交叉验证(cross_validation)来验证模型优劣。9 .交叉验证的原理：10 先将整个数据集分为训练集和测试集两部分。11 用不重复抽样将训练集的数据随机分为k份。12 k-1份数据用于模型训练，剩下那一份数据用于验证模型。重复第三步k次，并保证每重复一次所选择的验证集和训练集是不相同的。重复k次后将得到k个模型和它的评估结果。第10章电影数据分析项目一.编程题1 .代码如下：# - coding: utf-8 -*-import pandas as pdimport matplotlib.pyplot as pit

13、#加载数据movies_df = pd.read_csv(,d:/data/movie_metadata.csvencoding=MGBKH)column_null_number = movies_df.isnull().sum()movies_dfLnonull = movies_df.dropna()movies_dfLnew = movies_dCnonull.drop_duplicates(keep=tfirstt)movies_dfLnew.describe()#第1题plt.scatter(x= movies_dfLnew.duration,y= movies_diLnew.mov

14、ie_facebook_likes)plt.xlabelCuration*)plt.ylabel(f movie_facebook_likes1)plt.title(,duration&likes,)plt.savefig(,d:/data/duration_likes.png,)plt.showQ2至6题代码如下：# -*- coding: utf-8 -*-import pandas as pdimport matplotlib.pyplot as pit#加载数据movies_df = pd.read_csv(,d:/data/movie_metadata.csvencoding=MGB

15、KH)column_null_number 二 movies_df.isnull().sum()movies_dfLnonull = movies_df.dropna()movies_dfLnew = movies_dfLnonull.drop_duplicates(keep=Tfirst,)movies_dfLnew.describe()#第2题movie_score_20 = movies_d_new.sort_values(,imdb_score,ascending=False).head(20)result = mo v ie_score_20 1 dir ector_nameT,T

16、imdb_score1 print(result)#第3题director_group 二 movies_df_new.groupby(,director_name!).size()group_head_10 = director_group.sort_values(ascending=FaIse).head(10)print(group_head_ 10)#第4题movie_grose_10 = movies_dfLnew.sort_values(,gross,ascending二False). head( 10)print(mo vie_grose_ 10 1 director_name!

17、,1 gross *)#第5题movie_grose_5 = movies_d fLnew.sort_values(gross,ascending=False).head(5)print(movic_grosc_5 actor_l_name 1 gross)#第6题movie_actor_ 10 = movies_dfLnew .sort_values(f actor_l _facebook_likes,ascending二F alse).head(l 0)print(movie_actor_ 10f actor_l_name V actor_l_facebook_likes)7.数据分析的常

18、用工具：目前主流的数据分析语言有Python、R、MATLAB这3种。各有优劣：教材表1-1从语言学习难易程度、使用场景、第三方支持、流行领域和软件成本等方面比较了 Python、R、MATLAB这3种数据分析工具。第2章Python与数据分析1 . Python语言的特点:参见教材2. 1. 1 Python语言的特点。Python程序的执行过程：Python是一种解释型编程语言，每次运行 Python命令时，Python的解释器就会启动，此时就会出现Python命令提示符，在该提示符下输入命令，就可直接运行。解释型语言的好处是不需要对代码进行编译链接，只需要编写好程序，就可直接运行，

19、2 .测试Python软件是否安装成功：参见教材P13页中3测试Python。Python程序的后缀名是py3 .在Python交互式终端上Python语言的命令提示符是.运用Python语言作数据分析的势：参见教材P8页中2. 2 Python与数据分析关系4 . PyCharm和Jupyter Notebook这两款数据分析软件各有特点和优势：PyCharm是适合用于开发Python的项目程序，PyCharm是一款专门服务 Python程序开发的集成开发环境，它具有配置简单、功能强大、使用方便的优势。Jupyter Notebook （又称IPython Notebook）是一个交互式

20、的在线编辑器, 它可以每编辑一行代码就运行一行代码，并且将运行的结果显示在代码的下方，以方便用户查看，非常适合做交互式的数据分析。它的优势参见教材P19页。5 . Python数据分析常用的类库有哪些？这些类库有什么作用？参见教材P8-10页中2. 3 Python数据分析常用的类库第3章Python语言基础、简答题1 . Python 编码设置:# coding: UTF-8 、Weeding: UTF-8 ttcoding =UTF-8”声明Python的安装路径：#!d:/python,该语句声明Python的安装路径为d:python”2 . Python的代码注释方法有2种，分别是

21、：单行注释、多行注释3 . Python是用用缩进方式来标识代码块。4 . Python中使用import或者from. import语句来导入相应的模块。5 .在Python中，变量是不需要提前声明，创建时直接对其赋值即可，变量的数据类型是由赋值给变量的值决定。6 . Python的数据类型有：int （整数）、float （浮点数）、bool （布尔型）、 complex （复数）和字符串。使用内置的typeO函数可查看数字类型。7 .在Python中，可以使用单引号（），双引号（）或三引号（）来标识字符串，引号的开始与结束必须是相同类型的。字符串提取方法是在变量名后使用方括号（）将需

22、要提取的字符索引放置在方括号中即可。字符串切片方法是变量名后使用方括号（i：j），其中i表示截取字符串的开始索引，j表示结束索引。字符串拼接方法就是使用加号（+）将字符串变量连接起来。8 . Python中可变数据类型有列表（list）和字典（diet）,不可变数据类型有整型（int）、浮点型（float）、字符串型（string）和元组（tuple）。9 .列表创建方法：在Python中创建列表的方法有两种，一种是使用方括号创建，另一种是使用list。函数创建。列表元素提取方法：在列表对象后面紧接方括号i,其中i是指定的索引o 列表元素切片操作的格式：序列对象起始元素索引:终止元素索

23、引:步长值。10 .为列表添加元素的函数有：append。函数、extend。函数和insert （）函数，使用append。函数向列表对象中添加元素，该元素会被追加到列表的尾部；使用extend。函数能够将另一个列表添加到列表的末尾，相当于将两个列表进行拼接。使用insert。函数可以在指定位置添加元素。11 .删除列表中元素有del、pop和remove语句。修改列表中元素最简单的方法是提取该元素并进行赋值操作。12 .元组创建方法：一种是使用园括号()创建，另一种是使用tuple。函数创建。元组元素提取方法：在元组对象后面紧接方括号i,其中i是指定的索引。元组切片操作的格式：

24、序列对象起始元素索引：终止元素索引：步长值元组解包的格式：varl, var2, ,varn=tuple13 .统计元组中元素出现的次数方法：tuple, count (元素)。获取元素在元组中第1次出现的位置：tuple, index (元素)14 .创建字典的方法：一种是使用花括号创建，另一种是使用diet () 函数创建。获取字典元素的方法：一种方法是通过键获取字典元素，即字典键;另一种方法是使用字典get ()函数。删除字典元素的方法：使用del语句删除元素，其格式为del dict_namekey,使用pop语句删除字典元素，其格式为dict_name. popkey, 使用cl

25、ear。函数则会删除字典中的所有元素。修改字典元素的方法：可使用键访问赋值来修改，格式 dict_namekey=new_value15 .列表、元组和字典的区别：列表与元组是使用索引来对应元素，而字典主要是通过键来访问对应的元素。列表和字典是可变数据类型，所以可以对列表和字典对象进行元素的增删改查操作。16 . Python的流程控制语句中是使用缩进来划分语句块，相同缩进的语句组成一个语句块。17 . Python中没有switch和case语句，多路分支语句只能通过 ifelifelse流程控制语句来实现。18 . break语句的作用是终止循环语句，continue语句作用是告诉P

26、ython 跳过当前循环的剩余语句，然后继续进行下一轮循环。pass是空语句，作用是保持程序结构的完整性。19 . Python函数定义的语法格式:def函数名（参数列表）:函数体20 .在Python中使用*args和*kwargs可以定义可变参数，在可变参数之前可以定义0到任意多个参数，可变参数永远放在参数的最后面。21 .局部变量和全局变量区别：在函数体内定义的变量为局部变量，局部变量只能在其被赋值的函数内部访问。定义在函数体外的变量称为全局变量。全局变量可以在函数体内被调用。二.编程题1 .代码如下：# - coding: UTF-8 - *-grade Jist =(李芳,8

27、6,80)(张艳,74,75)grade_list.append(王志,87,95)print(grade_list)new_list =for i in grade_list:new_list.append(iO ,i 1 *0.4+i2 *0.6) print(new_list)gradeist.remove(李芳,86,80) print(grade_list).代码如下：dictl =电视机，:3400J 空调，:2300dictl洗衣机】二1200print(dictl)values = list(dictl.values()max_value = max(values)print。

28、print。:高价格 % max_value)diet空调I= 2800print(dictl)del dictl电视机 print(dictl)2 .代码如下:def evennumber_sum_function(n):sum,i=0, l #求1到n数字的偶数和sumwhile (i hstack()和 vsta中()等函数可实现数组的连接操作，而利用split。、hsplitO和vsplitO等函数可实现数组的分割操作。8 .在NumPy中，不同形状的数组可以进行四则运算，因为，如果两个数据的形状(shape)不一致时，低维数组会自动将维度扩充到与高维数组一致，然后再按元素逐个

29、运算，这就是数组的广播机制。9 .说明数组与矩阵的联系和区别：参见教材P85页。10. dot()函数是数组中对应元素相乘的累加和(矢量积)，而multiply。函数和星号(*)是将数组中对应元素相乘(数量积)。二.操作题(1)在Windows操作系统下安装NumPy和SciPy软件包。(2)在PyCharm开发工具下安装NumPy和SciPy。三.编程题1 .代码如下# - coding: UTF-8 import numpy as np cp_type = np.dtype(,namenp.str,10),(，telnp.int64) print,数据亲型：:cp_type)cp_arr

30、 = np.airay(李明(王华dtype 二 cp_type)print,自定义数据类型的数组： cp_arr)2 .代码如下coding: UTF-8 import numpy as np a =625,0,1,3,4,7,8,9 arr = np.array(a) arr. shape = (2,5)print(arr)print,将arr数组竖直分割为2个大小相等的子数组：print(np.split(arr,2)print(np.vsplit(arr,2)3 .代码如下#-*- coding: UTF-8 import numpy as np a =6,2,5,0,134,7,8,

31、9 b = 2,3 门,5,7 arr_a = np.array(a) arr_a.shape =(2,5) arr_b = np.array(b,dtype =int) arr_b. shape = (1,5) arr_c = arr_a + arr_b print(arr_c)4 .代码如下coding: UTF-8 import numpy as np a =6,2,5,0,1,3,4,7,8,9,10,11 arr = np.array(a) arr.shape =(3,4) bl = arr:2,:2 b2 = arr2 b3 = arrl:,2: print(bl,b2,b3)5

32、.代码如下coding: UTF-8 import numpy as np a =6,2,5,0,1,3,4,7,8,9,10,11 arr = np.array(a) arr. shape = (4,3)b = arr(l, 1,2, 2), (1,2,1, 2川 b.shape = (2,2) print (b)第5章用Numpy进行简单统计分析一.简答题1 .在NumPy中，读取TXT文件和CSV格式文件的函数是loadtxt (),在该函数格式中可以通过指定usecols参数来选取读取文本文件中的列数据。2 .在NumPy中，读取TXT文件和CSV格式文件的函数是loadtxt ()

33、,在该函数格式中可以通过指定unpack参数，如果True,读入属性将分别写入不同变量。3 .在NumPy中，读取TXT文件和CSV格式文件的函数是loadtxt (),在该函数格式中可以通过指定converters参数来实现将文本文件中数据列和转换函数之间联系在一起。4 .在NumPy中，savez ()函数能提供将多个数组存储至一个文件的能力。5 .在NumPy中，savez ()函数保存之后后缀名npz,使用解压程序打开npz 文件可以看到里面是若干个以“数组名称”命名的npy格式的文件，数组名称默认为“arr_数字”的形式，在savez ()函数中可以通过指明函数的参数名称来

34、命名数组。6 . amin()和nanmax()函数的作用与区别：在NumPy中，求数组最大值的函数是amax ()和nanmax (),其中，amax ()函数是返回一个数组的最大值或者是沿轴返回数组的最大值。nanmax ()函数是返回忽略任何NaN的数组的最大值或者是沿轴返回忽略任何NaN的数组的最大值。7 . sort () argsort ()和lexsort ()函数的作用与区别：在NumPy中，直接排序常用是sort ()函数，而间接排序常用是argsort ()函数和lexsort ()函数。sort。函数作用是返回输入数组的排序副本。argsort ()函数作用是对输入数组沿着给定轴执行间接排序，并根据指定排序类型返回数据的索引数组。使用该索引数组可以获得排序数据。lexsort ()函数使用键序列执行间接排序，键可以看作是电子表格中的一列, 最后一个键是排序的主键，该函数返回一个索引数组。使用该索引数组可以获得排序数据。8 . tile ()和repeat ()函数的作用与区别：在NumPy中，为了实现数据重复可使用tile()函数和repeat。函数。这两个函数的主要区别是tile ()函数是对

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Python 数据分析基础教程课后思考练习答案

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：Python数据分析基础教程-课后思考练习答案.docx
链接地址：https://www.taowenge.com/p-39801817.html