第1章数据分析与Python语言(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
第1章 数据分析与Python语言(DA)教学课件数据分析基础基于Python的实现 电子教案第 1 章1-2数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/4/16数据分析基础数据分析基础贾俊平俊平2023/4/162023/4/16FundamentalsofdataFundamentalsofdataanalysiswithPythonanalysiswithPython基于基于 Python 的实现的实现第 1 章1-3数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/4/161.1 数据分析概述1.2 Python 的初步使用1.3 Python的数据处理1.4 Python 绘图基础第 1 章 数据分析与Python语言 第 1 章1-4数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析方法数据分析方法什么是数据分析什么是数据分析l l数数数数据据据据分分分分析析析析(datadataanalysisanalysis)是运用统计方法对收集来的数据进行分析,从中提取有用信息并得出结论的过程l数据分析的目的是把隐藏在数据中的信息有效地提炼出来,从而找出所研究对象的内在规律和特征l在实际应用中,数据分析可帮助人们做出判断和决策,以便采取适当行动第 1 章1-5数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析方法数据分析方法数据分析分类数据分析分类l l从从从从分分分分析析析析目目目目的的的的看看看看 可以将数据分析分为描描述述性性分分析析(descriptive analysis)、探探索索性性分分析析(exploratory analysis)和验验证证性性分分析析(confirmatory analysis)三大类。其中,描述性分析和是对数据进行初步的整理、展视和概括性度量,以找出数据的基本特征;探索性分析侧重于在数据之中发现新的特征,为形成某种理论或假设而对数据进行的分析;验证性分析则侧重于对已有理论或假设的证实或证伪。l l从从从从 所所所所 使使使使 用用用用 的的的的 统统统统 计计计计 分分分分 析析析析 方方方方 法法法法 看看看看 可 大 致 可 分 为 描描 述述 统统 计计(descriptive statistics)和推推断断统统计计(inferential statistics)两大类。描述统计主要是利用图表形式对数据进行汇总和展示,计算一些简单的统计量(诸如比例、比率、平均数、标准差等)进行分析。推断统计主要是根据样本信息来推断总体的特征,内容包括参数估计和假设检验等。参数估计是利用样本信息推断所关心的总体特征,假设检验则是利用样本信息判断对总体的某个假设是否成立数据分析方法数据分析方法从分析目的看从分析目的看描述性分析描述性分析探索性分析探索性分析验证性分析性分析从从统计方法看方法看描述描述统计推断推断统计第 1 章1-6数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析工具数据分析工具软件分类软件分类商业软件和非商业软件商业软件和非商业软件l l商商商商业业业业软软软软件件件件不不不不推推推推荐荐荐荐使使使使用用用用 商业类软件种类繁多,较有代表性的软件有SAS、SPSS、Minitab、Stata等。多数人较熟悉的Excel虽然不是统计软件,但提供了一些常用的统计函数以及数据分析工具l这类软件虽有不同的侧重点,但功能大同小异,基本上能满足大多数人做数据分析的需要。商业类软件使用相对简单,容易上手l主要问题是价格不菲,多数人难以接近,此外,更新速度慢,难以提供最新方法的解决方案第 1 章1-7数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析工具数据分析工具软件分类软件分类商业软件和非商业软件商业软件和非商业软件l l非非非非商商商商业业业业软软软软件件件件推推推推荐荐荐荐使使使使用用用用 非商业类软件则不存在价格问题。目前较为流行的软件有R语言和Python语言,二者都是免费的开源平台lR语言的一种优秀的统计软件,它是一种统计计算语言。R语言不仅支持各个主要计算机系统,还有诸多优点,比如,更新速度快,可以包含最新方法的解决方案;提供丰富的数据分析和可视化技术,功能十分强大。此外,R软件中的包(package)和函数均由统计专家编写,函数中参数的设置也更符合统计和数据分析人员的思维方式和逻辑,并有强大的帮助功能和多种范例,初学者也很容易上手lPython则是一种面向对象的解释型高级编程语言,并拥有丰富而强大的开源第三方库,也具有强大的数据分析可视化功能。Python于R的侧重点略有不同,R的主要功能是数据分析和可视化,且功能强大,多数分析都可以由R提供的函数实现,不需要太多的编程,代码简单,容易上手。Python的侧重点则是编程,具有很好的普适性,但数据分析并不是其侧重点,虽然从理论上说都可以实现,但往往需要编写很长的代码,帮助功能也不够强大,这对数据分析的初学者来说可能显得麻烦,但仍然不失为一种有效的数据分析工具第 1 章1-8数据分析基础基于Python的实现2023/4/162023/4/16l变量变量(variable)观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量l数据数据(data)变量的观测结果 1.1 数据分析概述数据及其来源数据及其来源变量和数据变量和数据变量分量分类类别变量量(定性)(定性)无序无序类别变量量(名(名义值)有序有序类别变量量(顺序序值)布布尔变量量(二(二值)数数值变量量(定量)(定量)离散离散变量量(离散(离散值)连续变量量(连续值)时间变量量(定性或定量)(定性或定量)定性:离散定性:离散值定量:定量:连续值第 1 章1-9数据分析基础基于Python的实现2023/4/162023/4/16l二手数据二手数据l抽取样本抽取样本总体(population):包含所研究的全部个体(或数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目l概率抽样方法概率抽样方法根据已知的概率抽取样本元素,也称随机抽样 1.1 数据分析概述数据来源数据来源l简单随机抽样简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样l分层抽样分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本l系统抽样系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素l整群抽样整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查第 1 章1-10数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用Python的下载与安装的下载与安装第 1 章1-11数据分析基础基于Python的实现2023/4/162023/4/16l lPythonPython安装安装安装安装 1.2 Python的初步使用Python的安装的安装l l编写编写编写编写PythonPython代码代码代码代码打开IDEL在提示符“”后输入命令代码每次可以输入一条命令,也可以连续输入多条命令,命令之间用分号“;”隔开命 令 输 入 完 成 后,按“Enter”键,Python软件就会运行该命令并输出相应的结果第 1 章1-12数据分析基础基于Python的实现2023/4/162023/4/16l lAnacondaAnaconda的安装的安装的安装的安装Anaconda包含了多个基本模块,如numpy,pandas,matplotlib,IPython等,安装Anaconda时,这些模块也就一并安装好了,Anaconda还内置了Jupyter Notebook开发环境,十分方便代码的编写和修改Anaconda包含了Python,直接安装即可,无序安装Python本书代码编写和运行使用的就是Anaconda平台的Jupyter Notebook界面 1.2 Python的初步使用Python的安装的安装第 1 章1-13数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用Python的安装的安装第 1 章1-14数据分析基础基于Python的实现2023/4/162023/4/16创建创建创建创建JupyterNotebookJupyterNotebook文件文件文件文件 1.2 Python的初步使用使用使用JupyterNoteboo编写代码编写代码l在in后的代码框(称为“cell”)中可输入代码。点击“运行”按钮或使用组合键,即可运行该代码,运行结果会在代码块的下面显示,其中out内的数字表示第几次运行输出l要增加新的代码编辑框,可以点击“+”或“Insert”,可以在上方或下方增加代码编辑框,即可继续编写代码在在在在JupyterNotebooJupyterNoteboo中编写代码中编写代码中编写代码中编写代码第 1 章1-15数据分析基础基于Python的实现2023/4/162023/4/16保存保存保存保存JupyterNotebookJupyterNotebook文件文件文件文件l要保存编写的代码,常用的有两种格式:一种是JupyterNotebook的专属文件格式,另一种是Python格式l要保存成Jupyter Notebook格式,在文件界面中点击file菜单,选择Save andCheckpoint,文件会自动保存在默认路径下,文件的扩展名为ipynbl如果要保存在自己的文件夹中,可以在桌面上先建立一个文件夹,比如,Python_code,进入Jupyter Notebook后,点击“Desktop”就能显示你的文件夹Python_code,点击该文件夹,并点击右上角的New按钮,选择Python3,即可以创建一个Python文件,这个文件就会自动保存至文件夹Python_code中l要保存成Python文件,点击file菜单,选择Downloadas下的Python(.py),文件会自动保存在默认路径下 1.2 Python的初步使用使用使用JupyterNoteboo编写代码编写代码第 1 章1-16数据分析基础基于Python的实现2023/4/162023/4/16SpyderSpyder界面界面界面界面l该界面类似于Rstudiol在Windows开始窗口找到点后在子目录中找到Spyder,点击后即可打开Spyder界面lSpyder界面由多个窗格组成,使用者可根据需要调整位置和大小 1.2 Python的初步使用Anaconda的另一个界面的另一个界面第 1 章1-17数据分析基础基于Python的实现2023/4/162023/4/16保存保存保存保存JupyterNotebookJupyterNotebook文件文件文件文件lPython中的模块(module)或称为库(package)是指包含Python类、函数等信息的集合,可以看作一个工具包l大部分统计分析和绘图都可以使用已有的Python模块中的函数来实现l一个Python模块中可能包含多个函数,能做多种分析和绘图,对于同一问题的分析或绘图,也可以使用不同模块中的函数来实现,用户可以根据个人需要和偏好选择所用的模块。模块的下载与安装可以在Python中进行,也可以在Anaconda中进行,这取决于你使用是操作平台或环境l在最初安装Python软件时,自带了一序列内置模块,如time,random,sys,os,json,pickle,shelve,xml,re,logging等l除内置模块外,Python还提供了丰富的开源的第三方模块,统计常用的模块有数值计算模块numpy,数据处理模块pandas,作图模块matplotlib,统计计算模块statistics,统计建模模块statsmodelsl内置模块与第三方模块都需要导入这些模块才能使用其中的函数 1.2 Python的初步使用模块的安装与加载模块的安装与加载第 1 章1-18数据分析基础基于Python的实现2023/4/162023/4/16使用使用使用使用PythonPython安装安装安装安装lpip工具是Python自带的第三方安装工具,在python安装过程中已经安装完成,无需独立安装。如果安装Python时成功将其加入PATH,就可以在操作系统终端直接使用pipinstall命令安装第三方模块。Windows系统的操作是,同时按下电脑上的win+R键,在左下角弹出的运行窗口输入“cmd”即可打开终端。MacOS直接打开Terminal即可使用使用使用使用AnacondaAnaconda安装安装安装安装l使用Anaconda中的conda进行包的管理和环境管理。安装模块需要在AandondaPrompt中输入命令。点击Windows的“开始”按钮,在Anaconda点击AandondaPrompt,在打开的界面中输入安装命令即可完成安装。比如,要安装模块pandas,输入condainstall即可完成安装 1.2 Python的初步使用模块的安装与加载模块的安装与加载第 1 章1-19数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用查看帮助文件查看帮助文件help(sum)#help(sum)#查查看看看看sumsum函数的帮助信息函数的帮助信息函数的帮助信息函数的帮助信息help(help(randomrandom)#)#查查看模看模看模看模块块randomrandom的帮助信息的帮助信息的帮助信息的帮助信息#或或或或importrandom#importrandom#导导入入入入randomrandom模模模模块块help(random)#help(random)#查查看模看模看模看模块块randomrandom的信息的信息的信息的信息help(random.gauss)#help(random.gauss)#查查看模看模看模看模块块randomrandom中中中中gaussgauss函数的信息函数的信息函数的信息函数的信息第 1 章1-20数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用编写代码脚本编写代码脚本x=80,87,98,73,100#x=80,87,98,73,100#将将将将5 5个数据个数据个数据个数据组组成的列表成的列表成的列表成的列表赋值给对赋值给对象象象象x xd=example1_1#d=example1_1#将数据框将数据框将数据框将数据框example1_1example1_1赋值给对赋值给对象象象象y ys=sum(x)#s=sum(x)#计计算算算算对对象象象象x x的的的的总总和并和并和并和并赋值给对赋值给对象象象象s sn=len(x)#n=len(x)#计计算算算算对对象象象象xx的元素个数并的元素个数并的元素个数并的元素个数并赋值给对赋值给对象象象象n nm=s/n#m=s/n#计计算算算算对对象象象象xx的平均数并的平均数并的平均数并的平均数并赋值给对赋值给对象象象象mm第 1 章1-21数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用变量命名变量命名PythonPython的变量命名规则的变量命名规则的变量命名规则的变量命名规则l1.标识符可以由字母、数字、下画线(_)组成,其中数字不能打头。字母并不局限于26个英文字母,可以包含中文字符等。l2.Python语言区分大小写,因此abc和Abc是两个不同的标识符。l3.标识符不能包含空格。l另外,Python有33个关键字,如表1-1所示。这些关键字在语法中有特定的含义和功能,不能作为变量名anddelglobalnonlocalwhileaselififnotwithassertelseimportoryieldbreakexpect inpassFALSEclassfinallyisraiseTRUEcontinueforlambdareturndeffromNonetry第 1 章1-22数据分析基础基于Python的实现2023/4/162023/4/16PythonPython的的的的6 6种数据结构种数据结构种数据结构种数据结构lython3中有6种基本的数据结构或称数据类型,分别是数数字字(number)、字字符符串串(string)、元元组组(tuple)、列列表表(list)、字字典典(dictionary)、集合(set),这6种数据类型通过不同的组成方式和定义可以产生更多的类型l使用内置函数type()可以查看数据的类型 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构第 1 章1-23数据分析基础基于Python的实现2023/4/162023/4/16数字数字l数字用于储存数值。Python3支持4种类型的数字,即int(整数类型)、float(浮点类型,即取小数的数字)、bool(布尔类型,是只取True和False两个值的逻辑型数字,也可以用0和1表示)、complex(复数类型)字符串字符串l由数值、字母、下划线组成的遗传字符。可以使用单引号()、双引号()或三引号()指定字符串,使用“+”连接两个字符串元组元组l元组是一维序列,其定长是固定的、不可变的,内容不能修改,通常用“()”标识,元素之间用“,”分隔 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构第 1 章1-24数据分析基础基于Python的实现2023/4/162023/4/16列表列表l列表也是一维序列,与元组不同的是其长度是可变的,它所包含的内容也可以进行修改l列表中的元素可以是相同类型,也可以是不同类型,元素之间用逗号分隔,使用中括号“”或list类型函数可以创建列表 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构列表列表第 1 章1-25数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构列表列表创建列表创建列表a=2,3,4,5#a=2,3,4,5#生成同生成同生成同生成同类类型元素的列表型元素的列表型元素的列表型元素的列表2,3,4,52,3,4,5b=b=甲甲甲甲,乙乙乙乙,丙丙丙丙,丁丁丁丁#元素同元素同元素同元素同为为字符串的列表字符串的列表字符串的列表字符串的列表 甲甲甲甲,乙乙乙乙,丙丙丙丙,丁丁丁丁 c=c=甲甲甲甲,23,True,1,2,3#,23,True,1,2,3#不同不同不同不同类类型元素的列表型元素的列表型元素的列表型元素的列表 甲甲甲甲,23,True,1,2,3,23,True,1,2,3d=list(range(10)#d=list(range(10)#用用用用rangerange函数生成等差数列,起始函数生成等差数列,起始函数生成等差数列,起始函数生成等差数列,起始为为0 0,步,步,步,步长为长为1 10,1,2,3,4,5,6,7,8,90,1,2,3,4,5,6,7,8,9e=list(range(100,200,20)#e=list(range(100,200,20)#在在在在100200100200之之之之间间生成数列,步生成数列,步生成数列,步生成数列,步长为长为2020100,120,140,160,180100,120,140,160,180第 1 章1-26数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构列表列表列表的操作列表的操作#向列表追加或插入元素向列表追加或插入元素向列表追加或插入元素向列表追加或插入元素a.append(6)#a.append(6)#将数字将数字将数字将数字6 6追加到列表追加到列表追加到列表追加到列表a a的尾部的尾部的尾部的尾部a a2,3,4,5,62,3,4,5,6b.insert(2,b.insert(2,戊戊戊戊)#在在在在列列列列表表表表b b的的的的第第第第3 3个个个个位位位位置置置置插插插插入入入入“戊戊戊戊”(插插插插入入入入位位位位置置置置的的的的范范范范围围从从从从0 0到列表到列表到列表到列表长长度)度)度)度)b b 甲甲甲甲,乙乙乙乙,戊戊戊戊,丙丙丙丙,丁丁丁丁#移除列表中特定位置的元素并返回移除列表中特定位置的元素并返回移除列表中特定位置的元素并返回移除列表中特定位置的元素并返回b.pop(2)#b.pop(2)#移除列表移除列表移除列表移除列表b b中第中第中第中第3 3个位置的元素并返回个位置的元素并返回个位置的元素并返回个位置的元素并返回b b 甲甲甲甲,乙乙乙乙,丁丁丁丁#连连接两个列表接两个列表接两个列表接两个列表ab=a+b#ab=a+b#将列表将列表将列表将列表a a和列表和列表和列表和列表b b连连接成一个新列表接成一个新列表接成一个新列表接成一个新列表abab2,3,4,5,2,3,4,5,甲甲甲甲,乙乙乙乙,丙丙丙丙,丁丁丁丁#列表元素的排序列表元素的排序列表元素的排序列表元素的排序f=2,3,4,5,2,8#f=2,3,4,5,2,8#创创建列表建列表建列表建列表f ff.sort()#f.sort()#列表元素的排序列表元素的排序列表元素的排序列表元素的排序f f2,2,3,4,5,82,2,3,4,5,8g=g=甲甲甲甲,乙乙乙乙,戊戊戊戊,丙丙丙丙,丁丁丁丁#创创建列表建列表建列表建列表g gg.sort()#g.sort()#列表元素的排序(按拼音字母列表元素的排序(按拼音字母列表元素的排序(按拼音字母列表元素的排序(按拼音字母顺顺序)序)序)序)g g 丁丁丁丁,丙丙丙丙,乙乙乙乙,戊戊戊戊,甲甲甲甲 第 1 章1-27数据分析基础基于Python的实现2023/4/162023/4/16字典字典l字典是Python最重要的内置结构之一,它是大小可变的键值对集,其中键(key)和值(value)都是Python对象l字典中的元素用大括号 括起来,用“:”分割键和值,不同的键值组合之间用“,”分隔l用大括号“”或dict函数可以创建字典,其形式如下:dictionary=key1:value1,key2:value2,#或者写成:dictionary=dict(key1=value1,key2=value2,)l与列表类似,字典也有很多操作方法 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构字典字典第 1 章1-28数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构字典字典字典的操作字典的操作#用大括号用大括号用大括号用大括号创创建字典建字典建字典建字典dc1=dc1=刘刘刘刘文文文文涛涛涛涛:68,:68,王王王王宇宇宇宇翔翔翔翔:85,:85,田田田田思思思思雨雨雨雨:74,:74,徐徐徐徐丽丽娜娜娜娜:88,:88,丁丁丁丁文文文文彬彬彬彬:63:63#5 5名名名名学生考学生考学生考学生考试试分数的字典分数的字典分数的字典分数的字典dc1dc1 刘文涛刘文涛刘文涛刘文涛:68,:68,王宇翔王宇翔王宇翔王宇翔:85,:85,田思雨田思雨田思雨田思雨:74,:74,徐徐徐徐丽丽娜娜娜娜:88,:88,丁文彬丁文彬丁文彬丁文彬:63:63#用用用用dictdict函数函数函数函数创创建字典建字典建字典建字典dc2=dict(dc2=dict(刘刘刘刘文文文文涛涛涛涛=68,=68,王王王王宇宇宇宇翔翔翔翔=85,=85,田田田田思思思思雨雨雨雨=74,=74,徐徐徐徐丽丽娜娜娜娜=88,=88,丁丁丁丁文文文文彬彬彬彬=63)=63)#5 5名学生考名学生考名学生考名学生考试试分数的字典分数的字典分数的字典分数的字典dc2dc2 刘文涛刘文涛刘文涛刘文涛:68,:68,王宇翔王宇翔王宇翔王宇翔:85,:85,田思雨田思雨田思雨田思雨:74,:74,徐徐徐徐丽丽娜娜娜娜:88,:88,丁文彬丁文彬丁文彬丁文彬:63:63#以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典dc1dc1中的中的中的中的键键dc1.keys()dc1.keys()dict_keys(dict_keys(刘文涛刘文涛刘文涛刘文涛,王宇翔王宇翔王宇翔王宇翔,田思雨田思雨田思雨田思雨,徐徐徐徐丽丽娜娜娜娜,丁文彬丁文彬丁文彬丁文彬)#以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典dc1dc1中的中的中的中的值值dc1.values()dc1.values()dict_values(68,85,74,88,63)dict_values(68,85,74,88,63)#以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典以列表的形式返回字典dc1dc1中的中的中的中的键值对键值对dc1.items()dc1.items()dict_items(dict_items(刘刘刘刘文文文文涛涛涛涛,68),68),(王王王王宇宇宇宇翔翔翔翔,85),85),(田田田田思思思思雨雨雨雨,74),74),(徐徐徐徐丽丽娜娜娜娜,88),88),(丁丁丁丁文文文文彬彬彬彬,63),63)#返回(返回(返回(返回(查询查询)字典)字典)字典)字典dc1dc1中中中中键键k k上的上的上的上的值值dc1dc1徐徐徐徐丽丽娜娜娜娜#返回徐返回徐返回徐返回徐丽丽娜(娜(娜(娜(键键)的分数)的分数)的分数)的分数8888#删删除字典除字典除字典除字典dc1dc1中的某个中的某个中的某个中的某个键值对键值对deldc1deldc1田思雨田思雨田思雨田思雨 dc1dc1 刘文涛刘文涛刘文涛刘文涛:68,:68,王宇翔王宇翔王宇翔王宇翔:85,:85,徐徐徐徐丽丽娜娜娜娜:88,:88,丁文彬丁文彬丁文彬丁文彬:63:63第 1 章1-29数据分析基础基于Python的实现2023/4/162023/4/16集合集合l集合是由唯一元素组成的无序集,可看成是只有键没有值的字典l集合中的元素是无序的,不记录元素的位置,因此不支持索引、切片等类似序列的操作,只能遍历或使用in、not in等访问或判断集合元素l使用set()函数或大括号“”的方式等可以创建集合,一个空集合必须使用set()创建 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构集合集合第 1 章1-30数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构集合集合集合的操作集合的操作#使用使用使用使用setset函数函数函数函数创创建集合建集合建集合建集合set1=set(2,2,2,1,8,3,3,5,5)set1=set(2,2,2,1,8,3,3,5,5)set1set11,2,3,5,81,2,3,5,8#使用大括号使用大括号使用大括号使用大括号创创建集合建集合建集合建集合set2=2,2,2,1,4,3,3,5,6,6set2=2,2,2,1,4,3,3,5,6,6set2set21,2,3,4,51,2,3,4,5#两个集合的并集(两个集合中不同元素的集合)两个集合的并集(两个集合中不同元素的集合)两个集合的并集(两个集合中不同元素的集合)两个集合的并集(两个集合中不同元素的集合)set1|set2#set1|set2#或写成或写成或写成或写成set1.union(set2)set1.union(set2)1,2,3,4,5,6,81,2,3,4,5,6,8#两个集合的交集(两个集合中同两个集合的交集(两个集合中同两个集合的交集(两个集合中同两个集合的交集(两个集合中同时时包含的元素)包含的元素)包含的元素)包含的元素)set1&set2#set1&set2#或写成或写成或写成或写成set1.intersection(set2)set1.intersection(set2)1,2,3,51,2,3,5第 1 章1-31数据分析基础基于Python的实现2023/4/162023/4/16数组数组lnumpy是numerical python的简称,它是Python中数值计算的最重要的基础模块。其他一些模块也都提供了基于numpy的函数功能ln维数组(ndarray)是numpy模块中定义的对象,它可以是一维、二维和多维,数组中元素类型是数值型ln维数组由实际数据和描述这些数据的元数据(数据维度,数据类型等)组成,一般要求所有元素类型相同,数组下标从0开始l一维数组就是通常所说的向量(vector),二维数组就是通常所说的矩阵。可以通过构造函数array创建n维数组,也可以使用numpy中的其他函数如arange函数、ones函数以及zeros函数等创建n维数组 1.3 PythonPython的数据处理的数据处理numpy中的数组中的数组第 1 章1-32数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理numpy中的数组中的数组数组的操作数组的操作#创创建一建一建一建一维维数数数数组组(向量)(向量)(向量)(向量)importnumpyasnpimportnumpyasnpa1=np.array(5,4,1,2,3)#a1=np.array(5,4,1,2,3)#使用使用使用使用arrayarray函数函数函数函数创创建数建数建数建数组组a2=np.arange(10)#a2=np.arange(10)#使用使用使用使用rangerange函数生成等差数列,起始函数生成等差数列,起始函数生成等差数列,起始函数生成等差数列,起始为为0 0,步,步,步,步长为长为1 1a3=np.arange(2,6,0.5)#a3=np.arange(2,6,0.5)#使用使用使用使用arangearange函数在函数在函数在函数在2626之之之之间间生成步生成步生成步生成步长为长为0.50.5的等差序列的等差序列的等差序列的等差序列print(a1=,a1)#print(a1=,a1)#输输出出出出结结果果果果print(a2=,a2)print(a2=,a2)print(a3=,a3)print(a3=,a3)a1:54123a2:0123456789a3:2.2.53.3.54.4.55.5.5#创创建二建二建二建二维维数数数数组组(矩(矩(矩(矩阵阵)a4=np.array(1,2,3,4,5,6)#a4=np.array(1,2,3,4,5,6)#创创建建建建2 233的矩的矩的矩的矩阵阵a4a4array(1,2,3,4,5,6)第 1 章1-33数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理numpy中的数组中的数组数组的操作数组的操作#改改改改变变数数数数组组的形状的形状的形状的形状importnumpyasnpimportnumpyasnpa5=np.arange(12)#a5=np.arange(12)#创创建一建一建一建一维维数数数数组组a6=a5.reshape(3,4)#a6=a5.reshape(3,4)#改改改改变变数数数数组为组为3 344的二的二的二的二维维数数数数组组(矩(矩(矩(矩阵阵)a6a6array(0,1,2,3,4,5,6,7,8,9,10,11)#数数数数组组的其他操作(的其他操作(的其他操作(的其他操作(读读者自己运行代者自己运行代者自己运行代者自己运行代码查码查看看看看结结果)果)果)果)a6.ndim#a6.ndim#查查看数看数看数看数组组a6a6的的的的维维度度度度a6.shape#a6.shape#查查看数看数看数看数组组a6a6的形状的形状的形状的形状a6.dtype#a6.dtype#查查看数看数看数看数组组a6a6的数据的数据的数据的数据类类型型型型a6.astype(float)#a6.astype(float)#改改改改变变数数数数组组a6a6的数据的数据的数据的数据类类型型型型为为浮点数浮点数浮点数浮点数a62#a62#访问访问数数数数组组a6a6中的第中的第中的第中的第3 3组组元素(索引从元素(索引从元素(索引从元素(索引从0 0开始)开始)开始)开始)a35#a35#访问访问数数数数组组a3a3中的第中的第中的第中的第6 6个元素(索引从个元素(索引从个元素(索引从个元素(索引从0 0开始)开始)开始)开始)a1.sort()#a1.sort()#对对数数数数组组a1a1中的元素排序中的元素排序中的元素排序中的元素排序注:注:int表示整数,如表示整数,如int32表示表示32数位整数;数位整数;int64表示表示64数位整数。数位整数。float表表示示浮浮点点数数,如如float32(代代码:f4或或f)表表示示标准准单精精度度浮浮点点数数;float64(代代码:f8或或d)表表示示标准准双双精精度度浮浮点点数数;float128(代代码:f16或或g)表表示示拓拓展展精度浮点数。精度浮点数。第 1 章1-34数据分析基础基于Python的实现2023/4/162023/4/16序列序列lpandas是Python中的核心数据分析库,它提供了两种数据结构,即序列(serise)和数据框(data frame)。这里主要介绍序列和数据框的创建及其一些简单操作l序列类似于一维数组,不同的是它由索引(ndex)和一维数值(values)组成l序列可以储存整数、浮点数、字符、Python对象等多种类型的数据,但一个序列最好只存储一种类型的数据,若存在多种数据类型,该序列的类型会自动转换成对象(object)l使用构造函数Series函数可创建序列,使用前需要导入pandas库 1.3 PythonPython的数据处理的数据处理pandas中的序列和数据框中的序列和数据框序列序列第 1 章1-35数据分析基础基于Python的实现2023/4/162023/4/16 1.3 PythonPython的数据处理的数据处理pandas中的序列和数据框中的序列和数据框序列序列创建序列创建序列importpandasaspdimportpandasaspds1=pd.Series(2,3,4,5)#s1=pd.Series(2,3,4,5)#省略索引省略索引省略索引省略索引时时自自自自动动生成索引生成索引生成索引生成索引0202131324243535dtype:int64dtype:int64s2=pd.Series(5,8,