第1章数据分析与Python语言(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx
《第1章数据分析与Python语言(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx》由会员分享,可在线阅读,更多相关《第1章数据分析与Python语言(DA)教学ppt课件数据分析基础—基于Python的实现电子教案.pptx(72页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1章 数据分析与Python语言(DA)教学课件数据分析基础基于Python的实现 电子教案第 1 章1-2数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/4/16数据分析基础数据分析基础贾俊平俊平2023/4/162023/4/16FundamentalsofdataFundamentalsofdataanalysiswithPythonanalysiswithPython基于基于 Python 的实现的实现第 1 章1-3数据分析基础基于Python的实现2023/4/162023/4/16贾俊平俊平2023/4/162023/
2、4/161.1 数据分析概述1.2 Python 的初步使用1.3 Python的数据处理1.4 Python 绘图基础第 1 章 数据分析与Python语言 第 1 章1-4数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析方法数据分析方法什么是数据分析什么是数据分析l l数数数数据据据据分分分分析析析析(datadataanalysisanalysis)是运用统计方法对收集来的数据进行分析,从中提取有用信息并得出结论的过程l数据分析的目的是把隐藏在数据中的信息有效地提炼出来,从而找出所研究对象的内在规律和特征l在实际应用中,数据分析可帮助人
3、们做出判断和决策,以便采取适当行动第 1 章1-5数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析方法数据分析方法数据分析分类数据分析分类l l从从从从分分分分析析析析目目目目的的的的看看看看 可以将数据分析分为描描述述性性分分析析(descriptive analysis)、探探索索性性分分析析(exploratory analysis)和验验证证性性分分析析(confirmatory analysis)三大类。其中,描述性分析和是对数据进行初步的整理、展视和概括性度量,以找出数据的基本特征;探索性分析侧重于在数据之中发现新的特征,为形成某
4、种理论或假设而对数据进行的分析;验证性分析则侧重于对已有理论或假设的证实或证伪。l l从从从从 所所所所 使使使使 用用用用 的的的的 统统统统 计计计计 分分分分 析析析析 方方方方 法法法法 看看看看 可 大 致 可 分 为 描描 述述 统统 计计(descriptive statistics)和推推断断统统计计(inferential statistics)两大类。描述统计主要是利用图表形式对数据进行汇总和展示,计算一些简单的统计量(诸如比例、比率、平均数、标准差等)进行分析。推断统计主要是根据样本信息来推断总体的特征,内容包括参数估计和假设检验等。参数估计是利用样本信息推断所关心的总体
5、特征,假设检验则是利用样本信息判断对总体的某个假设是否成立数据分析方法数据分析方法从分析目的看从分析目的看描述性分析描述性分析探索性分析探索性分析验证性分析性分析从从统计方法看方法看描述描述统计推断推断统计第 1 章1-6数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析工具数据分析工具软件分类软件分类商业软件和非商业软件商业软件和非商业软件l l商商商商业业业业软软软软件件件件不不不不推推推推荐荐荐荐使使使使用用用用 商业类软件种类繁多,较有代表性的软件有SAS、SPSS、Minitab、Stata等。多数人较熟悉的Excel虽然不是统计软件
6、,但提供了一些常用的统计函数以及数据分析工具l这类软件虽有不同的侧重点,但功能大同小异,基本上能满足大多数人做数据分析的需要。商业类软件使用相对简单,容易上手l主要问题是价格不菲,多数人难以接近,此外,更新速度慢,难以提供最新方法的解决方案第 1 章1-7数据分析基础基于Python的实现2023/4/162023/4/16 1.1 数据分析概述数据分析工具数据分析工具软件分类软件分类商业软件和非商业软件商业软件和非商业软件l l非非非非商商商商业业业业软软软软件件件件推推推推荐荐荐荐使使使使用用用用 非商业类软件则不存在价格问题。目前较为流行的软件有R语言和Python语言,二者都是免费的开
7、源平台lR语言的一种优秀的统计软件,它是一种统计计算语言。R语言不仅支持各个主要计算机系统,还有诸多优点,比如,更新速度快,可以包含最新方法的解决方案;提供丰富的数据分析和可视化技术,功能十分强大。此外,R软件中的包(package)和函数均由统计专家编写,函数中参数的设置也更符合统计和数据分析人员的思维方式和逻辑,并有强大的帮助功能和多种范例,初学者也很容易上手lPython则是一种面向对象的解释型高级编程语言,并拥有丰富而强大的开源第三方库,也具有强大的数据分析可视化功能。Python于R的侧重点略有不同,R的主要功能是数据分析和可视化,且功能强大,多数分析都可以由R提供的函数实现,不需要
8、太多的编程,代码简单,容易上手。Python的侧重点则是编程,具有很好的普适性,但数据分析并不是其侧重点,虽然从理论上说都可以实现,但往往需要编写很长的代码,帮助功能也不够强大,这对数据分析的初学者来说可能显得麻烦,但仍然不失为一种有效的数据分析工具第 1 章1-8数据分析基础基于Python的实现2023/4/162023/4/16l变量变量(variable)观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家
9、数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量l数据数据(data)变量的观测结果 1.1 数据分析概述数据及其来源数据及其来源变量和数据变量和数据变量分量分类类别变量量(定性)(定性)无序无序类别变量量(名(名义值)有序有序类别变量量(顺序序值)布布尔变量量(二(二值)数数值变量量(定量)(定量)离散离散变量量(离散(离散值)连续变量量(连续值)时间变量量(定性或定量)(定性或定量)定性:离散定性:离散值定量:定量:连续值第 1 章1-9数据分析基础基于Python的实现2023/4/162023/4/16l二手数据二手数据l抽取样本抽取样本总体(population):包含所研
10、究的全部个体(或数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目l概率抽样方法概率抽样方法根据已知的概率抽取样本元素,也称随机抽样 1.1 数据分析概述数据来源数据来源l简单随机抽样简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样l分层抽样分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本l系统抽样系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然
11、后按事先规定好的规则确定其他样本元素l整群抽样整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查第 1 章1-10数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用Python的下载与安装的下载与安装第 1 章1-11数据分析基础基于Python的实现2023/4/162023/4/16l lPythonPython安装安装安装安装 1.2 Python的初步使用Python的安装的安装l l编写编写编写编写PythonPython代码代码代码代码打开IDEL在提示符“”后输入命令代码每次可以输入一
12、条命令,也可以连续输入多条命令,命令之间用分号“;”隔开命 令 输 入 完 成 后,按“Enter”键,Python软件就会运行该命令并输出相应的结果第 1 章1-12数据分析基础基于Python的实现2023/4/162023/4/16l lAnacondaAnaconda的安装的安装的安装的安装Anaconda包含了多个基本模块,如numpy,pandas,matplotlib,IPython等,安装Anaconda时,这些模块也就一并安装好了,Anaconda还内置了Jupyter Notebook开发环境,十分方便代码的编写和修改Anaconda包含了Python,直接安装即可,无序安
13、装Python本书代码编写和运行使用的就是Anaconda平台的Jupyter Notebook界面 1.2 Python的初步使用Python的安装的安装第 1 章1-13数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用Python的安装的安装第 1 章1-14数据分析基础基于Python的实现2023/4/162023/4/16创建创建创建创建JupyterNotebookJupyterNotebook文件文件文件文件 1.2 Python的初步使用使用使用JupyterNoteboo编写代码编写代码l在in后的代码框(称为“cell”
14、)中可输入代码。点击“运行”按钮或使用组合键,即可运行该代码,运行结果会在代码块的下面显示,其中out内的数字表示第几次运行输出l要增加新的代码编辑框,可以点击“+”或“Insert”,可以在上方或下方增加代码编辑框,即可继续编写代码在在在在JupyterNotebooJupyterNoteboo中编写代码中编写代码中编写代码中编写代码第 1 章1-15数据分析基础基于Python的实现2023/4/162023/4/16保存保存保存保存JupyterNotebookJupyterNotebook文件文件文件文件l要保存编写的代码,常用的有两种格式:一种是JupyterNotebook的专属文
15、件格式,另一种是Python格式l要保存成Jupyter Notebook格式,在文件界面中点击file菜单,选择Save andCheckpoint,文件会自动保存在默认路径下,文件的扩展名为ipynbl如果要保存在自己的文件夹中,可以在桌面上先建立一个文件夹,比如,Python_code,进入Jupyter Notebook后,点击“Desktop”就能显示你的文件夹Python_code,点击该文件夹,并点击右上角的New按钮,选择Python3,即可以创建一个Python文件,这个文件就会自动保存至文件夹Python_code中l要保存成Python文件,点击file菜单,选择Down
16、loadas下的Python(.py),文件会自动保存在默认路径下 1.2 Python的初步使用使用使用JupyterNoteboo编写代码编写代码第 1 章1-16数据分析基础基于Python的实现2023/4/162023/4/16SpyderSpyder界面界面界面界面l该界面类似于Rstudiol在Windows开始窗口找到点后在子目录中找到Spyder,点击后即可打开Spyder界面lSpyder界面由多个窗格组成,使用者可根据需要调整位置和大小 1.2 Python的初步使用Anaconda的另一个界面的另一个界面第 1 章1-17数据分析基础基于Python的实现2023/4/
17、162023/4/16保存保存保存保存JupyterNotebookJupyterNotebook文件文件文件文件lPython中的模块(module)或称为库(package)是指包含Python类、函数等信息的集合,可以看作一个工具包l大部分统计分析和绘图都可以使用已有的Python模块中的函数来实现l一个Python模块中可能包含多个函数,能做多种分析和绘图,对于同一问题的分析或绘图,也可以使用不同模块中的函数来实现,用户可以根据个人需要和偏好选择所用的模块。模块的下载与安装可以在Python中进行,也可以在Anaconda中进行,这取决于你使用是操作平台或环境l在最初安装Python软
18、件时,自带了一序列内置模块,如time,random,sys,os,json,pickle,shelve,xml,re,logging等l除内置模块外,Python还提供了丰富的开源的第三方模块,统计常用的模块有数值计算模块numpy,数据处理模块pandas,作图模块matplotlib,统计计算模块statistics,统计建模模块statsmodelsl内置模块与第三方模块都需要导入这些模块才能使用其中的函数 1.2 Python的初步使用模块的安装与加载模块的安装与加载第 1 章1-18数据分析基础基于Python的实现2023/4/162023/4/16使用使用使用使用PythonP
19、ython安装安装安装安装lpip工具是Python自带的第三方安装工具,在python安装过程中已经安装完成,无需独立安装。如果安装Python时成功将其加入PATH,就可以在操作系统终端直接使用pipinstall命令安装第三方模块。Windows系统的操作是,同时按下电脑上的win+R键,在左下角弹出的运行窗口输入“cmd”即可打开终端。MacOS直接打开Terminal即可使用使用使用使用AnacondaAnaconda安装安装安装安装l使用Anaconda中的conda进行包的管理和环境管理。安装模块需要在AandondaPrompt中输入命令。点击Windows的“开始”按钮,在A
20、naconda点击AandondaPrompt,在打开的界面中输入安装命令即可完成安装。比如,要安装模块pandas,输入condainstall即可完成安装 1.2 Python的初步使用模块的安装与加载模块的安装与加载第 1 章1-19数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用查看帮助文件查看帮助文件help(sum)#help(sum)#查查看看看看sumsum函数的帮助信息函数的帮助信息函数的帮助信息函数的帮助信息help(help(randomrandom)#)#查查看模看模看模看模块块randomrandom的帮助信息的帮
21、助信息的帮助信息的帮助信息#或或或或importrandom#importrandom#导导入入入入randomrandom模模模模块块help(random)#help(random)#查查看模看模看模看模块块randomrandom的信息的信息的信息的信息help(random.gauss)#help(random.gauss)#查查看模看模看模看模块块randomrandom中中中中gaussgauss函数的信息函数的信息函数的信息函数的信息第 1 章1-20数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用编写代码脚本编写代码脚本x=
22、80,87,98,73,100#x=80,87,98,73,100#将将将将5 5个数据个数据个数据个数据组组成的列表成的列表成的列表成的列表赋值给对赋值给对象象象象x xd=example1_1#d=example1_1#将数据框将数据框将数据框将数据框example1_1example1_1赋值给对赋值给对象象象象y ys=sum(x)#s=sum(x)#计计算算算算对对象象象象x x的的的的总总和并和并和并和并赋值给对赋值给对象象象象s sn=len(x)#n=len(x)#计计算算算算对对象象象象xx的元素个数并的元素个数并的元素个数并的元素个数并赋值给对赋值给对象象象象n nm=s/
23、n#m=s/n#计计算算算算对对象象象象xx的平均数并的平均数并的平均数并的平均数并赋值给对赋值给对象象象象mm第 1 章1-21数据分析基础基于Python的实现2023/4/162023/4/16 1.2 Python的初步使用变量命名变量命名PythonPython的变量命名规则的变量命名规则的变量命名规则的变量命名规则l1.标识符可以由字母、数字、下画线(_)组成,其中数字不能打头。字母并不局限于26个英文字母,可以包含中文字符等。l2.Python语言区分大小写,因此abc和Abc是两个不同的标识符。l3.标识符不能包含空格。l另外,Python有33个关键字,如表1-1所示。这些关
24、键字在语法中有特定的含义和功能,不能作为变量名anddelglobalnonlocalwhileaselififnotwithassertelseimportoryieldbreakexpect inpassFALSEclassfinallyisraiseTRUEcontinueforlambdareturndeffromNonetry第 1 章1-22数据分析基础基于Python的实现2023/4/162023/4/16PythonPython的的的的6 6种数据结构种数据结构种数据结构种数据结构lython3中有6种基本的数据结构或称数据类型,分别是数数字字(number)、字字符符串串(
25、string)、元元组组(tuple)、列列表表(list)、字字典典(dictionary)、集合(set),这6种数据类型通过不同的组成方式和定义可以产生更多的类型l使用内置函数type()可以查看数据的类型 1.3 PythonPython的数据处理的数据处理Python的基本数据结构的基本数据结构第 1 章1-23数据分析基础基于Python的实现2023/4/162023/4/16数字数字l数字用于储存数值。Python3支持4种类型的数字,即int(整数类型)、float(浮点类型,即取小数的数字)、bool(布尔类型,是只取True和False两个值的逻辑型数字,也可以用0和1表
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第1章 数据分析与Python语言DA 教学ppt课件数据分析基础基于Python的实现 电子教案 数据 分析 Python 语言 DA 教学 ppt 课件 基础 基于 实现 电子 教案
链接地址:https://www.taowenge.com/p-88333403.html
限制150内