《统计学—基于R》(01)第1章--数据与R(R3).pptx
《《统计学—基于R》(01)第1章--数据与R(R3).pptx》由会员分享,可在线阅读,更多相关《《统计学—基于R》(01)第1章--数据与R(R3).pptx(79页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析数据分析(方法与案例方法与案例)作者 贾俊平 版权所有 违者必究统计学统计学R R 语言语言第第1章章数据与数据与R1.1数据与统计学数据与统计学1.2R的初步使用的初步使用1.3创建创建R数据数据1.4编写编写R函数函数1.5R的图形控制和布局的图形控制和布局1-1-3 3统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25R语言语言l l一一种种自自由由软软件件编编程程语语言言,主主要要用用于于统统计计分分析析、绘绘图图、数据挖掘数据挖掘l l最最初初由由新新西西兰兰奥奥克克兰兰大大学学的的R Ross oss IhakaIhaka
2、和和R Robert obert GentlemanGentleman开开发发(也也因因此此成成为为R R)。现现在在由由“R R开开发发核核心心团队团队”负责开发负责开发l lR R 全称:全称:英文英文名:名:The R Programming LanguageThe R Programming Language 中文名:中文名:R R 语言语言一种统计计算语言一种统计计算语言l l最新版本(最新版本(20182018年年7 7月):月):3.5.13.5.1l l共有包:共有包:1 1万万3 3千多个千多个1.1数据与统计学数据与统计学1.1.1什么是统计学什么是统计学1.1.2变量与数
3、据变量与数据1.1.3数据的来源数据的来源第第1章章数据数据与与R1-1-5 5统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25什么是统计学什么是统计学(statistics)收集、处理、分析、解释数据并从数据中得出结论的科学收集、处理、分析、解释数据并从数据中得出结论的科学 1.1.2变量与数据变量与数据1.1数据及其来源数据及其来源1-1-7 7统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变量与数据变量与数据l变量(variable)n n描述所观察对象某种特征的概念描述所观察对
4、象某种特征的概念 l l观观察察一一个个企企业业的的销销售售额额,这这个个月月和和上上个个月月有有所所不不同同;观观察察股股票票市市场场上上涨涨股股票票的的家家数数,今今天天与与昨昨天天数数量量不不一一样样;观观察察一一个个班班学学生生的的生生活活费费支支出出,一一个个人人和和另另一一个个人人不不一一样样;投投掷掷一一枚枚骰骰子子观观察察其其出出现现的的点点数数,这这次次投投掷掷的的结结果果和下一次也不一样和下一次也不一样l l“企企业业销销售售额额”、“上上涨涨股股票票的的家家数数”、“生生活活费费支支出出”、“投掷一枚骰子出现的点数投掷一枚骰子出现的点数”等就是变量等就是变量l数据(dat
5、a)n n变量的观测结果变量的观测结果1-1-8 8统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变量分类变量分类l类别变量类别变量类别变量类别变量(categorical variable)categorical variable)n n取取值值为为事事物物属属性性或或类类别别以以及及区区间间值值的的变变量量,也也称称分分分分类类类类变变变变量量量量(classified variable)(classified variable)或或定性变量定性变量定性变量定性变量(qualitative variable)(qualitative
6、variable)n n如如,性性别别、公公司司所所属属的的行行业业、用用户户对对商商品品的的评评价价,学学生生月月生生活活费费支支出出的的档档次次分分为为10001000以以下下、1000150010001500、1500200015002000、20002000以上以上4 4档档n n类别变量根据取值是否有序分为两种类别变量根据取值是否有序分为两种l l名名名名义义义义(n(nominal)ominal)值值值值类类类类别别别别变变变变量量量量也也称称无无无无序序序序类类类类别别别别变变变变量量量量,取取值值是不能排序是不能排序l l顺顺顺顺序序序序(ordinal)(ordinal)值值
7、值值类类类类别别别别变变变变量量量量也也称称有有有有序序序序类类类类别别别别变变变变量量量量,取取值值间间可以排序可以排序1-1-9 9统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变量分类变量分类l数值变量数值变量(metric variable)n取取值值为为数数字字的的变变量量,也也称称定定定定量量量量变变变变量量量量(quantitative(quantitative variable)variable)n观察结果称为观察结果称为数值数据数值数据数值数据数值数据(metric data)(metric data)n根根 据据 其其
8、 取取 值值 不不 同同,分分 为为 离离离离 散散散散 变变变变 量量量量(discrete(discrete variable)variable)和和连连连连续续续续变变变变量量量量(continuous(continuous variable)variable)。离离散散型型变变量量是是只只能能取取有有限限个个值值是是变变量量。连连续续型型变变量是可以在一个或多个区间中取任何值的变量。量是可以在一个或多个区间中取任何值的变量。1-1-1010统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25变量分类变量分类1.1.3数据的来源数据的来源
9、1.1数据及其来源数据及其来源1-1-1212统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25数据的来源数据的来源l寻找二手数据l抽取样本n n总总体体(population)(population):包包含含所所研研究究的的全全部部个个体体(或数据或数据)的集合的集合n n样样本本(sample)(sample):从从总总体体中中抽抽取取的的一一部部分分元元素素的集合的集合n n样样本本量量(sample(sample size)size):构构成成样样本本的的元元素素的的数数目目l概率抽样方法1-1-1313统计学统计学基于基于基于基于
10、 R R(第第第第 3 3 版版版版)2018-9-252018-9-25概率抽样概率抽样(probabilitysampling)l根据已知的概率抽取样本单位,也称随机抽样l特点n n按一定的概率以随机原则抽取样本按一定的概率以随机原则抽取样本抽抽取取样样本本时时使使每每个个单单位位都都有有一一定定的的机机会会被被抽中抽中n n每个单位被抽中的概率已知每个单位被抽中的概率已知1-1-1414统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25简单随机抽样简单随机抽样(simplerandomsampling)l从从总总体体N N个个单单位位(
11、元元素素)中中随随机机地地抽抽取取n n个个单单位位作作为为样样本本,使使得得总总总总体体体体中中中中每每每每一一一一个个个个元元元元素素素素都都有有相相同同的的机机会会(概率概率)被抽中被抽中 l抽取元素的具体方法有放回抽样和无放回抽样抽取元素的具体方法有放回抽样和无放回抽样l特点特点n n简单、直观,在抽样框完整时,可直接从中抽取样本简单、直观,在抽样框完整时,可直接从中抽取样本n n用样本统计量对目标量进行估计比较方便用样本统计量对目标量进行估计比较方便l局限性局限性n n当当N N很大时,不易构造抽样框很大时,不易构造抽样框n n抽出的单位很分散,给实施调查增加了困难抽出的单位很分散,
12、给实施调查增加了困难n n没有利用其他辅助信息以提高估计的效率没有利用其他辅助信息以提高估计的效率1-1-1515统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25简单随机样本简单随机样本(simplerandomsample)l由简单随机抽样形成的样本l从总体N个单位中随机地抽取n个单位作为样本,使得每每一一个个容容量量为为n样样本本都有相同的机会(概率)被抽中 l参数估计和假设检验所依据的主要是简单随机样本1-1-1616统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25分层抽样分层抽样
13、(stratifiedsampling)l将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本l优点n n保保证证样样本本的的结结构构与与总总体体的的结结构构比比较较相相近近,从从而提高估计的精度而提高估计的精度n n组织实施调查方便组织实施调查方便n n既既可可以以对对总总体体参参数数进进行行估估计计,也也可可以以对对各各层层的目标量进行估计的目标量进行估计1-1-1717统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25系统抽样系统抽样(systematicsampling)l将总体中的所有单位(抽样单位)按一定顺序排列,
14、在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位n n先先从从数数字字1 1到到k k之之间间随随机机抽抽取取一一个个数数字字r r作作为为初始单位,以后依次取初始单位,以后依次取r r+k k,r r+2+2k k等单位等单位l优点:操作简便,可提高估计的精度l缺点:对估计量方差的估计比较困难1-1-1818统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25整群抽样整群抽样(clustersampling)l将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查l特点n n
15、抽样时只需群的抽样框,可简化工作量抽样时只需群的抽样框,可简化工作量n n调调查查的的地地点点相相对对集集中中,节节省省调调查查费费用用,方方便便调查的实施调查的实施n n缺点是估计的精度较差缺点是估计的精度较差1.2R的初步使用的初步使用1.2.1R的下载与安装的下载与安装1.2.2对象赋值与运行对象赋值与运行1.2.3查看查看帮助文件帮助文件1.2.4包的安装与加载包的安装与加载第第1章章数据数据与与R1.2.1R的下载与安装的下载与安装1.2R的初步使用的初步使用1-1-2121统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25R的下载
16、与安装的下载与安装1-1-2222统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25启动启动R的开始界面的开始界面#启动启动R出现的开始界面出现的开始界面(3.5.1版本版本)R R命令要在命令提示符命令要在命令提示符命令要在命令提示符命令要在命令提示符“”后输入,每次执行一条命令后输入,每次执行一条命令后输入,每次执行一条命令后输入,每次执行一条命令 1.2.2对象赋值与运行对象赋值与运行1.2R的初步使用的初步使用1-1-2424统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25为对象赋
17、值并运行为对象赋值并运行#R#R的运行的运行#R#R运行的是一个对象,在运行前需要给对象赋值运行的是一个对象,在运行前需要给对象赋值。标准赋值符号“-”#对对对象对象x x进行各种计算和进行各种计算和绘图绘图 x-8#将数据8赋值给对象x y-c(80,87,98,73,100)#将5个数据赋值给对象y z-example1_1#将数据框example1_1赋值给对象z sum(y)#计算对象y的总和 mean(y)#计算对象y的平均数 var(y)#计算对象y的方差barplot(y,xlab=类别,ylab=计数,ylim=c(0,1.1*max(y),col=c(1:5)text(bar
18、,y,labels=y,pos=3,col=1)#绘制对象y的条形图,并增加数值标签。x轴标签为“类别”,y轴标签为“计数”,每个条的颜色为R颜色系中的15种颜色。1.2.3查看帮助文件查看帮助文件1.2R的初步使用的初步使用1-1-2626统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25查看查看R函数的帮助文件函数的帮助文件#R软件中的每个函数都有相应的帮助说明,使用中遇到疑问时,可以随时查看帮助文件#比如,要想了解mean函数的功能和使用方法,使用help命令查询该函数(必须在联网状态下),命令为:#或者使用help的简写形式,在函数名
19、前加“?”符号?mean?mean#R就会输出mean()函数的具体说明,包括函数中参数设定、结果结构、使用例子等内容。当对一个函数不太清楚时,可以得到很大的帮助help(mean)help(mean)1.2.4包的安装与加载包的安装与加载1.2R的初步使用的初步使用1-1-2828统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25R包的安装和加载包的安装和加载#包(package)指包含数据、函数的集合。截止2017年2月,R有10000多个包#在R界面中点击:帮帮助助CRANCRAN主主页页,可查看R中有多少个包以及各个包的含义#使用函数
20、library()则可以显示你的R中已经安装了哪些包#要查看包的使用说明,使用命令:#在线安装所需的包。命令为:#一次安装多个包。命令为:help(package=“package_name”)install.packages(car)#要安装car包 install.packages(c(car,vcd“,)1-1-2929统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25R包的加载和加载包的加载和加载#要使用包,需要用library()函数或或require()函数载入这个包。比如,要使用car包,执行命令:#要查看包的使用说明,使用命令
21、:#查看包stats的信息 library(car)或 require(car)help(package=package_name)help(package=stats)1-1-3030统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25本书使用的本书使用的R包包查看查看R中的中的stats包:包:?statsagricolaedoBygplotspastecssmaplpacke1071gridExtraplotrixTeachingDemosBSDAfmsbHHplyrvcdcarforecastHmiscpsychvioplotcorrg
22、ramggplot2lm.betareshapeDescToolsgmodelslsrscatterplot3d1.3创建创建R数据数据1.3.11.3.1在在在在 RR中录入数据中录入数据中录入数据中录入数据 1.3.21.3.2数据读取和保存数据读取和保存数据读取和保存数据读取和保存1.3.31.3.3数据使用和编辑数据使用和编辑数据使用和编辑数据使用和编辑1.3.41.3.4数据类型的转换数据类型的转换数据类型的转换数据类型的转换 1.2.51.2.5生成随机数生成随机数生成随机数生成随机数 1.3.61.3.6数据抽样与筛选数据抽样与筛选数据抽样与筛选数据抽样与筛选第第1章章数据数据与
23、与R1-1-3232统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25查看查看R的自带数据包的自带数据包#查看查看R R自带数据包自带数据包 data()查看汽车数据查看汽车数据:mtcars查看老忠实间歇喷泉数据查看老忠实间歇喷泉数据(OldFaithfulGeyserData):faithful查看查看泰坦尼克泰坦尼克号号数数据:据:Titanic1.3.1在在R中录入数据中录入数据1.3创建创建R数据数据1-1-3434统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25在在R中录入数据
24、中录入数据(c(c函数函数函数函数combinecombinecombinecombine:合并对象为向量:合并对象为向量:合并对象为向量:合并对象为向量)#用用c c函数产生函数产生向量:向量:录入表录入表1 1 1 1中的数据中的数据#将向量形式的数据组织成数据框形式将向量形式的数据组织成数据框形式 names-c(张青松,王宇翔,田思雨,徐丽娜,张志杰,赵颖颖,王智强,宋丽媛,袁芳芳,张建国)stat-c(68,85,74,88,63,78,90,80,58,63)math-c(85,91,74,100,82,84,78,100,51,70)mark-c(84,63,61,49,89,5
25、1,59,53,79,91)mana-c(89,76,80,71,78,60,72,73,91,85)acco-c(86,66,69,66,80,60,66,70,85,82)table1_1-data.frame(学生姓名=names,统计学=stat,数学=math,营销学=mark,管理学=mana,会计学=acco)table1_11-1-3535统计学统计学基于基于基于基于 R R(第第第第 3 3 版版版版)2018-9-252018-9-25在在R中录入数据中录入数据#将向量将向量形式的形式的数据组织成数据组织成矩阵矩阵 matrix1_1-matrix(cbind(stat,m
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学基于R 统计学 基于 01 数据 R3
限制150内