R语言基础培训第二讲常用统计分析(共58张).pptx
《R语言基础培训第二讲常用统计分析(共58张).pptx》由会员分享,可在线阅读,更多相关《R语言基础培训第二讲常用统计分析(共58张).pptx(58页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于基于R R的基本统计分析的基本统计分析内容提要内容提要 描述统计描述统计 频数表分析频数表分析 方差分析方差分析 t检验检验 卡方检验卡方检验 线性回归线性回归 相关分析相关分析描述分析描述分析(Descriptive statistics)描述统计就是把数据集所包含的信息加以简要地概况,描述统计就是把数据集所包含的信息加以简要地概况,如计算数据的数字特征、制作频数表和频数图等等,如计算数据的数字特征、制作频数表和频数图等等,用所获得的统计量和图表来描述数据集所反映的特用所获得的统计量和图表来描述数据集所反映的特征和规律,使得研究的问题更加简单、直观。征和规律,使得研究的问题更加简单、直观
2、。 描述性统计主要包括反映数据集中趋势的特征值描述性统计主要包括反映数据集中趋势的特征值( (比如比如平均数、中位数、众数、分位数平均数、中位数、众数、分位数) )、数据离散程度的、数据离散程度的特征值特征值( (比如方差、标准差、值域、变异系数比如方差、标准差、值域、变异系数) )和数和数据分布形态的特征值据分布形态的特征值( (比如偏度、峰度比如偏度、峰度) )。 标准差(std.dev)和标准误(SE.mean)标准差(标准差(std.dev)真实均值真实均值SE样本均值样本均值当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。 标准差(std.dev)和
3、标准误(SE.mean) 比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的身高。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。 SE.mean= std.dev / n1/2在实际的应用中,标准差主要有两点作
4、用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+1.96*SE)标准差(std.dev)和标准误(SE.mean)95% CI:假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为 152cm12cm。但有时需要表示为估计量的95%的置信区间152cm-1.96*12cm,152cm+1.96*12cm。可以解释为,如果从再从总体中抽样100次(每次抽样10个),
5、产生100个平均值,这100个平均值将有95次落在152cm-1.96*12cm,152cm+1.96*12cm这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说, 不管是学校的学生身高是怎么分布, 每次随机抽取10个求和, 抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%的分界点所对应的值刚好是1.96。Histogram of observed datayieldDensity40608010012014016018
6、00.0000.0050.0100.015峰度(Kurtosis)峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。 它是和正态分布相比较的。 Kurtosis=0 与正态分布的陡缓程度相同。 Kurtosis0 比正态分布的高峰更加陡峭尖顶 Kurtosis0 正偏差数值较大,为正偏或右偏。长尾巴拖在右边 Skewness0 负偏差数值较大,为负偏或左偏。长尾巴拖在左边计算公式:Skewness 越大,分布形态偏移程度越大频数表频数表(Frequency table)分析分析 频数表分析是对数据集按数据范围分成若干区间,频数表分析是对数据集按数据范围分成若干区间,即分成若
7、干组,求出每组组中值,各组数据用组中值代即分成若干组,求出每组组中值,各组数据用组中值代替,计算各组数据的频数,并作出频数表。替,计算各组数据的频数,并作出频数表。 频数表分析例子频数表分析例子summary(oats$yield)# 计算频数计算频数A - table(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 计算频数比例计算频数比例# 画频数表画频数表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main =
8、Frequency chart of yield)方差分析方差分析ANOVA方差分析是一种在若干组能相互比较的试验数据中,把方差分析是一种在若干组能相互比较的试验数据中,把产生变异的原因加以区分的方法与技术,其主要用途是产生变异的原因加以区分的方法与技术,其主要用途是研究外界因素或试验条件的改变对试验结果影响是否显研究外界因素或试验条件的改变对试验结果影响是否显著。著。类型:单因素方差分析类型:单因素方差分析(One-way ANOVA)、双因素方差、双因素方差分析分析(Two-way ANOVA) 。方差分析的基本模型是线性模型,并假设随机变量是独方差分析的基本模型是线性模型,并假设随机变量
9、是独立、正态和等方差的。立、正态和等方差的。方差分析是根据平方和的加和原理,利用方差分析是根据平方和的加和原理,利用 F 检验,进而检验,进而判断试验因素对试验结果的影响是否显著。判断试验因素对试验结果的影响是否显著。单因素方差分析单因素方差分析# Tukey HSD 方法方法 #install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayo
10、par chisq.test(freq,p=probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423卡方检验28x = c(100,110,80,55,14)probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-
11、value = 2.685e-11卡方检验(列联表)29yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13练习四练习四以数据以数据stu.data.csv为例,为例,试对体重做频
12、数分析。试对体重做频数分析。请分析身高是否符合正态分布?请分析身高是否符合正态分布?试分析性别对体重有无影响。试分析性别对体重有无影响。问题问题4:请检验总体平均体重与:请检验总体平均体重与60kg有无显著差有无显著差异?男生和女生的平均体重有无显著差异?异?男生和女生的平均体重有无显著差异?问题问题5:男女生比例是否符合:男女生比例是否符合 1.2 : 1.0?练习四练习四 答案答案df-read.csv(file=stu.data.csv,header=T)#问题问题1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.
13、table(A) * 100,2) # 计算频数比例计算频数比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#问题问题2shapiro.test(df$height)#问题问题3fit-aov(weight Sex,data=df)summary(fit)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#问题问题4t.test(df$weight, mu = 60, alternati
14、ve = two.sided)wt.m-subset(df$weight,df$Sex=男男)wt.f-subset(df$weight,df$Sex=女女)var.test(wt.m,wt.f) #等方差检验等方差检验t.test(wt.m,wt.f, paired=F) #问题问题5summary(df$Sex)ct-c(87, 33)pt 0),公式是有效的。公式是有效的。多项式回归多项式回归fit - lm( weight N + I(N2), data = df ) # 二次项回归模型二次项回归模型 summary( fit ) # 回归分析结果回归分析结果 plot( df$N,
15、df$weight ) # 绘制散点图绘制散点图 lines( df$N, fitted(fit) ) # 添加回归线添加回归线 添加光滑曲线添加光滑曲线require(graphics)plot(cars, main = lowess(cars)lines(cars)lines(lowess(cars), col = 2)多元线性逐步回归多元线性逐步回归最优线性回归方程为:最优线性回归方程为: y= -649.779 + 14.592y= -649.779 + 14.592x1 + 6.841x1 + 6.841x2 + 9.329x2 + 9.329x3 x3 回归方程表明:对于川农回归方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 基础 培训 第二 常用 统计分析 58
限制150内