《基于R语言的数据分析方法.docx》由会员分享,可在线阅读,更多相关《基于R语言的数据分析方法.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于 R 语言的描述性统计分析方法对于数据的基本特征,要分析数据的集中位置,分散程度,数据分布。1.1 位置的度量位置的度量指的是用来描述定量资料的集中趋势的统计量,常用的有均值、众数,中位数,百分位数等。(1) 均值均值(mean)是数据的平均是,其定义为用于描述数据的平均位置。(2) 中位数x = 1 n x ,nii=1中位数(median)定义为数据排序位于中间位置的值,即x,n为奇数 n+1 2 m = e 1 x+ x n +1,n为偶数 2 n 2 2 中位数用于描述数据中心位置的数字特征。对于对称分布的数据,均值和中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数的又
2、一显著特点是不受异常值的影响,具有稳健性。(3) 百分位数百分位数(percentile)是中位数的推广,将数据从小到大的排序后,对于0 p 1 ,则它的 p 分位数定义为:x,np不是整数 (np +1)mp = 1 (x+ x),np是整数, 2其中np 表示np 的整数部分。1.2 分散程度的度量(np )(np +1)表示数据分散程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误差。(1) 方差、标准差、变异系数方差是描述数值取值分散性的一个度量,样本方差是相对于均值的偏差平方和的平均, 记为 s 2,即其中 x 是样本的均值。s2 =1 n (x n -1ii=1- x
3、)2 ,样本方差的平方成为样本标准差,记为s ,即s21n -1n (x - x )2ii=1s =,变异系数是刻画数据相对分散的一种度量,记为CV,CV = 100 s (%) ,x它是一个无量纲的量,用百分数表示。与分散程度有关的统计量有下列数字特征: 样本校正平方和:样本未校正平方和CSS = n (xii=1- x )2 ,USS = ni=1x2 .i在 R 软件中,利用函数var()以及 sd()求样本方差和样本准差。(2) 极差与标准误差样本极差(记为R),计算公式为:R = x( n )- x(1)= max( x) - min( x) ,样本极差是描述样本分散性的数字特征,当
4、数据越分散,其极差越大。样本上、下四分位数之差成为四分位差(或半极差)记为R ,即1R = Q - Q131它是度量样本分散性的重要数字特征,特别对于具有异常值的数据,他作为分散性具有稳健性,因此它在稳健性数据分析中具有重要作用。样本标准误差(记为sm),定义为1n(n -1)n (x - x )2ii=1ns = sm1.3 分布形状的度量(1) 偏度系数样本的偏度系数(记为 g )的计算公式为1g =nn(x - x)3 =n2 m,1(n -1)(n - 2)s3i3i =1(n -1)(n - 2)s3其中 s 为标准差, m3为样本的 3 阶中心距,即m 3= 1 n (x nii=
5、1- x )3 。偏度系数是刻画数据的对称性指标,关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。(2) 峰度系数样本的峰度系数(记为 g 2 ),计算公式为n(n +1)g2 = (n -1)(n - 2)(n - 3)s4n2 (n +1)mn (x - x )4 - 3ii=1(n -1)2(n -1)2(n - 2)(n - 3),= 4- 3 (n -1)(n - 2)(n - 3)s4(n - 2)(n - 3)其中 s 为标准差, m4 为样本的 3 阶中心距,即m 4= 1 n (x nii=1- x )4 。当数据的总体分布为正态
6、分布时,峰度系数近似为0,;当分布为正态分布的尾部更分散时,峰度系数为正;否则为负。当峰度系数为正时,两侧极端数据较多,当峰度系数为负时,两侧极端数据较少。1.4 代码实现主函数:data_outline.Rdata_outline - function(x) n - length(x)m - mean(x) v - var(x)s - sd(x)me - median(x)#方差#标准差#中位数dataquan - quantile(x,probs = seq(0, 1, 0.25), na.rm = FALSE)#seq 用于确定是分位数的概率cv - 100*s/mcss - sum(x
7、-m)2) uss - sum(x2)R - max(x)-min(x)R1 - quantile(x,3/4)-quantile(x,1/4) sm - s/sqrt(n)g1 - n/(n-1)*(n-2)*sum(x-m)3)/s3#峰度系数#变异系数#样本校正平方和 #样本未校正平方和#样本极差#四分位差#标准极差#偏度系数g2 - (n*(n+1)/(n-1)*(n-2)*(n-3)*sum(x-m)4)/s4- (3*(n-1)2)/(n-2)*(n-3)下面编写一个描述性统计的函数,程序名为data_outline.R,以方便计算样本的各种描述性统计量。data.frame(N=
8、n, Mean=m, Var=v, std=s,Median=me, std_mean=sm, CV=cv, CSS=css, USS=uss, R=R, R1=R1, Skewness=g1, Kurtosis=g2,row.names=1)调用函数 data_outline.R #加载数据load(D:/RStudio/R_code/homework_analysis_stastic/RABE5.RData) write.csv(P088,file=lode_data.csv)data - read.csv(lode_data.csv,header = TRUE) data01 - dat
9、a,8#根据编写的函数进行求解source(data_outline.R)data_outline(t(data01)1.4 结果分析利用 R 软件,对 51 名职工的销售额进行统计分析,其结果见表2。从表 2 可看出,51 名职工的销售额的平均值为 121.5412,反映了销售额取值的平均水平。该批职工的销售额中位数为 119,反映了销售额的中心位置。样本方差、样本标准差、变异系数分别为 1028.509, 32.07037,26.38643%,反映了职工销售额的分散程度和变异程度。极差和标准误分别为 200.2,4.490751,反映了职工销售额的分散性程度。样本的偏度系数为 2.28209,说明职工销售额右侧更加分散,峰度系数为 7.906113,说明样本两侧极端数据较多。表 1Sales 数据描述性统计分析结果N均值中位数方差标准差CSSUSS51121.54121191028.50932.0703751425.44804810.6变异系数极差四分位差标准误偏度系数峰度系数26.38643200.219.24.4907512.282097.906113
限制150内