基于R语言的数据分析方法.docx





《基于R语言的数据分析方法.docx》由会员分享,可在线阅读,更多相关《基于R语言的数据分析方法.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于 R 语言的描述性统计分析方法对于数据的基本特征,要分析数据的集中位置,分散程度,数据分布。1.1 位置的度量位置的度量指的是用来描述定量资料的集中趋势的统计量,常用的有均值、众数,中位数,百分位数等。(1) 均值均值(mean)是数据的平均是,其定义为用于描述数据的平均位置。(2) 中位数x = 1 n x ,nii=1中位数(median)定义为数据排序位于中间位置的值,即x,n为奇数 n+1 2 m = e 1 x+ x n +1,n为偶数 2 n 2 2 中位数用于描述数据中心位置的数字特征。对于对称分布的数据,均值和中位数比较接近;对于偏态分布的数据,均值与中位数不同。中位数的又
2、一显著特点是不受异常值的影响,具有稳健性。(3) 百分位数百分位数(percentile)是中位数的推广,将数据从小到大的排序后,对于0 p 1 ,则它的 p 分位数定义为:x,np不是整数 (np +1)mp = 1 (x+ x),np是整数, 2其中np 表示np 的整数部分。1.2 分散程度的度量(np )(np +1)表示数据分散程度的特征量有方差、标准差、极差、四分位极差、变异系数和标准误差。(1) 方差、标准差、变异系数方差是描述数值取值分散性的一个度量,样本方差是相对于均值的偏差平方和的平均, 记为 s 2,即其中 x 是样本的均值。s2 =1 n (x n -1ii=1- x
3、)2 ,样本方差的平方成为样本标准差,记为s ,即s21n -1n (x - x )2ii=1s =,变异系数是刻画数据相对分散的一种度量,记为CV,CV = 100 s (%) ,x它是一个无量纲的量,用百分数表示。与分散程度有关的统计量有下列数字特征: 样本校正平方和:样本未校正平方和CSS = n (xii=1- x )2 ,USS = ni=1x2 .i在 R 软件中,利用函数var()以及 sd()求样本方差和样本准差。(2) 极差与标准误差样本极差(记为R),计算公式为:R = x( n )- x(1)= max( x) - min( x) ,样本极差是描述样本分散性的数字特征,当
4、数据越分散,其极差越大。样本上、下四分位数之差成为四分位差(或半极差)记为R ,即1R = Q - Q131它是度量样本分散性的重要数字特征,特别对于具有异常值的数据,他作为分散性具有稳健性,因此它在稳健性数据分析中具有重要作用。样本标准误差(记为sm),定义为1n(n -1)n (x - x )2ii=1ns = sm1.3 分布形状的度量(1) 偏度系数样本的偏度系数(记为 g )的计算公式为1g =nn(x - x)3 =n2 m,1(n -1)(n - 2)s3i3i =1(n -1)(n - 2)s3其中 s 为标准差, m3为样本的 3 阶中心距,即m 3= 1 n (x nii=
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 语言 数据 分析 方法

限制150内