2022-统计分析方法学结.doc
《2022-统计分析方法学结.doc》由会员分享,可在线阅读,更多相关《2022-统计分析方法学结.doc(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、统计分析方法学习总结 s201505158陈丹妮 一、统计的描述 一般采用以下几种图形描述数据: 直方图:表示几个变量的数据,使人们能够看出这些数目的大体分布或“形状”;盒形图:比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图); 茎叶图。既展示了数据的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字; 散点图:描述的数据有两对连续变量;定型变量的图:定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例,如:饼图、条形图。 二、汇总统计量 表示位置的汇总统计量:均值(mean):样本值的算术平均值;中位
2、数(median):中间大小的数(一半样本点小于中位数);(第一或第三)(下、上)四分位数(点)(firstquantile,thirdquantile)(分别有1/4或3/4的数目小于它们);k-百分位数(k-percentile);a分位数(acentile):k-百分位数=k%分位数:有k%的数目小于它;众数(mode):样本中出现最多的数。 表示尺度的汇总统计量:极差(range):极端值之差;四分位间距(四分位极差)(interquantilerange)四分位数之差;标准差(standarddeviation)方差平方根;方差(variance)各点到均值距离平方的平均。 三、相关
3、的分布 相关的分布包括:离散分布、连续分布、抽样分布:我们能够利用样本统计量中的(描述样本的)信息,比如样本均值和样本标准差中的信息,来对(描述总体的)总体参数(比如总体均值和总体标准差)进行推断(估计、检验等)。 大数定律。阐述大量随机变量的平均结果具有稳定性的一系列定律的总称。其中又分为独立同分布大数定律(提供了用样本平均数估计总体平均数的理论依据)和贝努力大数定律(提供了频率代替概率的理论依据)。 中心极限定理。阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。独立同分布中心极限定理(不论总体服从何种分布,只要它的数学期望和方差存在,从中抽取容量为n的样本,当n充分大时,则这个
4、样本的总和或平均数是服从正态分布的随机变量)和德莫佛拉普拉斯中心极限定理(提供了用正态分布近似计算二项分布概率的方法)。均值的假设检验包括对于正态总体均值的检验、对于比例的检验 四、各种分析方法 1.列联表分析 列联表变量中每个都有两个或更多的可能取值,称为水平,比如收入有三个水平,观点有两个水平,性别有两个水平等。列联表的中间各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数(count)。二维的列联表又称为交叉表(crosstable)。列联表可以有 很多维。维数多的叫做高维列联表。注意前面这个列联表的变量都是定性变量;但列联表也会带有定量变量作为协变量。 2.方差分析 方差分析(
5、analysisofvariance,anova)是分析各个自变量对因变量影响的一种方法。这里的自变量就是定性变量的因子及可能出现的称为协变量(covariate)的定量变量。分析结果是由一个方差分析表表示的。原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(f检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是f-值和检验的一些p-值。 3.相关和回归分析 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一
6、般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。 假如用y表示感兴趣的变量,用x表示其他可能与y有关的变量(x也可能是若干变量组成的向量)。则所需要的是建立一个函数关系y=f(x)。这里y称为因变量或响应变量(dependentvariable,responsevariable),而x称为自变量,也称为解释变量或协变量(independentvariable,explanatoryvariable,covariate)。建立这种关系的过程就叫做回归(regression)。 一旦建立了回归模型,除了对变量的关系有了进一
7、步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。 4.主成分分析和因子分析 主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量,就有几个主成分。而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factorrotation);这个步骤可以使结果更好。对于计算机,因子分析并不费事。从输出的结
8、果来看,因子分析也有因子载荷(factorloading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。因子分析也给出了二维图;其解释和主成分分析的载荷图类似。 可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。 5.聚类分析 物以类聚、人以群分;但根据什么
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 统计分析 方法
限制150内