2022年统计学基本概念终版 .pdf
《2022年统计学基本概念终版 .pdf》由会员分享,可在线阅读,更多相关《2022年统计学基本概念终版 .pdf(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2015 年统计学基本概念一、聚类分析1.概念:聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。或者说,聚类分析就是要找出具有相近程度的点或类聚为一类;距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:2.步骤:应用系统聚类法进行聚类分析的步骤如下:确定待分类的样品的指标;收集数据;对数据进行变换处理(如标准化或规格化);使各个样品自成一类,即n 个样品一共有n 类;计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;最后绘制
2、系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。3.聚类分析的种类二、 ARIMA 模型(一)ARMA 模型三种基本形式:自回归模型(AR: Auto-regressive) ,移动平均模型(MA:Moving-Average)和混合模型(ARMA:Auto-regressiveMoving-Average ) 。ARMA 模型全称为自回归移动平均模型(AutoregressiveMovingAverageModel, 简记 ARIMA),是由博克思 (Box)和詹金斯 (Jenkins)于 70 年代初提出的一著名时间序列预测方法,所以又称为box-jenkins 模型
3、、博克思 -詹金斯法。 其中 ARIMA (p,d,q)称为差分自回归移动平均模型,AR是自回归 ,p 为自回归项 ;MA 为移动平均, q 为移动平均项数,d 为时间序列成为平稳时所做的差分次数。ARIMA 模型的基本思想ARIMA 模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。现代统计方法、 计量经济模型在某种程度上已经能够帮助企业对未来进行预测。ARIMA 模型预测的基本程序(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋势及其
4、季节性变化规律,对序列的平稳性进行识别。一般来讲, 经济运行的时间序列都不是平稳序列。(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降趋势, 则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 18 页 - - - - - - - - - (3) 根据时间序列模型的识别规则,建立相应的模型。 若平稳序列的偏相关函数是
5、截尾的,而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合MA 模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合ARMA 模型。(4)进行参数估计,检验是否具有统计意义。(5)进行假设检验,诊断残差序列是否为白噪声。(6)利用已通过检验的模型进行预测分析。白噪声( Whitenoise ) :白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声,记为:注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。直观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分析
6、的理论可知,当时,该序列Yt是平稳的 ,此模型是经典的Box-Jenkins 时间序列AR(1)模型。因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由来。时间序列的非平稳性:是指时间序列的统计规律随着时间的位移而发生变化,即生成变量时间序列数据的随机过程的特征随时间而变化。DF 检验:统计学家Dickey、Fuller 得到 DF检验的临界值,并编制了DF 检验临界值表供查。在进行 DF 检验时, 比较 t 统计量值与DF 检验临界值, 就可在某个显著性水平上拒绝或接受原假设。ADF 检验: AugmentedDickey-Fuller 检验( ADF检验) :
7、DF 检验存在的问题是,在检验所设定的模型时,假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的,当随机扰动项存在自相关时,直接使用DF 检验法会出现偏误,为了保证单位根检验的有效性,人们对DF 检验进行拓展,从而形成了扩展的DF 检验 (AugmentedDickey-FullerTest),简称为 ADF检验。DF和 ADF检验的步聚:计算在原假设成立的条件下t 统计量值,查DF 检验临界值表得临界值,然后将t 统计量值与 DF检验临界值比较:若 t 统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;说明是平稳序列。若 t 统计量值大于或等于DF 检验临界
8、值,则接受原假设,说明序列存在单位根;有单位根说明非平稳。(二)平稳性检验方法1.单位根方法2.自相关函数法3.DF检验方法4.如果该特征方程的所有根在单位圆外(根的模大于1) , 则 AR(p)模型是平稳的。 特征根 z=1/j,当|j|”或“ ” 。例如对合格产品按其性能和好坏,分成优等品、一等品、合格品等等。定距数据表现为数值,可进行加、减运算,是由定距尺度计量形成的。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如, 学生某门课程的考分,可以从高到低分类排序,形成90 分、80 分、70 分,直到零分的序列。它们不仅有明确的高低之分,而且可以计算差距
9、,90 分比 80 分高 10 分,比 70 分高 20 分等等。定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,定比数据表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性数据或品质数据(Oualitativedata ) ;后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitativedata ) 。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。区分测量的层次和数据的类
10、型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。 比如,对定类数据, 通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和x2 检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。比如: 在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。
11、反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。比如, 对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。六、数据的分布特征与测度名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 18 页 - - - - - - - - - (一)集中度测度:是指一组数据向某一中心值靠拢的倾向。1.定类数据的测度指标:众数(mode) :是指一组数据中出
12、现次数最多的变量值。用MO 表示。2.定序数据的测度指标:中位数(median) :处于中间位置上的变量值,用ME 表示。3.定距数据和定比数据的测度指标:均值(mean) :它在统计学具有重要地位,是集中度测度值的最重要指标。(1)当三者相等时,表示数据分布是对称分布的;(2)当均值 MEMEMO 表示左偏或正偏分布。在实际利用统计软件中,常常看偏态值(Skewness )来判断数据的偏态方向。其计算公式是:当偏态值 =0时,表示对称分布;当偏态值 0表示正偏;当偏态值 3,表示尖峰分布,当峰度( Kurtosis) 大于临界值,则拒绝原假设,接受备择假设。当计算出来的统计量显著性水平时,则
13、接受原假设,拒绝备择假设PCompareMeans=One-WayANOVA. ,打开One-WayANOVA主对话框,然后设置因变量和因素。(三)单因素分析中的多重分析若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较(multiplecomparison ) 。基本思想: 例子:如果分析颜色对饮料销售量有无影响,则属于单因素分析。如果进一步分析颜色中哪一个颜色(黄色、红色、粉色等)对销售量的影响最大,则需要进行多重比较分析。最常用的方法就是最显著性差异法(LSD ) 。假设检验也常用T检验。(四)双因素方差分析基本思想:对两个因素对因变量的影响程度进行分析,称为
14、双因素分析。实际上这些计算用SPSS 是十分容易解决的。因此读者完全没有必要去记表中繁琐的公式,只需掌握其主要思想并学会应用SPSS 就可以了。步骤:第一步:建立假设第二步:计算样本均值和总样本值第三步:计算离差平方和第四步:计算均方值第五步:计算F统计量第六步:编制双因素方差分析表第七步:做出统计决策在 SPSS 中的实现方法选择 Analyze=GeneralLinearModel=Univariate.,打开Univariate 主对话框。 从主对话框左侧的变量列表中设定因变量,单击按钮使之进入DependentList 框, 再选定变量自因变量,单击按钮使之进入FixedFactor(
15、s)框。资料“在GLM(Generallinealmodel) ,用Univariate 你可以做多因素方差分析,Mutivariate可以做多应变量方差分析,RepeatedMeasure.可以做重复测量方差分析,等等十二、统计学中的常用概念1.均值(算术平均数Arithmeticmean ) ,在计算公式中一般用表示。均值在统计学中具有重要的地位, 它是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重心所在,其次均值具有一些重要数学性质。(1)各变量值与其均值的离差这和等于0 即(2)各变量值与其均值的离差平方和(即方差 )最小,即2.几何平均数 (Geometricme
16、an )名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 18 页 - - - - - - - - - 3.方差和标准差: 方差就是各变量值与其均值的离差平方和,它是测度离散程度的主要方法,方差越大说明数据波动程度越大或离散程度越高,方差越小说明数据集中度越高。方差分为总体方差和样本方差,标准差也分为总体标准差和样本标准差。总体方差(在方差分析中称为TSS )和标准差样本方差和标准差:3.协方差和相关系数令 X和 Y为两个随机变量,其均值是和,于是协方差的定义为Cov(X,
17、Y)=E( XY )- 当 x 和 y 独立时,则Cov( X,Y)=E(x)E(y)-=0 可见, 协方差作为描述X和 Y相关程度的量, 在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。所以又引入的相关系数的概念。其计算公式是:所以, cov(x,y)=R* 4.数学期望:又称期望或均值,是平均数的一种推广。是随机变量按概率的加权平均,表征其概率分布的中心位置,即用以测量数据的平均水平或集中程度。(1)离散随机变量X的期望值E(X) (2)连续随机变量X的期望值E(X) 5残差:表示实际观察值与估计值之差。6总离差平方和(TSS ) :7残
18、差平方和(RSS ) :ESS反映样本观测值与估计值偏离的大小,8解释平方和(ESS ) (ExplainedSumofSquares) ,反映由模型中解释变量所解释的那部分离差的大小;9.众数( MODE) :众数是一组数据中出现次数最多的变量值。主要用于分类数据,也可用于顺序数据和数值型数据。10.中位数( Median):中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。11.平均差 (Md):是各单位实际值对其算术平均数的离差绝对值的算术平均数,反映的是各标志值与其平均数的平均差异程度。12均方( meansquare):(与标准差是同一个概念)平方和除以对应的自由度。这个量用
19、于 F比以判断均值之间是否有显著差异。13.最小显著性差异法(leastsignificantdifference 简写 LSD法):用于方差分析中的多重比较的一种均值相等性的检验方法。十三、计量经济学中常用统计量十四、非参数检验(nonparametric statistics )许多统计分析方法的应用对总体有特殊的要求,如t 检验要求总体符合正态分布,F 检验要求误差呈正态分布且各组方差整齐,等等。 这些方法常用来估计或检验总体参数,统称为参名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - -
20、 - 第 10 页,共 18 页 - - - - - - - - - 数统计。但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计(Nonparametrictests ) 。(一)单样本配合度检验Chi-Square 基本功能: 调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。(SPSS 中自带了一个例子:cars.sav) ,H0:实际频数与理论频数没有显著差异H1:实际频数与理论频数有显著差异(二)二项分布(Binomal
21、)基本功能: 适用于二分变量时的情况,常需要检验一个事件在特定的条件下发生的概率是否与已知结论相同, 如某地区出生的婴儿的性别比例与通常男女各半的结论是否相符,在这个情况下可用此方法。H0:特定事件与特定结论没有显著差异H1:特定事件与特定结论有显著差异例如:某地某一时期内出生40 名婴儿, 其中女性12 名 (定 Sex=0 ) ,男性 28 名(定 Sex=1) 。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?(三) RUN检验(游程检验)基本功能:用于一个变量的两个值的出现顺序是否随机。依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个
22、游程。调用 Runs过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。H0:数据是随机出现的H1:数据是非随机的(四) 1-samplesk-s 检验称为:单样本柯尔莫哥诺夫斯米尔诺夫检验柯尔莫哥诺夫斯米尔诺夫检验。基本功能:调用此过程可对单样本进行Kolmogorov-SmirnovZ 检验,它将一个变量的实际频数分布与正态分布(Normal) 、均匀分布(Uniform) 、泊松分布(Poisson)进行比较。零假设 H0:经验分布与理论分布没有显著差别。H1:经验分布与理论分布有显著差别(五)两个独立样本检验(2-independentsamples )基本功能:当总体分布不
23、清楚时,可检验两个随机样本是事来自同一总体。H0:两个独立样本来自相同的总体(两个样本没有显著差异)H1:两个独立样本来自不同的总体(两个样本没有显著差异)(六)多个独立样本检验(K-independentsamples )H0:多个独立样本来自相同的总体(两个样本没有显著差异)H1:多个独立样本来自不同的总体(两个样本没有显著差异)(七)两个相关样本检验(2-relatedsamples)名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 18 页 - - - - - -
24、 - - - 基本功能是: 当总体分布不清楚时,检验两个相关样本是否来自同一总体。与参数检验中的Paired-samples H0:两个相关样本来自相同的总体(两个样本没有显著差异)H1:两个相关样本来自不同的总体(两个样本没有显著差异)(八)多个相关样本检验(K-relatedsamples)基本功能是:当总体分布不清楚时,检验多个相关样本是否来自同一总体。H0:多个相关样本来自相同的总体(两个样本没有显著差异)H1:多个相关样本来自不同的总体(两个样本没有显著差异)十五、几种重要检验统计量1.F-stat.(F-distribution;F-test ) F检验的思想来自于总离差平方和的分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年统计学基本概念终版 2022 统计学 基本概念
限制150内