《多元统计分析》目录.doc
《《多元统计分析》目录.doc》由会员分享,可在线阅读,更多相关《《多元统计分析》目录.doc(166页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、多元统计分析目录前言第一章 基本知识511总体,个体与样本512样本数字特征与统计量613一些统计量的分布9第二章 统计推断1521参数估计1522假设检验19第三章 方差分析3231一个因素的方差分析3232二个因素的方差分析3733用方差分析进行地层对比44第四章 回归分析4941概述4942回归方程的确定4943相关系数及其显着性检验5244回归直线的精度5545多元回归分析5646应用实例60第五章 逐步回归分析6551概述6552“引入”和“剔除”变量的标准6653矩阵变换法6754回归系数,复相关系数和剩余标准差的计算6955逐步回归计算方法7056实例74第六章 趋势面分析806
2、1概述8062图解汉趋势面分析8163计算法趋势面分析83第七章 判别分析9071概述9072判别变量的选择9173判别函数9274判别方法9675多类判别分析104第八章 逐步判别分析11081概述11082变量的判别能力与“引入”变量的统计量11083矩阵变换与“剔除”变量的统计量11384计算步聚与实例115第九章 聚类分析 12591概述12592数据的规格化(标准化)12593相似性统计量12694聚类分析方法13195实例13496最优分割法134第十章 因子分析142101概述142102因子的几何意义143103因子模型145104初始因子载荷矩阵的求法147105方差极大旋围
3、152106计算步聚156107实例157附录162附录1标准正态分布函数量162附录2正态分布临界值ua表164附录3t分布临界值ta表165附录4(a)F分布临界值Fa表(a=01)附录4(b)F分布临界值Fa表 (a=005) 附表4(c)F分布临界值Fa表(a=001)附表5 x2分布临界值xa2表第一章 基本知识11总体、个体与样本总体(母体)、个体一(样本点)和样本(子样)是统计分析中常用的名词。在统计学中通常把研究的全部元素的集合称为总体。组成总体的每个元素称为个体。而把从总体中取出的一部分个体的集合叫做样本。例如研究某花岗岩体中钾的含量(通常研究某一指标,即某一变量),若从该岩
4、体中合理选取n个样品(n=300 0),分析其中钾的钾的含量为K(i=1,2,n),则(1)k1,K2,或Kn等称为个体;(2)n个元素(个体)组成的集合(K1, K2,,K)称为样本(子样);(3)样本中包含的个体数目(n)称为样本的容量。一般样本容量n3 0称为大样本,n3 0称为小样本;(4)所有可能的个体的集合称为总体,通常地质体皆可无限取样,这时总体包含无限多个体。这样的总体称为无限总体。若每个样品。同时又分析了另一个指标(变量),则可获得相应于别一个变量的个体。子样和总体。若同时分析多个指标,则得多个子样,代表多个变变量的总体,这种总体称为多元总体。总体是样本的全体,样本是总体的一
5、部分。总体通常是未知的。样本是已知的。为了对总体的分布进行研究,就必须对总体进行随机抽样观测。由于样本是随机抽取的,它取一组什么值事先是无法知道的,因此样本可以看作是一个随机向量X=(x1,x2 , ,xn) ,而样本的每个分量 xi 可以看作是一个随机变量。当然对某次抽样来说。样本就有一组确定的观测值。通常根据样本以总体进行分析研究时,要求样本能很好反映总体的特点。为此在抽样时必须注意如下二点:(1)代表性。要求使总体的每一个个体都有相同的抽取机会。使样本的每一个分量xi和总体XX具有相同的分布;(2)独立性,要求每个观测结果既不影响其它观察结果。也不受其它观察结果的影响,也就是说抽样是独立
6、的随机抽样。满足上述二点的子样(样本)通常称为简单子样。在研究地质问题时。为了满足土述要求,必须根据研究对象,按照具体地质条件合理布置取样点。12 样本数字特征与统计量样本的数字特征是反映样本分布的主要特性的参数。利用样本的数字特征可以估计总体的数字特征。常用的数字特征(特征数)有二类。一类是反映数据分布的集中位置,从而可以代表数据整体的特征数( 表征数),称为整个代表性特征数( 又叫集中性参数);另一类是反映数据分布离散程度的参数,称为离散性特征数。1整体代表性特征数常用的整体特征数有:(1)样本算术平均数设是取自某一总体的容量为n的样本,则样本的算术平均数为: (1)当数据很多时,为了简化
7、计算,常常将数据分组(设分为m组),统计各组的频数为 并用组中值 Cj ( 组中值即为组的上限与下限的平均数)代替这组所有的观测值。进行近似计算。这时平均数计算方式: = (2)用上式求平均数的方法叫做加权平均法,求得的平均数叫加权平均数。上式中的权即为各组出现的频数。(2)样本几何平均数样本几何平均数为 (3)计算时,一般是把等式两边取对数即得 (4)于是,只要先算出原始数据的对数值的平均数。然后再查反对数。即可求出几何平均数。由于地质体中某些微量元素的含量,有时服从对数正态分布,在求其背景值时就会用到几何平均数。除了平均数(样本均值)和几何平均数以外。尚有样本中位数和样本众数,也属整体代表
8、性特征数。所谓样本中位数就是将样本观测值按大小顺序排列起来,居中的一个数值就是样本中位数。例如样本(1,2,2,3,5,7,8)的中位数是3。如果样本数据的个数是偶数,则十位数可取中部一个数的平均值。所谓样本众数就是最容易出现的数值。也就是说把样本规测按大小顺序排列起来。若某个数出现的次数比与它相邻的数出现的次数都大。则这个数就是样本的众数。通常中位数和众数得不多。2离散性特征数(1)均方差(标准差)均方差S是最常用的离散性特征数。均方差的平方叫方差。用S2表示。设样本观测值 。 其平均数(均值)为 。若都分布在附近则离散程度较小,否则离散程度大。每个观测值 与之差,称为离差(偏差)。离差有正
9、有负,其平均数接近零(时,偏差平均趋于零),因此无法用以表示离散程度的大小。而离差平方的平均数能很好地反映出观测数据的离散程度的大小。离差平方的平均数叫方差,即 (5)均方差的计算公式为 (6)均方差又可写为 (7)对分成m组的数据来说,设组中值为Cj,各组的频数为fj,则计算公式为 (8)(2)极差极差就是样本观测值中最大值减去最小值的差,用R表示。设观测值中最大值为,最小值为则。极差计算简便。但由于只依赖于二个极端值。没有充分利用数据所提供的许多重要信息。因而反映实际情况的精确度较差。3样本矩样本的某些数字特征例如平均数和均方差等。可用样本矩这一术语来表示。 设 为取自某一总体的 一个容量
10、 。为n的随机样本。则定义为样本对于A的K阶矩(其中A为常数)。(1)原点矩当A=0时,称为样本的原点矩,用aK表示。则第K阶样本原点矩为 K=1,2 (9)可见 K=1时,有(2)中心矩当A=时,称为样本的中心矩,用uk表示。则第k阶样本中心矩为 k=1,2, (10)可见 k=2时,有(3)样本的偏度和峰度三阶中心矩可以反映分布的偏斜程度,四阶中心矩可以反映分布的陡峭程度。因此样本的偏度g1和峰度g2可以定义为 (11)如g1=0则分布对称, g10 则分布为正偏的, g10 分布为负偏的。g2=0分布与正态分布陡峭程度一样,g20则分布比正态分布更陡峭。g2=0m则分布没有正态分布那么陡
11、峭。4统计量以上所述。样本的数字特征是根据样本导出的量。这些量通称为统计量。可见一个子样可以导出许多统计量。一般地说凡是子样(样本)的函数(不含任何未知参数)均为统计量。根据研究问题的不同,可以利用子样构造出某种统计量。以便进行推断。由于予样可以看作是一个随机向量(或n继随机变量),所以统统计量也是一个随机变量。例如样本的平均数和均方差等都是随机变量。13一些统计量的分布在叙述统计量分布之前,先介绍几种常用的分布,这些分布在概率论中已有论述,这里以表格形式将这些分布的一些主要结果列出来以备查用。1样本(子样)线性函数的分布从正态总体N(u9 2)中抽取一个容量为n的简单子样()。(1)设子样的
12、线性函数(统计量)为 (12)式中ai为已知常数。由于xi相互独立。且有相同的分布N(u92)。根据正态分布的性质可知,y服从正态分布。N(uy 。y 2),其均值(数学期望)E(y)和方差D(y)分别为 (13)当名称密度函数K阶原点矩K阶中心矩附注正态分布N(,2)N(0,1)各阶矩存在a1=222k1=02k=加法定理成立,设i独立分别有N(i,i2),则有分布N(, )若i独立,有同分布N(i,2)则 有分布N(,)x2分布(自由度为n的x2分布简记为x2(n)) 当x0 0 当x0ak=n(n+2)(n+2k-2)特别有n2n1 设i独立且有相同分布N(0,1)则有分布x2(n)2
13、加法定理成立,设1,2分别有x2(n1),x2(n2)则12 有分布X2(n1+n2)表1.1 几种常用的分布t分布(自由度为n的t分布简记为t(n))k(n)阶矩有限a10(1n)(2k00, 当x=0对m2k4)设1,2独立,分别有x2(m)及x2(n),则有分布F(m,n)可见那时子样均值服从正态分布N(),其均值E()和方差D()分别为 (14)所以子样平均数(均值)和随机观测值x有相同的均值,但方差小n倍,故的分布更为集中。(3)设子样线性方程组为 (15)其中A为系数方法。则y1 ,yn也是正态随机变量,其均E(yi),方差D(y1),协方差COV(yi, yj)分别为 (16)i
14、,j=1,2,p当p=n,A为正交方阵时,则有 (17)那时若xi(i=1,2,n)服从N(0,1)分布,则依据上式可得 COV(yi, yj)=0 (18) E(yi)=0, D(yi)=1 (19)因为新变量(yi)的协方差为零。即两两互不相关。由于新变量也都服从正态分布。故y19y29yn相互独立(正态变量两两互不相关。亦即相互独立)。以上讨论可以得出结论。相互独立的服从N(0,1)分布的简单子样xi(i=1,2, n)通过正交变换后,得到的也是相互独立的服从N(0,1)分布的新变量yi(i=1,2, n)。2几个有关子样方差与均值的统计量的分布(1)设x1 9x2 9xn是从正态总体N
15、(9 2)中抽取的一个简单子样。其均值与方差为 , (20)则统计量和S2相互独立,且有 ns2/ 2服从自由度为 n-1 的 x2分布。服从自由度为n-1的t分布,即有a,ns2/2x2(n-1) (21)b, (22)因为对子样作正交变换并令正并方阵A中的第一行为a1i=1/(满足正交条件ay1= (23)b(正交变换持长度不变)则故 (24)c (25)因此 由于相互独立,则y1与nS2独立。又因因为服从N(0,1)分布,故服从自由度为n-1的x2分布。因为服从分布N(0,1),nS2/2服从分布x2(n-1)且相互独立,故 (26)服从t分布。(2)设x1 ,y2 ,xm是从正态总体N
16、(u1 , 1 2)中抽取的一个子样,y1, y2,,yn是从另一个正态总体N(u2, 22)中抽取的一个子样。并假定x1, x2, xm和y1,y2,yn相互独立,则a (27)b当时,有其中: (29) 因为 F=当二个正态总体分布的方差相同是,即 因为当另外由分布加法定理知,统计量 则统计量 服从自由度为m+n-的t分布。若 (32)或 式中 以上几个统计量的分布,在统计分析中常会用到。今后根据统计推断的需要。还将陆续引进一些其它的统计量。第二章 统计推断统计推断就是根据子样的数据来推断母体的种种统计特性。它大体可以分为参数估计与假设检验二个方面。21参数估计在地地工作中,常常需要根据一
17、批矿样的平均品位来估计整个矿体的平均品位;或根据每一岩体上测得的放射性强度(或其它物理性质)的平均数,来估计该岩体的放射性底数(背景值)等等,这些就是参数估计问题。参数估计又可分为点估计与区间估计。1点估计点估计就是选择一个统计量 作为母体未知参数的估计。这个统计量(是子样的函数)称为的估计量。当x1, x2,xn是子样的一组确定的观测值时,就是一个具体数值(或一个点),所以也叫的点估计。常用的求估计量的方法有矩法和最大似然法。(1)矩法矩法就是用子样矩(样本矩)代替母体矩(总本矩),从而求出估计量的方法。例如,正态母体一阶矩为二阶矩为;若用一阶和二阶子样矩来估计,则有: (1)解上式可得因此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析 多元 统计分析 目录
限制150内