《第二章 环境数据统计与分析.ppt》由会员分享,可在线阅读,更多相关《第二章 环境数据统计与分析.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 环境数据统计与分析2 环境数据统计与分析2.1 数据统计与分析的基本范畴2.2 常用的统计指标2.3 环境样本特征推断2.4 参数估计2.5 显著性检验2.6 直线相关与直线回归2.7 环境数据统计与分析的计算机处理2.8 可疑值的取舍2.1 数据统计与分析的基本范畴2.1.1 总体与样本 统计学中,把性质相同的研究对象的所有观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。在实际工作中,常常是从被研究的总体中随机抽取部分观测结果进行研究。每个部分观测结果的集合称为样本。从总体中随机抽取样本用以推断总体的方法称为抽样研究。2.1.2 参数与统计量统计指标 统
2、计学中,把根据规定的函数关系计算出的描述总体或样本特征的函数值称为统计指标(index)。参数 由总体资料计算出的统计指标称为参数(parameter),用于描述总体特征。统计量 由样本资料计算出的统计指标称为统计量(statistic),用于描述样本特征。2.1.3 变异与误差变异(variation)变异指观测结果之间实际存在的差异。误差(error)误差指观测结果与真实值之差及统计量与参数之差。过失误差(gross error)过失误差可以避免;系统误差(systematic error)系统误差可以减少;随机误差(random error)随机误差无法消除。2.2 常用的统计指标2.2
3、.1 平均数2.2.2 变异数2.2.3 相对数2.2.1 平均数定义 平均数(average)是表示观测值的平均水平的统计指标,常用的有算术平均数、几何均数及中位数。2.2.1.1 算术均数定义 算术均数(arithmetic mean),简称均数,常用、希腊字母表示,表示样本均数,表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法直接计算法 当观察值的个数不多时,将所有观察值x1,x2,x3,xn直接相加,其和除以观察值的个数n,即为均数。计算公式:式中,算术平均数 x1,xn 各观察值 求和符号 x 观察值总和 n 观察值的个数 频数-加权计算法 对一个随机事件
4、作重复观察,其中某观察值出现的次数称频数;各观察值对应的频数称为频数分布;显示各观察值对应的频数的表格称为频数分布表,简称频数表。频数-加权计算法计算步骤 计算全距找出观察值中的最大值、最小值,并计算全距(range),全距最大值最小值。定组段数一般取815个为宜,多取10个,组段数太多,计算较繁,组段数过少则误差较大。定组距(class interval)相邻两组段下限值之差为组距(class interval)。各组段的组距可以相等,也可以不等。若拟定为相等组距,则组距全距/组段数,为便于观察值归组,组距常取整数。定组段(class range)即定各组数据的上下限,俗称“封口”。通常,某
5、组段的最小值为下限(lower limit),相邻较大组段的下限即本组段的上限(upper limit)。第一组段应包括最小值,最末组段应包括最大值。计数(fi)划分组段后,将原始数据以适当方式划记计数(常用“正”字法)归组。得频数分布表。计算组中值(Class mid-value)(xi)组中值 计算均数 将各组段的频数与组中值之积相加求和,再除以总频数即得均数。2.2.1.2 几何均数定义几何均数(geometric mean,G),也叫倍数均数,当观察值相差较大甚至成倍数关系时,如用算术均数表示其平均水平时受少数特大或特小值影响较大,则用几何均数来表示其平均水平。计算步骤先对观察值取数值
6、,计算对数值的均数后,再查反对数,即得几何均数。计算方法直接计算法频数表法直接计算法频数表法 当观察值较多时,可先编频数表,再按频数表计算几何均数。2.2.1.3 中位数定义中位数(median,M,Md)指全部观察值按大小顺序排列,居于中间位置的数值。偏态分布资料,一端或两端有不确定数值分布的资料,分布情况不清的资料,适宜用中位数统计。计算方法直接计算法频数表法 直接计算法样本含量n较少时,先将观察值按大小顺序排列,再进行计算。频数表法中位数是一个特定的百分位数,在全部观察值中有一半比它大,一半比它小。当例数较多时,先将观察值编制频数表,再按公式计算。2.2.2 变异数定义 变异数是表示观察
7、值变异水平的统计指标,常用指标有极差、方差、标准差和变异系数等。2.2.2.1 极差定义 亦称全距(rangc,R),即一组观察值中最大值与最小值之差。RXmaxXmin特点 全距反映了变异的范围,极差大,变异度大;极差小,变异度小。缺点 用极差表示变异程度的大小简单明了,但它仅考虑了观察值的最大值和最小值,而没有考虑其他数值,因此是不够全面的。2.2.2.2 方差要克服全距的缺点,必须全面考虑到每个观察值。首先考虑用每一个观察值与均数之差的和即离均差总和(x )来描述。再考虑用离均差平方和(x )2来描述。最终考虑用离均差平方和的均数即方差S2来描述。2.2.2.3 标准差定义为了保持与原观
8、察值及其均数的单位一致,将方差开平方,即得标准差,以S表示。特点 标准差直接表示观察值分布的离散程度,间接反映样本的代表性。在观察单位数相同,均数相近条件下,标准差较大,表明观察值的变异程度较大,即观察值围绕均数的分布较离散,因而样本的代表性较差;反之,标准差较小,表明观察值的变异程度较小,观察值围绕均数的分布较密集,样本的代表性好。2.2.2.4 变异系数定义对均数相差较大或性质不同的资料,不能直接用标准差比较变异程度的大小,要用变异系数作比较。特点与标准差一样,变异系数愈大,表明观察值的变异程度愈大,变异系数愈小,表明变异程度愈小。2.2.3 相对数定义 环境研究直接观测到的数据称为绝对数
9、,绝对数虽然能反映调查中所发现的某种现象的绝对水平,但作深入分析时,仅看绝对数是不够的,必须考虑使用相对数(relative number),即两个有联系的指标之比。常用相对数有率、比等。2.2.3.1 率定义率(rate)是某一现象发生的频度(频繁程度)或强度,通常指在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之比。率=率的比例基数可用100、1000、10,000、100,000等分别称为百分率,千分率,万分率,或十万分率。环境监测常用的率有:检出率 回收率 最高浓度出现率 残留率 超标率 2.2.3.2 构成比定义构成比(constitution ratio)是事物内部某种
10、构成部分对总体之比。说明部分在总体中所占的比重,是一种用来表示事物内部各构成情况的指标。构成比 2.2.3.3 相对比定义相对比(relative ratio)指两个有关联的同类指标的比。以倍数或百分数()来表示,其计算式:相对比=常用的相对比有倍数、指数、系数等。倍数 在大气监测中,经常用测定值与国家卫生标准值的比较来评价车间、工厂或大气的污染程度。指数(index)环境保护研究中,指数是环境污染物的实测浓度对该污染物在环境中的容许浓度的比值,是环境质量评价的常用手段。I I:环境质量指数C:污染物实测平均浓度S:污染物容许标准。系数 如排毒系数,环境污染物的排放浓度对该污染物的排放标准的比
11、值,用于表示各种污染物和污染源对环境的毒害的潜在能力。2.3 环境样本特征推断环境样本特征 主要指环境样本的分布形式和环境样本的正常值范围等,可以利用获得的统计量进行统计处理,完成上述推断工作。2.3.1 样本特征推断的理论基础正态分布 定义正态分布(normal distribution)又称高斯分布(Gaussian Distribution),是以均数为中心的对称钟型分布。正态曲线是一条高峰位于中央,两侧完全对称并逐渐下降但永远不与横轴相交的钟形曲线 正态曲线由和两个参数决定,为总体均数,为总体标准差。决定正态曲线的位置,决定正态曲线形状。2.3.2 样本特征推断样本分布形式的判定确定正
12、常值范围确定样本所代表总体的理论频数分布2.4 参数估计定义探知研究对象的总体特征是环境研究的主要目标,由于总体庞大的原因,直接计算参数是极其困难的,因此,往往用样本统计量来估计总体参数,这个过程称为参数估计(estimation of parameter)。本节主要讨论总体均数估计的基本问题。总体均数估计分为点估计和区间估计。点估计(point estimation)是根据一个样本求出总体参数的具体数值,常用根据极大似然法原理导出的公式计算极大似然估计量。由于存在变异和抽样的随机性,用不同的样本推断总体时,可能得到不同的参数估计值。因此更稳妥的办法是采用区间估计。2.4.1 总体均数区间估计
13、的理论基础t分布 2.4.1.1 抽样误差定义 对样本的统计结果与总体的“真实”之间必然存在差异,这种由于抽样而引起的样本与总体之间的差异称为抽样误差。标准误差 样本均数的标准差称为标准误差,。计算公式为:在实际工作中,总体标准差 常属未知,只能用样本标准差S代替 作为最佳的无偏估计,于是标准误的计算公式变为:2.4.1.2 描述样本均数的分布t分布 从一个均数为,标准差为的正态总体中,随机抽取含量为n的样本,可计算样本均数 ,样本标准误 ,则将样本均数与总体均数的离差以样本标准误 为单位,得正态(离)差 t ,若干样本的t值就构成统计上著名的t分布。实际工作中总体标准差 往往是不知道的,只能
14、用样本标准差S来代替,于是得t 2.4.2 总体均数的区间估计区间估计(interval estimation)按预先给定的概率,由一个样本均数及其标准误求出总体均数数值范围的过程。“预先给定的概率”也称为可信度、可信水平、可信系数,符号为1-,常取0.99或0.95。“总体均数数值范围”也称为可信区间,符号为CI。其含义是:由一个样本均数及其标准误求出的被估计参数值有0.99或0.95的可能在此数值范围内,或由若干个样本均数及其标准误求出的若干个被估计参数值中,有99或95的个数可能在此数值范围内。2.4.3 总体率的区间估计可仿照总体均数的可信区间估计的方法来估计总体率的所在范围,即求总体
15、率的可信区间,我们介绍两种方法。正态近似法 当n足够大,且p和(1-p)不接近零,有np和n(1-p)均大于5时,总体率的可信区间为:式中u为可信度1-时的标准正态离差,由u界值得知,如99可信区间时,0.01,u2.58,95可信区间时,0.05,u1.96。查表法 当n1000,pl时,可查附表3(百分率的可信限表),得到总体率的可信区间。2.5 显著性检验两均数差异显著性检验样本均数与总体均数的差异显著性检验两样本均数的差异显著性检验两个几何级数样本均数的差异显著性检验配对资料的差异显著性检验两个大样本均数的显著性检验u 检验方差不齐的两样本均数差异的显著性检验t检验2.5.1 显著性检
16、验的含义与一般步骤含义在回答样本与总体是否有本质差异或差异是否有显著时,必须考虑:样本与总体差异无显著性和样本与总体差异有显著性2种情况。究竟属于那种情况,需通过差异显著性检验来回答。显著性检验的步骤建立“检验假设”确定检验水准选择检验方法和计算统计量确定概率做出推断结论2.5.2 两均数差异显著性检验 2.5.2.1 两均数差异显著性检验的基本思路 t检验是检验两均数间差异显著性的基本方法。按式(2.20)计算统计量t值后,与根据相应自由度查附表2(t值表)所得的t界值进行比较,判断均数间差异的显著性。tt0.05(v)P0.05 差异无显著性若t0.05(v)tt0.01(v)则 0.05
17、P0.01 即 差异有显著性 tt0.01(v)P0.01 差异有极显著性 当v(自由度)50时,可直接采用正态分布临界值1.96或2.58来判断P大于还是小于0.05或0.01。2.5.2.2 样本均数与总体均数的差异显著性检验【例 2.17】解题步骤:建立检验假设计算t值确定p值结果判断2.5.2.3 两样本均数的差异显著性检验 两样本均数比较是最常见的统计比较研究,又称成组比较,其目的是推断两样本分别代表的总体均数1与2是否相等。采用下面的公式来检验两均数的差异是否有显著性。2.5.2.4 两个几何级数样本均数的差异显著性检验 检验两个几何均数的差别是否有显著性,所采用的方法,仍然是t检
18、验法,只是将所有数值全部转换为对数值进行计算。2.5.2.5 配对资料的差异显著性检验 在实验研究中,常采用配对比较的方法。配对研究的目的是比较两种处理方法或实验前后的结果有无差异。配对资料的实验设计有两种:同体配对,实验对象自身对比;非同体配对。2.5.2.6 两个大样本均数的显著性检验u 检验 当两个样本的观察单位数较多时(每组n50),资料分布基本近似于正态分布,可以用u检验。计算出u值后,直接根据表2.13 u检验的检验水准表作出结果判断。2.5.2.7 方差不齐的两样本均数差异的显著性检验t检验 使用t检验的前提条件是两个总体的方差相等,。事实上,即使两个总体方差相等,样本方差也会因
19、为抽样而出现波动,因此必需对两组样本进行方差齐性检验。如果方差齐性检验显示方差不齐时,则不能直接采用t检验,需要用校正t检验法(t检验)。方差齐性检验 计算F统计量 查附表4(方差齐性F界值表)做出两总体方差是否相等的推断 t检验 计算均数标准误平方 计算两样本均数差数的标准误 计算t值 求t显著性界限的近似值 2.5.3多均数差异的显著性检验F检验 在环境研究工作中,经常有两个以上的均数需要同时进行比较,这时,若应用上述的t检验法,则必须对每两个均数进行t检验,比较繁琐。而应用F检验法(即方差分析法)可使显著性检验大为简化。方差分析又称变异数分析,其基本思想是把全部观察值之间总变异,按设计和
20、需要分为二个或多个组成部分进行分析。总变异的分类在单因素的完全随机设计的实验资料中,总变异可分为组内变异和组间变异。在配伍组设计的资料中,总变异可分为处理组间变异、配伍组间变异及误差三部分。在22析因设计资料中,总变异可分为两个因素的两个组间变异、两因素交互作用及误差四部分。2.5.3.1 单因素多个样本均数比较 比较步骤检验假设计算校正数确定P值结果判断2.5.3.2 两因素多个样本均数比较比较步骤列计算表计算校正数(C)计算离均差平方和(SS)计算自由度计算均方(MS)计算F值确定P值并判断结果2.5.3.3 多组均数间两两比较 资料经F检验后,各组均数间的差异为无显著性,则不须作进一步的
21、统计处理;如果各组均数间的差异有显著意义,则须作进一步的分析,以检验两两均数间的差异哪些是有显著性的。比较步骤检验假设计算q值求处理数(a)根据误差的自由度及处理数(a)查附表6(q值表),得q的显著界值。确定P值与判断结果2.5.4 两率差异的显著性检验 2.5.4.1 率的抽样误差 定义样本率与总体率间的差异情况是由于抽样造成的,称为率的抽样误差。公式率的抽样误差可用率的标准误来表示。2.5.4.2 大样本率与总体率差异的显著性检验u检验 通常,样本率与总体率之间进行比较时,如样本含量较大(一般大于50),可采用u检验。再依据表作判断。2.5.4.3 两大样本率的差异显著性检验u检验 公式
22、检验两个样本率的差异是否显著时,可用公式:2.5.4.4 两大样本率的差异显著性检验四格表 检验 检验范围 检验(卡方检验)常用以检验两个率或多个率之间的差别,两组或多组资料内部构成之间的差别,理论分布数列与实际观察分布数列之间的差别,两个观察数列之间的差别是否有显著性等。公式检验的基本公式:X2 式中 A 实际数 T 理论数 检验步骤:(1)检验假设(2)计算 值(3)确定概率,做出判断 四格表专用公式法四格表专用公式是从 基本公式推导出来的,故两者计算的结果是相同的。四格表的形式:四格表专用公式:2.5.4.5 n40且有一个理论数小于5的两率差异显著性检验四格表校正 值检验 公式=2.5
23、.4.6 n40且有一个理论数小于5的两率差异显著性检验精确检验法 四格表中有实际值为零时,计算概率的公式为:P 式中!阶乘,规定0!1。四格表中无实际值为零时【例 2.31】2.5.5 多率的差异显著性检验行列的 检验 定义当资料的组数或处理方法超过两组(即行数或列数超过两组)时,通称为行列表或称RC表,其检验方法,可用 的基本公式法,也可采用行列表专用公式法。公式行列表专用公式为:2.5.6 配对计数资料的差异显著性检验 检验 通过配对的方法进行实验,如每一对实验对象分别给予不同的处理,或同一实验对象,先后给予不同的处理,既可获得计量资料,也可获得计数资料,这类计数资料的率的差别显著性检验
24、,采用配对的检验法。公式计算公式:=当 b+c 40时,则改用校正公式:=2.6 直线相关与直线回归 相关(correlation)相关指两事物或两变量之间呈现某种相依变动关系。相关有直线相关、曲线相关、多元线性相关,直线相关是最简单的相关。回归(regression)回归原指样本统计量向总体参数靠拢或回归的现象,现指利用方程描述变量变化的数量关系。回归有直线回归、曲线拟合、多元线性回归,直线回归是最简单的回归。2.6.1 直线相关定义 如果相关散点图显示一个变量X由小到大变化,另一个变量Y亦相应地呈直线由小到大(或由大到小)变化,则这两个变量间有直线关系;散点图显示的相关性质和密切程度,由直
25、线相关系数描述。这种直线关系以及分析这种直线关系的理论和方法,统称直线相关(linear correlation)。2.6.1.1 相关散点图与相关系数 相关以横轴(X)代表汽车辆数,以纵轴(Y)代表NO2浓度,绘制相关散点图,见下图。从图中可见,随着汽车辆数的增加,大气中NO2的浓度也随之增高,呈现从左下到右上的变化趋势。我们称这种“从左下到右上的变化趋势”为正相关。事实上,除正相关外,相关散点图的散点分布还有多种情形,见下图。相关系数 定量地表示变量间的线性相关程度及相关方向。相关系数没有单位,其值在1至+1之间。正相关:散点的Y值随X值增加而上升,0r1,如图2.7(a);如果散点完全在
26、一条直线上,则为完全正相关,r1,如上图(b)。负相关:散点的Y值随X值增加而减少,lr0,如上图(c);如果散点完全在一条直线上,则为完全负相关,r1,如上图(d)。零相关:散点的X与Y的数值增减无一定规律,或Y值的变化不受X变化的影响,r0,如上图(e、f、g)。无线性相关:散点的X与Y的数值增减服从非直线规律,r0,如上图(h)。2.6.1.2 相关系数的计算计算公式r=2.6.2 相关系数的显著性检验 定义 由于抽样误差的影响,从相关系数为零的总体中随机抽取的样本的相关系数不一定为零,检验样本相关系数不等于零的可能性,即称为相关系数的差异显著性检验。常用方法为 检验。2.6.2.1 计
27、算法计算步骤(1)检验假设 X与Y没有相关关系,即总体相关系数 0,样本相关系数r是从 中抽取,r与 的差别是由于抽样误差而引起。(2)计算 (3)确定P值与判断结果2.6.2.2 查表法椐自由度nn2查附表8(相关系数r界值表),据界值与计算相关系数的比较结果判定。2.6.3 直线回归2.6.3.1 直线回归概述环境研究中,常需由一个变量(自变量,X)推算另一个变量(因变量,Y)的估计值,称为回归分析。直线回归(linear regression)分析的任务是,按照各点到直线的距离的平方和最小的要求,确定一条最接近于各点的直线(回归直线),并建立这条直线的方程(回归方程,regression
28、 equation),以描述两变量的变化规律或进行变量推算。2.6.3.2 回归方程的建立【例2.37】解题步骤:计算基本数据:、。相关系数r及其显著性检验。按(2.51)式计算回归系数 。按(2.53)式计算截距a。按(2.54)建立回归方程 a+bX。显示回归线。2.6.3.3 回归方程的显著性检验(1)单样本回归系数的显著性检验回归系数的显著性检验也用t检验。检验假设计算标准估计误差计算 、值确定P值及结果判断(2)两样本回归系数的差异显著性检验 若通过两个样本,获得两个回归系数b1和b2,回归系数的标准误分别为Sb1和Sb2,需对两样本之间的差异进行显著性检验。检验假设按公式计算t值确
29、定P值及结果判断2.7 环境数据统计与分析的计算机处理2.7.1 均数2.7.1.1 算术均数直接计算法频数加权计算法2.7.1.2 几何均数直接计算法频数表计算法 2.7.2 中位数直接计算法频数表计算法2.7.3 变异数标准差变异系数2.7.4 样本特征推断样本特征推断2.7.4.1 样本分布形式的判定输入原始数据计算均值、标准差计算频数并制作统计图判定结果2.7.4.2 抽样误差 输入原始数据 计算标注误2.7.4.3总体均数的区间估计 输入原始数据 计算可信区间2.7.4.4 总体率的区间估计输入原始数据 计算可信区间2.7.5 显著性检验2.7.5.1 样本均数与总体均数的差异显著性
30、检验 输入原始数据 计算标准误、t值、自由度等参数 判断显著性2.7.5.2 两样本均数的差异显著性检验 输入原始数据 t检验 判断差异显著性2.7.5.3 两几何级数的差异显著性检验2.7.5.4 配对资料的差异显著性检验 输入原始数据,计算 、计算差数的均数、标准差、标准误、t值等 判定结果2.7.5.5两个大样本均数的显著性检验u 检验 输入原始数据 计算u值 判定结果2.7.5.6 方差不齐的两样本均数差异的显著性检验 检验 输入原始数据 方差齐性检验 检验2.7.5.7 单因素多个样本均数比较 输入原始数据 计算和、均值、平方和、校正数、1/n、和的平方 计算F值 查表并判定结果2.
31、7.5.8 两因素多个样本均数比较 2.7.5.9大样本率与总体率差异的显著性检验u检验 2.7.5.10 两大样本率的差异显著性检验u检验 2.7.5.11 两大样本率的差异显著性检验四格表 检验 2.7.5.12 n40且有一个理论数小于5的两率差异显著性检验四格表校正 值检验 2.7.5.13 n40且有一个理论数小于5的两率差异显著性检验精确检验法2.7.5.14 多率的差异显著性检验行列的 检验2.7.5.15 配对计数资料的差异显著性检验 检验2.7.6 直线相关与直线回归2.7.6.1 散点图2.7.6.2 相关系数计算 2.7.6.3 回归方程的建立 2.7.6.4 回归方程的显著性检验 2.8 可疑值的取舍可疑值的取舍 定义前述环境数据统计与分析的前提,是数据均为可信数据。事实上,在一组观察值中出现少数过大或过小的极端值,使人怀疑发生了错误的情况时有发生,这种数值称为可疑值。可疑值的判断方法常用的有Chauvenet法、Smirnov法和Grubbs法,它们的计算方法相同,仅界值不同。经模拟试验,以Grubbs法效果较好。计算观察值的均数、标准差、T值。查 界值表作出判断舍去可疑值
限制150内