第四章水文统计课件.ppt
第四章、水文统计学第四章、水文统计学n n随机变量及其分布参数随机变量及其分布参数随机变量及其分布参数随机变量及其分布参数n n水文中常用的概率分布曲线水文中常用的概率分布曲线水文中常用的概率分布曲线水文中常用的概率分布曲线n n统计参数估计方法统计参数估计方法统计参数估计方法统计参数估计方法n n相关分析相关分析相关分析相关分析n n水文时间序列分析水文时间序列分析水文时间序列分析水文时间序列分析学习要求:(1)了解概率、随机变量及其概率分布的基本概念;(2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;(3)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤;(6)水文过程的随机模拟。水文现象具有二重性:水文现象具有二重性:水文现象包含着水文现象包含着必然性必然性必然性必然性 水水文文现现象象也也包包含含着着偶偶偶偶然然然然性性性性,对对水水文文的的偶偶然然现现象象(或或称称随随机机现现象象)所所遵遵循循的的规规律律一一般般称称做做统计规律。统计规律。物理成因分析法物理成因分析法概率论和数理统计分析方法概率论和数理统计分析方法4.1.1 4.1.1 概率的基本概念与定理概率的基本概念与定理 1.1.事件事件:是指随机试验的结果。是指随机试验的结果。事件有两种属性:事件有两种属性:数量性质:数量性质:直接测量的量或计算的量,如直接测量的量或计算的量,如 年降雨量,年径流量年降雨量,年径流量.属性性质属性性质:直接观测到的现象,如天气的直接观测到的现象,如天气的 雨天和晴天,婴儿性别,钱币雨天和晴天,婴儿性别,钱币 的正面和背面的正面和背面.4.1.随机变量及其分布参数1)必然事件2)不可能事件3)随机事件事件可以分为三种类型:2.2.概率概率 为为了了比比较较某某随随机机事事件件出出现现(或或不不出出现现)的的可可能能性性大大小小,必必然然赋赋予予一一种种量量化化的的(以以数数量量表表示示)指标,这个数量指标就是事件的概率。指标,这个数量指标就是事件的概率。式中式中,P(A):一定条件下随机事件:一定条件下随机事件A的概率;的概率;n :试验中所有可能的出现的结果数;:试验中所有可能的出现的结果数;m :出现随机事件:出现随机事件A的结果数。的结果数。简单简单(古典古典)的随机事件的概率定义用下式表示:的随机事件的概率定义用下式表示:古古典典的的随随机机试试验验是是指指所所有有试试验验的的可可能能结结果果都都是是等等可可能能的的,而而且且试试验验的的可可能能结结果果的的总总数数是是有限的。但水文事件不一定符合这种性质。有限的。但水文事件不一定符合这种性质。对于不是古典概型事件,只能通过多次重复对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。试验来估计事件的概率。设事件设事件A在在n 次随机试验中出现了次随机试验中出现了m 次,则称:次,则称:3.频率为事件为事件A 在在n 次试验中出现的频率。次试验中出现的频率。注意注意:n 不是所有可能的结果总数,仅是随机不是所有可能的结果总数,仅是随机试验的次数。试验的次数。频率频率:频频率率是是通通过过若若干干次次试试验验后后才才能能求求得得的的经经验验值值,事事先先不不能能确确定定,当当试试验验次次数数n愈愈大大,即即当当n趋趋于于无无穷穷大大时时,理理论论上上,n变变成成试试验验中中所所有有可可能的结果总数,则频率愈接近概率。能的结果总数,则频率愈接近概率。概率和频率的区别:概率概率:在等可能条件下,表达事件客观上出现的在等可能条件下,表达事件客观上出现的可能性大小,是一个理论值。可能性大小,是一个理论值。1.1.随机变量随机变量 用用以以表表示示随随机机试试验验结结果果的的一一个个数数量量(事事先先是是未未知知的的),由由于于它它事事先先不不能能确确定定,是是随随机机的的,称称为为随随机机变变量量。水水文文现现象象中中的的随随机机变变量量,一一般般指指某某个个水水文文特特征征值值(如如年年径径流流量量、年年降降雨雨量量、洪峰流量等洪峰流量等)。4.1.2.随机变量及其分布参数 总体总体总体总体 在在统统计计数数学学中中,把把某某种种随随机机变变量量所所取取数数值值的的全体,称为总体。全体,称为总体。如年径流量的总体数是无穷的。如年径流量的总体数是无穷的。统计学中几个概念:样本样本样本样本 从从总总体体中中不不带带主主观观成成分分任任意意抽抽取取的的一一部部分分,称为样本。样本所包含的项数,称为称为样本。样本所包含的项数,称为样本容量样本容量。如实测的水文资料是有限的,是一样本。如实测的水文资料是有限的,是一样本。它它是是指指随随机机试试验验结结果果的的一一个个数数量量。在在水水文文学学中中,常常用用大大写写字字母母表表示示,记记作作X,而而随随机机变变量的可能取的值记作量的可能取的值记作x,即:即:X=x1,X=x2,X=xn 一般称之为一般称之为随机系列随机系列或或随机数列随机数列。随机变量的表示:离散型随机变量离散型随机变量离散型随机变量离散型随机变量 随随机机变变量量仅仅取取得得区区间间内内某某些些间间断断的的离离散散值值,则则称称为为离离散散型型随随机机变变量量。如如洪洪峰峰次次数数,只只能能取取0,1,2,不能取相邻两数值之间的任何值。,不能取相邻两数值之间的任何值。随机变量的分类:连续型随机变量连续型随机变量连续型随机变量连续型随机变量 随随机机变变量量可可以以取取得得一一个个有有限限区区间间内内的的任任何何数数值值,则则称称为为连连续续型型随随机机变变量量。如如某某河河流流断断面面的的流流量量可以取可以取0 极限值之间的任何实数值。极限值之间的任何实数值。对于离散型随机变量:对于离散型随机变量:对于离散型随机变量:对于离散型随机变量:随随机机变变量量的的取取某某一一可可能能值值的的机机会会有有的的大大有有的的小小,即即随随机机变变量量取取值值都都有有一一定定的的概概率率与与之之相相对对应应,可可表表示为:示为:2.随机变量的概率分布 上式中上式中P1,P2,Pn 表示随机变量表示随机变量X 取值取值x1,x2,xn 所对应的概率。所对应的概率。x1 x2 x3 x4 xnXP 离散型随机变量概率分布图离散型随机变量概率分布图 一般将这种对应关系称作随机变量的一般将这种对应关系称作随机变量的概率分布规概率分布规律律,简称为,简称为分布律分布律。可以用以下的分布图形表示:。可以用以下的分布图形表示:由由于于它它的的所所有有可可能能取取值值有有无无限限个个,而而取取个个别别值值的的概概率率为为零零,故故无无法法研研究究个个别别值值的的概概率率。水水文文学学上上习习惯惯研研究究随随机机变变量量的的取取值值等等于于或或大大于于某某个个值值的的概概率率,表示为:表示为:它它是是x的的函函数数,称称作作随随机机变变量量X 的的分分布布函函数数,记作记作F(x),即即 F(x)=P(X x)表表示示随随机机变变量量X 大大于于或或等等于于值值 x 的的概概率率,其其几几何何曲曲线线称称作作随随机机变变量量的的概概率率分分布布曲曲线线(水水文文学学上通常称上通常称累计频率曲线,简称频率曲线累计频率曲线,简称频率曲线)。)。对于连续型随机变量:对于连续型随机变量:由由由由图图图图中中中中可可可可知知知知,X X=900=900,相相相相应应应应的的的的P(XP(X x x)=0.15)=0.15,说说说说明明明明大大大大于于于于900mm900mm降降降降雨雨雨雨的的的的可可可可能能能能性性性性为为为为15%15%;同同同同理理理理,大大大大于于于于500 500 mm mm 降雨的可能性为降雨的可能性为降雨的可能性为降雨的可能性为60%60%0 0.2 0.4 0.6 0.8 1.0500900年降雨量年降雨量(mm)某站年雨量概率分布曲线某站年雨量概率分布曲线 P(X x)P(X x)=P(X x+x)+P(x+x X x)P(x+x X x)=P(X x)-P(X x+x)=F(x)-F(x+x)(8-1)由概率的加法定理:则,降雨量落在则,降雨量落在900和和500mm的可能性为的可能性为:60%-15%=45%x x+x PXP(X x)P(Xx+x)随机变量随机变量X落在落在(x,x+x)的概率可用下式表示的概率可用下式表示:平均概率密度:平均概率密度:随随机机变变量量落落在在区区间间(x,x+x)的的概概率率与与该该区区间间长长度度的的比比值值 称称作作随随机机变量落在区间变量落在区间(x,x+x)平均概率平均概率。概率密度函数:称称 f(x)为为概率密度函数概率密度函数概率密度函数概率密度函数,简称,简称密度函数密度函数密度函数密度函数。而密度函数的几何曲线称作而密度函数的几何曲线称作密度曲线密度曲线密度曲线密度曲线。当当 x x 0 0,取极限得:取极限得:f(x)f(xi)F(x)xi密度曲线密度曲线分布曲线分布曲线xxdx通通过过密密度度函函数数f(x)可可求求出出随随机机变变量量X落落在在(x x+dx)区区间间即即dx上上的的概概率率=f(x)dx,称称之之为为概概率率元元素,即为图中的阴影面积;素,即为图中的阴影面积;通通过过密密度度函函数数f(x)可可求求出出随随机机变变量量 X 概概率率分分布布函函数数F(x),其其与与密密度度函函数数f(x)有有如如下下的的数数学学关关系系:F(x)分分布布函函数数,反反映映随随机机变变量量X超超过过某某个个值值 x 的概率。的概率。这这两两个个函函数数能能完完整整地地描描述述随随机机变变量量的的分分布布规律。规律。f f(x x)密度函数,反映随机变量密度函数,反映随机变量X X落入落入dx dx 区区间的平均概率;间的平均概率;可见,随机变量的二个函数:可见,随机变量的二个函数:在在实实际际问问题题中中,随随机机变变量量的的分分布布函函数数不不易易确确定定,或或有有时时不不一一定定需需要要用用完完整整的的形形式式来来说说明明随随机机变变量量,而而只只要要知知道道其其主主要要特特征征就就可可以以。随随机机变变量量的的分分布布函函数数和和密密度度函函数数中中都都包包含含一一些些参参数数(如如均均值值、变变差差系系数数、偏偏态态系系数数),而而这这些些参参数数能能反反映映随随机机变变量量分分布布的的特特点点:如如有有的的分分布布集集中中,有有的的分分布布分分散散,有有的的分分布布对对称称,有有的的分分布布非非对对称称,等等等等。在在统统计计学学中中用用以以表表示示随随机机变变量量这这些些分分布布特特征征的的某某些些数数值值,称称之之为为随机变量统计参数随机变量统计参数随机变量统计参数随机变量统计参数。3.随机变量统计参数 平均数平均数平均数平均数 /数学期望数学期望数学期望数学期望 离散型随机变量的平均数是以概率为权重的离散型随机变量的平均数是以概率为权重的加权平均值。加权平均值。a.反映位置特征参数 对于离散型随机变量:对于离散型随机变量:式式中中,a、b 分分别别为为随随机机变变量量 X 取取值值的的上上下下限。限。数数学学期期望望或或平平均均数数代代表表整整个个随随机机变变量量的的总总水平的高低,它为分布的中心。水平的高低,它为分布的中心。对于连续的随机变量:对于连续的随机变量:表示概率密度分布峰点所对应的数。表示概率密度分布峰点所对应的数。对于离散型随机变量:对于离散型随机变量:对于离散型随机变量:对于离散型随机变量:M0(x)是使概率是使概率 P(=xi)等于等于 最大时所相应的最大时所相应的 x i值。值。M0(x)=xiPi-1 Pi Pi+1 Px离散型随机变量的众数离散型随机变量的众数 众数,众数,记为记为MM0 0(x x)M0(x)是概率密度函数是概率密度函数f(x)等于最大时所对应等于最大时所对应的的 xi 值值M0(x)f(x)x 连续的随机变量的众数连续的随机变量的众数对于连续型随机变量:对于连续型随机变量:把概率密度分布分为二个相等部分的数把概率密度分布分为二个相等部分的数。对于离散型的随机变量:对于离散型的随机变量:将将所所有有变变量量的的可可能能取取值值按按大大小小次次序序排排列列,位置居中的数字。位置居中的数字。中位数中位数,记为记为MMe e(x x)对于连续的随机变量对于连续的随机变量中位数满足:中位数满足:式中,式中,a,b 分别为随机分别为随机变量变量 X 取值的上下限取值的上下限Me(x)xf(x)1/21/2ab 该该参参数数用用以以反反映映随随机机变变量量分分布布离离散散程程度度(相相对对于于随随机机变变量量分分布布中中心心即即平平均均值值的的差差距距)的的指指标标,通通常常有有以下几种:以下几种:b.b.反映离散特征参数反映离散特征参数 值愈大,分布愈分散;值愈大,分布愈分散;值愈小,分布愈集中。值愈小,分布愈集中。标准差(均方差标准差(均方差标准差(均方差标准差(均方差)(Standard deviation)(8-6)1 2 2 1f(x)x标准差对密度标准差对密度函数的影响函数的影响 变差系数(离差系数,离势系数变差系数(离差系数,离势系数CV1CV2CV2 CV1f(x)x变差系数对密变差系数对密度函数的影响度函数的影响CV值愈大,分布愈分散;值愈大,分布愈分散;CV 值愈小,分布愈集中。值愈小,分布愈集中。对对于于均均值值不不同同的的二二个个系系列列,用用均均方方差差来来比比较较其其离离散散程程度度就就不不合合适适,则则要要采采用用均均方方差差和和均均值值的的比来表示:比来表示:f(x)x偏态系数对密度函数的影响偏态系数对密度函数的影响Cs=0Cs0Cs 0,称为正偏;称为正偏;CS 0,称为负偏。称为负偏。c.c.反映对称特征的参数反映对称特征的参数反映对称特征的参数反映对称特征的参数:偏态系数(偏差系数偏态系数(偏差系数)4.2.水文中常用的概率分布曲线1.1.正态分布正态分布(8-9)式中,式中,:平均数;:平均数;:标准差。:标准差。许多随机变量如水文测量误差、抽样误差许多随机变量如水文测量误差、抽样误差等一般服从正态分布。等一般服从正态分布。f(x)a.单峰,只有一个众数;单峰,只有一个众数;b.对于平均数对称对于平均数对称,Cs=0;c.曲线二端趋于曲线二端趋于,并以并以x 轴为渐近线轴为渐近线;d.正态分布曲线的特点正态分布曲线的特点:概率密度函数表达式:概率密度函数表达式:2.2.皮尔逊皮尔逊 型分布型分布式中式中,()的伽玛函数的伽玛函数,a 0:三个参数,它们与三个统计参数:三个参数,它们与三个统计参数有一定的关系,其表达式为:有一定的关系,其表达式为:可可见见,当当以以上上三三个个参参数数确确定定后后,P-III型型密密度度函函数亦完全确定。数亦完全确定。f(x)皮尔逊皮尔逊 型概率密度曲型概率密度曲线线 a0M0(x)Me(x)xPxP-III型曲线的特点:型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线一端有限另一端无限的不对称单峰正偏曲线 在在水水文文计计算算中中,一一般般要要求求出出指指定定概概率率 P P 所所相相应应的随机变量的取值的随机变量的取值 x xP P,即求出的,即求出的 x xP P满足下列等式:满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换按上式计算相当复杂,故实用中,采用标准化变换按上式计算相当复杂,故实用中,采用标准化变换按上式计算相当复杂,故实用中,采用标准化变换:取标准变量取标准变量(离均系数离均系数),即即 代入上式,代入上式,,a0以相应的以相应的 和和 关系式表示,简化后得:关系式表示,简化后得:0.030.031.301.302.472.473.383.384.164.160.20.20.020.021.291.292.402.403.233.233.943.940.10.10.000.001.281.282.332.333.093.093.723.720.00.0505010101 10.10.10.010.01P P(%)p p C Cs sP-III型曲线离均系数型曲线离均系数 P 值表值表注:详表见附表注:详表见附表1,p266 被积函数含有参数被积函数含有参数 ,Cs,而,而 包含在包含在 中,制成中,制成 对应关系表:对应关系表:因此,由给定的因此,由给定的C CS S 及及P P,从,从P-IIIP-III型曲线离均型曲线离均系数系数 值表,查出值表,查出P P ,再由下式求:,再由下式求:即求出指定概率即求出指定概率 P 所相应的随机变量的取值所相应的随机变量的取值 xP已知已知:某地年平均降雨量某地年平均降雨量 =1000 mm,CV=0.5,CS=1.0,若年降雨量符合若年降雨量符合P-III型分布型分布试求:试求:P=1%的年降雨量。的年降雨量。【算例】求解:求解:由由 CS=1.0及及P=1%,查附表,查附表1得得 p=3.02 引入引入模比系数模比系数:另一种求解方法:另一种求解方法:由由由此建立由此建立 的的 对应数值关系对应数值关系P-III型型曲线模比系数曲线模比系数 KP 值表(见附表值表(见附表2)上例的解法:上例的解法:由由 CV=0.5,CS =1.0=2 CV,P=1%查附表查附表2得得:P-III型曲线模比系数型曲线模比系数 KP 值表(附表值表(附表2,P266)P P(%)(%)C CV V0.010.010.10.10.20.20.330.330.50.51 12 25 51010202050507575909095959999(一)(一)(一)(一)C CS S=C CV V0.050.051.191.191.161.161.151.151.141.141.131.131.121.121.111.111.091.091.071.071.041.041.001.000.970.970.940.940.920.920.890.891.501.5011.611.68.858.858.028.027.367.366.876.876.006.005.115.113.923.923.003.002.042.040.640.64-0.10-0.10-0.53-0.53-0.70-0.70-0.89-0.89(二)(二)(二)(二)C CS S=1.5=1.5C CV V0.050.05(三)(三)(三)(三)C CS S=2=2C CV V。(三)(三)(三)(三)C CS S=6=6C CV V 水水文文随随机机变变量量的的总总体体是是无无限限的的,这这就就需需要要在在总总体体不不知知道道的的情情况况下下,靠靠抽抽出出的的样样本本(观观测测的系列的系列)去估计总体参数。去估计总体参数。4.3.随机变量系列统计参数的估计估算方法有:估算方法有:矩法;矩法;适线法;适线法;极大似然法;极大似然法;权函数法;权函数法;现行水文频率计算方法配线法(适线法)是是以以经经验验频频率率点点据据为为基基础础,在在一一定定的的适适线线准准则则下下,求求解解与与经经验验点点据据拟拟合合最最优优的的频频率率曲曲线线参参数数,这这是是一一种种较较好好的的参参数数估估计计方方法法,是是我我国国估估计计洪洪水水频频率率曲曲线线统统计计参参数数的的主主要要方方法。法。有关的概念介绍:1)1)经验频率及经验频率曲线:经验频率及经验频率曲线:【例】已知某地年降雨量的观测资料【例】已知某地年降雨量的观测资料(n=12),并由大,并由大 到小排列,按到小排列,按 计算频率。计算频率。式中,式中,P:大于或等于某一变量值:大于或等于某一变量值 x 的的经验频率经验频率;m:x 由大到小排列的序号,即在由大到小排列的序号,即在n 次观测资次观测资料中出现大于或等于某一值料中出现大于或等于某一值 x 的次数。的次数。经验频率计算表:经验频率计算表:n=12 其其反反映映年年降降雨雨量量(X x)的的经经验验频频率率P(X x)和和x的的关关系系。随随着着样样本本容容量量n的的增增加加,频频率率P就就非非常常接接近近于于概概率率,而该经验分布曲线就非常接近于总体的分布曲线。而该经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线由此得到经验分布曲线:P(X x)x注注注注意意意意:样样本本的的每每一一项项的的经经验验频频率率用用公公式式P=m/n进进行行计计算算,当当m=n时时,P=100%,说说明明样样本本的的最最末末项项为为总总体体的的最最小小值值,这这是是不不合合理理的的。故故必必须须进进行行修修正,中国常采用下面的公式进行计算:正,中国常采用下面的公式进行计算:经验频率的计算公式:经验频率的计算公式:这样,当这样,当m=n=12 时,时,该公式在水文计算中通常称为期望公式该公式在水文计算中通常称为期望公式 所所谓谓的的重重现现期期是是指指某某一一随随机机事事件件在在很很长长时时期期内内平平均均多多长长时时间间出出现现一一次次(水水文文学学中中常常称称为为“多多少少年年一一遇遇”)。即即在在许许多多试试验验中中,某某一一随随机机事事件件重重复复出出现现的的时时间间间间隔隔的的平平均均数数,即即平平均均的的重重现现间间隔隔期期。在在水水文文分分析析中中,重重现现期期可可以以等等效效地替代频率。地替代频率。2)2)重现期重现期a.a.当研究洪水或暴雨问题当研究洪水或暴雨问题 水水文文上上关关心心的的是是大大于于某某洪洪水水或或某某暴暴雨雨量量发发生生的的频频率率,因因此此,重重现现期期指指在在很很长长时时期期N年年内内,出出现现大大于某水文变量于某水文变量XP 事件的平均重现的间隔期事件的平均重现的间隔期T:式中,式中,T:重现期,以年计;:重现期,以年计;P:大于某水文变量:大于某水文变量 XP 事件的频率,事件的频率,频率P与重现期T关系的两种表示法:水水文文上上关关心心的的是是小小于于xP的的事事件件出出现现的的频频率率及及相相应的重现期。应的重现期。重重现现期期指指在在很很长长的的时时期期内内(N年年)出出现现小小于于某某水水文文变变量量xP事事件件的的平平均均重重现现间间隔隔期期。若若水水文文变变量量大大于于xP的的频频率率为为P,则则小小于于xP事事件件的的频频率率应应为为1-P,在在N年年内内小小于于xP事事件件出出现现的的次次数数应应为为N(1-P),因因此此其其重重现期为:现期为:b.b.当研究枯水问题当研究枯水问题具体求解步骤:具体求解步骤:具体求解步骤:具体求解步骤:a a 根根据据实实测测样样本本资资料料进进行行点点绘绘 纵纵坐坐标标为为随随机机变变量量X=x,横横坐坐标标为为对对应应的的经经验验频频率率P(X x),经经验验频频率计算公式为:率计算公式为:b b 假假定定一一组组参参数数 ,可可选选用用矩矩法法的的估估值值作作为为 的的初初始始值值,一一般般不不求求CS,假假定定 ,K为为比比例例系数,可选系数,可选 K1.5,2,2.5,3.3)适线法(配线法)的步骤已知:经验频率分布,已知:经验频率分布,求:总体分布参数求:总体分布参数d d 根根据据选选定定的的参参数数 ,由由P-III型型曲曲线线离离均均系系数数值值(附附表表1)或或P-III型型曲曲线线模模比比系系数数KP 值值表表(附附表表2),求求出出 xP P 的的频频率率曲曲线线,将将其其绘绘在在有有经经验验点点据据的的同同一一张张图图上上,看看它它们们的的配配合合好好坏坏,若若不不理理想想,则则修修改改有有关关的的参参数数(主主要要调调整整CV 及及K=CS/CV),重重复以上的步骤,重新配线;复以上的步骤,重新配线;c c 选定线型,对于水文的随机变量,一般选选定线型,对于水文的随机变量,一般选P-III型型;e e 根根据据配配合合的的情情况况,选选出出一一配配合合最最佳佳的的频频率率曲曲线线作作为采用曲线,则相应的参数作为总体参数的估值。为采用曲线,则相应的参数作为总体参数的估值。PxP 适适线线法法的的实实质质是是通通过过样样本本经经验验分分布布来来推推求求总总体体分布,适线法的关键在于分布,适线法的关键在于“最佳配合最佳配合”的判别。的判别。经验点据经验点据 理论频率曲线理论频率曲线为避免修改参数的盲目性,要了解参数为避免修改参数的盲目性,要了解参数 对频率曲线形状的影响:对频率曲线形状的影响:a)值愈大,频率曲线位置愈高;值愈大,频率曲线位置愈高;x PPPx PPx Pc)CS 值愈大,频率曲线上段变陡,下段变缓,值愈大,频率曲线上段变陡,下段变缓,中部向左偏。中部向左偏。b)CV 值愈大,频率曲线愈陡;值愈大,频率曲线愈陡;6.5.1 6.5.1 相关关系的概念相关关系的概念 水水文文现现象象中中许许多多变变量量不不是是孤孤立立的的,相相互互之之间间存存在在联联系系,则则分分析析研研究究二二个个或或二二个个以以上上随随机机变量之间的关系,称作相关关系。变量之间的关系,称作相关关系。6.5 相关分析 如果两个变量如果两个变量x,y,其中变量,其中变量x 的每一个值,的每一个值,变量变量y 都有一个或多个确定值与之对应,而且都有一个或多个确定值与之对应,而且x,y成函数关系,即成函数关系,即x,y的关系的关系点完全落在直线或曲线点完全落在直线或曲线上,上,则称这二个变量则称这二个变量是完全相关的。是完全相关的。完全相关完全相关yxa.完全相关(函数关系完全相关(函数关系直线关系直线关系曲线关系曲线关系二个随机变量之间的关系有以下三种情况:零相关零相关YXb.零相关(没有关系)如果两个变量如果两个变量x,y之间互不影响互不相关,则之间互不影响互不相关,则称这二个变量没有关系或零相关。称这二个变量没有关系或零相关。即即x,y的关系点毫无规律,十分分散。的关系点毫无规律,十分分散。yx 如如果果两两个个变变量量x,y之之间间关关系系介介于于以以上上二二者者之之间间,x,y的的关关系系点点虽虽有有点点分分散散,但但有有明明显显的的趋趋势势,数数学学上上可可以以用用一一定定的的表表达达式式进进行行拟拟合合。则则称称这这二二个个变变量关系为量关系为:统计相关统计相关统计相关统计相关或或相关关系相关关系相关关系相关关系。统计相关统计相关c.统计相关(相关关系 a.a.确定二个变量间相关关系的数学表达式确定二个变量间相关关系的数学表达式,以以相关方程相关方程或或回归方程回归方程表示,用以由已知变量表示,用以由已知变量推求未知变量;推求未知变量;b.b.判断二个变量间相关关系的密切程度判断二个变量间相关关系的密切程度,用一称为用一称为相关系数相关系数的参数来表示。的参数来表示。水文计算中的相关分析的主要任务:水文计算中,一般处理两个变量间的相关关系,水文计算中,一般处理两个变量间的相关关系,称称简相关简相关,有时也要处理三个或三个以上变量关系,有时也要处理三个或三个以上变量关系,称为称为复相关复相关。简相关可分为。简相关可分为直线相关直线相关和和曲线相关。曲线相关。曲线相关曲线相关直线相关直线相关6.5.2 简相关 图解法:图解法:图解法:图解法:根根据据实实测测值值,将将对对应应点点绘绘于于方方格格纸纸上上,如如果果点点群群分分布布平平均均趋趋势势为为一一直直线线,则则可可以以直直线线来来近近似似代代表表这这种种相相关关关关系系。通通过过点点群群中中心心目目估估绘绘出出一一条条直直线线,然然后后在图上量出直线的斜率在图上量出直线的斜率a和截距和截距b,则直线方程,则直线方程:y=a+bx即为所求的相关方程。即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。该方法简便实用,而且一般情况下精度可以保证。1)1)回归方程及其误差分析回归方程及其误差分析 相关分析法:若若相相关关点点分分布布较较散散,目目估估定定线线有有一一定定任任意意性性,为为保保证证一一定定精精确确性性,最最好好采采用用分分析析法法来来确确定定相相关关线线的方程。设该直线方程形式为:的方程。设该直线方程形式为:y=a+bx式中,式中,x:自变量:自变量 y:倚变量:倚变量 a,b:分别为一常数,待定。:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。则相关点与直线在纵轴方向必然存在离差。配合曲线与观测点在纵轴方向的离差为:配合曲线与观测点在纵轴方向的离差为:xiy 要求配合曲线与所有的观测点能要求配合曲线与所有的观测点能“最佳最佳”拟合,拟合,即满足所有的观测点的离差即满足所有的观测点的离差 y 的平方和为最小,即:的平方和为最小,即:分别对分别对 a,b 求一阶偏导数,并令其为零:求一阶偏导数,并令其为零:求解上列两联立方程式,可得求解上列两联立方程式,可得式中,式中,:分别为:分别为x,y 系列的均方差系列的均方差/标准差标准差;:分别为:分别为x,y 系列的平均值系列的平均值;:x,y 系列的变差系数系列的变差系数(按不偏估计公式计按不偏估计公式计算算)::相关系数:相关系数;Kxi,Kyi:分别为:分别为xi,yi系列的模比系数系列的模比系数:为回归线的斜率,称为回归线的斜率,称 y 为为 x 倚的回归系数倚的回归系数(8-37)式即为式即为y 倚倚x 的回归方程,其曲线称为回归线的回归方程,其曲线称为回归线/相相关线关线(仅是对点据拟合最佳一条线仅是对点据拟合最佳一条线),亦可表示为:,亦可表示为:将将 ,代入代入y=a+bx中得:中得:注意:由由于于x,y并并非非确确定定性性关关系系,对对于于x=x0,无无法法知知道其相应的真正值道其相应的真正值y0,通过回归方程求到:,通过回归方程求到:仅仅仅仅是是真真正正值值y0的的一一个个估估计计值值。故故其其与与真真正正值值y0存存在在偏偏差差。根根据据统统计计学学的的研研究究,由由于于随随机机因因素素的的影影响响,y0在在估估计计值值 上上下下波波动动呈呈正正态态分分布布,其其均均方误差可用公式表示。方误差可用公式表示。式中,式中,Sy:y倚倚x回归线的均方误回归线的均方误;yi:观观测测点点的的纵纵坐坐标标值值;y:由由回回归归方方程程求求到的纵坐标值;到的纵坐标值;n:观测项的数目:观测项的数目 y y倚倚x x回归线的均方误估算公式:回归线的均方误估算公式:如如前前所所述述,可可以以用用均均方方误误进进行行误误差差分分析析,即即对对于于任任一一固固定定的的x=x0值值,若若以以 作作为为y 的的估估值值,其其误误差差不不超超过过Sy的的可可能能性性为为68.3%;其其误误差差不不超超过过3Sy的的可能性为可能性为99.7%。另另外外,可可以以证证明明回回归归线线的的均均方方误误与与系系列列标标准准差及相关系数差及相关系数 有以下关系:有以下关系:式中式中,为为y系列的标准差系列的标准差(无偏估计量无偏估计量)根据均方误公式,也可以用根据均方误公式,也可以用 2来判断相关程度来判断相关程度:若若 2=1,Sy=0,则,则 y=yi,属函数关系,属函数关系;若若 2=0,Sy=y,误差最大,属零相关,误差最大,属零相关;若若 0 2 1,为统计相关为统计相关,2 1,x,y 关系愈密切。关系愈密切。可知,均方误可知,均方误Sy值愈大,则回归方程的误差愈大值愈大,则回归方程的误差愈大。相关系数的均方误可用下式来估算:相关系数的均方误可用下式来估算:式中,式中,为相关系数;为相关系数;n 为观测项数。为观测项数。相相关关系系数数是是根根据据有有限限的的实实测测资资料料(样样本本)计计算算出出来的,故相关系数也不免带有抽样误差来的,故相关系数也不免带有抽样误差 故水文上为了推断二个变量的相关性,必须对故水文上为了推断二个变量的相关性,必须对样本相关系数作统计检验。样本相关系数作统计检验。相关系数的均方误:相关系数的统计检验的思路相关系数的统计检验的思路-反证法:反证法:检检验验二二个个变变量量是是否否相相关关,先先假假定定二二个个变变量量不不相相关关,由由此此如如果果导导致致“不不合合理理的的现现象象”发发生生,则则表表明明原原先先的的假假定定不不成成立立,拒拒绝绝“不不相相关关”的的假假定定,如如果果没没有有导导致致“不不合合理理现现象象”发发生生,则则原原假假定定成成立立,称称原假定是相容的。原假定是相容的。这这里里所所谓谓的的“不不合合理理”不不是是指指形形式式逻逻辑辑上上的的绝绝对矛盾,而是基于实践中广泛采用的一个原则:对矛盾,而是基于实践中广泛采用的一个原则:小概率事件在一次观测中是不可能发生的小概率事件在一次观测中是不可能发生的小概率事件在一次观测中是不可能发生的小概率事件在一次观测中是不可能发生的 。相关系数的统计检验:-0 +f(r)样本相关系数样本相关系数 密度曲线示意图密度曲线示意图具体的检验步骤:具体的检验步骤:具体的检验步骤:具体的检验步骤:假假设设两两变变量量X,Y 在在总总体体上不相关;上不相关;从从不不相相关关的的两两变变量量总总体体中中抽抽出出大大量量的的样样本本(如如n个个),进进行行相相关关分分析析,并并分分别别计计算算各各样样本本的的相相关关系系数数 1,2,n,由由于于假假设设总总体体不不相相关关,可可以以判判断断 1,2,n,为为较较小小值值的的可可能能性性大大,而而较较大大值值的的可可能能性性小小,其其概概率率分分布布密密度度曲曲线线 f(r)r 如右图所示:如右图所示:选选定定一一个个衡衡量量事事件件发发生生可可能能性性(概概率率)很很小小的的指指标标(水水文文统统计计学学中中称称显显著著性性水水平平 ),对对于于容容量量为为n的的样样本本,则则有有一一相相应应的的临临界界值值 (为为较较大大值值),样样本本相相关关系系数数(根根据据原原先先假假定定 应应为为很很小小的的值值)超超过过 的的可可能能性性(概概率率)应应为为较较小小值值(水水文文上上一一般般选选 =0.05 或或 0.01作为小概率作为小概率),即,即:由于由于 值很小,故值很小,故 为一小概率事件为一小概率事件.取取某某一一个个具具体体的的样样本本所所计计算算的的 与与 作作比比较较,以以判断总体是否相关:判断总体是否相关:若若 ,说说明明样样本本相相关关系系数数绝绝对对值值较较大大,且且超超过过了了临临界界值值 ,说说明明“小小概概率率事事件件”发发生生了了,则则原先的假定是不能接受的,总体很大可能性是相关的。原先的假定是不能接受的,总体很大可能性是相关的。若若 ,说说明明样样本本相相关关系系数数绝绝对对值值较较小小,未未超超过过临临界界值值 ,则则原原先先的的假假定定可可以以成成立立,即即总总体体很很大可能性是不相关的。大可能性是不相关的。实用上,可查实用上,可查n (表表8-7,p158)求求 不同显著性水平下所需相关系数最低值不同显著性水平下所需相关系数最低值 n n-2-2(n n为样本为样本为样本为样本容量)容量)容量)容量)0.10.10.050.050.020.020.010.01 8 80.54940.54940.63190.63190.71550.71550.76460.76469 90.52140.52140.60210.60210.68510.68510.73480.734810100.49730.49730.57600.57600.65810.65810.70790.707912120.45750.45750.53240.53240.61200.61200.66140.66141001000.16380.16380.19460.19460.23010.23010.25400.2540则上式可写成:则上式可写成:-直线关系直线关系故可按直线相关的方法求故可按直线相关的方法求Y与与X的回归方程,再还的回归方程,再还原成原成 y 与与 x 的函数关系。的函数关系。6.5.3 曲线相关1)1)幂函数幂函数方程二边取对数:方程二边取对数:令令:故故可可按按直