环境数据统计与分析精选文档.ppt
《环境数据统计与分析精选文档.ppt》由会员分享,可在线阅读,更多相关《环境数据统计与分析精选文档.ppt(81页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、环境数据统计与分析本讲稿第一页,共八十一页2 环境数据统计与分析2.1 数据统计与分析的基本范畴2.2 常用的统计指标2.3 环境样本特征推断2.4 参数估计2.5 显著性检验2.6 直线相关与直线回归2.7 环境数据统计与分析的计算机处理2.8 可疑值的取舍本讲稿第二页,共八十一页2.1 数据统计与分析的基本范畴2.1.1 总体与样本 统计学中,把性质相同的研究对象的所有观测结果的集合称为总体(population)。总体又分为无限总体和有限总体。在实际工作中,常常是从被研究的总体中随机抽取部分观测结果进行研究。每个部分观测结果的集合称为样本。从总体中随机抽取样本用以推断总体的方法称为抽样研
2、究。本讲稿第三页,共八十一页2.1.2 参数与统计量统计指标 统计学中,把根据规定的函数关系计算出的描述总体或样本特征的函数值称为统计指标(index)。参数 由总体资料计算出的统计指标称为参数(parameter),用于描述总体特征。统计量 由样本资料计算出的统计指标称为统计量(statistic),用于描述样本特征。本讲稿第四页,共八十一页2.1.3 变异与误差变异(variation)变异指观测结果之间实际存在的差异。误差(error)误差指观测结果与真实值之差及统计量与参数之差。过失误差(gross error)过失误差可以避免;系统误差(systematic error)系统误差可以
3、减少;随机误差(random error)随机误差无法消除。本讲稿第五页,共八十一页2.2 常用的统计指标2.2.1 平均数2.2.2 变异数2.2.3 相对数本讲稿第六页,共八十一页2.2.1 平均数定义 平均数(average)是表示观测值的平均水平的统计指标,常用的有算术平均数、几何均数及中位数。本讲稿第七页,共八十一页2.2.1.1 算术均数定义 算术均数(arithmetic mean),简称均数,常用、希腊字母表示,表示样本均数,表示总体均数。均数适用于正态分布资料统计。计算方法直接计算法频数-加权计算法本讲稿第八页,共八十一页直接计算法 当观察值的个数不多时,将所有观察值x1,x
4、2,x3,xn直接相加,其和除以观察值的个数n,即为均数。计算公式:式中,算术平均数 x1,xn 各观察值 求和符号 x 观察值总和 n 观察值的个数 本讲稿第九页,共八十一页频数-加权计算法 对一个随机事件作重复观察,其中某观察值出现的次数称频数;各观察值对应的频数称为频数分布;显示各观察值对应的频数的表格称为频数分布表,简称频数表。本讲稿第十页,共八十一页 频数-加权计算法计算步骤 计算全距找出观察值中的最大值、最小值,并计算全距(range),全距最大值最小值。定组段数一般取815个为宜,多取10个,组段数太多,计算较繁,组段数过少则误差较大。定组距(class interval)相邻两
5、组段下限值之差为组距(class interval)。各组段的组距可以相等,也可以不等。若拟定为相等组距,则组距全距/组段数,为便于观察值归组,组距常取整数。本讲稿第十一页,共八十一页 定组段(class range)即定各组数据的上下限,俗称“封口”。通常,某组段的最小值为下限(lower limit),相邻较大组段的下限即本组段的上限(upper limit)。第一组段应包括最小值,最末组段应包括最大值。计数(fi)划分组段后,将原始数据以适当方式划记计数(常用“正”字法)归组。得频数分布表。计算组中值(Class mid-value)(xi)组中值 计算均数 将各组段的频数与组中值之积相
6、加求和,再除以总频数即得均数。本讲稿第十二页,共八十一页2.2.1.2 几何均数定义几何均数(geometric mean,G),也叫倍数均数,当观察值相差较大甚至成倍数关系时,如用算术均数表示其平均水平时受少数特大或特小值影响较大,则用几何均数来表示其平均水平。计算步骤先对观察值取数值,计算对数值的均数后,再查反对数,即得几何均数。计算方法直接计算法频数表法本讲稿第十三页,共八十一页直接计算法本讲稿第十四页,共八十一页频数表法 当观察值较多时,可先编频数表,再按频数表计算几何均数。本讲稿第十五页,共八十一页2.2.1.3 中位数定义中位数(median,M,Md)指全部观察值按大小顺序排列,
7、居于中间位置的数值。偏态分布资料,一端或两端有不确定数值分布的资料,分布情况不清的资料,适宜用中位数统计。计算方法直接计算法频数表法 本讲稿第十六页,共八十一页直接计算法样本含量n较少时,先将观察值按大小顺序排列,再进行计算。本讲稿第十七页,共八十一页频数表法中位数是一个特定的百分位数,在全部观察值中有一半比它大,一半比它小。当例数较多时,先将观察值编制频数表,再按公式计算。本讲稿第十八页,共八十一页2.2.2 变异数定义 变异数是表示观察值变异水平的统计指标,常用指标有极差、方差、标准差和变异系数等。本讲稿第十九页,共八十一页2.2.2.1 极差定义 亦称全距(rangc,R),即一组观察值
8、中最大值与最小值之差。RXmaxXmin特点 全距反映了变异的范围,极差大,变异度大;极差小,变异度小。缺点 用极差表示变异程度的大小简单明了,但它仅考虑了观察值的最大值和最小值,而没有考虑其他数值,因此是不够全面的。本讲稿第二十页,共八十一页2.2.2.2 方差要克服全距的缺点,必须全面考虑到每个观察值。首先考虑用每一个观察值与均数之差的和即离均差总和(x )来描述。再考虑用离均差平方和(x )2来描述。最终考虑用离均差平方和的均数即方差S2来描述。本讲稿第二十一页,共八十一页2.2.2.3 标准差定义为了保持与原观察值及其均数的单位一致,将方差开平方,即得标准差,以S表示。特点 标准差直接
9、表示观察值分布的离散程度,间接反映样本的代表性。在观察单位数相同,均数相近条件下,标准差较大,表明观察值的变异程度较大,即观察值围绕均数的分布较离散,因而样本的代表性较差;反之,标准差较小,表明观察值的变异程度较小,观察值围绕均数的分布较密集,样本的代表性好。本讲稿第二十二页,共八十一页2.2.2.4 变异系数定义对均数相差较大或性质不同的资料,不能直接用标准差比较变异程度的大小,要用变异系数作比较。特点与标准差一样,变异系数愈大,表明观察值的变异程度愈大,变异系数愈小,表明变异程度愈小。本讲稿第二十三页,共八十一页2.2.3 相对数定义 环境研究直接观测到的数据称为绝对数,绝对数虽然能反映调
10、查中所发现的某种现象的绝对水平,但作深入分析时,仅看绝对数是不够的,必须考虑使用相对数(relative number),即两个有联系的指标之比。常用相对数有率、比等。本讲稿第二十四页,共八十一页2.2.3.1 率定义率(rate)是某一现象发生的频度(频繁程度)或强度,通常指在一定条件下某种现象实际发生的次数与可能发生该现象的总次数之比。率=率的比例基数可用100、1000、10,000、100,000等分别称为百分率,千分率,万分率,或十万分率。环境监测常用的率有:检出率 回收率 最高浓度出现率 残留率 超标率 本讲稿第二十五页,共八十一页2.2.3.2 构成比定义构成比(constitu
11、tion ratio)是事物内部某种构成部分对总体之比。说明部分在总体中所占的比重,是一种用来表示事物内部各构成情况的指标。构成比 本讲稿第二十六页,共八十一页2.2.3.3 相对比定义相对比(relative ratio)指两个有关联的同类指标的比。以倍数或百分数()来表示,其计算式:相对比=常用的相对比有倍数、指数、系数等。本讲稿第二十七页,共八十一页倍数 在大气监测中,经常用测定值与国家卫生标准值的比较来评价车间、工厂或大气的污染程度。指数(index)环境保护研究中,指数是环境污染物的实测浓度对该污染物在环境中的容许浓度的比值,是环境质量评价的常用手段。I I:环境质量指数C:污染物实
12、测平均浓度S:污染物容许标准。系数 如排毒系数,环境污染物的排放浓度对该污染物的排放标准的比值,用于表示各种污染物和污染源对环境的毒害的潜在能力。本讲稿第二十八页,共八十一页2.3 环境样本特征推断环境样本特征 主要指环境样本的分布形式和环境样本的正常值范围等,可以利用获得的统计量进行统计处理,完成上述推断工作。本讲稿第二十九页,共八十一页2.3.1 样本特征推断的理论基础正态分布 定义正态分布(normal distribution)又称高斯分布(Gaussian Distribution),是以均数为中心的对称钟型分布。正态曲线是一条高峰位于中央,两侧完全对称并逐渐下降但永远不与横轴相交的
13、钟形曲线 正态曲线由和两个参数决定,为总体均数,为总体标准差。决定正态曲线的位置,决定正态曲线形状。本讲稿第三十页,共八十一页2.3.2 样本特征推断样本分布形式的判定确定正常值范围确定样本所代表总体的理论频数分布本讲稿第三十一页,共八十一页2.4 参数估计定义探知研究对象的总体特征是环境研究的主要目标,由于总体庞大的原因,直接计算参数是极其困难的,因此,往往用样本统计量来估计总体参数,这个过程称为参数估计(estimation of parameter)。本节主要讨论总体均数估计的基本问题。总体均数估计分为点估计和区间估计。点估计(point estimation)是根据一个样本求出总体参数
14、的具体数值,常用根据极大似然法原理导出的公式计算极大似然估计量。由于存在变异和抽样的随机性,用不同的样本推断总体时,可能得到不同的参数估计值。因此更稳妥的办法是采用区间估计。本讲稿第三十二页,共八十一页2.4.1 总体均数区间估计的理论基础t分布 2.4.1.1 抽样误差定义 对样本的统计结果与总体的“真实”之间必然存在差异,这种由于抽样而引起的样本与总体之间的差异称为抽样误差。标准误差 样本均数的标准差称为标准误差,。计算公式为:在实际工作中,总体标准差 常属未知,只能用样本标准差S代替 作为最佳的无偏估计,于是标准误的计算公式变为:本讲稿第三十三页,共八十一页2.4.1.2 描述样本均数的
15、分布t分布 从一个均数为,标准差为的正态总体中,随机抽取含量为n的样本,可计算样本均数 ,样本标准误 ,则将样本均数与总体均数的离差以样本标准误 为单位,得正态(离)差 t ,若干样本的t值就构成统计上著名的t分布。实际工作中总体标准差 往往是不知道的,只能用样本标准差S来代替,于是得t 本讲稿第三十四页,共八十一页2.4.2 总体均数的区间估计区间估计(interval estimation)按预先给定的概率,由一个样本均数及其标准误求出总体均数数值范围的过程。“预先给定的概率”也称为可信度、可信水平、可信系数,符号为1-,常取0.99或0.95。“总体均数数值范围”也称为可信区间,符号为C
16、I。其含义是:由一个样本均数及其标准误求出的被估计参数值有0.99或0.95的可能在此数值范围内,或由若干个样本均数及其标准误求出的若干个被估计参数值中,有99或95的个数可能在此数值范围内。本讲稿第三十五页,共八十一页2.4.3 总体率的区间估计可仿照总体均数的可信区间估计的方法来估计总体率的所在范围,即求总体率的可信区间,我们介绍两种方法。正态近似法 当n足够大,且p和(1-p)不接近零,有np和n(1-p)均大于5时,总体率的可信区间为:式中u为可信度1-时的标准正态离差,由u界值得知,如99可信区间时,0.01,u2.58,95可信区间时,0.05,u1.96。查表法 当n1000,p
17、l时,可查附表3(百分率的可信限表),得到总体率的可信区间。本讲稿第三十六页,共八十一页2.5 显著性检验两均数差异显著性检验样本均数与总体均数的差异显著性检验两样本均数的差异显著性检验两个几何级数样本均数的差异显著性检验配对资料的差异显著性检验两个大样本均数的显著性检验u 检验方差不齐的两样本均数差异的显著性检验t检验本讲稿第三十七页,共八十一页2.5.1 显著性检验的含义与一般步骤含义在回答样本与总体是否有本质差异或差异是否有显著时,必须考虑:样本与总体差异无显著性和样本与总体差异有显著性2种情况。究竟属于那种情况,需通过差异显著性检验来回答。显著性检验的步骤建立“检验假设”确定检验水准选
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 环境 数据 统计 分析 精选 文档
限制150内