试验设计与分析(园艺)第二章理论分布与抽样分布.ppt
《试验设计与分析(园艺)第二章理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《试验设计与分析(园艺)第二章理论分布与抽样分布.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 理论分布与抽样分布 n第一节第一节 试验数据资料的整理与描述试验数据资料的整理与描述 n第二节第二节 二项分布二项分布 n第三节第三节 正态分布正态分布 n第四节第四节 抽样分布抽样分布 第一节第一节 试验数据资料的整理与描述试验数据资料的整理与描述一、相关统计学术语一、相关统计学术语二、试验数据资料的性质二、试验数据资料的性质 三、次数分布表与分布图三、次数分布表与分布图 四、数量资料的特征数四、数量资料的特征数一、相关统计学术语一、相关统计学术语1 数据与变量数据与变量数据:组成样本的每种性状的观察值的集合,也称资料数据:组成样本的每种性状的观察值的集合,也称资料变量:构成数据的每
2、一个观察值变量:构成数据的每一个观察值2 参数与统计数参数与统计数参数:由总体的全部变量计算所得到的总体某一特征数,参数:由总体的全部变量计算所得到的总体某一特征数,用希腊字母表示,用希腊字母表示,如如表示总体平均数,表示总体平均数,表示总体标准差表示总体标准差 统计数:由样本的全部变量计算所得到的样本某一特征数,统计数:由样本的全部变量计算所得到的样本某一特征数,用拉丁字母表示,用拉丁字母表示,如如 表示样本平均数,表示样本平均数,s 表示样本标准差表示样本标准差 二、试验数据资料的性质二、试验数据资料的性质 1 数量性状资料(数量性状资料(quantitative trait)指可以通过一
3、定的度量方式而用数字描述的性状,指可以通过一定的度量方式而用数字描述的性状,其度量有计数和量测两种方式,其所得的变量不同其度量有计数和量测两种方式,其所得的变量不同(1)不连续性或间断性变量)不连续性或间断性变量:指用计数方法获得的资料,:指用计数方法获得的资料,如出苗数、叶片数等,其各个观察值必须以整数表示,如出苗数、叶片数等,其各个观察值必须以整数表示,不允许有带小数点的数值存在。不允许有带小数点的数值存在。(2)连续性变量)连续性变量:指用称量、度量或测量方法得到:指用称量、度量或测量方法得到的数据,如千粒重等,其各个观察值并不限于整数,的数据,如千粒重等,其各个观察值并不限于整数,小数
4、位数的多少,因称量的精度而异小数位数的多少,因称量的精度而异 二、试验数据资料的性质二、试验数据资料的性质 2 质量性状资料(质量性状资料(qualitative trait)指只能观察叙述而不能测量的性状,即属性性状指只能观察叙述而不能测量的性状,即属性性状如果实的色泽、叶色、叶片上毛茸的有无等如果实的色泽、叶色、叶片上毛茸的有无等 要获得这些性状的数量资料,可采用下列要获得这些性状的数量资料,可采用下列 3 种方法种方法 三、次数分布表与分布图三、次数分布表与分布图 1 不连续性数量性状变量资料的整理不连续性数量性状变量资料的整理 采用单项式分组法进行整理采用单项式分组法进行整理特点:用样
5、本变量自然值进行分组,每组均用一个或特点:用样本变量自然值进行分组,每组均用一个或几个观察值来表示。分组时,可将数据资料中每个观几个观察值来表示。分组时,可将数据资料中每个观察值分别归入相应的组内,然后制成次数分布表。察值分别归入相应的组内,然后制成次数分布表。(1)如果观察值个数较少,或变异幅度较小,)如果观察值个数较少,或变异幅度较小,就以每一个变量为一组进行整理。就以每一个变量为一组进行整理。(2)如果观察值个数较多,或变异幅度较大,)如果观察值个数较多,或变异幅度较大,就以相邻的几个变量为一组进行整理。就以相邻的几个变量为一组进行整理。三、次数分布表与分布图三、次数分布表与分布图第第1
6、1页,页,例例1-2-1,100个麦穗的每穗小穗数个麦穗的每穗小穗数18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917三、次数分布表与分布图三、次数分布表与分布图每穗小穗数每穗小穗数(y)次数次数(f)频次(频次(f/y)1560.0616150.1
7、517320.3218250.2519170.172050.05合合计计1001100个麦穗每穗小穗数的次数分布表(图)个麦穗每穗小穗数的次数分布表(图)频率频率小穗数小穗数三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状变量资料的整理连续性数量性状变量资料的整理 类似于不连续性变量资料的第类似于不连续性变量资料的第2种情况(第种情况(第12页例页例1-2-2)1.831.771.811.811.801.791.821.821.811.811.871.781.801.811.871.811.771.781.771.781.771.771.711.951.781.811.791.8
8、01.771.761.821.801.821.791.901.821.791.821.791.861.761.781.831.751.781.731.831.811.811.831.891.811.861.821.821.841.841.841.811.811.741.781.781.801.741.781.791.851.751.711.711.881.821.761.851.731.781.791.771.781.871.871.831.651.641.781.751.821.801.771.811.831.831.901.801.851.811.771.781.841.851.841.8
9、51.851.841.821.851.841.781.78120个黄瓜叶片中叶绿素个黄瓜叶片中叶绿素a含量的测定值含量的测定值三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状变量资料的整理连续性数量性状变量资料的整理(1)求极差)求极差极差:所有数据中最大观察值与最小观察值的差值,极差:所有数据中最大观察值与最小观察值的差值,也称全距。表示整个样本的变异幅度。用也称全距。表示整个样本的变异幅度。用R表示。表示。R=()()mg/g鲜重鲜重=0.31 mg/g鲜重鲜重(2)确定组数)确定组数组数要根据样本的容量、组数要根据样本的容量、全距、便于计算、能反映全距、便于计算、能反映资料
10、的真实面貌等因素来资料的真实面貌等因素来确定。确定。样样本容量本容量分分组组数数30-605-860-1007-10100-2009-15200-50012-18500以上以上15-30三、次数分布表与分布图三、次数分布表与分布图2 连续性连续性数量性状数量性状变量资料的整理变量资料的整理(3)计算组距)计算组距组距:每组内的上下限范围。组距:每组内的上下限范围。分组时要求各组的距离相同,即各组是等组距的分组时要求各组的距离相同,即各组是等组距的。组距组距=极差极差/组数组数=0.31/15 mg/g鲜重鲜重0.02mg/g鲜重鲜重三、次数分布表与分布图三、次数分布表与分布图2 连续性数量性状
11、变量资料的整理连续性数量性状变量资料的整理(4)确定组限与组中值)确定组限与组中值组限:每组观察值的界限。包括上限和下限。组限:每组观察值的界限。包括上限和下限。组限要明确,最好比原始资料的数字多一位小数,这样可使组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不至于含糊不清。观察值归组时不至于含糊不清。为了把资料中最小和最大的观察值包括在内,为了把资料中最小和最大的观察值包括在内,最小一组的下限必须小于最小观察值,最小一组的下限必须小于最小观察值,最大一组的上限必须大于最大观察值。最大一组的上限必须大于最大观察值。组中值:每组下限和上限的中间值。组中值:每组下限和上限的中间值
12、。为了避免第一组中观察值数过多,一般第一组的组中值最好接为了避免第一组中观察值数过多,一般第一组的组中值最好接近或等于资料中的最小值。近或等于资料中的最小值。组中值组中值=(下限(下限+上限)上限)/2=下限下限+1/2组距组距=上限上限-1/2组距组距 三、次数分布表与分布图三、次数分布表与分布图 2 连续性变量资料的整理连续性变量资料的整理 频率频率叶绿素叶绿素a含量(含量(mg/g鲜重)鲜重)三、次数分布表与分布图三、次数分布表与分布图属性分属性分组组次次 数数频率频率有色非糯有色非糯4910.6608有色糯性有色糯性760.1023无色非糯无色非糯900.1211无色糯性无色糯性860
13、.1158合合 计计74313 质量性状变量资料的整理质量性状变量资料的整理 整理前,把资料按各种质量性状进行分类,分类数等于组数,整理前,把资料按各种质量性状进行分类,分类数等于组数,根据各个观察值在质量属性上的具体表现,归入相应的组内,根据各个观察值在质量属性上的具体表现,归入相应的组内,即可得到属性分布的规律性认识。即可得到属性分布的规律性认识。第第14页页 例例1-2-3,水稻杂种,水稻杂种F2代植株米粒性状的分离情况代植株米粒性状的分离情况 四、数量资料的特征数四、数量资料的特征数120个黄瓜叶片中个黄瓜叶片中叶绿素叶绿素a含量的含量的次数分布图次数分布图 集中性集中性离散性离散性变
14、异数变异数平均数平均数(一)平均数(一)平均数1.平均数的意义平均数的意义l数据资料的数据资料的代表值代表值,表示全部观察值的中心位置,代表该组,表示全部观察值的中心位置,代表该组数据与其他数据进行比较数据与其他数据进行比较2.平均数的种类平均数的种类 l 算术平均数:算术平均数:l 几何平均数:几何平均数:l 中位数:中位数:大小居中的大小居中的观观察察值值(Md)l 众数:众数:次数最多的次数最多的观观察察值值(M0)(一)平均数(一)平均数3.算术平均数的性质算术平均数的性质l离均差之和为零离均差之和为零,即各观察值与其平均数之差的总和,即各观察值与其平均数之差的总和等于零等于零(一)平
15、均数(一)平均数3.算术平均数的性质算术平均数的性质l离均差平方和最小离均差平方和最小,即各观察值与其,即各观察值与其平均数平均数的差数的平方的的差数的平方的总和,小于各观察值与总和,小于各观察值与任何一个数值任何一个数值的差数的平方的总和的差数的平方的总和 (二)变异数(二)变异数1.引入变异数的意义引入变异数的意义l平均数作为数据资料的代表,其代表性的强弱由平均数作为数据资料的代表,其代表性的强弱由各观察值变异程各观察值变异程度的大小决定度的大小决定 A组组 10;8;10;11;11B组组 2;18;8;15;7 l使用平均数描述数据资料是不够的使用平均数描述数据资料是不够的,还需要引进
16、一个还需要引进一个表示变异程度的统计数,即表示变异程度的统计数,即变异数变异数l常用的有常用的有极差极差、方差方差、标准差标准差和和变异系数变异系数(二)变异数(二)变异数2.极差极差l定义:定义:又称全距(又称全距(R),最大和最小观察值的差值最大和最小观察值的差值 l缺点:由观察值中两个极端值决定,不能反映全部观缺点:由观察值中两个极端值决定,不能反映全部观察值的信息,而且容易受资料中不正常极端值的影响察值的信息,而且容易受资料中不正常极端值的影响l优点:快速简单优点:快速简单A组组 10;8;10;11;11 R=3B组组 2;18;15;8;7 R=16C组组 2;18;10;10;1
17、0 R=16(二)变异数(二)变异数3.方差方差l离均差离均差:可以反映全部观察值的变异情况,但:可以反映全部观察值的变异情况,但 A组组 8;8;12;12B组组 8;12l平方和平方和:各个离均差的平方的总和:各个离均差的平方的总和(二)变异数(二)变异数3.方差方差l方差方差:用观察值数目来除平方和用观察值数目来除平方和 为什么用为什么用n-1,而不用,而不用n?l总体方差总体方差:l样本方差样本方差:(二)变异数(二)变异数 估计估计ln-1-1称为称为自由度自由度(df)l多数情况下:多数情况下:l这样,用这样,用样本样本SS代替总体代替总体SS就会使就会使2值偏小,为了值偏小,为了
18、校正,分母使用较小的校正,分母使用较小的n-1-1而不是而不是nl当当n30时,分母必须使用时,分母必须使用n-1-1,当,当n30时,时,n和和n-1-1差差异不大,分母可使用异不大,分母可使用n估计估计(二)变异数(二)变异数4.标准差标准差l方差的缺点方差的缺点度量单位也平方度量单位也平方平方使数值的量增大,与实际变异度有差距平方使数值的量增大,与实际变异度有差距 l标准差标准差:方差的平方根:方差的平方根l标准差的优点:保留方差的优点;度量单位上与平均标准差的优点:保留方差的优点;度量单位上与平均数一致;在数量水平上也比较客观数一致;在数量水平上也比较客观l数量资料的表示方法:数量资料
19、的表示方法:(二)变异数(二)变异数5.变异系数变异系数l标准差的缺点标准差的缺点:比较两个样本的变异程度时,两个样本比较两个样本的变异程度时,两个样本的单位、平均数和性质必须相同的单位、平均数和性质必须相同 l如果不同,需要引入表示相对变异程度的变异数,即如果不同,需要引入表示相对变异程度的变异数,即变异系数(变异系数(CV)l变异系数在田间试验中有重要用途,如在空白试验时,可作为变异系数在田间试验中有重要用途,如在空白试验时,可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响,土壤差异的指标。但变异系数同时受标准差和平均数的影响,因此,在使用变异系数时,要同时列举平均数和标准差,否
20、则因此,在使用变异系数时,要同时列举平均数和标准差,否则可能会引起误解。可能会引起误解。(二)变异数(二)变异数5.变异系数变异系数l例:小麦例:小麦A品种的株高为品种的株高为959.02(cm),B品种为品种为758.50(cm),问哪个品种株高,问哪个品种株高整齐度整齐度好?好?直接用标准差比较:直接用标准差比较:9.028.50(cm),B品种较整齐品种较整齐但二者平均数不相同,需用变异系数比较:但二者平均数不相同,需用变异系数比较:9.511.3(%),),A品种较整齐品种较整齐(三)自由度的含义(三)自由度的含义自由度自由度l样本内独立而能自由变动的离均差个数样本内独立而能自由变动的
21、离均差个数 如一个样本为(如一个样本为(3,4,5,6,7),平均数为),平均数为5,前面,前面4个数的离个数的离均差分别为均差分别为2,1,0,1,那么第,那么第5个数的离均差必须为个数的离均差必须为2,才,才能满足各观察值的离均差之和为零这个特性。能满足各观察值的离均差之和为零这个特性。一般来说,样本自由度等于观察值的个数(一般来说,样本自由度等于观察值的个数(n)减受条件约束的个)减受条件约束的个数(数(k),即),即df=nk在应用上,小样本一定要用自由度来估计标准差,大样本的在应用上,小样本一定要用自由度来估计标准差,大样本的n和和n1相差不大,也可不用自由度,而直接用相差不大,也可
22、不用自由度,而直接用n作除数。但大样本与小样作除数。但大样本与小样本之间没有明确的界限和统一的规定,所以一般样本在估计标准差本之间没有明确的界限和统一的规定,所以一般样本在估计标准差时,都用自由度。时,都用自由度。(四)标准差的计算(四)标准差的计算1、直接计算、直接计算 在直接计算标准差时,先求出在直接计算标准差时,先求出 ,再求,再求 ,最后,最后再计算再计算s。这样比较麻烦,而且当。这样比较麻烦,而且当 由四舍五入而来时,容易引起由四舍五入而来时,容易引起计算误差。所以将计算误差。所以将 作如下变形:作如下变形:2、利用矫正数、利用矫正数矫正数,矫正数,Cn120个黄瓜叶片中叶绿素个黄瓜
23、叶片中叶绿素a含量的平均数与标准差含量的平均数与标准差mg/g鲜重鲜重mg/g鲜重鲜重(四)标准差的计算(四)标准差的计算3、减去常数法、减去常数法 如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,所得的所得的s值不变。值不变。第二节第二节 二项式分布二项式分布一、二项总体一、二项总体二、二项式分布二、二项式分布三、二项式分布的概率计算方法三、二项式分布的概率计算方法四、二项式分布的形状四、二项式分布的形状五、二项式分布的参数五、二项式分布的参数六、多项式分布六、多项式分布七、泊松分布七、泊松分布一、二项总体一、二项总体n
24、二项总体:由非此即彼的两项(对立事件)构成的总体二项总体:由非此即彼的两项(对立事件)构成的总体n黄瓜种子发芽和不发芽黄瓜种子发芽和不发芽n桃果实的有毛和无毛桃果实的有毛和无毛n豌豆的黄色与绿色、圆粒与皱粒等豌豆的黄色与绿色、圆粒与皱粒等n“此此”事件以变量事件以变量“1”表示,具概率表示,具概率p;“彼彼”事件以事件以变量变量“0”表示,具概率表示,具概率q。因而二项总体又称为。因而二项总体又称为0-1总体,总体,其概率则显然有:其概率则显然有:p+q=1或或q=1p二、二项式分布二、二项式分布n二项式分布:如果从二项总体进行二项式分布:如果从二项总体进行n次重复抽次重复抽样,设出现样,设出
25、现“1”的次数为的次数为k,那么,那么k的取值可的取值可能为能为0、1、2、n,共有,共有n+1种可能取值,种可能取值,这这n+1种取值各有其概率,因而由变量种取值各有其概率,因而由变量k及其概及其概率就构成了一个分布,这个分布叫做二项式概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布率分布,简称二项式分布或二项分布三、二项式分布的概率计算方法三、二项式分布的概率计算方法n例:在两个班例:在两个班6363名学生中,有名学生中,有3030名女学名女学生(生(1 1),),3333名男学生(名男学生(0 0)。如果从全)。如果从全体学生中抽取体学生中抽取3 3人次参加志愿
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验 设计 分析 园艺 第二 理论 分布 抽样
限制150内