试验设计与分析园艺第二章理论分布与抽样分布.ppt
《试验设计与分析园艺第二章理论分布与抽样分布.ppt》由会员分享,可在线阅读,更多相关《试验设计与分析园艺第二章理论分布与抽样分布.ppt(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章 理论分布与抽样分布 n 第一节 试验数据资料的整理与描述 n 第二节 二项分布 n 第三节 正态分布 n 第四节 抽样分布 第一节 试验数据资料的整理与描述一、相关统计学术语二、试验数据资料的性质 三、次数分布表与分布图 四、数量资料的特征数一、相关统计学术语1 数据与变量数据:组成样本的每种性状的观察值的集合,也称资料变量:构成数据的每一个观察值2 参数与统计数参数:由总体的全部变量计算所得到的总体某一特征数,用希腊字母表示,如表示总体平均数,表示总体标准差 统计数:由样本的全部变量计算所得到的样本某一特征数,用拉丁字母表示,如 表示样本平均数,s 表示样本标准差 二、试验数据资料的
2、性质 1 数量性状资料(quantitative trait)指可以通过一定的度量方式而用数字描述的性状,其度量有计数和量测两种方式,其所得的变量不同(1)不连续性或间断性变量:指用计数方法获得的资料,如出苗数、叶片数等,其各个观察值必须以整数表示,不允许有带小数点的数值存在。(2)连续性变量:指用称量、度量或测量方法得到的数据,如千粒重等,其各个观察值并不限于整数,小数位数的多少,因称量的精度而异 二、试验数据资料的性质 2 质量性状资料(qualitative trait)指只能观察叙述而不能测量的性状,即属性性状如果实的色泽、叶色、叶片上毛茸的有无等 要获得这些性状的数量资料,可采用下列
3、 3 种方法 三、次数分布表与分布图 1 不连续性数量性状变量资料的整理 采用单项式分组法进行整理特点:用样本变量自然值进行分组,每组均用一个或几个观察值来表示。分组时,可将数据资料中每个观察值分别归入相应的组内,然后制成次数分布表。(1)如果观察值个数较少,或变异幅度较小,就以每一个变量为一组进行整理。(2)如果观察值个数较多,或变异幅度较大,就以相邻的几个变量为一组进行整理。三、次数分布表与分布图第11页,例1-2-1,100个麦穗的每穗小穗数18 15 17 19 16 15 20 18 19 1717 18 17 16 18 20 19 17 16 1817 16 17 19 18 1
4、8 17 17 17 1818 15 16 18 18 18 17 20 19 1817 19 15 17 17 17 16 17 18 1817 19 19 17 19 17 18 16 18 1717 19 16 16 17 17 17 15 17 1618 19 18 18 19 19 20 17 16 1918 17 18 20 19 16 18 19 17 1615 16 18 17 18 17 17 16 19 17三、次数分布表与分布图每穗小穗数(y)次数(f)频次(f/y)15 6 0.0616 15 0.1517 32 0.3218 25 0.2519 17 0.1720 5
5、 0.05合计 100 1100个麦穗每穗小穗数的次数分布表(图)频率小穗数三、次数分布表与分布图2 连续性数量性状变量资料的整理 类似于不连续性变量资料的第2种情况(第12页例1-2-2)1.83 1.77 1.81 1.81 1.80 1.79 1.82 1.82 1.81 1.81 1.871.78 1.80 1.81 1.87 1.81 1.77 1.78 1.77 1.78 1.77 1.771.71 1.95 1.78 1.81 1.79 1.80 1.77 1.76 1.82 1.80 1.821.79 1.90 1.82 1.79 1.82 1.79 1.86 1.76 1.7
6、8 1.83 1.751.78 1.73 1.83 1.81 1.81 1.83 1.89 1.81 1.86 1.82 1.821.84 1.84 1.84 1.81 1.81 1.74 1.78 1.78 1.80 1.74 1.781.79 1.85 1.75 1.71 1.71 1.88 1.82 1.76 1.85 1.73 1.781.79 1.77 1.78 1.87 1.87 1.83 1.65 1.64 1.78 1.75 1.821.80 1.77 1.81 1.83 1.83 1.90 1.80 1.85 1.81 1.77 1.781.84 1.85 1.84 1.85
7、 1.85 1.84 1.82 1.85 1.84 1.78 1.78120个黄瓜叶片中叶绿素a含量的测定值三、次数分布表与分布图2 连续性数量性状变量资料的整理(1)求极差极差:所有数据中最大观察值与最小观察值的差值,也称全距。表示整个样本的变异幅度。用R表示。R=()mg/g鲜重=0.31 mg/g鲜重(2)确定组数组数要根据样本的容量、全距、便于计算、能反映资料的真实面貌等因素来确定。样本容量 分组数30-60 5-860-100 7-10100-200 9-15200-500 12-18500以上 15-30三、次数分布表与分布图2 连续性数量性状变量资料的整理(3)计算组距组距:每组
8、内的上下限范围。分组时要求各组的距离相同,即各组是等组距的。组距=极差/组数=0.31/15 mg/g鲜重0.02mg/g鲜重三、次数分布表与分布图2 连续性数量性状变量资料的整理(4)确定组限与组中值组限:每组观察值的界限。包括上限和下限。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不至于含糊不清。为了把资料中最小和最大的观察值包括在内,最小一组的下限必须小于最小观察值,最大一组的上限必须大于最大观察值。组中值:每组下限和上限的中间值。为了避免第一组中观察值数过多,一般第一组的组中值最好接近或等于资料中的最小值。组中值=(下限+上限)/2=下限+1/2组距=上限-1/2组
9、距 三、次数分布表与分布图 2 连续性变量资料的整理 频率叶绿素a含量(mg/g鲜重)三、次数分布表与分布图属性分组 次 数频率有色非糯 491 0.6608有色糯性 76 0.1023无色非糯 90 0.1211无色糯性 86 0.1158合 计 743 13 质量性状变量资料的整理 整理前,把资料按各种质量性状进行分类,分类数等于组数,根据各个观察值在质量属性上的具体表现,归入相应的组内,即可得到属性分布的规律性认识。第14页 例1-2-3,水稻杂种F2代植株米粒性状的分离情况 四、数量资料的特征数120个黄瓜叶片中叶绿素a含量的次数分布图 集中性离散性变异数平均数(一)平均数1.平均数的
10、意义l 数据资料的代表值,表示全部观察值的中心位置,代表该组数据与其他数据进行比较2.平均数的种类 l 算术平均数:l 几何平均数:l 中位数:大小居中的观察值(Md)l 众数:次数最多的观察值(M0)(一)平均数3.算术平均数的性质l 离均差之和为零,即各观察值与其平均数之差的总和等于零(一)平均数3.算术平均数的性质l 离均差平方和最小,即各观察值与其平均数的差数的平方的总和,小于各观察值与任何一个数值的差数的平方的总和(二)变异数1.引入变异数的意义l 平均数作为数据资料的代表,其代表性的强弱由各观察值变异程度的大小决定 A 组 10;8;10;11;11B 组 2;18;8;15;7
11、l 使用平均数描述数据资料是不够的,还需要引进一个表示变异程度的统计数,即变异数l 常用的有极差、方差、标准差和变异系数(二)变异数2.极差l 定义:又称全距(R),最大和最小观察值的差值 l 缺点:由观察值中两个极端值决定,不能反映全部观察值的信息,而且容易受资料中不正常极端值的影响l 优点:快速简单A 组 10;8;10;11;11 R=3B 组 2;18;15;8;7 R=16C 组 2;18;10;10;10 R=16(二)变异数3.方差l 离均差:可以反映全部观察值的变异情况,但 A 组 8;8;12;12B 组 8;12l 平方和:各个离均差的平方的总和(二)变异数3.方差l 方差
12、:用观察值数目来除平方和 为什么用n-1,而不用n?l 总体方差:l 样本方差:(二)变异数 估计l n-1称为自由度(df)l 多数情况下:l 这样,用样本SS代替总体SS就会使2值偏小,为了校正,分母使用较小的n-1而不是nl 当n30时,分母必须使用n-1,当n30时,n和n-1差异不大,分母可使用n估计(二)变异数4.标准差l 方差的缺点 度量单位也平方 平方使数值的量增大,与实际变异度有差距 l 标准差:方差的平方根l 标准差的优点:保留方差的优点;度量单位上与平均数一致;在数量水平上也比较客观l 数量资料的表示方法:(二)变异数5.变异系数l 标准差的缺点:比较两个样本的变异程度时
13、,两个样本的单位、平均数和性质必须相同 l 如果不同,需要引入表示相对变异程度的变异数,即变异系数(CV)l 变异系数在田间试验中有重要用途,如在空白试验时,可作为土壤差异的指标。但变异系数同时受标准差和平均数的影响,因此,在使用变异系数时,要同时列举平均数和标准差,否则可能会引起误解。(二)变异数5.变异系数l 例:小麦A品种的株高为959.02(cm),B品种为758.50(cm),问哪个品种株高整齐度好?直接用标准差比较:9.028.50(cm),B品种较整齐 但二者平均数不相同,需用变异系数比较:9.511.3(%),A品种较整齐(三)自由度的含义自由度l 样本内独立而能自由变动的离均
14、差个数 如一个样本为(3,4,5,6,7),平均数为5,前面4个数的离均差分别为2,1,0,1,那么第5个数的离均差必须为2,才能满足各观察值的离均差之和为零这个特性。一般来说,样本自由度等于观察值的个数(n)减受条件约束的个数(k),即df=nk在应用上,小样本一定要用自由度来估计标准差,大样本的n和n 1相差不大,也可不用自由度,而直接用n作除数。但大样本与小样本之间没有明确的界限和统一的规定,所以一般样本在估计标准差时,都用自由度。(四)标准差的计算1、直接计算 在直接计算标准差时,先求出,再求,最后再计算s。这样比较麻烦,而且当 由四舍五入而来时,容易引起计算误差。所以将 作如下变形:
15、2、利用矫正数矫正数,Cn 120个黄瓜叶片中叶绿素a含量的平均数与标准差mg/g鲜重mg/g鲜重(四)标准差的计算3、减去常数法 如果观察值较大或较小,可将各观察值都减去(或加上)一个常数,所得的s值不变。第二节 二项式分布一、二项总体二、二项式分布三、二项式分布的概率计算方法四、二项式分布的形状五、二项式分布的参数六、多项式分布七、泊松分布一、二项总体n 二项总体:由非此即彼的两项(对立事件)构成的总体n 黄瓜种子发芽和不发芽n 桃果实的有毛和无毛n 豌豆的黄色与绿色、圆粒与皱粒等n“此”事件以变量“1”表示,具概率p;“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0-1总体,其
16、概率则显然有:p+q=1或q=1p二、二项式分布n 二项式分布:如果从二项总体进行n次重复抽样,设出现“1”的次数为k,那么k的取值可能为0、1、2、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量k及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布三、二项式分布的概率计算方法n 例:在两个班63名学生中,有30名女学生(1),33名男学生(0)。如果从全体学生中抽取3人次参加志愿者,那么女学生被抽到2次的概率是多少?第1次抽取 第2次抽取 第3次抽取事件概率性别 概率 性别 概率 性别 概率1 30/631 30/631 30/63(30/63)30
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 试验 设计 分析 园艺 第二 理论 分布 抽样
限制150内