资料的整理与特征数的计算精选课件.ppt
关于资料的整理与特征数关于资料的整理与特征数的计算的计算第一页,本课件共有97页在生物学试验及调查中,通过对某种具体事在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为物或现象观察获得的结果称为资料资料。原原始始数数据据无序无序有序有序统统计计分分析析揭示事物本质揭示事物本质第二页,本课件共有97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理第三页,本课件共有97页对对试验资料试验资料进行分类是统计归纳的基础。进行分类是统计归纳的基础。数量性状资料数量性状资料质量性状资料质量性状资料(属性性状资料)(属性性状资料)计数资料计数资料(非连续变量资料)(非连续变量资料)计量资料计量资料(连续变量资料)(连续变量资料)变量变量定量变量定量变量定性变量定性变量连续变量连续变量非连续变量非连续变量资料资料第四页,本课件共有97页 数量性状数量性状(quantitative character)是指能够以计数和测是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状量或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是而获得的数据就是数量性状资料数量性状资料(data of quantitative characteristics)。数量性状资料的获得有计数和测量两种。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为方式,因而数量性状资料又分为计数资料计数资料和和计量资料计量资料两两种。种。一、数量性状资料一、数量性状资料第五页,本课件共有97页 1、计数资料(、计数资料(非连续变量资料、间断变量资料、离散变量资料非连续变量资料、间断变量资料、离散变量资料)指用计数方式获得的数量性状资料。在这类资料中,它指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,有任何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为所以该类资料也称为非连续变量资料非连续变量资料或或间断变量资料间断变量资料或或离散变量资料离散变量资料。第六页,本课件共有97页 2、计量资料、计量资料(连续变量资料)(连续变量资料)指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,量工具的精确度而定,它们之间的变异是连续性的,因此计量资料也它们之间的变异是连续性的,因此计量资料也称为称为连续变量资料连续变量资料。第七页,本课件共有97页 二、质量性状资料(属性性状资料)二、质量性状资料(属性性状资料)质量性状质量性状(qualitative character)是指能观察到而不能直接是指能观察到而不能直接测量的性状。测量的性状。观察质量性状而获得的数据就是观察质量性状而获得的数据就是质量性状资质量性状资料料(data of qualitative characteristics)。这类性状本身不。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:观察结果作数量化处理,其方法有以下两种:第八页,本课件共有97页 1、统计次数法、统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫这种由质量性状数量化得来的资料又叫次数资料次数资料。第九页,本课件共有97页 2、评分法、评分法 对某一质量性状分成不同级别,对不同级别进行对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行评分来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,试剂数量化,以便统计分析。例如,试剂pH值由酸到碱分值由酸到碱分成成14个等级,取待测试剂滴在个等级,取待测试剂滴在pH试纸上,与试纸上,与pH标准色版标准色版对比,由红到紫分别定义为对比,由红到紫分别定义为 114 的数值。的数值。第十页,本课件共有97页 两种不同类型的资料相互间是有区别的,但有时可根据研两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。类型的资料。例如,检测个体的白细胞总数得到的资料属于计数资料,例如,检测个体的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分为根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状次数三组,清点各组的次数,计数资料就转化为质量性状次数资料。资料。第十一页,本课件共有97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理第十二页,本课件共有97页调调 查查试试 验验资料搜集的方法资料搜集的方法第十三页,本课件共有97页一、调查一、调查 调查调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查普查 是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。第十四页,本课件共有97页2、抽样调查、抽样调查 是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。情况下还是进行抽样调查。抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽样法,一般情况下在统计学中常常采用样法,一般情况下在统计学中常常采用随机抽样随机抽样的方法。的方法。随机抽样必须满足随机抽样必须满足2个条件个条件:一是总体中每个个体被抽中的机:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。中不受其他个体的影响。第十五页,本课件共有97页二、试验二、试验 试验试验是对已有的或没有的事物加以处理的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控随机、重复和局部控制制。第十六页,本课件共有97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理第十七页,本课件共有97页(一)原始资料的检查与核对(一)原始资料的检查与核对调查调查试验试验原始原始数据数据核对:数据本身是否有错误核对:数据本身是否有错误检查:取样是否有差错检查:取样是否有差错订正:不合理数据的订正订正:不合理数据的订正第十八页,本课件共有97页检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。第十九页,本课件共有97页不必分组,不必分组,直接进行统计分析直接进行统计分析小样本小样本n500 15 30表表2-5样本容量与分组数的关系样本容量与分组数的关系组距的确定组距的确定即每组内的上下限范围。即每组内的上下限范围。组距全距组距全距/组数组数48104.810组组5cm第二十九页,本课件共有97页(3)确定组限(class limit)和组中值(class midvalue)组限组限 是指每个组变量值的起止界限。上限下限组中值组中值 是两个组限的中间值。组中值组中值下限上限下限上限 2组距组距2下限下限组距组距2上限上限第一组的组中第一组的组中值最好接近于值最好接近于资料的最小值资料的最小值第三十页,本课件共有97页表2-4150尾鲢鱼体长(cm)56 49 62 78 41 47 65 45 58 55 59 65 69 62 7352 52 60 51 62 78 66 45 58 58 60 57 52 51 4856 46 58 70 72 76 77 56 66 58 58 55 53 50 6563 57 65 85 59 58 54 62 48 63 46 61 62 57 3858 52 54 55 66 52 48 56 75 72 57 37 46 76 5663 75 65 48 52 55 54 62 71 48 62 58 46 57 3854 53 65 42 83 66 48 53 58 46 46 26 36 76 5560 54 58 49 52 56 82 63 65 54 75 65 86 46 7770 69 40 56 58 61 54 53 52 43 52 64 58 58 5478 52 56 61 59 54 59 64 68 51 59 68 63 52 63最小一组的下限必最小一组的下限必须小于资料中的最须小于资料中的最小值,最大一组的小值,最大一组的上限必须大于资料上限必须大于资料中的最大值;中的最大值;组限可取到组限可取到10分位分位或或5分位上;分位上;临界值就高不就临界值就高不就低。低。35,40,45,85。第三十一页,本课件共有97页(4)分组分组确定好组数和各组上下限后,可按原始资料中各观测值确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。频率、累积频率,制成一个次数分布表。计数的方法计数的方法卡片法卡片法唱票法唱票法画画“正正”字字画画“”第三十二页,本课件共有97页 组限 组中值 次数 频率 累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5 4 0.0267 0.0467 45 47.5 17 0.1133 0.1600 50 52.5 28 0.1867 0.3467 55 57.5 40 0.2666 0.6133 60 62.5 25 0.1667 0.7800 65 67.5 17 0.1133 0.8973 70 72.5 6 0.0400 0.9333 75 77.5 7 0.0467 0.9800 80 82.5 2 0.0133 0.9933 85 87.5 1 0.0067 1.0000表表2-6 150尾鲢鱼体长的次数分布表尾鲢鱼体长的次数分布表第三十三页,本课件共有97页(三)次数分布图和频率分布图(三)次数分布图和频率分布图定义:定义:把次数(频率)分布资料画成统计图形。把次数(频率)分布资料画成统计图形。特点:特点:直观、形象直观、形象包括:包括:条形图、饼图、直方图、多边形图和散点图条形图、饼图、直方图、多边形图和散点图第三十四页,本课件共有97页统计图绘制的基本要求:统计图绘制的基本要求:统计图绘制的基本要求:统计图绘制的基本要求:(1)标题简明扼要)标题简明扼要,列于图的下方列于图的下方;(2)纵、横两轴应有刻度,注明单位;)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图)横轴由左至右,纵轴由下而上,数值由小到大;图 形长宽比例约形长宽比例约5:4或或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图)图中需用不同颜色或线条代表不同事物时,应有图 例说明。例说明。第三十五页,本课件共有97页图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.2 月产蛋数频率分布柱形图月产蛋数频率分布柱形图1条形图(条形图(bar chart),2 又称柱形图又称柱形图计数资料计数资料特点:特点:柱形之间要间隔一定的距离柱形之间要间隔一定的距离 属性资料属性资料第三十六页,本课件共有97页2 饼图饼图(pie chart)图图1 来亨鸡月产蛋次数分布图来亨鸡月产蛋次数分布图计数资料计数资料属性资料属性资料第三十七页,本课件共有97页图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图3 直方图直方图(histogram),又称矩形图,又称矩形图计量资料计量资料35 40 45 50 55 60 65 70 75 80 85 90特点:特点:各组之间没有距离各组之间没有距离 第三十八页,本课件共有97页图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图35 40 45 50 55 60 65 70 75 80 85 90组中值组中值第三十九页,本课件共有97页4 多边形图多边形图(polygon),又称折线图,又称折线图(broken-line chart)计量资料计量资料图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图第四十页,本课件共有97页5 散点图散点图(scatter)1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321a.正向直线关系b.负向直线关系c.曲线关系第四十一页,本课件共有97页搜集、归纳原始数据搜集、归纳原始数据用表格、图形来表达数据用表格、图形来表达数据用量化的统计学指标来描述一组定量数用量化的统计学指标来描述一组定量数据的分布特征据的分布特征第四十二页,本课件共有97页图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.3 鲢鱼体长次数分布直方图鲢鱼体长次数分布直方图35 40 45 50 55 60 65 70 75 80 85 90第四十三页,本课件共有97页第二节 试验资料特征数的计算集中性集中性 是变量在趋势上有着向某一中心聚集,或者说是变量在趋势上有着向某一中心聚集,或者说 以某一数值为中心而分布的性质。以某一数值为中心而分布的性质。离散性离散性 是变量有着离中分散变异的性质。是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:变量的分布具有两种明显的基本特征:集中性和离散性集中性和离散性。第四十四页,本课件共有97页集中性集中性离散性离散性平均数平均数变异数变异数算算术术平平均均数数中中位位数数众众数数几几何何平平均均数数极极差差方方差差标标准准差差变变异异系系数数调调和和平平均均数数第四十五页,本课件共有97页一、平均数一、平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。第四十六页,本课件共有97页(一)平均数的种类(一)平均数的种类算术平均数算术平均数中位数中位数众数众数几何平均数几何平均数调和平均数调和平均数一、平均数一、平均数第四十七页,本课件共有97页1.算术平均数算术平均数 (arithmetic mean)定义:总体或样本资料中所有观测数的总和除以观测数定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。的个数所得的商,简称平均数、均数或均值。总体:总体:样本:样本:一、平均数一、平均数第四十八页,本课件共有97页2.中位数中位数(median)资料中所有观测数依大小顺序排列,居于中间位置的观测数资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。称为中位数或中数。Md 中位数将该组数值分为两半,理论上有中位数将该组数值分为两半,理论上有50的变量小于的变量小于md,有有50的变量值大于的变量值大于 md,故又称百分之五十位数,记为故又称百分之五十位数,记为P50。一、平均数一、平均数第四十九页,本课件共有97页 1、当观测值个数、当观测值个数n为奇数时,为奇数时,(n+1)/2位置的观测值,位置的观测值,即即x(n+1)/2为中位数:为中位数:Md=2、当观测值个数为偶当观测值个数为偶 数数 时,时,n/2和(和(n/2+1)位置的两)位置的两个观测值之和的个观测值之和的1/2为中位数,即:为中位数,即:第五十页,本课件共有97页高招生考试或水平考试招生考试或水平考试:0.30.4平常测验平常测验:0.20.25m1 md m2区分度区分度m1Tm2Tm2-m1T考试中考试中第五十一页,本课件共有97页中位数是一个位置平均数,可以免受资料中由于非常因中位数是一个位置平均数,可以免受资料中由于非常因素造成的极端值的影响。素造成的极端值的影响。但中位数的决定只与居于中间位置的一个或两个观察但中位数的决定只与居于中间位置的一个或两个观察值有关,没能用到全部观察值提供的信息,所以与算值有关,没能用到全部观察值提供的信息,所以与算术平均数有一定的出入。术平均数有一定的出入。当数据的分布较为对称时,二者相近或相等;当数据分布偏当数据的分布较为对称时,二者相近或相等;当数据分布偏斜时,二者相差较大,此时中位数对数据趋中性的度量比算斜时,二者相差较大,此时中位数对数据趋中性的度量比算术平均数为优。术平均数为优。第五十二页,本课件共有97页3.众数众数(mode)资料中出现次数最多的那个观测值或次数最多一组的组中资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。值或中点值。M0注意:注意:(1)对于某些数据而言,如均匀分布,并不存在众数;)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。)主要用来描述频率分布。一、平均数一、平均数第五十三页,本课件共有97页由于中位数只能代表一个、最多两个观察值,而众数由于中位数只能代表一个、最多两个观察值,而众数却代表着大多数观察值的数量水平。用众数描述统计却代表着大多数观察值的数量水平。用众数描述统计资料的数量水平,其代表性要优于中位数。资料的数量水平,其代表性要优于中位数。间断性变量由于样本内的各观察值易于集中于某一数值,间断性变量由于样本内的各观察值易于集中于某一数值,所以众数易于确定;连续性变量由于连接两个整数区间所以众数易于确定;连续性变量由于连接两个整数区间之内,可有多个数值存在,样本内各值不易集中于某一之内,可有多个数值存在,样本内各值不易集中于某一数值,因此不易确定众数。数值,因此不易确定众数。连续性资料众数的确定,常需在次数分布表的基础上,连续性资料众数的确定,常需在次数分布表的基础上,由出现次数最多一组的组中值决定。由出现次数最多一组的组中值决定。第五十四页,本课件共有97页4.几何平均数几何平均数(geometric mean)资料中有资料中有n个观测数,其乘积开个观测数,其乘积开n次方所得数值。次方所得数值。GG=一、平均数一、平均数第五十五页,本课件共有97页4.几何平均数几何平均数(geometric mean)G实际就是观察值对数的算术平均数的反对数。它实际就是观察值对数的算术平均数的反对数。它适用于变适用于变量量x为对数正态分布,经对数转换后呈正态分布的资料。为对数正态分布,经对数转换后呈正态分布的资料。主要用于以百分率、比例表示的数据资料,在计算平均增长率方面主要用于以百分率、比例表示的数据资料,在计算平均增长率方面具有独特的应用价值。具有独特的应用价值。G=一、平均数一、平均数第五十六页,本课件共有97页5.调和平均数调和平均数(harmonic mean)资料中各观测值倒数的算术平均数的倒数。资料中各观测值倒数的算术平均数的倒数。H适用范围:主要用于反映生物不同阶段的平均增长适用范围:主要用于反映生物不同阶段的平均增长 率或不同规模的平均规模。率或不同规模的平均规模。H=1一、平均数一、平均数第五十七页,本课件共有97页(二)算术平均数的计算方法(二)算术平均数的计算方法直接计算法直接计算法减去常数法减去常数法加权平均法加权平均法一、平均数一、平均数第五十八页,本课件共有97页1、直接计算法、直接计算法 样本含量样本含量n30以下、未经分组资料平均数的计算。以下、未经分组资料平均数的计算。例:随机抽取例:随机抽取20株小麦测量它们的株高(株小麦测量它们的株高(cm)分别为:)分别为:82 79 85 84 86 84 83 82 83 838384 81 80 81 82 81 82 82 82 80 求小麦的平均株高。求小麦的平均株高。第五十九页,本课件共有97页2、减去(加上)常数法、减去(加上)常数法 若变量若变量 的值都比较大(或都比较小),且接近某一的值都比较大(或都比较小),且接近某一常数常数a时,可将它们的值都减去(或加上)常数时,可将它们的值都减去(或加上)常数a,得到一组,得到一组新的数据,计算其平均数,再重新加上(或减去)常数新的数据,计算其平均数,再重新加上(或减去)常数a。例:设例:设a为为80(cm)则有:)则有:82 79 85 84 86 84 83 82 83 8383 2 1 5 4 6 4 3 2 3 384 81 80 81 82 81 82 82 82 8085 4 1 0 1 2 1 2 2 2 0“80”第六十页,本课件共有97页3、加权平均法、加权平均法 通常对通常对样本容量样本容量n30 且已分组的资料且已分组的资料,多在次数分布表的基础,多在次数分布表的基础上采用加权法计算平均数。上采用加权法计算平均数。第第i组的次数组的次数fi是权衡第是权衡第i个自然值个自然值xi在资料中所占比重大小的数量,在资料中所占比重大小的数量,因此将因此将fi 称为是称为是xi的的“权数权数”,加权法也由此而得名。,加权法也由此而得名。若为若为计数资料,计数资料,此时直接用自然值乘以次数来计算,即此时直接用自然值乘以次数来计算,即第六十一页,本课件共有97页式中:式中:式中:式中:第第第第i i组的组中值;组的组中值;组的组中值;组的组中值;第第第第i i组的次数;组的次数;组的次数;组的次数;分组数分组数分组数分组数 若为若为分组资料分组资料分组资料分组资料,则用每组组中值乘以该组次数之和再除以总则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:次数来计算,计算公式为:第六十二页,本课件共有97页例例株高株高x次数次数ffx791798021608132438264928332498432528518586186第六十三页,本课件共有97页例:例:将将100头长白母猪的仔猪一月窝重(单位:头长白母猪的仔猪一月窝重(单位:kg)资料整理)资料整理成次数分布表如下,求其加权平均数。成次数分布表如下,求其加权平均数。表表 100头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表组别组别组中值组中值(x)次数次数(f)fx101534520256150303526910404530135050552413206065852070753225合计合计1004520即即即即这这100头长白母猪仔猪一月龄平均窝重为头长白母猪仔猪一月龄平均窝重为45.2kg第六十四页,本课件共有97页 计算若干个来自同一总体的计算若干个来自同一总体的样本平均数的平均数样本平均数的平均数时,如果样时,如果样本含量不等,也应采用加权法计算。本含量不等,也应采用加权法计算。设设 是是n1个数的平均数,个数的平均数,是是n2个数的平均数,那么全部个数的平均数,那么全部n1+n2个数的算术平均数是个数的算术平均数是:第六十五页,本课件共有97页此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:均体重的加权平均数,即:例:例:某牛群有黑白花奶牛某牛群有黑白花奶牛 1500头,其平均体重为头,其平均体重为750 kg,而另,而另一牛群有黑白花奶牛一牛群有黑白花奶牛1200头,平均体重为头,平均体重为725 kg,如果将这两个,如果将这两个牛群混合在一起,其混合后平均体重为多少?牛群混合在一起,其混合后平均体重为多少?第六十六页,本课件共有97页(三)算术平均数的重要性质(三)算术平均数的重要性质算术平均数与样本内的每个值都相关,它的大小算术平均数与样本内的每个值都相关,它的大小受每个值的影响;受每个值的影响;若每个若每个Xi都乘以相同的数都乘以相同的数k,则原平均数亦应乘,则原平均数亦应乘以以k;若每个若每个Xi都加上相同的数都加上相同的数a,则原平均数亦可直接,则原平均数亦可直接加上加上a。一、平均数一、平均数第六十七页,本课件共有97页离均差之和等于零。离均差之和等于零。这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。第六十八页,本课件共有97页离均差平方和最小。离均差平方和最小。样本中观察值与其平均数的离差平方和较各个观样本中观察值与其平均数的离差平方和较各个观察值与其他任意数值的离差平方和为最小。察值与其他任意数值的离差平方和为最小。该性质表明:算术平均数该性质表明:算术平均数对资料的代表最强。对资料的代表最强。第六十九页,本课件共有97页(四)算术平均数的作用(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其它资料进行比较。)作为样本或资料的代表数与其它资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。)用样本的平均数估计总体平均数。一、平均数一、平均数第七十页,本课件共有97页用平均数作为样本的代表,其代表性的强弱受样本资用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。料中各观测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数对样本的代表性弱。如果各观测值变异大,则平均数对样本的代表性弱。三组同年龄、同性别儿童体重(kg)的数据:I组:26 28 30 32 34II组:20 25 30 35 40III组:23 27 30 33 37三组的平均数均为三组的平均数均为30,变异如何体现?,变异如何体现?例:如果各观测值没有变异,则平均数可完全代表整个样本。如果各观测值没有变异,则平均数可完全代表整个样本。第七十一页,本课件共有97页 集中趋势是数据分布的一个重要特征,但单有集中趋集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。势还不能很好地描述数据的分布规律。仅用平均数对一个资料的特征作统计描述是不全面仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的的,还需要引入一个表示资料中观测值变异程度大小的统计量。统计量。变异性指标变异性指标第七十二页,本课件共有97页变异数的种类变异数的种类极差极差极差极差方差方差方差方差标准差标准差标准差标准差变异系数变异系数变异系数变异系数二、变异数二、变异数第七十三页,本课件共有97页(一)极差(全距,(一)极差(全距,range)极差极差极差极差是数据分布的两端变异的最大范围,即样本变量是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用值最大值和最小值之差,用R表示。它是资料中各观测值变表示。它是资料中各观测值变异程度大小的最简便的统计量。异程度大小的最简便的统计量。例:例:150尾鲢鱼体长尾鲢鱼体长 R=85-37=48(cm)R=maxx1,x2,xn-minx1,x2,xn =x1,x2,xnmax-x1,x2,xnmin二、变异数二、变异数第七十四页,本课件共有97页三组同年龄、同性别儿童体重三组同年龄、同性别儿童体重(kg)的数据:的数据:I组:组:26 28 30 32 34 8II组:组:20 25 30 35 40 20III组组:23 27 30 33 37 14例:例:极极 差差第七十五页,本课件共有97页简单明了简单明了当资料很多而又要迅速对资料的变异程度作出判断时,可以当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。利用极差。(1)除最大、最小值,不能反映组内其他数据的变异。除最大、最小值,不能反映组内其他数据的变异。优点优点缺点缺点用途用途(2)样本较大时抽到较大值与较小值的可能性也较大,因样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。差来比较分布的离散度。第七十六页,本课件共有97页如何准确地表示样本内各个观测值的变异程度如何准确地表示样本内各个观测值的变异程度平均数平均数可以求出各个观测值与平均数的离差,即离均差。可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为离均差之和为零零。?二、变异数二、变异数第七十七页,本课件共有97页平方和(平方和(SS)平方和的平均数平方和的平均数二、变异数二、变异数第七十八页,本课件共有97页平方和的平均数平方和的平均数二、变异数二、变异数方差方差第七十九页,本课件共有97页自由度(自由度(degree of freedom,df)二、变异数二、变异数第八十页,本课件共有97页自由度指当以样本的统计量来估计总体的参数时,样本自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的观察值的个数。中可以自由变动的观察值的个数。自由度自由度 =样本个数样本个数 -样本数据受约束条件的个数样本数据受约束条件的个数在总体平均数未知时,要计算标准差就必须先知道样本在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和平均数,而样本平均数和n n都知道的情况下,数据的总都知道的情况下,数据的总和就是一个常数了。所以,和就是一个常数了。所以,“最后一个最后一个”样本数据就样本数据就不可以变了,因为它要是变,总和就变了,而这是不不可以变了,因为它要是变,总和就变了,而这是不允许的。允许的。自由度一词源于物理学。自由度一词源于物理学。第八十一页,本课件共有97页均方均方(mean square,MS)方差(方差(variance)二、变异数二、变异数第八十二页,本课件共有97页(二)方差(二)方差(Variance)样本样本总体总体二、变异数二、变异数第八十三页,本课件共有97页样本方差带有原观测单位的平方单位,在仅表示一个资料样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出数配合使用,这时应将平方单位还原,即求出样本方差的平样本方差的平方根方根。标准差标准差二、变异数二、变异数第八十四页,本课件共有97页(三)标准差(三)标准差(standard deviation,Sd)样本样本总体总体二、变异数二、变异数第八十五页,本课件共有97页二、变异数二、变异数第八十六页,本课件共有97页二、变异数二、变异数第八十七页,本课件共有97页x=411x2=18841X=6X2=76 表表2-8 9名男子前臂长(名男子前臂长(cm)标准差计算标准差计算 前臂长前臂长 x2 x=x-45 x2 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 -4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 2116 1 1 49 2401 4 16二、变异数二、变异数第八十八页,本课件共有97页例例株高株高x次数次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396总和总和201646135524第八十九页,本课件共有97页(三)标准差(三)标准差(standard deviation,Sd)特性特性标准差的大小,受多个观测数影响,如果观测数与观测数标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。间差异较大,则离均差也大,因而标准差也大,反之则小。1各观测数加上或减去一个常数,其标准差不变各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数各观测数乘以或除以一个常数a,其标准差扩大或缩小,其标准差扩大或缩小a倍。倍。二、变异数二、变异数第九十页,本课件共有97页(三)标准差(三)标准差(standard deviation,Sd)3正态分布正态分布2s3s68.27%95.46%99.73%二、变异数二、变异数第九十一页,本课件共有97页(三)标准差(三)标准差(standard deviation,Sd)作用作用1表示变量分布的离散程度。表示变量分布的离散程度。4估计平均数的标准误。估计平均数的标准误。3进行平均数的区间估计和变异系数计算。进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类观测数在总体可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。中所占的比例。二、变异数二、变异数第九十二页,本课件共有97页标准差是衡量一个样本变量分布变异程度的重要特征数。标准差是衡量一个样本变量分布变异程度的重要特征数。当进行两个或多个资料变异程度的比较时,如果度量单位与当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。平均数相同,可以直接利用标准差来比较。如果度量单位和(或)与平均数不同,比较其变异程度如果度量单位和(或)与平均数不同,比较其变异程度就不能采用标准差来进行了。就不能采用标准差来进行了。标准差标准差/平均数平均数二、变异数二、变异