资料的整理与特征数的计算.ppt
关于资料的整理与特征数关于资料的整理与特征数的计算的计算现在学习的是第1页,共97页在生物学试验及调查中,通过对某种具体事物或现在生物学试验及调查中,通过对某种具体事物或现象观察获得的结果称为象观察获得的结果称为资料资料。原原始始数数据据无序无序有序有序统统计计分分析析揭示事物本质揭示事物本质现在学习的是第2页,共97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理现在学习的是第3页,共97页对对试验资料试验资料进行分类是统计归纳的基础。进行分类是统计归纳的基础。数量性状资料数量性状资料质量性状资料质量性状资料(属性性状资料)(属性性状资料)计数资料计数资料(非连续变量资料)(非连续变量资料)计量资料计量资料(连续变量资料)(连续变量资料)变量变量定量变量定量变量定性变量定性变量连续变量连续变量非连续变量非连续变量资料资料现在学习的是第4页,共97页 数量性状数量性状(quantitative character)是指能够以计数和测量是指能够以计数和测量或度量的方式表示其特征的性状。观察测定数量性状而或度量的方式表示其特征的性状。观察测定数量性状而获得的数据就是获得的数据就是数量性状资料数量性状资料(data of quantitative characteristics)。数量性状资料的获得有计数和测量两种。数量性状资料的获得有计数和测量两种方式,因而数量性状资料又分为方式,因而数量性状资料又分为计数资料计数资料和和计量资料计量资料两两种。种。一、数量性状资料一、数量性状资料现在学习的是第5页,共97页 1、计数资料(、计数资料(非连续变量资料、间断变量资料、离散变量资料非连续变量资料、间断变量资料、离散变量资料)指用计数方式获得的数量性状资料。在这类资料中,它的指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现,因此各观察值是不连续的,所以该何带小数的数值出现,因此各观察值是不连续的,所以该类资料也称为类资料也称为非连续变量资料非连续变量资料或或间断变量资料间断变量资料或或离散变离散变量资料量资料。现在学习的是第6页,共97页 2、计量资料、计量资料 (连续变量资料)(连续变量资料)指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直指用测量或度量法获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等接测定获得的数据资料。其数据是用长度、重量、容积、温度、浓度等来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的来表示,要带单位。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精确度而定,精确度而定,它们之间的变异是连续性的,因此计量资料也称为它们之间的变异是连续性的,因此计量资料也称为连续连续变量资料变量资料。现在学习的是第7页,共97页 二、质量性状资料(属性性状资料)二、质量性状资料(属性性状资料)质量性状质量性状(qualitative character)是指能观察到而不能直接测量是指能观察到而不能直接测量的性状。的性状。观察质量性状而获得的数据就是观察质量性状而获得的数据就是质量性状资料质量性状资料(data of qualitative characteristics)。这类性状本身不能直接用。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:果作数量化处理,其方法有以下两种:现在学习的是第8页,共97页 1、统计次数法、统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红以次数作为质量性状的数据。例如,在研究豌豆的花色遗传时,红花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。花与白花杂交,子二代中红花、紫花和白花的株数分类统计如下表。株数频率红花26626.6%紫花49449.4%白花24024.0%总计1000100.0%这种由质量性状数量化得来的资料又叫这种由质量性状数量化得来的资料又叫次数资料次数资料。现在学习的是第9页,共97页 2、评分法、评分法 对某一质量性状分成不同级别,对不同级别进行评分对某一质量性状分成不同级别,对不同级别进行评分来表示其性状差异的方法。从而将质量性状进行数量化,来表示其性状差异的方法。从而将质量性状进行数量化,以便统计分析。例如,试剂以便统计分析。例如,试剂pH值由酸到碱分成值由酸到碱分成14个等级,个等级,取待测试剂滴在取待测试剂滴在pH试纸上,与试纸上,与pH标准色版对比,由红到紫标准色版对比,由红到紫分别定义为分别定义为 114 的数值。的数值。现在学习的是第10页,共97页 两种不同类型的资料相互间是有区别的,但有时可根据两种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。一种类型的资料。例如,检测个体的白细胞总数得到的资料属于计数资料,例如,检测个体的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数过高、正常或过低分根据化验的目的,可按白细胞总数过高、正常或过低分为三组,清点各组的次数,计数资料就转化为质量性状为三组,清点各组的次数,计数资料就转化为质量性状次数资料。次数资料。现在学习的是第11页,共97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理现在学习的是第12页,共97页调调 查查试试 验验资料搜集的方法资料搜集的方法现在学习的是第13页,共97页一、调查一、调查 调查调查是对已经存在的事情的资料按某种方案进行收集的方法。如地质调查、水样调查、河南省内的昆虫调查等等。资料的调查又可以分为两种:普查和抽样调查。1、普查普查 是对研究对象的全部个体逐一进行调查的方法。普查一般要求在一定的时间或范围进行,要求准确和全面。如人口普查、土壤普查等等。普查可以为制定行业政策提供理论依据。现在学习的是第14页,共97页2、抽样调查、抽样调查 是根据一定的原则从研究对象中抽取一部分具有代表性的个体是根据一定的原则从研究对象中抽取一部分具有代表性的个体进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利进行调查的方法。通过抽样将获得的样本资料进行统计处理,然后利用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较用样本的特征数对总体进行推断。生物学研究中,进行普查的情况较少,多数情况下还是进行抽样调查。少,多数情况下还是进行抽样调查。抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽样抽样的方法有多种,主要有:机械抽样法、随机抽样法、分层抽样法,一般情况下在统计学中常常采用法,一般情况下在统计学中常常采用随机抽样随机抽样的方法。的方法。随机抽样必须满足随机抽样必须满足2个条件个条件:一是总体中每个个体被抽中的机会:一是总体中每个个体被抽中的机会是均等的;二是总体中任意一个个体是相互独立的,是否被抽中是均等的;二是总体中任意一个个体是相互独立的,是否被抽中不受其他个体的影响。不受其他个体的影响。现在学习的是第15页,共97页二、试验二、试验 试验试验是对已有的或没有的事物加以处理的方法。采用合理的试验设计能够以较少的投入获得较大的收获,起到“事半功倍”的效果。常见的试验设计方法有:对比设计、随机区组设计、平衡不完全区组设计、裂区设计、拉丁方设计、正交设计、正交旋转设计等等。试验设计须遵循的三大原则是:随机、重复和局部控随机、重复和局部控制制。现在学习的是第16页,共97页一、试验资料的类型一、试验资料的类型二、试验资料的搜集二、试验资料的搜集三、试验资料的整理三、试验资料的整理第一节 试验资料的搜集与整理现在学习的是第17页,共97页(一)原始资料的检查与核对(一)原始资料的检查与核对调查调查试验试验原始原始数据数据核对:数据本身是否有错误核对:数据本身是否有错误检查:取样是否有差错检查:取样是否有差错订正:不合理数据的订正订正:不合理数据的订正现在学习的是第18页,共97页检查和核对原始资料的目的:确保原始资料的完整性和正确性。完整性:是指原始资料无遗缺或重复。正确性:是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。现在学习的是第19页,共97页不必分组,不必分组,直接进行统计分析直接进行统计分析小样本小样本n500 15 30表表2-5样本容量与分组数的关系样本容量与分组数的关系组距的确定组距的确定即每组内的上下限范围。即每组内的上下限范围。组距全距组距全距/组数组数48104.810组组5cm现在学习的是第29页,共97页(3)确定组限(class limit)和组中值(class midvalue)组限组限 是指每个组变量值的起止界限。上限下限组中值组中值 是两个组限的中间值。组中值组中值下限上限下限上限 2组距组距2下限下限组距组距2上限上限第一组的组中值第一组的组中值最好接近于资料最好接近于资料的最小值的最小值现在学习的是第30页,共97页表2-4150尾鲢鱼体长(cm)56 49 62 78 41 47 65 45 58 55 59 65 69 62 7352 52 60 51 62 78 66 45 58 58 60 57 52 51 4856 46 58 70 72 76 77 56 66 58 58 55 53 50 6563 57 65 85 59 58 54 62 48 63 46 61 62 57 3858 52 54 55 66 52 48 56 75 72 57 37 46 76 5663 75 65 48 52 55 54 62 71 48 62 58 46 57 3854 53 65 42 83 66 48 53 58 46 46 26 36 76 5560 54 58 49 52 56 82 63 65 54 75 65 86 46 7770 69 40 56 58 61 54 53 52 43 52 64 58 58 5478 52 56 61 59 54 59 64 68 51 59 68 63 52 63最小一组的下限必须最小一组的下限必须小于资料中的最小值,小于资料中的最小值,最大一组的上限必须最大一组的上限必须大于资料中的最大值;大于资料中的最大值;组限可取到组限可取到10分位分位或或5分位上;分位上;临界值就高不就临界值就高不就低。低。35,40,45,85。现在学习的是第31页,共97页(4)分组分组确定好组数和各组上下限后,可按原始资料中各观测值确定好组数和各组上下限后,可按原始资料中各观测值的次序,将各个数值归于各组,计算各组的观测数次数、的次序,将各个数值归于各组,计算各组的观测数次数、频率、累积频率,制成一个次数分布表。频率、累积频率,制成一个次数分布表。计数的方法计数的方法卡片法卡片法唱票法唱票法画画“正正”字字画画“”现在学习的是第32页,共97页 组限 组中值 次数 频率 累积频率 Frequency Percent Cumulative Percent 35 37.5 3 0.0200 0.0200 40 42.5 4 0.0267 0.0467 45 47.5 17 0.1133 0.1600 50 52.5 28 0.1867 0.3467 55 57.5 40 0.2666 0.6133 60 62.5 25 0.1667 0.7800 65 67.5 17 0.1133 0.8973 70 72.5 6 0.0400 0.9333 75 77.5 7 0.0467 0.9800 80 82.5 2 0.0133 0.9933 85 87.5 1 0.0067 1.0000表表2-6 150尾鲢鱼体长的次数分布表尾鲢鱼体长的次数分布表现在学习的是第33页,共97页(三)次数分布图和频率分布图(三)次数分布图和频率分布图定义:定义:把次数(频率)分布资料画成统计图形。把次数(频率)分布资料画成统计图形。特点:特点:直观、形象直观、形象包括:包括:条形图、饼图、直方图、多边形图和散点图条形图、饼图、直方图、多边形图和散点图现在学习的是第34页,共97页统计图绘制的基本要求:统计图绘制的基本要求:统计图绘制的基本要求:统计图绘制的基本要求:(1)标题简明扼要)标题简明扼要,列于图的下方列于图的下方;(2)纵、横两轴应有刻度,注明单位;)纵、横两轴应有刻度,注明单位;(3)横轴由左至右,纵轴由下而上,数值由小到大;图)横轴由左至右,纵轴由下而上,数值由小到大;图 形长宽比例约形长宽比例约5:4或或6:5;(4)图中需用不同颜色或线条代表不同事物时,应有图)图中需用不同颜色或线条代表不同事物时,应有图 例说明。例说明。现在学习的是第35页,共97页图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.2 月产蛋数频率分布柱形图月产蛋数频率分布柱形图1条形图(条形图(bar chart),2 又称柱形图又称柱形图计数资料计数资料特点:特点:柱形之间要间隔一定的距离柱形之间要间隔一定的距离 属性资料属性资料现在学习的是第36页,共97页2 饼图饼图(pie chart)图图1 来亨鸡月产蛋次数分布图来亨鸡月产蛋次数分布图计数资料计数资料属性资料属性资料现在学习的是第37页,共97页图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图3 直方图直方图(histogram),又称矩形图,又称矩形图计量资料计量资料35 40 45 50 55 60 65 70 75 80 85 90特点:特点:各组之间没有距离各组之间没有距离 现在学习的是第38页,共97页图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图35 40 45 50 55 60 65 70 75 80 85 90组中值组中值现在学习的是第39页,共97页4 多边形图多边形图(polygon),又称折线图,又称折线图(broken-line chart)计量资料计量资料图图2.3 鲢鱼体长次数分布图鲢鱼体长次数分布图现在学习的是第40页,共97页5 散点图散点图(scatter)1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321a.正向直线关系b.负向直线关系c.曲线关系现在学习的是第41页,共97页搜集、归纳原始数据搜集、归纳原始数据用表格、图形来表达数据用表格、图形来表达数据用量化的统计学指标来描述一组定量数据用量化的统计学指标来描述一组定量数据的分布特征的分布特征现在学习的是第42页,共97页图图2.1 月产蛋数次数分布柱形图月产蛋数次数分布柱形图图图2.3 鲢鱼体长次数分布直方图鲢鱼体长次数分布直方图35 40 45 50 55 60 65 70 75 80 85 90现在学习的是第43页,共97页第二节 试验资料特征数的计算集中性集中性 是变量在趋势上有着向某一中心聚集,或者说是变量在趋势上有着向某一中心聚集,或者说 以某一数值为中心而分布的性质。以某一数值为中心而分布的性质。离散性离散性 是变量有着离中分散变异的性质。是变量有着离中分散变异的性质。变量的分布具有两种明显的基本特征:变量的分布具有两种明显的基本特征:集中性和离散性集中性和离散性。现在学习的是第44页,共97页集中性集中性离散性离散性平均数平均数变异数变异数算算术术平平均均数数中中位位数数众众数数几几何何平平均均数数极极差差方方差差标标准准差差变变异异系系数数调调和和平平均均数数现在学习的是第45页,共97页一、平均数一、平均数平均数是统计学中最常用的统计量,是计量资料的代表值,表示资料中观测数的中心位置中心位置,并且可作为资料的代表与另一组相比较,以确定二者的差异情况。现在学习的是第46页,共97页(一)平均数的种类(一)平均数的种类算术平均数算术平均数中位数中位数众数众数几何平均数几何平均数调和平均数调和平均数一、平均数一、平均数现在学习的是第47页,共97页1.算术平均数算术平均数 (arithmetic mean)定义:总体或样本资料中所有观测数的总和除以观测数定义:总体或样本资料中所有观测数的总和除以观测数 的个数所得的商,简称平均数、均数或均值。的个数所得的商,简称平均数、均数或均值。总体:总体:样本:样本:一、平均数一、平均数现在学习的是第48页,共97页2.中位数中位数(median)资料中所有观测数依大小顺序排列,居于中间位置的观测数称资料中所有观测数依大小顺序排列,居于中间位置的观测数称为中位数或中数。为中位数或中数。Md 中位数将该组数值分为两半,理论上有中位数将该组数值分为两半,理论上有50的变量小于的变量小于md,有有50的变量值大于的变量值大于 md,故又称百分之五十位数,记为故又称百分之五十位数,记为P50。一、平均数一、平均数现在学习的是第49页,共97页 1、当观测值个数、当观测值个数n为奇数时,为奇数时,(n+1)/2位置的观测值,即位置的观测值,即x(n+1)/2为中位数:为中位数:Md=2、当观测值个数为偶当观测值个数为偶 数数 时,时,n/2和(和(n/2+1)位置的两个)位置的两个观测值之和的观测值之和的1/2为中位数,即:为中位数,即:现在学习的是第50页,共97页高招生考试或水平考试招生考试或水平考试:0.30.4平常测验平常测验:0.20.25m1 md m2区分度区分度m1Tm2Tm2-m1T考试中考试中现在学习的是第51页,共97页中位数是一个位置平均数,可以免受资料中由于非常因素中位数是一个位置平均数,可以免受资料中由于非常因素造成的极端值的影响。造成的极端值的影响。但中位数的决定只与居于中间位置的一个或两个观察但中位数的决定只与居于中间位置的一个或两个观察值有关,没能用到全部观察值提供的信息,所以与算值有关,没能用到全部观察值提供的信息,所以与算术平均数有一定的出入。术平均数有一定的出入。当数据的分布较为对称时,二者相近或相等;当数据分布当数据的分布较为对称时,二者相近或相等;当数据分布偏斜时,二者相差较大,此时中位数对数据趋中性的度量偏斜时,二者相差较大,此时中位数对数据趋中性的度量比算术平均数为优。比算术平均数为优。现在学习的是第52页,共97页3.众数众数(mode)资料中出现次数最多的那个观测值或次数最多一组的组中值资料中出现次数最多的那个观测值或次数最多一组的组中值或中点值。或中点值。M0注意:注意:(1)对于某些数据而言,如均匀分布,并不存在众数;)对于某些数据而言,如均匀分布,并不存在众数;(2)对于某些数据存在两个或两个以上的众数;)对于某些数据存在两个或两个以上的众数;(3)主要用来描述频率分布。)主要用来描述频率分布。一、平均数一、平均数现在学习的是第53页,共97页由于中位数只能代表一个、最多两个观察值,而众数却代由于中位数只能代表一个、最多两个观察值,而众数却代表着大多数观察值的数量水平。用众数描述统计资料的数表着大多数观察值的数量水平。用众数描述统计资料的数量水平,其代表性要优于中位数。量水平,其代表性要优于中位数。间断性变量由于样本内的各观察值易于集中于某一数间断性变量由于样本内的各观察值易于集中于某一数值,所以众数易于确定;连续性变量由于连接两个整值,所以众数易于确定;连续性变量由于连接两个整数区间之内,可有多个数值存在,样本内各值不易集数区间之内,可有多个数值存在,样本内各值不易集中于某一数值,因此不易确定众数。中于某一数值,因此不易确定众数。连续性资料众数的确定,常需在次数分布表的基础连续性资料众数的确定,常需在次数分布表的基础上,由出现次数最多一组的组中值决定。上,由出现次数最多一组的组中值决定。现在学习的是第54页,共97页4.几何平均数几何平均数(geometric mean)资料中有资料中有n个观测数,其乘积开个观测数,其乘积开n次方所得数值。次方所得数值。GG=一、平均数一、平均数现在学习的是第55页,共97页4.几何平均数几何平均数(geometric mean)G实际就是观察值对数的算术平均数的反对数。它实际就是观察值对数的算术平均数的反对数。它适用于变量适用于变量x为为对数正态分布,经对数转换后呈正态分布的资料。对数正态分布,经对数转换后呈正态分布的资料。主要用于以百分率、比例表示的数据资料,在计算平均增长率方面具主要用于以百分率、比例表示的数据资料,在计算平均增长率方面具有独特的应用价值。有独特的应用价值。G=一、平均数一、平均数现在学习的是第56页,共97页5.调和平均数调和平均数(harmonic mean)资料中各观测值倒数的算术平均数的倒数。资料中各观测值倒数的算术平均数的倒数。H适用范围:主要用于反映生物不同阶段的平均增长适用范围:主要用于反映生物不同阶段的平均增长 率或不同规模的平均规模。率或不同规模的平均规模。H=1一、平均数一、平均数现在学习的是第57页,共97页(二)算术平均数的计算方法(二)算术平均数的计算方法直接计算法直接计算法减去常数法减去常数法加权平均法加权平均法一、平均数一、平均数现在学习的是第58页,共97页1、直接计算法、直接计算法 样本含量样本含量n30以下、未经分组资料平均数的计算。以下、未经分组资料平均数的计算。例:随机抽取例:随机抽取20株小麦测量它们的株高(株小麦测量它们的株高(cm)分别为:)分别为:82 79 85 84 86 84 83 82 83 838384 81 80 81 82 81 82 82 82 80 求小麦的平均株高。求小麦的平均株高。现在学习的是第59页,共97页2、减去(加上)常数法、减去(加上)常数法 若变量若变量 的值都比较大(或都比较小),且接近某一的值都比较大(或都比较小),且接近某一常数常数a时,可将它们的值都减去(或加上)常数时,可将它们的值都减去(或加上)常数a,得到一组,得到一组新的数据,计算其平均数,再重新加上(或减去)常数新的数据,计算其平均数,再重新加上(或减去)常数a。例:设例:设a为为80(cm)则有:)则有:82 79 85 84 86 84 83 82 83 8383 2 1 5 4 6 4 3 2 3 384 81 80 81 82 81 82 82 82 8085 4 1 0 1 2 1 2 2 2 0“80”现在学习的是第60页,共97页3、加权平均法、加权平均法 通常对通常对样本容量样本容量n30 且已分组的资料且已分组的资料,多在次数分布表的基础上,多在次数分布表的基础上采用加权法计算平均数。采用加权法计算平均数。第第i组的次数组的次数fi是权衡第是权衡第i个自然值个自然值xi在资料中所占比重大小的数量,因在资料中所占比重大小的数量,因此将此将fi 称为是称为是xi的的“权数权数”,加权法也由此而得名。,加权法也由此而得名。若为若为计数资料,计数资料,此时直接用自然值乘以次数来计算,即此时直接用自然值乘以次数来计算,即现在学习的是第61页,共97页式中:式中:式中:式中:第第第第i i组的组中值;组的组中值;组的组中值;组的组中值;第第第第i i组的次数;组的次数;组的次数;组的次数;分组数分组数分组数分组数 若为若为分组资料分组资料分组资料分组资料,则用每组组中值乘以该组次数之和再除以总次数则用每组组中值乘以该组次数之和再除以总次数来计算,计算公式为:来计算,计算公式为:现在学习的是第62页,共97页例例株高株高x次数次数ffx791798021608132438264928332498432528518586186现在学习的是第63页,共97页例:例:将将100头长白母猪的仔猪一月窝重(单位:头长白母猪的仔猪一月窝重(单位:kg)资料整理)资料整理成次数分布表如下,求其加权平均数。成次数分布表如下,求其加权平均数。表表 100头长白母猪仔猪一月窝重次数分布表头长白母猪仔猪一月窝重次数分布表组别组别组中值组中值(x)次数次数(f)fx101534520256150303526910404530135050552413206065852070753225合计合计1004520即即即即这这100头长白母猪仔猪一月龄平均窝重为头长白母猪仔猪一月龄平均窝重为45.2kg现在学习的是第64页,共97页 计算若干个来自同一总体的计算若干个来自同一总体的样本平均数的平均数样本平均数的平均数时,如果样本含时,如果样本含量不等,也应采用加权法计算。量不等,也应采用加权法计算。设设 是是n1个数的平均数,个数的平均数,是是n2个数的平均数,那么全部个数的平均数,那么全部n1+n2个数的算术平均数是个数的算术平均数是:现在学习的是第65页,共97页此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:应以两个牛群牛的头数为权数,求两个牛群平均体重的加权平均数,即:例:例:某牛群有黑白花奶牛某牛群有黑白花奶牛 1500头,其平均体重为头,其平均体重为750 kg,而另一,而另一牛群有黑白花奶牛牛群有黑白花奶牛1200头,平均体重为头,平均体重为725 kg,如果将这两个牛群,如果将这两个牛群混合在一起,其混合后平均体重为多少?混合在一起,其混合后平均体重为多少?现在学习的是第66页,共97页(三)算术平均数的重要性质(三)算术平均数的重要性质算术平均数与样本内的每个值都相关,它的大小受算术平均数与样本内的每个值都相关,它的大小受每个值的影响;每个值的影响;若每个若每个Xi都乘以相同的数都乘以相同的数k,则原平均数亦应乘以,则原平均数亦应乘以k;若每个若每个Xi都加上相同的数都加上相同的数a,则原平均数亦可直接加上,则原平均数亦可直接加上a。一、平均数一、平均数现在学习的是第67页,共97页离均差之和等于零。离均差之和等于零。这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。这一性质表明:一组资料的观察值是围绕其算术平均数作上下波动的。现在学习的是第68页,共97页离均差平方和最小。离均差平方和最小。样本中观察值与其平均数的离差平方和较各个观察值与样本中观察值与其平均数的离差平方和较各个观察值与其他任意数值的离差平方和为最小。其他任意数值的离差平方和为最小。该性质表明:算术平均数对该性质表明:算术平均数对资料的代表最强。资料的代表最强。现在学习的是第69页,共97页(四)算术平均数的作用(四)算术平均数的作用(1)指出一组数据资料内变量的中心位置,标志着资)指出一组数据资料内变量的中心位置,标志着资 料所代表性状的数量水平和质量水平。料所代表性状的数量水平和质量水平。(2)作为样本或资料的代表数与其它资料进行比较。)作为样本或资料的代表数与其它资料进行比较。(3)通过平均数提供计算样本变异数的基本数据。)通过平均数提供计算样本变异数的基本数据。(4)用样本的平均数估计总体平均数。)用样本的平均数估计总体平均数。一、平均数一、平均数现在学习的是第70页,共97页用平均数作为样本的代表,其代表性的强弱受样本资料中各观用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。测值变异程度的影响。如果各观测值变异小,则平均数对样本的代表性强如果各观测值变异小,则平均数对样本的代表性强;如果各观测值变异大,则平均数对样本的代表性弱。如果各观测值变异大,则平均数对样本的代表性弱。三组同年龄、同性别儿童体重(kg)的数据:I组:26 28 30 32 34II组:20 25 30 35 40III组:23 27 30 33 37三组的平均数均为三组的平均数均为30,变异如何体现?,变异如何体现?例:如果各观测值没有变异,则平均数可完全代表整个样本。如果各观测值没有变异,则平均数可完全代表整个样本。现在学习的是第71页,共97页 集中趋势是数据分布的一个重要特征,但单有集中趋势集中趋势是数据分布的一个重要特征,但单有集中趋势还不能很好地描述数据的分布规律。还不能很好地描述数据的分布规律。仅用平均数对一个资料的特征作统计描述是不全面的,仅用平均数对一个资料的特征作统计描述是不全面的,还需要引入一个表示资料中观测值变异程度大小的统计量。还需要引入一个表示资料中观测值变异程度大小的统计量。变异性指标变异性指标现在学习的是第72页,共97页变异数的种类变异数的种类极差极差极差极差方差方差方差方差标准差标准差标准差标准差变异系数变异系数变异系数变异系数二、变异数二、变异数现在学习的是第73页,共97页(一)极差(全距,(一)极差(全距,range)极差极差极差极差是数据分布的两端变异的最大范围,即样本变量值最是数据分布的两端变异的最大范围,即样本变量值最大值和最小值之差,用大值和最小值之差,用R表示。它是资料中各观测值变异程度表示。它是资料中各观测值变异程度大小的最简便的统计量。大小的最简便的统计量。例:例:150尾鲢鱼体长尾鲢鱼体长 R=85-37=48(cm)R=maxx1,x2,xn-minx1,x2,xn =x1,x2,xnmax-x1,x2,xnmin二、变异数二、变异数现在学习的是第74页,共97页三组同年龄、同性别儿童体重三组同年龄、同性别儿童体重(kg)的数据:的数据:I组:组:26 28 30 32 34 8II组:组:20 25 30 35 40 20III组组:23 27 30 33 37 14例:例:极极 差差现在学习的是第75页,共97页简单明了简单明了当资料很多而又要迅速对资料的变异程度作出判断时,当资料很多而又要迅速对资料的变异程度作出判断时,可以利用极差。可以利用极差。(1)除最大、最小值,不能反映组内其他数据的变异。除最大、最小值,不能反映组内其他数据的变异。优点优点缺点缺点用途用途(2)样本较大时抽到较大值与较小值的可能性也较大,因而样本样本较大时抽到较大值与较小值的可能性也较大,因而样本极差也较大,故样本含量相差较大时,不宜用极差来比较分布极差也较大,故样本含量相差较大时,不宜用极差来比较分布的离散度。的离散度。现在学习的是第76页,共97页如何准确地表示样本内各个观测值的变异程度如何准确地表示样本内各个观测值的变异程度平均数平均数可以求出各个观测值与平均数的离差,即离均差。可以求出各个观测值与平均数的离差,即离均差。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差可以反映出一个观测值偏离平均数的性质和程度。离均差之和为离均差之和为零零。?二、变异数二、变异数现在学习的是第77页,共97页平方和(平方和(SS)平方和的平均数平方和的平均数二、变异数二、变异数现在学习的是第78页,共97页平方和的平均数平方和的平均数二、变异数二、变异数方差方差现在学习的是第79页,共97页自由度(自由度(degree of freedom,df)二、变异数二、变异数现在学习的是第80页,共97页自由度指当以样本的统计量来估计总体的参数时,样本中可自由度指当以样本的统计量来估计总体的参数时,样本中可以自由变动的观察值的个数。以自由变动的观察值的个数。自由度自由度 =样本个数样本个数 -样本数据受约束条件的个数样本数据受约束条件的个数在总体平均数未知时,要计算标准差就必须先知道样本在总体平均数未知时,要计算标准差就必须先知道样本平均数,而样本平均数和平均数,而样本平均数和n n都知道的情况下,数据的总和都知道的情况下,数据的总和就是一个常数了。所以,就是一个常数了。所以,“最后一个最后一个”样本数据就不可以样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。变了,因为它要是变,总和就变了,而这是不允许的。自由度一词源于物理学。自由度一词源于物理学。现在学习的是第81页,共97页均方均方(mean square,MS)方差(方差(variance)二、变异数二、变异数现在学习的是第82页,共97页(二)方差(二)方差(Variance)样本样本总体总体二、变异数二、变异数现在学习的是第83页,共97页样本方差带有原观测单位的平方单位,在仅表示一个资料中各观样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即求出这时应将平方单位还原,即求出样本方差的平方根样本方差的平方根。标准差标准差二、变异数二、变异数现在学习的是第84页,共97页(三)标准差(三)标准差(standard deviation,Sd)样本样本总体总体二、变异数二、变异数现在学习的是第85页,共97页二、变异数二、变异数现在学习的是第86页,共97页二、变异数二、变异数现在学习的是第87页,共97页x=411x2=18841X=6X2=76 表表2-8 9名男子前臂长(名男子前臂长(cm)标准差计算标准差计算 前臂长前臂长 x2 x=x-45 x2 45 2025 0 0 42 1764 -3 9 44 1936 -1 1 41 1681 -4 16 47 2209 2 4 50 2500 5 25 47 2209 2 4 46 2116 1 1 49 2401 4 16二、变异数二、变异数现在学习的是第88页,共97页例例株高株高x次数次数ffxfx27917962418021601280081324319683826492403448332492066784325221168851857225861867396总和总和201646135524现在学习的是第89页,共97页(三)标准差(三)标准差(standard deviation,Sd)特性特性标准差的大小,受多个观测数影响,如果观测数与观测数间差标准差的大小,受多个观测数影响,如果观测数与观测数间差异较大,则离均差也大,因而标准差也大,反之则小。异较大,则离均差也大,因而标准差也大,反之则小。1各观测数加上或减去一个常数,其标准差不变各观测数加上或减去一个常数,其标准差不变;2各观测数乘以或除以一个常数各观测数乘以或除以一个常数a,其标准差扩大或缩小,其标准差扩大或缩小a倍。倍。二、变异数二、变异数现在学习的是第90页,共97页(三)标准差(三)标准差(standard deviation,Sd)3正态分布正态分布2s3s68.27%95.46%99.73%二、变异数二、变异数现在学习的是第91页,共97页(三)标准差(三)标准差(standard deviation,Sd)作用作用1表示变量分布的离散程度。表示变量分布的离散程度。4估计平均数的标准误。估计平均数的标准误。3进行平均数的区间估计和变异系数计算。进行平均数的区间估计和变异系数计算。2可以概括估计出变量的次数分布及各类观测数在总可以概括估计出变量的次数分布及各类观测数在总体中所占的比例。体中所占的比例。二、变异数二、变异数现在学习的是第92页,共97页标准差是衡量一个样本变量分布变异程度的重要特征数。标准差是衡量一个样本变量分布变异程度的重要特征数。当进行两个或多个资料变异程度的比较时,如果度量单位与平当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。均数相