统计资料的整理与分析.ppt
《统计资料的整理与分析.ppt》由会员分享,可在线阅读,更多相关《统计资料的整理与分析.ppt(90页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第2 2章章 统计资料的整理与分析统计资料的整理与分析1 数理统计中的常用术语数理统计中的常用术语 1.1 1.1 总体与样本总体与样本 总体总体:根据研究目的确定的研究对象的全体称为总:根据研究目的确定的研究对象的全体称为总体体(population);个体:个体:总体中的每一个研究单位称为个体总体中的每一个研究单位称为个体(individual);样本样本:依据一定方法由总体中抽取部分个体所组成依据一定方法由总体中抽取部分个体所组成的集合称为样本的集合称为样本(sample);有限总体:含有有限个个体的总体称为有限总体;有限总体:含有有限个个体的总体称为有限总体;无限总体:包含有无限多个
2、个体的总体称为无限总无限总体:包含有无限多个个体的总体称为无限总体;体;下一张下一张 主主 页页 退退 出出 上一张上一张 样本容量样本容量:样本中所包含的个体数目叫样:样本中所包含的个体数目叫样本容量或大小本容量或大小(sample size),样本容量常记为样本容量常记为n。通常把通常把n30的样本叫的样本叫小样本小样本,n 30的样的样本叫本叫大样本大样本。试验研究的目的:了解总体,然而能观试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统测到的却是样本,通过样本来推断总体是统计分析的基本特点。计分析的基本特点。下一张下一张 主主 页页 退退 出出 上一张上一张 为
3、了能可靠地从样本来推断总体,要求样本具为了能可靠地从样本来推断总体,要求样本具有一定的含量和代表性。有一定的含量和代表性。如何获取有代表性的样本?采用随机抽取。如何获取有代表性的样本?采用随机抽取。所谓所谓随机抽取随机抽取(random sampling)(random sampling)是指总体是指总体中的每一个个体都有同等的机会被抽取到样本中。中的每一个个体都有同等的机会被抽取到样本中。样本毕竟只是总体的一部分,尽管样本具有样本毕竟只是总体的一部分,尽管样本具有一定的含量也具有代表性,通过样本来推断总体一定的含量也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但也不
4、可能是百分之百的正确。有很大的可靠性但有一定的错误率这是统计分析的特点。有一定的错误率这是统计分析的特点。下一张下一张 主主 页页 退退 出出 上一张上一张 1.2 1.2 参数与统计量参数与统计量 为了表示总体和样本的数量特征,需要计算特征为了表示总体和样本的数量特征,需要计算特征数。数。参数参数:由总体计算的特征数叫参数:由总体计算的特征数叫参数(parameter);常用希腊字母表示参数,例如用常用希腊字母表示参数,例如用表示总体平均数,表示总体平均数,用用表示总体标准差;表示总体标准差;统计量统计量:由样本计算的特征数叫统计量:由样本计算的特征数叫统计量(staistic)。常用拉丁字
5、母表示统计量,例如用常用拉丁字母表示统计量,例如用 表表 示样本平均数,用示样本平均数,用s表示样本标准差,用表示样本标准差,用R表示极差。表示极差。下一张下一张 主主 页页 退退 出出 上一张上一张 总体总体总体总体样本样本样本样本参数参数参数参数 统计量统计量统计量统计量s s2 2方方 差差s s2 2标准差标准差平均数平均数R极极 差差抽样抽样抽样抽样推断、估计推断、估计推断、估计推断、估计为了了解总体分布、特征为了了解总体分布、特征构构 造造 总体参数由相应的统计量来估计,例如用总体参数由相应的统计量来估计,例如用 估计估计,用,用S S估计估计等。等。1.3 1.3 准确性与精确性
6、准确性与精确性 准确性准确性(accuracy)(accuracy)也叫准确度也叫准确度,指观指观测值与其真值的接近程度。测值与其真值的接近程度。设某一试验指标或设某一试验指标或性状的真值为性状的真值为,观测值为观测值为 x x,若若 x x与与相差相差的绝对值的绝对值|x x|越小,越小,则观测值则观测值x x的准确性的准确性越高;越高;反之则低。反之则低。下一张下一张 主主 页页 退退 出出 上一张上一张 精确精确性性(precision)也叫精确度也叫精确度,指同一试验指指同一试验指标或性状的重复观测值彼此接近的程度。标或性状的重复观测值彼此接近的程度。若观测值若观测值彼此接近,即任意二
7、个观测值彼此接近,即任意二个观测值xi、xj 相差的绝对值相差的绝对值|xi xj|越小,则观测值精确性越高;反之则低。准确越小,则观测值精确性越高;反之则低。准确性、精确性的意义见图性、精确性的意义见图2-1。下一张下一张 主主 页页 退退 出出 上一张上一张 图图2-1 准确性与精确性的关系示意图准确性与精确性的关系示意图 随机误差随机误差 也叫也叫 抽样误差抽样误差 (sampling error),是由于许多无法控制的内在和外在的偶然因素是由于许多无法控制的内在和外在的偶然因素所造成的所造成的。随机误差带有偶然性质,在试验中,。随机误差带有偶然性质,在试验中,即使十分小心的进行试验操作
8、也难以消除。随机即使十分小心的进行试验操作也难以消除。随机误差不可避免,但可减少。误差不可避免,但可减少。随机误差影响试验的精确性。随机误差影响试验的精确性。下一张下一张 主主 页页 退退 出出 上一张上一张 1.4 随机误差随机误差(random error)与系统误差与系统误差(systematic error)统计上的试验误差是指随机误差。这种误统计上的试验误差是指随机误差。这种误差愈小,试验的精确性愈高。差愈小,试验的精确性愈高。系统误差系统误差 也叫也叫 片面误差片面误差 (lopsided error),这是这是 由于试验对象相差较大,测量的由于试验对象相差较大,测量的仪器不准仪器
9、不准、标准试剂未经校正,以及观测、标准试剂未经校正,以及观测、记载、抄录、计算中的错误等等所引起。记载、抄录、计算中的错误等等所引起。系系统误差可以通过改进方法、正确试验设计来统误差可以通过改进方法、正确试验设计来避免、消除。避免、消除。系统误差影响试验的准确性。系统误差影响试验的准确性。下一张下一张 主主 页页 退退 出出 上一张上一张 正确地进行试验数据资料的分类是统计正确地进行试验数据资料的分类是统计资料整理的前提。在调查或试验中,由观察、资料整理的前提。在调查或试验中,由观察、测量所得的数据资料按其性质的不同,一般测量所得的数据资料按其性质的不同,一般可以分为可以分为数量性状资料、数量
10、性状资料、质量性状资料和质量性状资料和半定量(等级)资料半定量(等级)资料三大类。三大类。下一张下一张 主主 页页 退退 出出 上一张上一张 2 2 统计资料的分类统计资料的分类 数量性状数量性状(quantitative character)是指能够以是指能够以测量、计量或计数的方式表示其特征的性状测量、计量或计数的方式表示其特征的性状。观察。观察测定数量性状而获得的数据就是测定数量性状而获得的数据就是数量性状资料数量性状资料 数量性状资料的获得有数量性状资料的获得有测量测量和和计数计数两种方式两种方式,因而数量性状资料因而数量性状资料 又分为又分为计量资料和计数资料计量资料和计数资料两种。
11、两种。下一张下一张 主主 页页 退退 出出 上一张上一张 2.1 2.1 数量性状资料数量性状资料 用测量方式获得的数量性状资料,即用度、量、用测量方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。其数衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量带小数的任何数值出现,其小数位数的多少由度量工具的精度而定工具的精度而定 ,它们之间的变异是连续性的。它们之
12、间的变异是连续性的。因此,计量资料也称为因此,计量资料也称为连续性变异资料连续性变异资料。下一张下一张 主主 页页 退退 出出 上一张上一张 2.1.1 2.1.1 计量资料计量资料 2.1.2 2.1.2 计数资料计数资料 指用计数方式获得的数量性状资指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为是不连续的,因此该类资料也称为不
13、不连续性变异资料或间断性变异资料连续性变异资料或间断性变异资料。下一张下一张 主主 页页 退退 出出 上一张上一张 2.2 质量性状资料质量性状资料 质量性状质量性状(qualitative character)是指能观察是指能观察到而不能直接测量的,只能用文字来描述其特征到而不能直接测量的,只能用文字来描述其特征的性状,如食品颜色、的性状,如食品颜色、风味等等。这类性状本身风味等等。这类性状本身不能直接用数值表示,要获得这类性状的数据资不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以料,须对其观察结果作数量化处理,其方法有以下两种:下两种:下一张下一张 主
14、主 页页 退退 出出 上一张上一张 2.2.1 2.2.1 统计次数法统计次数法 在一定的总体或样本中,根据某一质量性状在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。的类别统计其次数,以次数作为质量性状的数据。例如,苹果中全红果个数与半红果个数。例如,苹果中全红果个数与半红果个数。由质量性状数量化而得来的资料又叫由质量性状数量化而得来的资料又叫 次数资次数资料。料。2.2.2 2.2.2 评分法评分法 对某一质量性状,因其类别不同,分别给予对某一质量性状,因其类别不同,分别给予对某一质量性状,因其类别不同,分别给予对某一质量性状,因其类别不同,分别给予评分。
15、例如,分析面包的质量,可以按照国际面评分。例如,分析面包的质量,可以按照国际面评分。例如,分析面包的质量,可以按照国际面评分。例如,分析面包的质量,可以按照国际面包评分细则进行打分,综合评价面包质量。新产包评分细则进行打分,综合评价面包质量。新产包评分细则进行打分,综合评价面包质量。新产包评分细则进行打分,综合评价面包质量。新产品开发中的评价打分等等。品开发中的评价打分等等。品开发中的评价打分等等。品开发中的评价打分等等。2.3 半定量(等级)资料半定量(等级)资料 半定量或等级资料半定量或等级资料半定量或等级资料半定量或等级资料(semi-quantitative(semi-quantita
16、tive or ranked data)or ranked data)是指将观察单位按所考察是指将观察单位按所考察是指将观察单位按所考察是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组的性状或指标的等级顺序分组,然后清点各组的性状或指标的等级顺序分组,然后清点各组的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次观察单位的次数而得的资料。这类资料既有次观察单位的次数而得的资料。这类资料既有次观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。如某种数资料的特点,又有程度或量的不同。如某种数资料的特点,又有程度或量的不同。如某种数
17、资料的特点,又有程度或量的不同。如某种果实的褐变程度是视果实变色面积将其分组,果实的褐变程度是视果实变色面积将其分组,果实的褐变程度是视果实变色面积将其分组,果实的褐变程度是视果实变色面积将其分组,然后统计各级别果数。然后统计各级别果数。然后统计各级别果数。然后统计各级别果数。三种不同类型的资料相互间是有区别的,三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。一种类型资料转化成另一种类型的资料。例如,酸奶中的乳杆菌总数得到的资料属例如,酸奶中的乳杆菌总数得到的资料属于计数资料,根据化验的目的
18、,可按乳杆菌总于计数资料,根据化验的目的,可按乳杆菌总数正常或不正常分为两组,清点各组的次数,数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按计数资料就转化为质量性状次数资料;如果按乳杆菌总数过高、正常、过低分为三组乳杆菌总数过高、正常、过低分为三组,清点,清点各组次数各组次数 ,就转化成了半定量资料,就转化成了半定量资料。下一张下一张 主主 页页 退退 出出 上一张上一张 3 数据资料的整理数据资料的整理 3.1 数据资料的检查与核对数据资料的检查与核对 目的:在于确保原始资料的完整性和正确性。目的:在于确保原始资料的完整性和正确性。所谓所谓完整性完整性是指原
19、始资料无遗缺或重复。是指原始资料无遗缺或重复。所谓所谓正确性正确性是指原始资料的测量和记载无差错或是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料有重复、异常或遗漏的资料 ,应予以删除或补齐,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。进行复查或重新试验。下一张下一张 主主 页页 退退 出出 上一张上一张 未整理的资料为原始资料,是零
20、星的、孤立的和杂乱无章,无规律可循,未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质通过科学的整理和分析,可发现其规律性,揭示事物内在本质通过科学的整理和分析,可发现其规律性,揭示事物内在本质通过科学的整理和分析,可发现其规律性,揭示事物内在本质。3.2 数据资料的整理方法数据资料的整理方法 当观测值不多当观测值不多(n30)时,不必分组,可时,不必分组,可直接进行统计分析。直接进行统计分析。当观测
21、值较多当观测值较多(n30)时,宜将观测值分时,宜将观测值分成若干组,以便统计分析。将观测值分组后,成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变制成次数分布表,即可看到资料的集中和变异情况。异情况。下一张下一张 主主 页页 退退 出出 上一张上一张 3.2 连续性资料(计量资料)的整理连续性资料(计量资料)的整理 连续性资料的整理,需要先确定连续性资料的整理,需要先确定全距、全距、组数、组距、组中值及组限组数、组距、组中值及组限,然后将全部观,然后将全部观测值计数归组。测值计数归组。【例例2.1】为了分析某生产厂的罐头质量,为了分析某生产厂的罐头质量,现随机抽
22、取现随机抽取100听罐头样品,分别称取其净听罐头样品,分别称取其净重,数据资料见表重,数据资料见表2-1。下一张下一张 主主 页页 退退 出出 上一张上一张 342.1342.1340.7340.7348.4348.4346.0346.0343.4343.4342.7342.7346.0346.0341.1341.1344.0344.0348.0348.0346.3346.3346.0346.0340.3340.3344.2344.2342.2342.2344.1344.1345.0345.0340.5340.5344.2344.2344.0344.0343.5343.5344.2344.23
23、42.6342.6343.7343.7345.5345.5339.3339.3350.2350.2337.3337.3345.3345.3358.2358.2344.2344.2345.8345.8331.2331.2342.1342.1342.4342.4340.5340.5350.0350.0343.2343.2347.0347.0340.2340.2344.0344.0353.3353.3340.2340.2336.3336.3348.9348.9340.2340.2356.1356.1346.0346.0345.6345.6346.2346.2340.6340.6339.7339.73
24、42.3342.3352.8352.8342.6342.6350.3350.3348.5348.5344.0344.0350.0350.0335.1335.1340.3340.3338.2338.2345.5345.5345.6345.6349.0349.0336.7336.7342.0342.0338.4338.4343.9343.9343.7343.7341.1341.1347.1347.1342.5342.5350.0350.0343.5343.5345.6345.6345.0345.0348.6348.6344.2344.2341.1341.1346.8346.8350.2350.23
25、39.9339.9346.6346.6339.9339.9344.3344.3346.2346.2338.0338.0341.1341.1347.3347.3347.2347.2339.8339.8344.4344.4347.2347.2341.0341.0341.0341.0343.3343.3342.3342.3339.5339.5343.0343.0表表表表2 21 1001 100听罐头样品的净重听罐头样品的净重听罐头样品的净重听罐头样品的净重 g g 1、求全距、求全距 R 全距全距是数据资料中的最大值与最小值之差,是数据资料中的最大值与最小值之差,又称为又称为极差极差(range)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计资料 整理 分析
限制150内