【教学课件】第二章资料整理.ppt
《【教学课件】第二章资料整理.ppt》由会员分享,可在线阅读,更多相关《【教学课件】第二章资料整理.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 资料整理资料整理资料整理:资料整理:对对原始资料原始资料进行进行审核、分组、汇总、审核、分组、汇总、描述和归纳描述和归纳,使之条理化和便于统计分析,使之条理化和便于统计分析和推断。和推断。1原始资料:统计调查和实验结果原始资料:统计调查和实验结果(1)如牛场、鸡场和猪场的性能测定结果)如牛场、鸡场和猪场的性能测定结果 (产奶量、产蛋数、产仔数、称重等);(产奶量、产蛋数、产仔数、称重等);(2)屠宰试验结果;)屠宰试验结果;(3)实验结果包括基因型、特异条带的有)实验结果包括基因型、特异条带的有 无、强弱;饲料成分的含量等无、强弱;饲料成分的含量等第二章第二章 资料整理资料整理2
2、第二章第二章 资料整理资料整理原始数据:原始数据:大量的、大量的、“杂乱无章杂乱无章”不能直接用于统计分析,必须经过统不能直接用于统计分析,必须经过统整理和加工。整理和加工。3第二章第二章 资料整理资料整理资料整理的主要内容资料整理的主要内容(1)审核与订正审核与订正:人为错误、小数点等:人为错误、小数点等(2)分组与汇总分组与汇总:内部结构、类型和特征:内部结构、类型和特征(3)计计 算各种综合数字特征算各种综合数字特征:如,:如,n、平均数、标、平均数、标 准差准差(4)统计表或统计图统计表或统计图:显示资料的基本特征和内在:显示资料的基本特征和内在 规律规律4第二章第二章 资料整理资料整
3、理2.1 资料的分类资料的分类2.2 数据的频率分布数据的频率分布2.3 数据的表示方法数据的表示方法2.4 集中趋势的度量集中趋势的度量2.5 离散趋势的度量离散趋势的度量52.1 资料的分类资料的分类统计资料:指反映事物、现象或过程的数据资料。统计资料:指反映事物、现象或过程的数据资料。包括原始资料和次级资料。包括原始资料和次级资料。特点:特点:(1)数字性:)数字性:数字形式或者可以转换为数字形式。数字形式或者可以转换为数字形式。(2)大量性:)大量性:大量相像或对同类相像观察所取得的大量相像或对同类相像观察所取得的 数据资料。数据资料。(3)具体性:)具体性:已经实现的事实的记载。已经
4、实现的事实的记载。62.1.1 连续性资料(或计量资料)连续性资料(或计量资料)指一定范围内可取任何实数值的数据资指一定范围内可取任何实数值的数据资料,通常是用度量衡等计量工具测量后得到的。料,通常是用度量衡等计量工具测量后得到的。如:体重、产奶量、产毛量等。如:体重、产奶量、产毛量等。数据的连续性受到实际测定规模和测量工数据的连续性受到实际测定规模和测量工具精度的限制,如:天平和尺的精确程度。具精度的限制,如:天平和尺的精确程度。实际得到的资料并非完全连续的,连续性实际得到的资料并非完全连续的,连续性只是理论上的。只是理论上的。72.1.1 离散性资料离散性资料 指一定范围内只取有限种可能值
5、的数据资料。指一定范围内只取有限种可能值的数据资料。1.计数资料:计数资料:计数的方式得到,必须用整数表示。计数的方式得到,必须用整数表示。如:产蛋数、产仔数。如:产蛋数、产仔数。2.分类资料:分类资料:可分为多个不同的类别。可分为多个不同的类别。(1)不同类别之间无等级之分。)不同类别之间无等级之分。如:性别(公母)、如:性别(公母)、基因型(基因型(AA AB BB)、毛)、毛 色(红、白、黑)。色(红、白、黑)。8(2)不同类别之间有内在的等级之分。)不同类别之间有内在的等级之分。如:成绩(优、良、高)、产奶量(高、如:成绩(优、良、高)、产奶量(高、中、低)中、低)分类资料可以用文字描
6、述,也可以转换分类资料可以用文字描述,也可以转换为数字,用自然数来表示。为数字,用自然数来表示。如:如:0代表公,代表公,1代表母。代表母。不同的数字只代表类型,不代表大小。不同的数字只代表类型,不代表大小。2.1.1 离散性资料离散性资料92.2 数据的频率分布数据的频率分布 频率分布反映一组数据中不同观测出现频率分布反映一组数据中不同观测出现频率。对数据的分布特征和趋势一目了然。频率。对数据的分布特征和趋势一目了然。2.2.1 2.2.1 离散性资料的频率分布离散性资料的频率分布 计数资料和分类资料的频率分布指每个计数资料和分类资料的频率分布指每个自然值或属于不同类别的观测值出现的次数自然
7、值或属于不同类别的观测值出现的次数(频数)和所占的比例。(频数)和所占的比例。见教材见教材 P7-8 P7-8 表表2-12-1和表和表2-22-2。102.2.2 连续性资料的频率分布连续性资料的频率分布 首先,首先,将资料进行分组将资料进行分组 然后,然后,将观测值分别纳入相应的组内将观测值分别纳入相应的组内 最后,最后,计算各组中观测值的频数和频率计算各组中观测值的频数和频率112.2.2 连续性资料的频率分布连续性资料的频率分布 一、数据分组一、数据分组1.求全距:求全距:变数的最大值与最小值之差变数的最大值与最小值之差2.确定组数:确定组数:取决于样本含量,表取决于样本含量,表243
8、.确定组距:确定组距:每组的最大值与最小值之差每组的最大值与最小值之差 组距全距组距全距/组数组数 组距为整数(计算得到的小数化为整数),组距为整数(计算得到的小数化为整数),各组的组距相同,用各组的组距相同,用 i 表示表示.122.2.2 连续性资料的频率分布连续性资料的频率分布4.求组中值和组限求组中值和组限 组限:每组的两个极限值组限:每组的两个极限值 组下限:最小值组下限:最小值 组上限:最大值组上限:最大值 组中值:(组上限组中值:(组上限+组下限)组下限)/2 组下限组下限=组中值组中值-0.5X组距组距 一般是首先确定第一组的组中值,然后根据加上一般是首先确定第一组的组中值,然
9、后根据加上组距得到第二组的组中值,依次类推组距得到第二组的组中值,依次类推13 一般是首先确定第一组的组中值,然后根据加上一般是首先确定第一组的组中值,然后根据加上 组距得到第二组的组中值,依次类推组距得到第二组的组中值,依次类推 第一组的组中值一般接近或等于资料中的最小值,第一组的组中值一般接近或等于资料中的最小值,这样可以避免资料中的最小值被排除在外。这样可以避免资料中的最小值被排除在外。为避免上一组的组上限与下一组的组下限相等时,为避免上一组的组上限与下一组的组下限相等时,使得其分组时的归属问题,通常采用将该数值向后靠使得其分组时的归属问题,通常采用将该数值向后靠的原则,即上一组的组上限
10、稍小于下一组的组下限。的原则,即上一组的组上限稍小于下一组的组下限。或采用开口式分组,即每组无确定的组上限。或采用开口式分组,即每组无确定的组上限。以课本表以课本表2-3为例详细说明。为例详细说明。2.2.2 连续性资料的频率分布连续性资料的频率分布142.2.2 连续性资料的频率分布连续性资料的频率分布 二、计算频率分布二、计算频率分布 根据组限,将资料中的数据分别分配到根据组限,将资料中的数据分别分配到各组中,然后计算各组的频数和频率。从各组中,然后计算各组的频数和频率。从而很容易地了解资料的特点。而很容易地了解资料的特点。见表见表2-5 小结:计算频率小结:计算频率 分组分组 组限组限
11、全距全距 组数组数 组距组距152.2.3 百分位数(百分位点)百分位数(百分位点)指将一组指将一组 n 个数据由小到大排列,如果个数据由小到大排列,如果小于小于 某数值的数据个数为全体数据个数的某数值的数据个数为全体数据个数的x%,则称该数为第,则称该数为第 x 百分位数或百分位数或 x%分位数。分位数。25%分位数或下四分位数:分位数或下四分位数:0.25n个数的后一个数。个数的后一个数。50%分位数或中位数:分位数或中位数:0.5n个数的后一个数。个数的后一个数。75%分位数或上四分位数:分位数或上四分位数:0.75n个数的后一个数。个数的后一个数。162.3 统计表统计表 统计资料的基
12、本表现形式,也是最常见的形式。统计资料的基本表现形式,也是最常见的形式。使得数据具有条理性、清晰易懂、便于比较和分使得数据具有条理性、清晰易懂、便于比较和分析。析。形式:标题、纵列标题、横列标题、表体形式:标题、纵列标题、横列标题、表体 见表见表2-5 类型:简单表(一组横标目和一组列标目)类型:简单表(一组横标目和一组列标目)复合表(多组横标目和一组列标目、一复合表(多组横标目和一组列标目、一 组横标目和多组列标目、多组横标目和多组横标目和多组列标目、多组横标目和多 组列标目)组列标目)见见p114表和表和p204表表17 利用点、线、面、体形象、直观地表示统利用点、线、面、体形象、直观地表
13、示统计资料的基本特征和变化趋势。计资料的基本特征和变化趋势。一、条形图一、条形图 利用平行柱型的长短表示数的大小。利用平行柱型的长短表示数的大小。适用于分类资料和离散性数量资料的频率分布适用于分类资料和离散性数量资料的频率分布 见图见图2-1 2.3 统计图统计图18二、直方图二、直方图 利用距形面积表示各组中数据出现的频数。利用距形面积表示各组中数据出现的频数。适用于连续性资料的频率分布适用于连续性资料的频率分布 见图见图2-2三、饼图三、饼图 利用扇形面积表示不同类别的频率,可采用不同利用扇形面积表示不同类别的频率,可采用不同 的色彩。的色彩。适用于类别不多的分类资料的频率分布。适用于类别
14、不多的分类资料的频率分布。见图见图2-3 2.3 统计图统计图192.3 统计图统计图四、线形图四、线形图 利用曲线表示数据的动态变化趋势。利用曲线表示数据的动态变化趋势。不同的指标可以分别用不同的形式来表示,以示不同的指标可以分别用不同的形式来表示,以示 区别区别 见图见图2-420统计表与统计图统计表与统计图 统计表:信息量大、精确的数值。统计表:信息量大、精确的数值。不仅反映资料的特征和趋势,还可以提供不仅反映资料的特征和趋势,还可以提供 更详细的信息。更详细的信息。统计图:形象、生动、直观统计图:形象、生动、直观 主要反映资料的主要特征和趋势主要反映资料的主要特征和趋势 经常需要统计表
15、结合统计图来说明问题;经常需要统计表结合统计图来说明问题;根据研究目的灵活应用;统计表应用更多、根据研究目的灵活应用;统计表应用更多、更常见。更常见。21上次课主要内容回顾上次课主要内容回顾1.原始资料原始资料 2.统计资料统计资料2.3.资料整理的目的和过程资料整理的目的和过程3.4.连续性资料和离散性资料连续性资料和离散性资料4.5.连续性资料的频率分布(全距、组数、组距、连续性资料的频率分布(全距、组数、组距、组中值、组上限、组下限、频数、频率)组中值、组上限、组下限、频数、频率)5.6.离散性资料的频率分布(类别、频数、频率)离散性资料的频率分布(类别、频数、频率)6.7.统计表(简单
16、表、复合表、与统计图的关系)统计表(简单表、复合表、与统计图的关系)7.8.统计图(种类以及适合那类资料)统计图(种类以及适合那类资料)22 在数理统计中,平均数是用来反映在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有:心位置。常用的度量指标有:1.1.算术平均数算术平均数 2.2.中位数(中位数(M)3.3.众数(众数(Mo)4.4.几何平均数(几何平均数(M g)5.5.调和平均数(调和平均数(H)2.5 集中趋势的度量集中趋势的度量23意义:意义:作为一个资料的代表,指资料中各变数集中作为一个资料的代表,指资料中
17、各变数集中较多的中心位置,用来与另一资料相比较。不同的较多的中心位置,用来与另一资料相比较。不同的平均数适合于不同的数据资料。平均数适合于不同的数据资料。例如:例如:不同国家、地区、种族之间身高、体重等的不同国家、地区、种族之间身高、体重等的 比较;不同品种的家畜、家禽之间生产性能比较;不同品种的家畜、家禽之间生产性能 的比较的比较2.5 集中趋势的度量集中趋势的度量24主要内容:主要内容:一、算术平均数一、算术平均数二、中位数、众数、几何平均数和调和平均数二、中位数、众数、几何平均数和调和平均数三、三、5 5 种平均数的关系和评价种平均数的关系和评价 2.5 集中趋势的度量集中趋势的度量25
18、2.5.1 2.5.1 算术平均数算术平均数一、定义一、定义 一组资料中,所有观测值的总和除以其个资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数数所得到的商,称为算术平均数,简称平均数或均数。或均数。最常用的一种集中趋势度量指标。最常用的一种集中趋势度量指标。样本的平均数记为样本的平均数记为 总体平均数记为总体平均数记为 262.5.1 2.5.1 算术平均数算术平均数 :第:第i个观察值或变数个观察值或变数 n:观察值或变数的个数:观察值或变数的个数:求和符号(:求和符号(sigma)计算公式:计算公式:27一、直接法:一、直接法:例例2.12.1:5 5头猪的体重
19、分别为头猪的体重分别为7070、7272、8080、8383、88kg 88kg,问,问 5 5头猪的算术平均数是多少?头猪的算术平均数是多少?从计算结果看从计算结果看5 5头猪都距头猪都距78.678.6(kgkg)不远,)不远,所以平均数是数量资料的代表值。所以平均数是数量资料的代表值。上述计算方法称为上述计算方法称为直接法直接法,适用于样本小,适用于样本小,即资料内包含变数个数不多,一般在即资料内包含变数个数不多,一般在3030个变数以个变数以下未经分组的资料。下未经分组的资料。2.5.1 2.5.1 算术平均数算术平均数28二、加权法二、加权法 1.1.分类资料:每个类别在某个指标上取
20、相同的值。分类资料:每个类别在某个指标上取相同的值。2.2.计数资料和连续性资料:频率分布表计数资料和连续性资料:频率分布表 加权法,即计算时先将各个变数乘上它加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总合,的权数,再经过总和,然后除以权数的总合,称为加权平均数。称为加权平均数。2.5.1 2.5.1 算术平均数算术平均数29 x xi i=变数值变数值 f fi i=变数值变数值x xi i出现的频数出现的频数计算公式:计算公式:2.5.1 2.5.1 算术平均数算术平均数30例例2.22.2:一个有一个有10001000个个体的群体,等位基因个个体的群体,等位基因
21、 A A 的的 频率为频率为0.60.6,另一个,另一个400400个个体的群体,个个体的群体,等位基因等位基因 A A 的频率为的频率为0.30.3,这两个群体的混,这两个群体的混 合在一起,整个混合群体的等位基因合在一起,整个混合群体的等位基因 A A 的的 频率为:频率为:2.5.1 2.5.1 算术平均数算术平均数31例例2.32.3:200200头大白猪的仔猪的一月窝重的资料见表头大白猪的仔猪的一月窝重的资料见表2-12-1组别组别组中值组中值频数(频数(f f)fxfx8-8-16-16-24-24-32-32-40-40-48-48-56-56-64-64-72-72-80-80
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 教学课件 教学 课件 第二 资料 整理
限制150内