第9、第10章调查资料的统计分析.ppt
《第9、第10章调查资料的统计分析.ppt》由会员分享,可在线阅读,更多相关《第9、第10章调查资料的统计分析.ppt(103页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、调查资料的统计分析调查资料的统计分析第一节 统计分析概述第二节 单变量统计分析第三节 双变量统计分析第四节 推论统计1统计工作统计工作统计学统计学统计资料统计资料统计的涵义统计的基本涵义统计的基本涵义第一节 统计分析概述2统计工作统计工作 即统计实践活动,是人们利用各即统计实践活动,是人们利用各种科学的统计方法,搜集、整理、种科学的统计方法,搜集、整理、分析和提供统计资料工作的总称。分析和提供统计资料工作的总称。统计的涵义之一统计的涵义之一政府统计政府统计:国家统计局、职能部门国家统计局、职能部门企事业单位统计:企事业单位统计:企业统计机构等企业统计机构等经营统计:经营统计:调查咨询公司、统计
2、事务所等调查咨询公司、统计事务所等其它:其它:如研究性统计机构等如研究性统计机构等3统计资料统计资料即统计工作过程所取得的成果,即统计工作过程所取得的成果,是反映被调查研究的客观事物及是反映被调查研究的客观事物及其过程的其过程的数字资料数字资料以及与之相关以及与之相关的的文字资料、图表资料文字资料、图表资料等。等。直接从各调查单位搜集的用来直接从各调查单位搜集的用来反映反映个体个体特征的数据资料特征的数据资料 由原始资料加工得到的在一定由原始资料加工得到的在一定程度上能反映程度上能反映总体总体特征的数据特征的数据资料资料原始信息原始信息再生信息再生信息统计的含义之二统计的含义之二4统计学统计学
3、统计的含义之三统计的含义之三 即统计理论,是统计工作实即统计理论,是统计工作实践经验的总结和理论概括。践经验的总结和理论概括。是是研究如何对客观事物数量方面进行调研究如何对客观事物数量方面进行调查、整理和分析的原理、方法的科学。查、整理和分析的原理、方法的科学。5“据统计据统计”日常生活中人们常提到的日常生活中人们常提到的“统计统计”“我是搞统计的我是搞统计的”“我学过统计我学过统计”指的是指的是统计资料统计资料指的是指的是统计工作统计工作指的是指的是统计学统计学6二、统计分析的含义与作用 运用统计学的方法,对调查所得资料的数量运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模
4、型揭示调查资料特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。中所隐含的关系、规律及发展趋势。1为社会调查研究提供一套精确的形式化语言为社会调查研究提供一套精确的形式化语言2使抽样调查成为可能使抽样调查成为可能3有助于揭示社会现象的规律有助于揭示社会现象的规律4有助于较精确地预测社会现象的发展趋势有助于较精确地预测社会现象的发展趋势含义作用7三、统计分析的特点统计分析要以定性分析为基础统计分析要以定性分析为基础统计分析必须与理论分析方法相结合统计分析必须与理论分析方法相结合统计分析的内容集中趋势分析离散趋势分析相关分析回归分析区间估计假设检验描述统计推论统计用最简单的
5、概括形式反映出大量数据资料所容纳的基本信息从样本调查中所得的数据资料来推断总体的情况基本方法基本内容8第二节 单变量统计分析一、频数分布与频率分布 所谓频数分布,就是指一组数据中取不同不同值值的个案的次数分布次数分布情况,它一般以频数表的形式表达。某班有某班有2525名学生,其年龄情况如下:名学生,其年龄情况如下:2020,1919,1818,1919,1818,2020,2121,1717,1818,1818,1919,1919,2020,1919,1919,1717,1818,2020,1919,1919,2121,2121,1919,2020,1919。年龄年龄 (岁岁 )学生人数学生人
6、数171819202125105325合计合计该该班班学学生生的的年年龄龄分分布布表表例如9 频数分布表的作用 一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。10 所谓频率分布,则是指一组数据中不同取值的频数相对于总数的不同取值的频数相对于总数的比率分布比率分布情况,这种比率通常以百分比的形式表达,而频率分布情况同样以频率表的形式出现。频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。例如年龄年龄 (岁岁 )百分比百分比17181920
7、21820402012100合计合计某班学生的年龄分布某班学生的年龄分布11二、集中趋势分析所谓集中趋势分析,指的是用一所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数个典型值或代表值来反映一组数据的一般水平,或向这个典型值据的一般水平,或向这个典型值集中的情况。集中的情况。最常见的集中趋势统计量平均数平均数众数众数中位数中位数12 平均数平均数 (算术平均数)用总体各单位数(算术平均数)用总体各单位数值之和除以总体单位总数的商。平值之和除以总体单位总数的商。平均数又称为均值或均数。均数又称为均值或均数。计算公式及应用举例由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi
8、(i=1,2,n),则计算公式为:由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以单位总数,得出平均数。其计算公式为:由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。13例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33)年龄(岁)人数(f)合计 15017181920212210255040205例3 调查某厂100名职工的收入情
9、况如下(右表),求他们的平均收入。(212)收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计10014众数众数 众数是一组数据中出现次数最多众数是一组数据中出现次数最多(即频即频数最高数最高)的那个数值。通常用的那个数值。通常用MoMo表示。表示。众数的求法由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故我们只需采用直接观察的方法直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数找出最大的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数即为 Xm。由组距分组资
10、料求众数。由组距分组资料求众数的方法有两种:一种是组中值法,另一种是摘补法。前者比较简单,后者较为复杂。用组中值法求众数分为三步:首先也是通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。15 求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋当总体单位数目较多且其数据有明显的集中趋势时才能计算众数势时才能计算众数。调查某年级150名学生的年龄,得到下列结果。首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。例如 年龄(岁)人数(f)17181920212210255
11、040205 合计 150某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计10016q当数据分布存在明显的集中趋势,且有显当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;著的极端值时,适合使用众数;q当数据分布的集中趋势不明显或存在两个当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(以上分布中心时,不适合使用众数(前者无
12、前者无众数,后者为双众数或多众数,也等于没有众数,后者为双众数或多众数,也等于没有众数众数)众数的适用条件众数的适用条件17将将总体各单位标志值按大小顺序排总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志列后,指处于数列中间位置的标志值,用值,用 表示表示中位数中位数中位数把标志值数列分为两个部分中位数把标志值数列分为两个部分,一部分一部分标志值小于或等于它标志值小于或等于它,另一部分标志值大于另一部分标志值大于或等于它或等于它.18不受不受极端数值的影响极端数值的影响,在总体标志值差异很大,在总体标志值差异很大时,具有较强的代表性。时,具有较强的代表性。中位数的作用:中位数的作用:
13、计算中位数时常常要求数据是定序以上的变计算中位数时常常要求数据是定序以上的变量。而对定类的变量通常不用来计算中位数。量。而对定类的变量通常不用来计算中位数。19中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例例A A】某售货小组某售货小组5 5个人,某天的销售额按个人,某天的销售额按从小到大的顺序排列为从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)20中位数的位次为中位数的位次为中位数应为第中位数应为第3和第和第4个单位
14、标志值的算术平个单位标志值的算术平均数,即均数,即【例例B B】若上述售货小组为若上述售货小组为6 6个人,某天的销个人,某天的销售额按从小到大的顺序排列为售额按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元、元、760760元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)21【例例C C】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)101112131470100380150100701705507008
15、00合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:中位数的确定中位数的确定(单值数列)单值数列)22中位数的确定中位数的确定(组距数列)组距数列)【例例D D】某某车间车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50计算该车间工人月产量的中位数。计算该车间工人月产量的中位数。23中位数的确定中位数的确定(组距数列)组距数列)共共 个单位个
16、单位共共 个单位个单位共共 个单位个单位共共 个单位个单位LU中位数组中位数组中位数组中位数组组距为组距为d共共 个单位个单位假定该组内的单假定该组内的单假定该组内的单假定该组内的单位呈均匀分布位呈均匀分布位呈均匀分布位呈均匀分布共有单位数共有单位数共有单位数共有单位数 中位数下限公式为中位数下限公式为中位数下限公式为中位数下限公式为 该段长度应为该段长度应为该段长度应为该段长度应为 24中位数一定存在;中位数一定存在;中位数与算术平均数相近;中位数与算术平均数相近;中位数不受极端值影响;中位数不受极端值影响;变量值与中位数离差绝对值之和最小。变量值与中位数离差绝对值之和最小。中位数的作用及用
17、法中位数的作用及用法25中位数一定存在;中位数一定存在;中位数与算术平均数相近;中位数与算术平均数相近;中位数不受极端值影响;中位数不受极端值影响;变量值与中位数离差绝对值之和最小。变量值与中位数离差绝对值之和最小。中位数的作用及用法中位数的作用及用法 变量值变量值34556910中位数中位数 5平均值平均值 6与中位数离差与中位数离差 -2 -1 0 0 1 4 5与平均数离差与平均数离差 -3 -2 -1 -1 0 3 4绝对绝对数值数值之和之和 13 1426三、离散趋势分析 离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:它与集中趋势一起,分别
18、从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。27某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80 如果仅以集中趋势统计量(平均数)来衡量,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名别。但从直观上我们不难发现,三个代
19、表队中五名队员的成绩相互之间的差跟程度(离散程度)很不队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。而政治系队成绩则相差十分悬殊。不难理解,这个不难理解,这个8080分对中文系队同学的代表性最高,而对政治系队分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。同学的代表性最低。28集中趋势弱、集中趋势弱、离散趋势强离散趋势强集中趋势强、集中趋势强、离散趋势弱离散趋势弱29 离散趋势的各种统计量,一方面揭示出数据离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一
20、方面又对相应的集中趋相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。势统计量的代表性作出判断。结论集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。30离散趋势统计量全距标准差异众比率四分位差离散系数对应众数平均数中位数对应对应31指所研究的数据中,最大值与最指所研究的数据中,最大值与最小值之差,又称小值之差,又称极差极差。1.全距全距最大变量值或最最大变量值或最高组上限高组上限最小变量值或最最小变量值或最低组下限低组下限【例例A A】某售货小组某售货小组5 5人某天的销售额分别为人某天的销售
21、额分别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则32 全距的意义在于,一组数据的全距越大,在一定全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。的代表性就越高。由于全距仅仅依靠两个极端值,因而带有很大的由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于
22、大量的处于两个极端值之间的数值分偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供布情况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。任何信息,比较粗糙。33q优点优点:计算计算方法简单、易懂;方法简单、易懂;q缺点缺点:易受极端数值的影响,不能易受极端数值的影响,不能全面反映所有标志值差异大小及分全面反映所有标志值差异大小及分布状况,准确程度差布状况,准确程度差全距的特点全距的特点34 2标准差 标准差的定义是:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号S来表示,其计算公式根据资料
23、的形式不同而稍有差别。公式由原始数据计算标准差由单值分组资料计算标准差(f f为为X X所对应的频数)所对应的频数)由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:35【例例A】某售货小组某售货小组5个人,某天的销售额分个人,某天的销售额分别为别为440元、元、480元、元、520元、元、600元、元、750元,元,求该售货小组销售额的标准差。求该售货小组销售额的标准差。解:解:即该售货小组销售额的标准差为即该售货小组销售额的标准差为109.62元。元。36标准差的特点标准差的特点q不易受极端数值的影响,能综合反映
24、全不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;部单位标志值的实际差异程度;q用平方的方法消除各标志值与算术平均用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数数离差的正负值问题,可方便地用于数学处理和统计分析运算学处理和统计分析运算.37 3异众比率 所谓异众比率,指的是一组数据中非众非众数的次数数的次数与总体全部单位数的比率。公式:公式:(这里fmo为众数的次数)异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大异众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代
25、表性也就众数的代表性也就越小越小。384 4、四分位差、四分位差 四分位差是先将一组数据按大小排列四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。的一半数值来测定序列的全距。四分位差的符号通常用四分位差的符号通常用Q Q表示。表示。Q=Q3Q1Q=Q3Q1 而而Q1 Q1、Q3Q3分别表示第一个四分位分别表示第一个四分位点和第三个四分位点。点和第三个四分位点。39405 5离散系数离散系数 离散系数是一种相对的离散趋势统计量,它使我们能够对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 调查 资料 统计分析
限制150内