第9、第10章调查资料的统计分析.ppt
调查资料的统计分析调查资料的统计分析第一节 统计分析概述第二节 单变量统计分析第三节 双变量统计分析第四节 推论统计1统计工作统计工作统计学统计学统计资料统计资料统计的涵义统计的基本涵义统计的基本涵义第一节 统计分析概述2统计工作统计工作 即统计实践活动,是人们利用各即统计实践活动,是人们利用各种科学的统计方法,搜集、整理、种科学的统计方法,搜集、整理、分析和提供统计资料工作的总称。分析和提供统计资料工作的总称。统计的涵义之一统计的涵义之一政府统计政府统计:国家统计局、职能部门国家统计局、职能部门企事业单位统计:企事业单位统计:企业统计机构等企业统计机构等经营统计:经营统计:调查咨询公司、统计事务所等调查咨询公司、统计事务所等其它:其它:如研究性统计机构等如研究性统计机构等3统计资料统计资料即统计工作过程所取得的成果,即统计工作过程所取得的成果,是反映被调查研究的客观事物及是反映被调查研究的客观事物及其过程的其过程的数字资料数字资料以及与之相关以及与之相关的的文字资料、图表资料文字资料、图表资料等。等。直接从各调查单位搜集的用来直接从各调查单位搜集的用来反映反映个体个体特征的数据资料特征的数据资料 由原始资料加工得到的在一定由原始资料加工得到的在一定程度上能反映程度上能反映总体总体特征的数据特征的数据资料资料原始信息原始信息再生信息再生信息统计的含义之二统计的含义之二4统计学统计学统计的含义之三统计的含义之三 即统计理论,是统计工作实即统计理论,是统计工作实践经验的总结和理论概括。践经验的总结和理论概括。是是研究如何对客观事物数量方面进行调研究如何对客观事物数量方面进行调查、整理和分析的原理、方法的科学。查、整理和分析的原理、方法的科学。5“据统计据统计”日常生活中人们常提到的日常生活中人们常提到的“统计统计”“我是搞统计的我是搞统计的”“我学过统计我学过统计”指的是指的是统计资料统计资料指的是指的是统计工作统计工作指的是指的是统计学统计学6二、统计分析的含义与作用 运用统计学的方法,对调查所得资料的数量运用统计学的方法,对调查所得资料的数量特征进行描述,并用各种数学模型揭示调查资料特征进行描述,并用各种数学模型揭示调查资料中所隐含的关系、规律及发展趋势。中所隐含的关系、规律及发展趋势。1为社会调查研究提供一套精确的形式化语言为社会调查研究提供一套精确的形式化语言2使抽样调查成为可能使抽样调查成为可能3有助于揭示社会现象的规律有助于揭示社会现象的规律4有助于较精确地预测社会现象的发展趋势有助于较精确地预测社会现象的发展趋势含义作用7三、统计分析的特点统计分析要以定性分析为基础统计分析要以定性分析为基础统计分析必须与理论分析方法相结合统计分析必须与理论分析方法相结合统计分析的内容集中趋势分析离散趋势分析相关分析回归分析区间估计假设检验描述统计推论统计用最简单的概括形式反映出大量数据资料所容纳的基本信息从样本调查中所得的数据资料来推断总体的情况基本方法基本内容8第二节 单变量统计分析一、频数分布与频率分布 所谓频数分布,就是指一组数据中取不同不同值值的个案的次数分布次数分布情况,它一般以频数表的形式表达。某班有某班有2525名学生,其年龄情况如下:名学生,其年龄情况如下:2020,1919,1818,1919,1818,2020,2121,1717,1818,1818,1919,1919,2020,1919,1919,1717,1818,2020,1919,1919,2121,2121,1919,2020,1919。年龄年龄 (岁岁 )学生人数学生人数171819202125105325合计合计该该班班学学生生的的年年龄龄分分布布表表例如9 频数分布表的作用 一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来;二是从频数分布表中,我们可以更清楚地了解调查数据的众多信息。10 所谓频率分布,则是指一组数据中不同取值的频数相对于总数的不同取值的频数相对于总数的比率分布比率分布情况,这种比率通常以百分比的形式表达,而频率分布情况同样以频率表的形式出现。频率分布表除具备频数分布表的优点外,还能反映各类所占的比重,便于不同总体或不同类别之间的比较。这种分布的应用更为普遍。例如年龄年龄 (岁岁 )百分比百分比1718192021820402012100合计合计某班学生的年龄分布某班学生的年龄分布11二、集中趋势分析所谓集中趋势分析,指的是用一所谓集中趋势分析,指的是用一个典型值或代表值来反映一组数个典型值或代表值来反映一组数据的一般水平,或向这个典型值据的一般水平,或向这个典型值集中的情况。集中的情况。最常见的集中趋势统计量平均数平均数众数众数中位数中位数12 平均数平均数 (算术平均数)用总体各单位数(算术平均数)用总体各单位数值之和除以总体单位总数的商。平值之和除以总体单位总数的商。平均数又称为均值或均数。均数又称为均值或均数。计算公式及应用举例由原始数据计算平均数。设总体单位总数为n,总体各单位的数值为xi(i=1,2,n),则计算公式为:由单值分组资料计算平均数。首先要将每一个组的量值乘以所对应的频数;然后将各组的数之和全部相加,最后除以单位总数,得出平均数。其计算公式为:由组距分组资料求平均数。先计算出各组的组中值Xm,然后再按照单值分组资料计算平均数的公式计算。13例题例1 某班10名学生的年龄分别为20岁、21岁、19岁、19岁、20岁、20岁、21岁、22岁、18岁、20岁,求他们的平均年龄。例2 调查某年级150名学生的年龄,得到下列结果(右表),求平均年龄。(19.33)年龄(岁)人数(f)合计 15017181920212210255040205例3 调查某厂100名职工的收入情况如下(右表),求他们的平均收入。(212)收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计10014众数众数 众数是一组数据中出现次数最多众数是一组数据中出现次数最多(即频即频数最高数最高)的那个数值。通常用的那个数值。通常用MoMo表示。表示。众数的求法由单值分组资料求众数。由于单值分组资料中已将各标志值及其所对应的频数都一一列出,故我们只需采用直接观察的方法直接观察的方法就可求得众数。具体做法是,首先在频数一栏中找出最大的频数找出最大的频数,假定为 fm;然后根据fm找到它所对应的标志值 Xm,则众数即为 Xm。由组距分组资料求众数。由组距分组资料求众数的方法有两种:一种是组中值法,另一种是摘补法。前者比较简单,后者较为复杂。用组中值法求众数分为三步:首先也是通过直接观察找出最高的频数;然后根据最高的频数找到它所对应的组;最后求出该组的组中值即是众数。15 求众数往往要求数据具备一定的条件,即只有当总体单位数目较多且其数据有明显的集中趋当总体单位数目较多且其数据有明显的集中趋势时才能计算众数势时才能计算众数。调查某年级150名学生的年龄,得到下列结果。首先我们在人数(频数)一栏中找出最大的频数50,再从50找到所对应的年龄19岁。则资料中的众数为19岁。例如 年龄(岁)人数(f)17181920212210255040205 合计 150某厂100名职工的收入情况,首先在职工数一栏中,找到最大的频数40;然后找到40所对应的组:180220;最后计算该组的组中值,计算结果为200元。因此,该例中的众数为200元。收入(元)职工数(人)100140140180180220 220260 260-3001010402020合计10016q当数据分布存在明显的集中趋势,且有显当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;著的极端值时,适合使用众数;q当数据分布的集中趋势不明显或存在两个当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(以上分布中心时,不适合使用众数(前者无前者无众数,后者为双众数或多众数,也等于没有众数,后者为双众数或多众数,也等于没有众数众数)众数的适用条件众数的适用条件17将将总体各单位标志值按大小顺序排总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志列后,指处于数列中间位置的标志值,用值,用 表示表示中位数中位数中位数把标志值数列分为两个部分中位数把标志值数列分为两个部分,一部分一部分标志值小于或等于它标志值小于或等于它,另一部分标志值大于另一部分标志值大于或等于它或等于它.18不受不受极端数值的影响极端数值的影响,在总体标志值差异很大,在总体标志值差异很大时,具有较强的代表性。时,具有较强的代表性。中位数的作用:中位数的作用:计算中位数时常常要求数据是定序以上的变计算中位数时常常要求数据是定序以上的变量。而对定类的变量通常不用来计算中位数。量。而对定类的变量通常不用来计算中位数。19中位数的位次为:中位数的位次为:即第即第3个单位的标志值就是中位数个单位的标志值就是中位数【例例A A】某售货小组某售货小组5 5个人,某天的销售额按个人,某天的销售额按从小到大的顺序排列为从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)20中位数的位次为中位数的位次为中位数应为第中位数应为第3和第和第4个单位标志值的算术平个单位标志值的算术平均数,即均数,即【例例B B】若上述售货小组为若上述售货小组为6 6个人,某天的销个人,某天的销售额按从小到大的顺序排列为售额按从小到大的顺序排列为440440元、元、480480元、元、520520元、元、600600元、元、750750元、元、760760元,则元,则中位数的确定中位数的确定(未分组资料)(未分组资料)21【例例C C】某企业某日工人的日产量资料如下:某企业某日工人的日产量资料如下:日产量(件)日产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)10111213147010038015010070170550700800合计合计800计算该企业该日全部工人日产量的中位数。计算该企业该日全部工人日产量的中位数。中位数的位次:中位数的位次:中位数的确定中位数的确定(单值数列)单值数列)22中位数的确定中位数的确定(组距数列)组距数列)【例例D D】某某车间车间5050名工人月产量的资料如下:名工人月产量的资料如下:月产量(件)月产量(件)工人人数(人)工人人数(人)向上累计次数向上累计次数(人)(人)200以下以下200400400600600以上以上373283104250合计合计50计算该车间工人月产量的中位数。计算该车间工人月产量的中位数。23中位数的确定中位数的确定(组距数列)组距数列)共共 个单位个单位共共 个单位个单位共共 个单位个单位共共 个单位个单位LU中位数组中位数组中位数组中位数组组距为组距为d共共 个单位个单位假定该组内的单假定该组内的单假定该组内的单假定该组内的单位呈均匀分布位呈均匀分布位呈均匀分布位呈均匀分布共有单位数共有单位数共有单位数共有单位数 中位数下限公式为中位数下限公式为中位数下限公式为中位数下限公式为 该段长度应为该段长度应为该段长度应为该段长度应为 24中位数一定存在;中位数一定存在;中位数与算术平均数相近;中位数与算术平均数相近;中位数不受极端值影响;中位数不受极端值影响;变量值与中位数离差绝对值之和最小。变量值与中位数离差绝对值之和最小。中位数的作用及用法中位数的作用及用法25中位数一定存在;中位数一定存在;中位数与算术平均数相近;中位数与算术平均数相近;中位数不受极端值影响;中位数不受极端值影响;变量值与中位数离差绝对值之和最小。变量值与中位数离差绝对值之和最小。中位数的作用及用法中位数的作用及用法 变量值变量值34556910中位数中位数 5平均值平均值 6与中位数离差与中位数离差 -2 -1 0 0 1 4 5与平均数离差与平均数离差 -3 -2 -1 -1 0 3 4绝对绝对数值数值之和之和 13 1426三、离散趋势分析 离散趋势(又称离中趋势)分析指的是用一个特定的数值来反映一组数据相互之间的离散程度。作用:它与集中趋势一起,分别从两个不同的侧面描述和揭示一组数据的分布状况,共同反映出资料分布的全面特征;同时,它还对集中趋势的统计量(如平均数、众数、中位数)的代表性作出补充说明。27某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:78 79 80 81 82 X80 数学系:65 72 80 88 95 X80 政治系:35 78 89 98 100 X80 如果仅以集中趋势统计量(平均数)来衡量,如果仅以集中趋势统计量(平均数)来衡量,那么,三个系代表队的水平一样高,不存在什么差那么,三个系代表队的水平一样高,不存在什么差别。但从直观上我们不难发现,三个代表队中五名别。但从直观上我们不难发现,三个代表队中五名队员的成绩相互之间的差跟程度(离散程度)很不队员的成绩相互之间的差跟程度(离散程度)很不一样。中文系成绩十分接近;数学系成绩比较分散;一样。中文系成绩十分接近;数学系成绩比较分散;而政治系队成绩则相差十分悬殊。而政治系队成绩则相差十分悬殊。不难理解,这个不难理解,这个8080分对中文系队同学的代表性最高,而对政治系队分对中文系队同学的代表性最高,而对政治系队同学的代表性最低。同学的代表性最低。28集中趋势弱、集中趋势弱、离散趋势强离散趋势强集中趋势强、集中趋势强、离散趋势弱离散趋势弱29 离散趋势的各种统计量,一方面揭示出数据离散趋势的各种统计量,一方面揭示出数据相互分离的程度;另一方面又对相应的集中趋相互分离的程度;另一方面又对相应的集中趋势统计量的代表性作出判断。势统计量的代表性作出判断。结论集中趋势统计量的代表性与所对应的离散趋势统计量是反比关系,即离散趋势统计量越大,则所对应的集中趋势统计量的代表性就越小;反之,则越大。30离散趋势统计量全距标准差异众比率四分位差离散系数对应众数平均数中位数对应对应31指所研究的数据中,最大值与最指所研究的数据中,最大值与最小值之差,又称小值之差,又称极差极差。1.全距全距最大变量值或最最大变量值或最高组上限高组上限最小变量值或最最小变量值或最低组下限低组下限【例例A A】某售货小组某售货小组5 5人某天的销售额分别为人某天的销售额分别为440440元、元、480480元、元、520520元、元、600600元、元、750750元,则元,则32 全距的意义在于,一组数据的全距越大,在一定全距的意义在于,一组数据的全距越大,在一定程度上说明这组数据的离散趋势越大,而集中趋势程度上说明这组数据的离散趋势越大,而集中趋势统计量的代表性越低。反之,一组数据的全距越小,统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散趋势越小,集中趋势统计量则说明这组数据的离散趋势越小,集中趋势统计量的代表性就越高。的代表性就越高。由于全距仅仅依靠两个极端值,因而带有很大的由于全距仅仅依靠两个极端值,因而带有很大的偶然性,它对于大量的处于两个极端值之间的数值分偶然性,它对于大量的处于两个极端值之间的数值分布情况以及在中心点周围的集中情况,都无法提供布情况以及在中心点周围的集中情况,都无法提供任何信息,比较粗糙。任何信息,比较粗糙。33q优点优点:计算计算方法简单、易懂;方法简单、易懂;q缺点缺点:易受极端数值的影响,不能易受极端数值的影响,不能全面反映所有标志值差异大小及分全面反映所有标志值差异大小及分布状况,准确程度差布状况,准确程度差全距的特点全距的特点34 2标准差 标准差的定义是:一组数据对其平均数的偏差平方的算术平均数的平方根。它是用得最多、也是最重要的离散趋势统计量。通常用符号S来表示,其计算公式根据资料的形式不同而稍有差别。公式由原始数据计算标准差由单值分组资料计算标准差(f f为为X X所对应的频数)所对应的频数)由组距分组资料计算标准差。其方法与上述单值分组资料计算标准差的方法相似,唯一不同的是需要先计算出各组的组中值,然后采用下述公式:35【例例A】某售货小组某售货小组5个人,某天的销售额分个人,某天的销售额分别为别为440元、元、480元、元、520元、元、600元、元、750元,元,求该售货小组销售额的标准差。求该售货小组销售额的标准差。解:解:即该售货小组销售额的标准差为即该售货小组销售额的标准差为109.62元。元。36标准差的特点标准差的特点q不易受极端数值的影响,能综合反映全不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度;部单位标志值的实际差异程度;q用平方的方法消除各标志值与算术平均用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数数离差的正负值问题,可方便地用于数学处理和统计分析运算学处理和统计分析运算.37 3异众比率 所谓异众比率,指的是一组数据中非众非众数的次数数的次数与总体全部单位数的比率。公式:公式:(这里fmo为众数的次数)异众比率的意义是指众数所不能代表的其他数值(即非众数的数值)在总体中的比重。因此,异众比率越大异众比率越大,即众数所不能代表的其他数值的比重越大,则众数在总体中所占的比重自然就越小,这样众数的代表性也就众数的代表性也就越小越小。384 4、四分位差、四分位差 四分位差是先将一组数据按大小排列四分位差是先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高成序,然后将其四等分,去掉序列中最高的四分之一和最低的四分之一,仅就中间的四分之一和最低的四分之一,仅就中间的一半数值来测定序列的全距。的一半数值来测定序列的全距。四分位差的符号通常用四分位差的符号通常用Q Q表示。表示。Q=Q3Q1Q=Q3Q1 而而Q1 Q1、Q3Q3分别表示第一个四分位分别表示第一个四分位点和第三个四分位点。点和第三个四分位点。39405 5离散系数离散系数 离散系数是一种相对的离散趋势统计量,它使我们能够对两种不同单位的离散趋势统计量,或者对两个不同总体的离散程度进行比较。标准差与平均数的比值,用百分比表示。定义:定义:公式用来对比不同水平的同类现象,特别是不同类现象用来对比不同水平的同类现象,特别是不同类现象用来对比不同水平的同类现象,特别是不同类现象用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小总体平均数代表性的大小总体平均数代表性的大小总体平均数代表性的大小:标准差系数小的总体,其平均数的代表性大;标准差系数小的总体,其平均数的代表性大;标准差系数小的总体,其平均数的代表性大;标准差系数小的总体,其平均数的代表性大;反之,亦然。反之,亦然。反之,亦然。反之,亦然。41可比可比离散系数指标离散系数指标42身高的差异水平:身高的差异水平:cmcm体重的差异水平:体重的差异水平:kgkg用用离散系数离散系数可以相互比较可以相互比较可可比比43【例例】某年级一、二两班某门课的平均成绩分某年级一、二两班某门课的平均成绩分别为别为82分和分和76分,其成绩的标准差分别为分,其成绩的标准差分别为15.6分和分和14.8分,比较两班平均成绩代表性的大小。分,比较两班平均成绩代表性的大小。解:解:一班一班成绩的标准差系数为:成绩的标准差系数为:二班成绩的标准差系数为:二班成绩的标准差系数为:因为因为 ,所以一班平均成绩的代,所以一班平均成绩的代表性比二班大。表性比二班大。44在平均数不为零的条件下,离散系数越大,表明数据的离散程度越大,而所对应的集中趋势统计量的代表性就越小;反之,则数据的离散程度越小,集中趋势统计量的代表性就越大。45第三节 双变量统计分析46联系与相互影响是普遍的现象联系与相互影响是普遍的现象受教受教育的育的水平水平工作工作后的后的收入收入预防预防疾病疾病支出支出疾病疾病的发的发病率病率一一 变量间的关系变量间的关系47相关分析的意义相关分析的意义 社会经济现象中,一些现象与另一些现象之间往往社会经济现象中,一些现象与另一些现象之间往往社会经济现象中,一些现象与另一些现象之间往往社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的存在着依存关系,当我们用变量来反映这些现象的的存在着依存关系,当我们用变量来反映这些现象的的存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。特征时,便表现为变量之间的依存关系。特征时,便表现为变量之间的依存关系。特征时,便表现为变量之间的依存关系。在分析变量的依存关系时,我们把变量分为在分析变量的依存关系时,我们把变量分为两种:两种:自变量自变量因变量因变量引起其他变量发生变化的量。引起其他变量发生变化的量。受自变量的影响发生对应变化的量受自变量的影响发生对应变化的量48现象之间的相互关系,可以概括为两现象之间的相互关系,可以概括为两种不同的类型:种不同的类型:(一)(一)函数关系函数关系(二)(二)相关关系相关关系例如:家庭收入决定消费支出,收入的变例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量化必然引起消费支出的变化,这两个变量中收入是中收入是自变量自变量,而消费支出则是,而消费支出则是因变量因变量。49函数关系函数关系指变量之间存在着确定性依存关指变量之间存在着确定性依存关系。即当一个或一组变量每取一系。即当一个或一组变量每取一个值时,相应的另一个变量必然个值时,相应的另一个变量必然有一个确定值与之对应有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式函数关系可以用一个确定的公式,即函数式 来表示。来表示。或:Y=F(X)50相关关系相关关系指变量之间存在着非确定性依存指变量之间存在着非确定性依存关系。即当一个或一组变量每取关系。即当一个或一组变量每取一个值时,相应的另一个变量可一个值时,相应的另一个变量可能有多个不同值与之对应能有多个不同值与之对应。例例2、根据消费理论,商品需求量、根据消费理论,商品需求量Q与商品与商品价格价格P、居民收入居民收入I之间具有相关关系:之间具有相关关系:相关关系可用统计模型:相关关系可用统计模型:或:Y=F(X)+式中,为影响式中,为影响Y的除的除X外的其他随机因素。外的其他随机因素。51直线相关直线相关 当自变量当自变量X值每变动一个单位,值每变动一个单位,因变量因变量Y值则随着发生大致均等值则随着发生大致均等的变动,这就是直线相关。亦称的变动,这就是直线相关。亦称为简单相关或一元线性相关。为简单相关或一元线性相关。曲线相关曲线相关 当自变量当自变量X值每变动一个单位,值每变动一个单位,因变量因变量Y值则随之发生不均等的值则随之发生不均等的变化,这就曲线相关。亦称为一变化,这就曲线相关。亦称为一元非线性相关元非线性相关。相关关系的种类:相关关系的种类:1 1、按相关关系形式可分为:、按相关关系形式可分为:52正相关正相关 当自变量当自变量X值增加(或减少)时,值增加(或减少)时,因变量因变量Y值也随之增加(或减少)值也随之增加(或减少),这样的相关关系就是,这样的相关关系就是正相关正相关,也叫也叫同向相关同向相关。负相关负相关 当自变量当自变量X的值增加的值增加(或减少)(或减少)时,因变量时,因变量Y的值随之而减少的值随之而减少(或增加),这样的相关关系就(或增加),这样的相关关系就是是负相关负相关,也叫,也叫异向相关异向相关。相关关系的种类:相关关系的种类:2 2、按相关的方向可分为:、按相关的方向可分为:53线性正相关线性正相关54线性负相关线性负相关非线性相关非线性相关55无(不)相关无(不)相关56相关关系的种类:相关关系的种类:3 3、按相关关系的密切程度分为:、按相关关系的密切程度分为:完全相关完全相关完全相关完全相关 因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着因变量完全随自变量变动而变动,存在着严严严严格的依存关系格的依存关系格的依存关系格的依存关系。即变量间的关系为。即变量间的关系为。即变量间的关系为。即变量间的关系为函数关系函数关系函数关系函数关系。不完全相关不完全相关不完全相关不完全相关 变量之间存在着变量之间存在着变量之间存在着变量之间存在着不严格的依存关系不严格的依存关系不严格的依存关系不严格的依存关系,即因变,即因变,即因变,即因变量的变动除了受自变量变动的影响外,还受量的变动除了受自变量变动的影响外,还受量的变动除了受自变量变动的影响外,还受量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的其他因素的影响。它是相关关系的其他因素的影响。它是相关关系的其他因素的影响。它是相关关系的主要表现主要表现主要表现主要表现形式。形式。形式。形式。完全不相关完全不相关完全不相关完全不相关 自变量与因变量彼此自变量与因变量彼此自变量与因变量彼此自变量与因变量彼此独立独立独立独立,互不影响,其数,互不影响,其数,互不影响,其数,互不影响,其数量变化量变化量变化量变化毫无联系毫无联系毫无联系毫无联系。57相关系数相关系数 例子:调查例子:调查10 10名工人的工龄与工资情况如下表:名工人的工龄与工资情况如下表:这这1010名工人的工龄与工资是否相关名工人的工龄与工资是否相关?可通过定量计算说明,称为相关系数。?可通过定量计算说明,称为相关系数。计算公式为:计算公式为:58即相关系数即相关系数r r是表明两个定距或定比变量间关系程度是表明两个定距或定比变量间关系程度的量数,其取值范围在的量数,其取值范围在-1-1到到+1+1之间。之间。当当 r r为负值时,说明变量为负值时,说明变量 X X与变量与变量Y Y的变化方向相反。的变化方向相反。即当即当X X增大时,增大时,Y Y减少;减少;X X减少时,减少时,Y Y增大。增大。当当 r r为正值时,说明两变量的变化方向相同。为正值时,说明两变量的变化方向相同。|r|=1|r|=1时,称时,称 X X与与 Y Y完全相关;完全相关;r=0r=0时,则称二者时,则称二者完全不相关。完全不相关。越接近越接近|r|=1|r|=1,说明关系强度越大,越接近说明关系强度越大,越接近0 0,则说,则说明关系强度越小。明关系强度越小。上一例子中,上一例子中,r=0.986r=0.986,有较强的正相关关系。有较强的正相关关系。59二、交互分类二、交互分类1交互分类的定义与作用所谓交互分类,就是将一组数据按照两个不将一组数据按照两个不同变量的类型进行综合的分类同变量的类型进行综合的分类。交互分类的结果通常以交互分类表交互分类表的形式反映出来。小学以下初中高中中专以上老年 中年 青年 68 45 20 20 32 44 11 18 26 1 5 10 133 96 55 16合计100 100 100 30060 上表是对总数为300人的调查对象按照年龄和文化程度两个变量的标准进行交互分类的结果。每一个被调查者按这两种标准被划分到某一个格内。即格内数字就是分类的结果。作作用用通过对各种不同类型格内的频数或相对通过对各种不同类型格内的频数或相对额数(即百分比)的分析,来研究和探额数(即百分比)的分析,来研究和探讨变量之间是否存在关系。讨变量之间是否存在关系。结论即被调查者的文化程度与他们的年龄有即被调查者的文化程度与他们的年龄有关,并呈现出年龄越低,总体文化程度关,并呈现出年龄越低,总体文化程度越高的状况。越高的状况。61调查人数 赞成(%)反对(%)不表态(%)男100085105女100058015不同性别的人们对某政策的态度统计表不同性别的人们对某政策的态度统计表调查人数赞成(%)反对(%)不表态(%)2000454510人们对某政策的态度统计表人们对某政策的态度统计表62交互分类方法的适用对象主要是交互分类方法的适用对象主要是定类定类与与定序定序层次的变量,而在社会调查研究中的绝层次的变量,而在社会调查研究中的绝大部分变量正好又是这两个层次的。因此,大部分变量正好又是这两个层次的。因此,交互分类的方法对于大量社会调查资料的相交互分类的方法对于大量社会调查资料的相关分析有着十分重要的作用,我们应该熟悉关分析有着十分重要的作用,我们应该熟悉这种方法。这种方法。632、2检验通过实例讨论何为2检验。表中显示,年龄与对待老年人再婚问题的态度存在关系,随着年龄的下降,较多的人反对老年再婚。64f0为交互分类表中每一格的观察频数;为交互分类表中每一格的观察频数;fe为交互分类表中为交互分类表中f0所对应的期望频数。所对应的期望频数。具体的计算方法是用每一个具体的计算方法是用每一个f0所在的行总数乘以所所在的行总数乘以所在的列总数,再除以全部总体数在的列总数,再除以全部总体数。6566 2检验的具体步骤(以上表为例):建立两变量间无关系的假设,即设年龄及对某事件的态度两变量相互独立,互不相关。计算出2值。根据自由度 df=(r一1)(c1)和给出的显著性水平,即 P值,查2分布表,得到一临界值。(自由度计算公式中的r和c分别为交互分类表的行数和列数,因此,本例的自由度为:df(21)(31)=2;显著性水平通常为P=0.05;2分布表可查得临界值为5.991)比较2值与临界值判断:a)若2值临界值,拒绝两变量无关系的假设。b)若2值临界值,接受两变量无关系的假设。67样本容量增大,样本容量增大,X2测验使原来不显著的变为显著,确定变量间测验使原来不显著的变为显著,确定变量间是否显著意义不大,而应该考虑变量之间存在关系,其强度有是否显著意义不大,而应该考虑变量之间存在关系,其强度有多大,及计算两个变量之间的相关系数。多大,及计算两个变量之间的相关系数。683 3、关系强度的测量、关系强度的测量 以上讨论的是两个变量间是否存在关系的问题。以上讨论的是两个变量间是否存在关系的问题。当当22检验表明,两变量间存在关系时,是否就意检验表明,两变量间存在关系时,是否就意味着这种关系是一种强关系,或重要关系呢?这味着这种关系是一种强关系,或重要关系呢?这不一定,因为变量关系的强弱和变量间是否存在不一定,因为变量关系的强弱和变量间是否存在关系是两个完全不同的问题。关系是两个完全不同的问题。关系强度的测量方法(参见教材)关系强度的测量方法(参见教材)69707172737475767778三、其他层次变量的相关测量与检验三、其他层次变量的相关测量与检验 798081三、其他层次变量的相关测量与检验三、其他层次变量的相关测量与检验 82838485三、其他层次变量的相关测量与检验三、其他层次变量的相关测量与检验 86三、其他层次变量的相关测量与检验三、其他层次变量的相关测量与检验 87888990回归:退回回归:退回regression1877年年 弗朗西斯弗朗西斯高尔顿爵士高尔顿爵士 遗传遗传学研究学研究 回归线回归线平均身高平均身高四、回归分析四、回归分析91 相关分析的目的在于了解两个变量之间的关系强度,即用相关系数r来描述X和Y两个变量之间的共变特征。它并不指出X和Y哪个是原因,哪个是结果回归分析则是对有相关关系的现象,根据其关系的回归分析则是对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以使依据回归方程对似地表达变量间的平均变化关系,以使依据回归方程对未知的情况进行估计。未知的情况进行估计。即回归分析增加了因果性回归分析增加了因果性,并具有了预测的功能,因此,它比相关分析作用更大。92回归分析的中心问题是建立回归方程,一元线性回归分析的中心问题是建立回归方程,一元线性回归方程的建立使用最小二乘法。回归方程的建立使用最小二乘法。首先,依据理论分析或根据研究的需要确定两首先,依据理论分析或根据研究的需要确定两变量中何为自变量,何为因变量。在本例中,我们变量中何为自变量,何为因变量。在本例中,我们确定工龄为自变量(确定工龄为自变量(X X),工资为因变量(),工资为因变量(Y Y)。)。其次,以自变量为其次,以自变量为X X轴,因变量为轴,因变量为Y Y轴作出表中轴作出表中资料的散点图,以判明是否为线性相关。资料的散点图,以判明是否为线性相关。给一组数据(给一组数据(X X,Y Y),称为样本数据。),称为样本数据。计算公式:设计算公式:设y=y=a+bxa+bx93第四节 推论统计推论统计就是利用样本的统计值对总体的参数值进行估计的方法。推论统计的内容主要包括两个方面:一是区间估计区间估计,一是假设检验假设检验。94一、区间估计一、区间估计区间估计的实质就是在一定的可信度(置信度)区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来下,用样本统计值的某个范围(置信区间)来“框框”住总体的参数值。住总体的参数值。给出一个数值来说明这个给出一个数值来说明这个“区间区间”框住参数框住参数值有多大的可靠程度,称为值有多大的可靠程度,称为“置信度置信度”(可信度)。(可信度)。95区间估计的结果通常可以采取下述方式来表述:“我们有95的把握认为:全市职工的月平均工资收入在182元至218元之间。”或者“全省人口中,女性占50%至 52%的可能性为99%”。下列表述是不妥的。“全市职工的月平均工资收入在200元”(假如抽样100人计算出的平均月工资为200元的话)。96置信度表明(即可信度,把握性,可靠性)推断成功的可能性有多大(用百分数表示1-a,a是允许的误差);总体的平均数变成了区间(范围),表示若重复抽样,能有多少次落入这个“置信区间”。97置信区间:总体参数值落入的范围,根据样本统计量算出。1、总体均值的区间估计。公式:区间的大小体现精确性,置信度是可靠程度。区间的大小体现精确性,置信度是可靠程度。二者相互制约,提高精确度,则降低可靠性。二者相互制约,提高精确度,则降低可靠性。x x是样本均值,是样本均值,s s是标准差,是标准差,Z Z(1-a1-a)是置)是置信度为信度为1-a1-a的的Z Z值,值,n n是样本规模。是样本规模。982 2、总体百公比的区间估、总体百公比的区间估计计公式:公式:这里,这里,P P为样本中的百分比,其他同上。为样本中的百分比,其他同上。99二、假设检验二、假设检验假设检验是推论统计的又一基本内假设检验是推论统计的又一基本内容,它是先对总体的某一参数作出假设,容,它是先对总体的某一参数作出假设,然后用样本的统计量去进行验证。然后用样本的统计量去进行验证。以下通过一个例子说明假设检验的基本思路。某单位职工上月平均收入为210元,这个月的情况与上月没有什么变化,我们设想平均收入还是210元。为了验证这一假设是否可靠,我们抽取了100人作调查,结果得出月平均收入为220元,标准差为15元。显然样本的结果与总体结果之间出现了误差。这个误差是由于我们假设错误引起的呢?还是由于抽样误差引起的呢?如果是抽样误差引起的,那么我们就应该承认原来的假设;而如果是假设错误所引起的,显然我们就应该否定原假设。100 研究时可将原假设作为虚无假设,用研究时可将原假设作为虚无假设,用H0H0表示,而表示,而将与之完全对立的假设作为研究假设,用将与之完全对立的假设作为研究假设,用H1H1表示;然表示;然后用样本的数据计算统计量,并与临界值比较,当临后用样本的数据计算统计量,并与临界值比较,当临界值大于统计值时,则接受虚无假设,否定研究假设;界值大于统计值时,则接受虚无假设,否定研究假设;当临界值小于、等于统计值时,则拒绝虚无假设,接当临界值小于、等于统计值时,则拒绝虚无假设,接受研究假设。受研究假设。101具体步骤是:具体步骤是:1 1、建立虚无假设和研究假设,通常是将原假设作为虚无假设;、建立虚无假设和研究假设,通常是将原假设作为虚无假设;2 2、根据需要选择适当的显著性水平、根据需要选择适当的显著性水平a a(即小概率的大小),通常(即小概率的大小),通常a=0.05,