社会调查方法第九讲幻灯片.ppt
社会调查方法第九讲第1页,共44页,编辑于2022年,星期一单变量的统计分析描述统计推论统计第2页,共44页,编辑于2022年,星期一常用单变量描述统计频数/频率分布集中趋势分析离散趋势分析第3页,共44页,编辑于2022年,星期一频数分布频数分布(frequency distribution),指一组数据中取不同值的个案的次数分布情况频率分布(percentages distribution),一组数据中不同取值的频数对于总数的比率分布情况第4页,共44页,编辑于2022年,星期一利用变量的频数分布分析可以方便的对数据按组进行归类整理,形成各观测量的不同水平(分组)的频数分布情况表和图形,以便对数值的数量特征和内部结构状况有一个概括的认识。第5页,共44页,编辑于2022年,星期一SPSS次数分布表的实现简单次数分布表:Analyze-Descriptive StatisticsFrequencies选入所需变量选中display frequency tables复选项第6页,共44页,编辑于2022年,星期一次数/频次相对次数累积次数第7页,共44页,编辑于2022年,星期一集中趋势分析集中趋势(central tendency analysis)指用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。常用统计量:算术平均数(均值)中数众数第8页,共44页,编辑于2022年,星期一平均数(mean)使用最多总体各单位数值之和除以总体单位数目所得之商Xn 第9页,共44页,编辑于2022年,星期一某大学100名学生勤工助学收入的分布收入(元)学生数(人)100-19910200-29910300-39940400-49920500-59920合计100第10页,共44页,编辑于2022年,星期一算术平均数的特点在一组中每个变量与平均数之差的总和等于0在一组数据中,每一个数都加上一常数c,则所得平均数为原来的平均数加常数C在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C第11页,共44页,编辑于2022年,星期一平均数的优缺点优点:反应灵敏计算严密计算简单简明易解适合于于进一步用代数方法演算较少抽样变动的影响缺点:易受极端数据影响若出现模糊不清的数据时,无法计算平均数第12页,共44页,编辑于2022年,星期一众数(mode):一组数据中出现次数最多(即频数最高)的那个数值第13页,共44页,编辑于2022年,星期一某大学100名学生勤工助学收入的分布收入(元)学生数(人)100-19910200-29910300-39940400-49920500-59920合计100第14页,共44页,编辑于2022年,星期一中位数(median):把一组数据按值的大小顺序排列起来,处于中央位置的数值第15页,共44页,编辑于2022年,星期一某大学100名学生勤工助学收入的分布收入(元)学生数(人)100-19910200-29910300-39940400-49920500-59920合计100第16页,共44页,编辑于2022年,星期一比较平均值对数据总体的描述和反应,一般比中位数更加全面和准确平均数易受极端值变化的影响稳定性:同样方式多次抽样,平均值之间的差别,往往小于中位数的差别第17页,共44页,编辑于2022年,星期一注意只有连续变量(定距或定比变量)才可以计算中位数和均值第18页,共44页,编辑于2022年,星期一离散趋势分析离散趋势分析(dispersion tendency analysis):用一个特别的数值来反映一组数据相互之间的离散程度对集中量数(平均数、众数、中位数)的代表性作出补充说明从不同侧面描述和揭示一组数据的分布情况,反映资料的全面特征第19页,共44页,编辑于2022年,星期一举例:某校三个系各选五名同学参加智力竞赛,成绩如下A系:78,79,80,81,82B系:65,72,80,88,95C系:35,78,89,98,100第20页,共44页,编辑于2022年,星期一常用离散趋势分析统计量全距(range)方差标准差四分位差异众比率第21页,共44页,编辑于2022年,星期一全距(range),又称极差,是一组数据中最大值与最小值之差全距越大,离散程度较大,则集中量数的代表性越低仅仅依靠两个极端值,偶然性大第22页,共44页,编辑于2022年,星期一方差(variance)S2,2变异数、均方s sm m=-122NX()S=-122nXX()第23页,共44页,编辑于2022年,星期一标准差(Standard deviation),方差的平方根,s或SD,s sm mm m=-=-=11212NXNXiiN()()m m=-=-2222XNXNXN()S=-=-=11212nXXnXXiin()()=-=-2222XnXnXnX()第24页,共44页,编辑于2022年,星期一意义方差和标准差是最常用的差异量数表示离散程度的最好指标反应灵敏、计算公式严密确定、容易计算、适合代数运算、受抽样变动影响小第25页,共44页,编辑于2022年,星期一异众比率(variation ratio),一组数据中非众数的次数相对于总体全部单位的比率第26页,共44页,编辑于2022年,星期一某年级学生的年龄年龄(岁)人数(频数)17101825195020402120225合计150第27页,共44页,编辑于2022年,星期一四分位差(interquartile range),先将一组数据按大小排列成序,然后将其四等分,去掉序列中最高的1/4和最低的1/4后,中间的一半数值之间的全距年龄:17,18,18,19,19,20,20,21,21,22,22第28页,共44页,编辑于2022年,星期一第29页,共44页,编辑于2022年,星期一离散系数(coefficient of variation),也称变差系数,标准差与平均数的比值是一种相对的离散量数统计量可对同一总体的不同变量的离散程度进行比较(人均收入,住房情况)或对不同总体同一统计量进行比较(不同城市收入比较)第30页,共44页,编辑于2022年,星期一SPSS集中量数的实现集中量数的实现Analyze-Descriptive StatisticsFrequencies选入所需变量Statistics勾选第31页,共44页,编辑于2022年,星期一SPSS差异量数的实现差异量数的实现Analyze-Descriptive StatisticsFrequencies选入所需变量Statistics勾选第32页,共44页,编辑于2022年,星期一练习用数据文件分析不同性别的职业频次(employment category)计算不同性别的平均收入水平(current salary)分别计算不同性别收入的平均数、中数、标准差、全距(演示)第33页,共44页,编辑于2022年,星期一单变量推论统计区间估计假设检验第34页,共44页,编辑于2022年,星期一区间估计:在一定的可信度(置信水平下),用样本统计值的某个范围(置信区间)来“框”住总体的参数值假设检验:先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受第35页,共44页,编辑于2022年,星期一双变量分析相关关系因果关系第36页,共44页,编辑于2022年,星期一相关分析相关关系(correlation)指的是当其中一个变量发生变化时(或取值不同时),另一个变量也随之发生变化(取值也不同)E.g.收入水平-消费观念相关关系的方向:对于定序以上层次的变量来说,变量与变量之间的关系分为正关系与负关系E.g.文化程度-收入水平;经济水平-家庭平均子女数目相关关系的类型:直线相关,曲线相关散点图(仅适用于定距以上层次的变量)第37页,共44页,编辑于2022年,星期一相关分析相关关系的强度:变量之间相关程度的强弱或大小可用相关系数进行测量相关关系的推论要根据样本的资料推论两个变量在总体中是否相关,须进行相应检验注意这里关心的已不是样本的结果,而是总体的情形;并且,关心的也不是相关程度的大小,而只是是否相关第38页,共44页,编辑于2022年,星期一注意选择何种相关测量方法和何种检验方法,需要看两变量的测量层次第39页,共44页,编辑于2022年,星期一实例实例:双变量相关分析双变量相关分析第40页,共44页,编辑于2022年,星期一因果关系因果关系:两变量,当其中一个变量变化时(取不同的值时),会引起或导致另一个变量也随之发生变化(取值也不同);但反过来,当后一变量变化时,却不会引起前一变量的变化。相关关系-因果关系 的关系两变量相关,未必因果两变量因果,必定相关第41页,共44页,编辑于2022年,星期一因果关系的条件变量x与y之间存在不对称的相关关系变量x与y在发生顺序上有先后之别变量x与y的关系不是同源于第三个变量的影响第42页,共44页,编辑于2022年,星期一回归分析回归分析(regression analysis),对有相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测。探索因果性;具有预测功能对象:定距层次的变量SPSS 命令:分析-回归-曲线估计,选择合适模型第43页,共44页,编辑于2022年,星期一实例:回归分析第44页,共44页,编辑于2022年,星期一