《社会统计学幻灯片.ppt》由会员分享,可在线阅读,更多相关《社会统计学幻灯片.ppt(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、社会统计学第1页,共23页,编辑于2022年,星期一二、社会统计学的内容 社会统计学是运用数量的方法对社会调查资料进行统计描述和统计推论的一门学科。统计描述:是指对统计资料进行的整理、分类、简化或特征研究。统计推论:包含参数估计、假设检验、回归分析、等级相关分析、非参数检验、列联及方差等等。第2页,共23页,编辑于2022年,星期一 三、社会调查资料的特点 1、随机性 2、规律性 四、变量的层次 1、定类变量 2、定序变量 3、定距变量 4、定比变量第3页,共23页,编辑于2022年,星期一第二章:单变量统计描述一、分布一、分布 第一节第一节 分布、统计表、统计图分布、统计表、统计图 指的是一
2、个概念或变量,它的各个情况出现的次数或频指的是一个概念或变量,它的各个情况出现的次数或频次,故也称频次分布。次,故也称频次分布。一般表示形式为:一般表示形式为:n表示概率时,此时称作概率分布。表示概率时,此时称作概率分布。n表示百分比时,此表示百分比时,此时称作百分比分布,又称频率或相对频次分布。时称作百分比分布,又称频率或相对频次分布。变量取值要注意的问题:完备、互斥。变量取值要注意的问题:完备、互斥。第4页,共23页,编辑于2022年,星期一二、统计表二、统计表 就是用表格的形式来表示变量的分布。就是用表格的形式来表示变量的分布。一般表示形式:一般表示形式:a、表头,包含表号、标题、时间、
3、地点。表头,包含表号、标题、时间、地点。b、标识行,包含变量名和变量对应数的说明。标识行,包含变量名和变量对应数的说明。c、主体行,包含主词、宾词主体行,包含主词、宾词。d、表尾,资料来源及一些说明表尾,资料来源及一些说明。1 1、定类变量、定类变量 2 2、定序变量、定序变量第5页,共23页,编辑于2022年,星期一 3 3、定距变量、定距变量连续型定距变量:无法一一列举,分成若干区间。连续型定距变量:无法一一列举,分成若干区间。约定,上组限不在本组内。约定,上组限不在本组内。分组是衔接的,如:分组是衔接的,如:0 0 100100,100 100 200200等等。离散型定距变量:变量取值
4、较少时,同定序变量做法。离散型定距变量:变量取值较少时,同定序变量做法。变量取值较多时,用组距式统计表。变量取值较多时,用组距式统计表。第6页,共23页,编辑于2022年,星期一组距式统计表组距式统计表1)1)、原始数据精度、原始数据精度2)2)、上组界、下组界、上组界、下组界3)3)、闭口组、开口组、闭口组、开口组4)4)、标明组界:、标明组界:根据原始数据精度给出的组界,为离散的。根据原始数据精度给出的组界,为离散的。如:如:1 3,4 6 等。等。6)6)、真实组界、真实组界:(为连续的):(为连续的)真实上真实上(下下)组界组界=标明上标明上(下下)组界组界+(-)+(-)原始数据精度
5、原始数据精度/2/27)7)、全距、全距R R:全距等于原始数据中最大值与最小值的差。全距等于原始数据中最大值与最小值的差。5)5)、分组精度、分组精度:(比原始数据精度高一位):(比原始数据精度高一位)8)8)、组数、组数K K:一般运用斯托奇斯公式作为参考。:一般运用斯托奇斯公式作为参考。9)9)、组距、组距h h:一般取大于:一般取大于R/KR/K的最小原始数据精度数。的最小原始数据精度数。为真实上组界与真实下组界的差。为真实上组界与真实下组界的差。第7页,共23页,编辑于2022年,星期一10)10)、中心值、中心值 有上下组界的分组有上下组界的分组:缺下组界的分组缺下组界的分组:缺上
6、组界的分组缺上组界的分组:第8页,共23页,编辑于2022年,星期一 例例1 1、100100名同龄儿童身高如下(米),试做统计表。名同龄儿童身高如下(米),试做统计表。1.431.431.331.391.371.441.381.421.411.401.391.361.421.441.421.301.411.331.431.371.401.441.271.371.331.361.401.461.391.361.381.381.441.561.421.461.381.311.491.491.431.351.411.391.401.361.431.421.321.381.391.411.481.4
7、41.411.341.381.511.361.401.411.361.331.371.451.391.441.421.341.431.381.451.401.441.321.441.401.461.461.371.481.361.471.421.471.381.431.421.391.411.391.451.411.371.491.471.371.501.431.40若数据奇异,一般采用非等距分组,视具体情形而定。若数据奇异,一般采用非等距分组,视具体情形而定。第9页,共23页,编辑于2022年,星期一 作业作业、4040名工人日产量如下(件),试做统计表。名工人日产量如下(件),试做统计表。
8、62689580927879838566738196847360648682767975847166778170749185788886788489698768第10页,共23页,编辑于2022年,星期一 三、统计图三、统计图用图形来表示变量或概念的分布,又称分布图。用图形来表示变量或概念的分布,又称分布图。1 1、圆瓣图、圆瓣图 设变量有设变量有k k个取值,将一个圆分成个取值,将一个圆分成k k个圆瓣,每个圆瓣代表一个圆瓣,每个圆瓣代表一种情况,每个圆瓣的圆心角度数为该变量值出现的频率乘以种情况,每个圆瓣的圆心角度数为该变量值出现的频率乘以360360。在每个圆瓣上注明变量值以及对应的频次
9、或频率,图形的下方在每个圆瓣上注明变量值以及对应的频次或频率,图形的下方标明图号和标题。标明图号和标题。例例2 2、随机调查、随机调查600600人,其职业分布如下,试作统计图。人,其职业分布如下,试作统计图。(农业,(农业,300300););(商业,(商业,100100););(工业,(工业,100100););(其他,(其他,100100)。)。适用变量:定类变量。适用变量:定类变量。第11页,共23页,编辑于2022年,星期一2 2、条形图、条形图 条形图是用长条的高度来表示变量的频次或频率,宽度无条形图是用长条的高度来表示变量的频次或频率,宽度无意义,一般为等宽长条。纵轴为频次或频率
10、,横轴一般不标明。意义,一般为等宽长条。纵轴为频次或频率,横轴一般不标明。例例3 3、某班、某班6060人数学成绩如下,试作条形图。人数学成绩如下,试作条形图。(优秀,(优秀,1010););(良好,(良好,2020););(中等,(中等,1010););(及格,(及格,1010);(不及格,);(不及格,1010)定类变量:长条一般画成离散的。定类变量:长条一般画成离散的。定序变量:长条的排列保持变量取值的次序,定序变量:长条的排列保持变量取值的次序,长条可以画成相连的,也可以画成离散的。长条可以画成相连的,也可以画成离散的。适用变量:定类变量,定序变量,定距变量(离散型取值较少)。适用变量
11、:定类变量,定序变量,定距变量(离散型取值较少)。第12页,共23页,编辑于2022年,星期一3 3、直方图、直方图 直方图与条形图类似,只是长条的宽度有意义,宽度为直方图与条形图类似,只是长条的宽度有意义,宽度为该组的组距,长条的面积为该组的频次或频率,长条的高度该组的组距,长条的面积为该组的频次或频率,长条的高度称为频次密度或频率密度。可计算出来。称为频次密度或频率密度。可计算出来。例如,结婚年龄分组统计中如下两组数据:例如,结婚年龄分组统计中如下两组数据:(26-2726-27,3030),),(40-5040-50,3535),),.适用变量:定距变量(连续型以及离散型的组距式统计表)
12、。适用变量:定距变量(连续型以及离散型的组距式统计表)。注注、1 1)非等距分组一般不用条形图,只用直方图。)非等距分组一般不用条形图,只用直方图。2 2)图形是连续的,横轴上一般是真实组界。)图形是连续的,横轴上一般是真实组界。有缺口组的组距式统计表一般不作直方图。有缺口组的组距式统计表一般不作直方图。例例3 3、做例、做例1 1的直方图。的直方图。第13页,共23页,编辑于2022年,星期一4 4、折线图、折线图 将直方图各长条顶部的中点用直线连接起来,把原来的长条将直方图各长条顶部的中点用直线连接起来,把原来的长条抹掉,两边端点一般放在水平轴上,分别延伸邻组组距的一半。抹掉,两边端点一般
13、放在水平轴上,分别延伸邻组组距的一半。由此形成的图形称为折线图,也称频数(频次或频率)多边形图。由此形成的图形称为折线图,也称频数(频次或频率)多边形图。适用变量:定距变量(连续型以及离散型的组距式统计表)。适用变量:定距变量(连续型以及离散型的组距式统计表)。例例4 4、做例、做例1 1的折线图。的折线图。注注、等距的频率折线图面积为、等距的频率折线图面积为1 1,但非等距的不一定是,但非等距的不一定是1 1。第14页,共23页,编辑于2022年,星期一5 5、曲线图、曲线图 当直方图的组距逐渐变小时,折线图将逐渐平滑为曲线。此当直方图的组距逐渐变小时,折线图将逐渐平滑为曲线。此时的图形称为
14、曲线图。时的图形称为曲线图。常见的曲线图:常见的曲线图:1 1)钟形曲线。)钟形曲线。“中间大,两头小中间大,两头小”。对称的曲线,称为正态分布。对称的曲线,称为正态分布。非对称的曲线,左偏分布和右偏分布。非对称的曲线,左偏分布和右偏分布。如:某年龄段的身高分布,家庭的子女数。如:某年龄段的身高分布,家庭的子女数。2 2)U U形曲线。形曲线。“中间小,两头大中间小,两头大”。人口死亡率与年龄。人口死亡率与年龄。3 3)J J形曲线与反形曲线与反J J形曲线。形曲线。婚姻次数与人数。文化程度与收入。婚姻次数与人数。文化程度与收入。4 4)LogisticLogistic曲线。人口数与时间。体现
15、生态平衡某种规律。曲线。人口数与时间。体现生态平衡某种规律。第15页,共23页,编辑于2022年,星期一6 6、累计频数分布图(直方图、折线图、曲线)、累计频数分布图(直方图、折线图、曲线)用用cfcf表示向下累计,从变量值高表示向下累计,从变量值高(大大)的向低的向低(小小)的累计。的累计。用用cfcf表示向上累计,从变量值低表示向上累计,从变量值低(小小)的向高的向高(大大)的累计。的累计。适用变量:定序变量及其以上。适用变量:定序变量及其以上。注注、折线图只有一端延伸。、折线图只有一端延伸。表2 某村家庭子女数频次分布家庭子女数频次cfcf02132332另另、类似的有类似的有c%,c%
16、。第16页,共23页,编辑于2022年,星期一7 7、洛仑兹曲线与基尼系数、洛仑兹曲线与基尼系数 洛仑兹曲线是一种用来反映社会收入分配平均程度的累积百分比曲线。洛仑兹曲线是一种用来反映社会收入分配平均程度的累积百分比曲线。横轴为人口的累积百分比,纵轴为收入的累积百分比。(向上累计)横轴为人口的累积百分比,纵轴为收入的累积百分比。(向上累计)第17页,共23页,编辑于2022年,星期一累计收入百分比I累积人口百分比PI1P1I2P2IiPi11900,600,1200,3000,1000,1000,600,1500,1200,900900,600,1200,3000,1000,1000,600,
17、1500,1200,900。随机调查某村随机调查某村1010人月收入情况如下,分析收入平均程度。人月收入情况如下,分析收入平均程度。基尼系数:基尼系数:例例5 5、P44P44。第18页,共23页,编辑于2022年,星期一一、算术平均值一、算术平均值观察值的总和除以总的观察次数。记作:观察值的总和除以总的观察次数。记作:1 1、未分组情形、未分组情形 例例1 1、某班组有、某班组有5 5名工人,月工资额分别为名工人,月工资额分别为8080元,元,8888元,元,100100元,元,104104元,元,110110元,求元,求5 5名工人名工人的月平均工资。的月平均工资。第二节第二节 集中趋势测
18、量法集中趋势测量法 用某一典型的变量值或特征值来代表整体情况,此值用某一典型的变量值或特征值来代表整体情况,此值称为集中值或集中趋势。称为集中值或集中趋势。第19页,共23页,编辑于2022年,星期一 例例2 2、某车间工人平均日产零件数如下表,计算该车间、某车间工人平均日产零件数如下表,计算该车间工人平均日产零件数。工人平均日产零件数。日产零件(个)日产零件(个)工人数工人数101011151222133814281572 2、分组情形、分组情形a a、简单频数表(单项数列)、简单频数表(单项数列)其中,其中,第20页,共23页,编辑于2022年,星期一b b、组距分组情形(组距数列)、组距
19、分组情形(组距数列)例例3 3、某机电局企业计划完成情况如下表,计算该局平、某机电局企业计划完成情况如下表,计算该局平均完成情况。均完成情况。计划完成(计划完成(%)企业数企业数90-1004100-1106110-1202第21页,共23页,编辑于2022年,星期一3 3、算术平均值的性质、算术平均值的性质1)1)、各变量值与算术平均值的离差和为、各变量值与算术平均值的离差和为0 0。2)2)、各变量值与算术平均值的离差平方和最小。、各变量值与算术平均值的离差平方和最小。3)3)、算术平均值受抽样变动影响较小,通常是反映总体分、算术平均值受抽样变动影响较小,通常是反映总体分布集中趋势最佳的指标。布集中趋势最佳的指标。4)4)、算术平均值受极端值影响较大,此时,不宜使用。、算术平均值受极端值影响较大,此时,不宜使用。第22页,共23页,编辑于2022年,星期一 作业:作业:4040名工人日产量如下(件),试做统计表,直方图,名工人日产量如下(件),试做统计表,直方图,向上累计折线图,计算未分组和分组情况下的算术平均值。向上累计折线图,计算未分组和分组情况下的算术平均值。62689580927879838566738196847360648385728075837166778170749183788886748389748768第23页,共23页,编辑于2022年,星期一
限制150内