列联分析与方差分析.pptx
《列联分析与方差分析.pptx》由会员分享,可在线阅读,更多相关《列联分析与方差分析.pptx(115页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第6讲讲 列列联联分析与方差分析分析与方差分析数据、模型与决策数据、模型与决策一、列一、列联联分析分析数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析你感你感觉觉幸福幸福吗吗?数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析你感你感觉觉幸福幸福吗吗?数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策现实现实中的相关性分析中的相关性分析换换言之:言
2、之:上上海海青青年年的的幸幸福福感感与与职职 业业、性性别别、年年龄龄、是是否否 独独生生子子女女等等因因素素显显著著相相 关关。分析分析变变量量之之间间的的相相关性,关性,可采用可采用统计统计学学中中相相关性关性 分析方法分析方法。定量定量变变量量之之间间的相关性分析:的相关性分析:用用相关系数、回相关系数、回归归分析分析等方法等方法相关性分析方法相关性分析方法定性定性变变量量之之间间的相关性分析:的相关性分析:用用列列联联表表检检验验、相、相应应分析分析等方法等方法定性与定量定性与定量变变量量之之间间的相关性的相关性分分析:析:用用方差分析、多重比方差分析、多重比较较等方法等方法数据、模型
3、与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策类别类别 序号序号对对政策政策 的的观观点点收入程度收入程度性性 别别频频数数1反反对对低收入低收入男男52反反对对低收入低收入女女23反反对对中等收入中等收入男男84反反对对中等收入中等收入女女75反反对对高收入高收入男男106反反对对高收入高收入女女97赞赞成成低
4、收入低收入男男208赞赞成成低收入低收入女女259赞赞成成中等收入中等收入男男1010赞赞成成中等收入中等收入女女1511赞赞成成高收入高收入男男512赞赞成成高收入高收入女女7性性别别观观点点收入程度收入程度总计总计低低 收入收入中等中等 收入收入高高 收入收入男男反反对对581023赞赞成成2010535女女反反对对27918赞赞成成2515747总计总计524031123此表此表记录记录了了123个个人人对对某某项项政策的政策的 观观点,并根据他点,并根据他们们的收入程度和的收入程度和 性性别进别进行了分行了分类类,共,共12类类。这样这样的的列列联联表表更直更直观观,而且行,而且行 和
5、列都有很明确的意和列都有很明确的意义义(一)、什么是列(一)、什么是列联联表表数据、模型与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验检验(一一)、什么是列、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例:美国司法中是否存在种美国司法中是否存在种族族歧歧视视下表是下表是1976年至年至1977年年美国美国佛佛罗罗里里达州达州29个地个地区区凶凶杀杀案件案件中中凶凶 手的肤色和是否被
6、判死刑的手的肤色和是否被判死刑的326个犯人的情况个犯人的情况。凶手凶手死刑判决死刑判决死刑判决的比例死刑判决的比例是是否否白人白人191410.119黑人黑人171490.102(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策如何如何进进行列行列联联表表检检验验?设设置假置假设检验问题设检验问题:原假原假设设:凶手肤色与是否被判凶手肤色与是否被判死死刑独立刑独立备择备择假假设设:凶手肤色与是否被凶手肤色与是否被判判死刑死刑不不独独立立(相(相关关)(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策将数据做成列将数据做成列联联表:表
7、:凶手凶手死刑判决死刑判决总计总计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列(二)、列联联表表检验检验的原理的原理数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策计计算算检验检验的的P值值:当原假当原假设为设为真真时时,出,出现现像此次像此次样样本本这样这样极端甚至更极端的概率极端甚至更极端的概率凶手凶手死刑判决死刑判决总计总计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列(二)、列联联表表检验检验的原理的原理当原假当原假设为设为真,即凶手肤色与真,即凶手肤色与 是否被判死刑是否被判死刑
8、独立独立时时,凶手凶手为为白人且被判死刑的人数白人且被判死刑的人数 应该应该有多少人?有多少人?326326160 36 326 17.67实际频实际频数数期望期望频频数数数据、模型与决策数据、模型与决策凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人17149166总计总计36290326(二)、列二)、列联联表表检验检验的原理的原理实际观测值实际观测值原假原假设为设为真真时时的期望的期望值值凶手凶手死刑判决死刑判决总计总计是是否否白人白人17.7142.3160黑人黑人18.3147.7166小小计计36290326据、模型与决策据、模型与决策数数(二)、列二)、列
9、联联表表检验检验的原理的原理实际观测值实际观测值原假原假设为设为真真时时的期望的期望值值凶手凶手死刑判决死刑判决小小计计是是否否白人白人17.7142.3160黑人黑人18.3147.7166小小计计3629032617.7147.7 2 (19 17.7)2(149 147.7)2 0.22度量度量样样本与原假本与原假设设情况的差异情况的差异实实 频频凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人际际17149166期望期望频频数数小小计计36290数数326期望期望频频数数(二)、列(二)、列联联表表检验检验的原理的原理P值 P(2 0.22)0.6379检验检验
10、的的P值值:当原假当原假设为设为真真时时,出,出现现像此次像此次样样本本这样这样 极端甚至更极端的概率极端甚至更极端的概率数据、模型与决策数据、模型与决策(二)、列(二)、列联联表表检验检验的原理的原理作出判断作出判断若取若取显显著性水平著性水平为为0.05,检验检验的的结结论论是?是?由于由于P值值大于大于0.05,故不,故不应应拒拒绝绝原假原假设设,即,即认为认为凶手肤凶手肤 色与是否被判死刑独立,也即色与是否被判死刑独立,也即说说不存在种族歧不存在种族歧视视。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策(二)、列(二)、列联联表表检
11、验检验的原理的原理将数据做成列将数据做成列联联表表计计算算检验检验的的P值值 作出判断作出判断若若P值值小于等于小于等于显显著性水平著性水平,应应拒拒绝绝原假原假设设,认为认为两个两个变变量量不独立不独立;若;若P值值大于大于显显著性水平著性水平,不能拒,不能拒绝绝原假原假设设,认认 为为两个两个变变量量独立独立。列列联联表表检验检验的步的步骤骤:设设置假置假设检验问题设检验问题原假原假设设:两个:两个变变量独立量独立备择备择假假设设:两个:两个变变量不独立量不独立数据、模型与决策数据、模型与决策定性数据的相关性分析:定性数据的相关性分析:列列联联表表(contingency table)检验
12、检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策(三)、列(三)、列联联表表检验检验的的应应用用1、列列联联表使用的前提条件:表使用的前提条件:当当每每一格子中的一格子中的频频数大于等数大于等于于5时时,检检验结验结果果才才比比 较较可靠可靠!若某些格子中的若某些格子中的频频数小数小于于5如何如何解解决?决?1、增加、增加样样本量本量2、合并某些行或列、合并某些行或列3、采用其他方法(、采用其他方法(Fisher精确精确检检验验)数
13、据、模型与决策数据、模型与决策2、列、列联联表表检验检验的适用范的适用范围围:检验检验两个两个变变量之量之间间的相的相关关性性(三)、列(三)、列联联表表检验检验的的应应用用若列若列联联表中含有两个以上的表中含有两个以上的变变量量怎么怎么办办?1、分、分层层2、压缩压缩数据、模型与决策数据、模型与决策性性别别观观点点收入程度收入程度低低 收入收入中等中等 收入收入高高 收入收入男男反反对对5810赞赞成成20105女女反反对对279赞赞成成251571、分、分层层男性男性层层:收入程度收入程度总计总计观观点点低低 收入收入中等中等 收入收入高高 收入收入反反对对581023赞赞成成201053
14、5总计总计25181558女性女性层层:收入程度收入程度总计总计观观点点低低 收入收入中等中等 收入收入高高 收入收入反反对对27918赞赞成成2515747总计总计27数据、模型数据、模型22与决与决16策策65(三)、列(三)、列联联表表检验检验的的应应用用性性别别观观点点收入程度收入程度低低 收入收入中等中等 收入收入高高 收入收入男男反反对对5810赞赞成成20105女女反反对对279赞赞成成251572、压缩压缩观观点点收入程度收入程度总计总计低低 收入收入中等中等 收入收入高高 收入收入反反对对7151941赞赞成成45251282总计总计524031123将男性和女性合在一起将男
15、性和女性合在一起(三)、列(三)、列联联表表检验检验的的应应用用数据、模型与决策数据、模型与决策定性数据的相关性分定性数据的相关性分析析:列列联联表表(contingency table)检验检验(一)、什么是列(一)、什么是列联联表?表?(二)、列(二)、列联联表表检验检验的原理的原理(三)、列(三)、列联联表表检验检验的的应应用用(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策相关性中的陷阱:相关性中的陷阱:1、神秘的第三、神秘的第三变变量量辛普森悖辛普森悖论论2、相关性与因果关系、相关性与因果关系(四)、四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例1
16、:美国司法中是否存在种族歧美国司法中是否存在种族歧视视(四)、(四)、结结果的解果的解读读凶手凶手死刑判决死刑判决小小计计是是否否白人白人19141160黑人黑人17149166小小计计36290326由于由于P值值大于大于0.05,故不,故不应应拒拒 绝绝原假原假设设,即,即认为认为凶手肤色凶手肤色 与是否被判死刑独立,也即与是否被判死刑独立,也即 说说不存在种族歧不存在种族歧视视。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策真是真是这样吗这样吗?继续继续看下表:看下表:被被 害害 人人凶手凶手死刑判决死刑判决是是否否白人白人白人白人1
17、9132黑人黑人1152黑人黑人白人白人09黑人黑人697无论被害人是白人还是黑人,白 人凶手被判死刑的比例都比黑人 凶手被判死刑的比例低。这说明死刑判决与被害人的肤色 有关:被害人是白人时,不论凶 手是白人还是黑人,都判得严;而当被害人是黑人时,不论凶手 是白人还是黑人,都判得不严。法院判决有倾向性,这反映了种 族歧视。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策真是真是这样吗这样吗?继续继续看下表:看下表:(四)、(四)、结结果的解果的解读读被害被害 人人死刑判决死刑判决小小计计是是否否白人白人30184214黑人黑人6106112小小计计36290326 2 5.
18、61P值 0.0178由于由于P值值小于小于0.05,故故应应拒拒绝绝 原假原假设设,即,即认为认为被害人肤色与被害人肤色与 是否被判死刑是否被判死刑不独立不独立,也即,也即说说 法官会根据被害人肤色法官会根据被害人肤色进进行判行判 决,即存在种族歧决,即存在种族歧视视。数据、模型与决策数据、模型与决策(四)、(四)、结结果的解果的解读读由于由于白白人人杀杀死白死白人人的情况的情况 比比较较多多,所以当被害人肤色,所以当被害人肤色 被被隐隐去后,呈去后,呈现现白人凶手被白人凶手被 判判死死刑刑的的比比例例比比黑黑人凶人凶手高手高。令人令人费费解的解的这类现这类现象就是象就是著著 名的辛普森悖名
19、的辛普森悖论论。像像例例子子中中,由由于于有有“被被害害人人”的的混混淆淆产产生生了了偏偏差差的的情情况况,我我 们们称称之之为为有有偏偏比比较较,将将“被被害害人人的的肤肤色色”这这种种混混在在其其中中的的特特征征 称称为为混混杂杂因素因素。在在实际实际分析中,一定要注意全面分析,避分析中,一定要注意全面分析,避免免数数有有据据、偏偏模模比比型型较较与与!决策决策被被 害害 人人凶手凶手死刑判决死刑判决是是否否白人白人白人白人19132黑人黑人1152黑人黑人白人白人09黑人黑人697例例2:书书越薄越越薄越贵贵?页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以
20、下以下203010603504504010555450以上以上20101040总计总计805025155可以可以计计算出算出检验检验P值为值为0.0002,因此在,因此在显显著性水平著性水平0.05下下应应 拒拒绝绝原假原假设设,即,即认为页认为页数与价格数与价格显显著相关著相关。(四)、(四)、结结果的解果的解读读数据、模型与决策数据、模型与决策例例2:书书越薄越越薄越贵贵?计计算行百分比:算行百分比:页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以下以下33.33%50.00%16.67%100.00%35045072.73%18.18%9.09%100.00
21、%450以上以上50.00%25.00%25.00%100.00%(四)、(四)、结结果的解果的解读读从行百分比看,从行百分比看,书书越薄越越薄越贵贵。真相是真相是这样吗这样吗?我?我们们是否是否遗遗漏漏了了什么?什么?数据、模型与决策数据、模型与决策例例2:书书越薄越越薄越贵贵?页页数数价格(元)价格(元)总计总计30以下以下30-5050以上以上350以下以下33.33%50.00%16.67%100.00%35045072.73%18.18%9.09%100.00%450以上以上50.00%25.00%25.00%100.00%(四)、(四)、结结果的解果的解读读精装本精装本平装本平装本
22、平装本的平装本的书书籍(一般是小籍(一般是小说说)页页数数较较多,价格多,价格较较低;精装本的低;精装本的书书 籍(一般是科技籍(一般是科技专专著)著)页页数数较较少,价格少,价格较较高高。影响价影响价格格的的“第第三三只手只手”才才是主要是主要因因素,即素,即书书的内容的内容和和装装订订成本成本数据、模型与决策数据、模型与决策数据、模型与决策数据、模型与决策文化程文化程度度大学及大学及 以上以上中等中等初等及初等及 以下以下总计总计人数(人)人数(人)收入(元)收入(元)0150018638352591500200022754453262000250021978783752500300035
23、51121406073000以上以上6532852591197总计总计16405675572764例例3:文化程度与收入的关系文化程度与收入的关系在某地区在某地区调查调查了了2764人,人,记录记录其文化程度和收入:其文化程度和收入:检验检验的的P值值小于小于0.01。计计算列百分比:算列百分比:文化程度文化程度人数(人)人数(人)收入(元)收入(元)大学及大学及 以上以上中等中等初等及初等及 以下以下总计总计0150011.34%6.70%6.28%9.37%1500200013.84%9.52%8.08%11.79%2000250013.35%13.76%14.00%13.57%25003
24、00021.65%19.75%25.13%21.96%3000以上以上39.82%50.26%46.50%43.31%总计总计100.00%100.00%100.00%100.00%数据、模型与决策数据、模型与决策P值值SPSS软软件一步到位!件一步到位!数据、模型与决策数据、模型与决策相关性相关性强强弱弱 的度量的度量数据、模型与决策数据、模型与决策不独立之后不独立之后该该怎么怎么办办?定性数据的相关性分析:定性数据的相关性分析:相相应应分析分析(correspondence analysis)前面前面讲讲到,学到,学历历与收入是相关与收入是相关的的。怎。怎样样相相关关呢?呢?相相应应分析可
25、以提供一些分析可以提供一些线线索:索:数据、模型与决策数据、模型与决策相相应应分析分析结结果果数据、模型与决策数据、模型与决策定性数据的相关性分定性数据的相关性分析析:相相应应分析分析由由此此可可见见,相相应应分分析析将将两两个个变变量量的的各各种种取取值值经经过过一一定定 计计算算后后作作于于一一张张图图中中,由由各各取取值值间间的的距距离离来来探探索索取取值值 间间的的相关关系相关关系。距离越近,表。距离越近,表示示越相越相关关。软软件操作件操作-SPSS中:中:Analyze-Data Reduction-Correspondence Analysis数据、模型与决策数据、模型与决策请问
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分析 方差分析
限制150内