属性(分类)数据分析.ppt
《属性(分类)数据分析.ppt》由会员分享,可在线阅读,更多相关《属性(分类)数据分析.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第九章 属性(分类)数据分析n9.1 属性数据及其分析属性数据及其分析n9.2 SAS中的属性数据分析中的属性数据分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n9.1 9.1 属性数据及其分析属性数据及其分析n9.1.1 属性数据分析与列联表属性数据分析与列联表n9.1.2 属性变量关联性分析属性变量关联性分析n9.1.3 属性变量关联度计算属性变量关联度计算n9.1.4 有序变量关联性分析有序变量关联性分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与
2、统计应用教程9.1.1 属性数据分析与列联表属性数据分析与列联表1.1.属性变量与属性数据分析属性变量与属性数据分析 从从变变量量的的测测量量水水平平来来看看分分为为两两类类:连连续续变变量量和和属属性性(Categorical)变变 量量,属属 性性 变变 量量 又又 可可 分分 为为 有有 序序 的的(Ordinal)和无序的变量。和无序的变量。对属性数据进行分析,将达到以下几方面的目的:对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据产生汇总分类数据列联表;列联表;2)检验属性变量间的独立性检验属性变量间的独立性(无关联性无关联性);3)计算属性变量间的关联性统计量;计算
3、属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。对高维数据进行分层分析和建模。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.列联表列联表 列列联联表表(contingency table)是是由由两两个个以以上上的的属属性性变变量量进进行行交交叉叉分分类类的的频频数数分分布布表表。例例如如一一个个集集团团公公司司在在四四个个不不同同的的区区域域设设有有分分公公司司,现现该该集集团团公公司司欲欲进进行行一一项项改改革革,此此项项改改革革可可能能涉涉及及各各分分公公司司的的利利益益,故故采采用用抽抽样样调调查查方方法法,从从四四个个分分公公司司
4、共共抽抽取取420个个样样本本单单位位,了了解解职职工对此项改革的看法,调查结果如表工对此项改革的看法,调查结果如表9-1所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表9-1 关于改革方案的调查结果(单位:人)表表中中的的行行(row)是是态态度度变变量量,这这里里划划分分为为两两类类:赞赞成成改改革革方方案案或或反反对对改改革革方方案案;表表中中的的列列(column)是是单单位位变变量量,这这里里划划分分为为四四类类,即即四四个个分分公公司司。表表9-1所所示示的的列列联联表表称为称为2 4表。表。一分公司二分公司三分公司四分公司合计赞成该方
5、案68755779279反对该方案32453331141合计10012090110420STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 交叉表的基本形式如图交叉表的基本形式如图9-1所示。所示。这这是是一一张张具具有有r行行和和c列列的的一一般般列列联联表表,称称它它为为r c表表。其其中中,第第i行行第第j列列的的单单元元表表示示为为单单元元ij。交交叉叉表表常常给给出出在在所所有有行行变变量量和和列列变变量量的的组组合合中中的的观观测测个个数数。表表中中的的总总观观测测个个数数用用n表表示示,在在单单元元ij中中的的观观测测个个数数表表示示为为nij,称称
6、为为单元频数。单元频数。列行第1列第2列第c列行边缘频数第1行n11n12n1c第2行n21n22n2c第r行nr1nr2nrc列边缘频数STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.1.2 属性变量关联性分析属性变量关联性分析 对对于于不不同同的的属属性性变变量量,从从列列联联表表中中可可以以得得到到它它们们联联合合分分布布的的信信息息。但但有有时时还还想想知知道道形形成成列列联联表表的的行行和和列列变变量量间间是是否否有有某某种种关关联联性性,即即一一个个变变量量取取不不同同数数值值时时,另另一一个个变变量量的的分分布布是是否否有有显显著著的的不不同同
7、,这这就就是是属属性性变变量量关关联联性分析的内容。性分析的内容。属性变量关联性检验的假设为属性变量关联性检验的假设为H0:变量之间无关联性;:变量之间无关联性;H1:变量之间有关联性:变量之间有关联性 由由于于变变量量之之间间无无关关联联性性说说明明变变量量互互相相独独立立,所所以以原原假假设和备择假设可以写为:设和备择假设可以写为:H0:变量之间独立;:变量之间独立;H1:变量之间不独立:变量之间不独立STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.2 2检验检验 在在双双向向表表的的情情形形下下,如如果果行行变变量量与与列列变变量量无无关关联联性性
8、的的原原假假设设H0成成立立,则则列列联联表表中中各各行行的的相相对对分分布布应应近近似似相相等等,即即 (j=1,2,c)或或 (j=1,2,c)其其中中mij称称为为列列联联表表中中单单元元ij在在无无关关联联性性假假设设下下的的期期望望频频数,而数,而nij是单元是单元ij的观测频数。的观测频数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程为为了了检检验验无无关关联联性性,将将观观测测的的单单元元频频数数与与无无关关联联的的原原假假设设为为真真时时单单元元的的期期望望频频数数进进行行比比较较。一一个个通通常常使使用用的的检检验是验是 2检验。检验。2统
9、计量为:统计量为:在在H0成成立立的的条条件件下下,当当观观测测数数据据较较大大时时,2统统计计量量的的分分布近似服从自由度为布近似服从自由度为(r-1)(c 1)的的 2分布。分布。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程由由于于 2分分布布是是一一种种连连续续性性分分布布,而而属属性性数数据据是是不不连连续续的的,故故上上式式只只是是一一个个近近似似计计算算公公式式。计计算算出出来来的的 2值值往往往往偏偏大大,相相应应的的p值值偏偏小小,从从而而人人为为地地增增加加了了犯犯第第一一类类错错误误的机会。为纠正这种偏性,可采用校正的机会。为纠正这种偏性
10、,可采用校正 2,用,用 C2表示。表示。注注:通通常常要要求求 2检检验验应应满满足足的的条条件件是是:n40且且所所有有单单元的期望频数均不小于元的期望频数均不小于5。2校正的条件:校正的条件:n40但有单元的期望频数小于但有单元的期望频数小于5。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.Fisher2.Fisher精确检验精确检验 Fisher精精确确检检验验建建立立在在概概率率论论中中超超几几何何分分布布的的基基础础上上,对于单元频数小的列联表来说,它是特别合适的。对于单元频数小的列联表来说,它是特别合适的。Fisher精精确确检检验验计计算算
11、在在H0成成立立的的条条件件下下,当当总总频频数数和和边缘频数固定时,各种可能的表的超几何概率边缘频数固定时,各种可能的表的超几何概率p之和之和 对对于于双双边边检检验验,A是是具具有有概概率率p小小于于或或等等于于观观测测表表概概率率的的表表的的集集合合;对对于于左左(右右)边边检检验验,A是是这这样样一一些些表表的的集集合合,其其中中每每个个表表的的单单元元ij中中频频数数小小于于(大大于于)或或等等于于观测表中相应的频数。观测表中相应的频数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.1.3 属性变量关联度计算属性变量关联度计算1.1.系数系数 系
12、系数数是是描描述述2 2表表数数据据关关联联程程度度最最常常用用的的一一种种相相关关系数。其计算公式为:系数。其计算公式为:其中,其中,2即即 2统计量。统计量。|的的取取值值范范围围是是在在0 1之之间间,的的绝绝对对值值越越大大,说说明明行行变变量量与与列列变变量量的的关关联联程程度度越越高高。=0,表表示示变变量量之之间间相相互互独独立立;|=1,表表示示变变量量之之间间完完全全相相关关,此此时时列列联联表某个方向对角线上的值全为表某个方向对角线上的值全为0。当当列列联联表表r c中中的的行行数数r或或列列数数c大大于于2时时,系系数数将将随随着着r或或c变大而变大,且变大而变大,且无上
13、界。此时可用列联系数。无上界。此时可用列联系数。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.列联系数列联系数 列列联联系系数数(Contingency coefficient)简简称称为为c系系数数,主要用于大于主要用于大于2 2表的情况。表的情况。c系数的计算公式为:系数的计算公式为:c系系数数的的取取值值范范围围:1 c A2且且B1B2,或或A1A2且且B1A2且且B1B2,或,或A1B2则称该对观测是不一致的。则称该对观测是不一致的。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 用用P表表示示所所有有观观测
14、测对对中中一一致致对对的的个个数数,Q表表示示所所有有观观测对中不一致对的个数。测对中不一致对的个数。统计量统计量(Gamma)的定义为:的定义为:b统计量统计量(Kendal Tau-b)的定义为:的定义为:c统计量统计量(Kendal Tau-c)的定义为:的定义为:其中其中m=min(r,c)。这这三三个个统统计计量量的的取取值值均均在在-1.0到到1.0之之间间,值值接接近近于于1.0表表示示正正关关联联,接接近近于于-1.0表表示示负负关关联联,等等于于0表表示示没没有有相相关关系。关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n9.2 SA
15、S9.2 SAS中的属性数据分析中的属性数据分析n9.2.1 2 2表的分析表的分析n9.2.2 r c表的分析表的分析n9.2.3 分层列联表分析分层列联表分析n9.2.4 有序变量的关联性分析有序变量的关联性分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程9.2.1 2 2表的分析表的分析【例例9-1】为为了了探探讨讨吸吸烟烟与与慢慢性性支支气气管管炎炎有有无无关关系系,调调查了查了339人,情况如下:人,情况如下:表9-2 吸烟与慢性支气管炎的关系调查表设设想想有有两两个个随随机机变变量量:x表表示示吸吸烟烟与与否否,y表表示示患患慢慢性性支支气气管管
16、炎炎与与否否。检检验验吸吸烟烟与与患患慢慢性性支支气气管管炎炎有有无无关关系系,即即检验检验x与与y是否相互独立。数据集是否相互独立。数据集mylib.zqgy如图:如图:原假设原假设H0:x与与y相互独立相互独立患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 表表9-2中中数数据据使使用用如如下下代代码码存存入入数数据据集集mylib.bron,形形式如图式如图9-2所示。所示。data mylib.bron;input x$y$numcell;label x=吸烟 y=慢性支气管炎;cards;吸
17、烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121;Run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.1.分析步骤分析步骤 1)在在“分分析析家家”中中,打打开开数数据据集集Mylib.bron;2)选择菜单:选择菜单:“Statistics”“Table Analysis”,打打 开开“Table Analysis”对对话话框;框;3)选选中中变变量量smoke,单单击击“Row”按按钮钮,将将其其移移到到行行变变量量框框中中;选选中中变变量量bron,单单击击按按钮钮“Column”,将将其其移移到到列列变变量量框框中中;
18、选选中中变变量量numcell,单单击击按按钮钮“Cell Counts”,将其移到单元格计数框中,如图所示;,将其移到单元格计数框中,如图所示;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 4)为为了了使使用用 2统统计计量量检检验验变变量量的的关关联联性性,单单击击“Statistics”按按 钮钮,打打 开开“Table Analysis:Statistics”对对话话框框,选选中中“Statistics”栏栏下下的的“Chi-square Statistics”复选框,如图复选框,如图9-4所示。所示。图9-4 “Table Analysis:Sta
19、tistics”对话框 单击单击“OK”按钮,返回。按钮,返回。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5)为为了了在在列列联联表表中中显显示示各各种种频频数数、百百分分数数,单单击击“Tables(列列联联表表)”按按钮钮,打打开开“Table Analysis:Tables”对对话话框框。选选中中“Frequencies(频频数数)”栏栏下下的的“Expected(期期望望)”复复选选框框,取取消消“Percentages(百分数)(百分数)”栏下的复选框,如图栏下的复选框,如图9-5所示。所示。图9-5 “Table Analysis:Table
20、s”对话框 两次单击两次单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.结果分析结果分析 列列联联表表中中列列出出了了表表格格单单元元的的观观测测频频数数(上上一一行行)和和在在原原假假设设下下的的期期望望频频数数(下下一一行行),可可以以看看出出,吸吸烟烟人人中中患患病病的的观观测测频频数数比比期期望望频频数数大大(图图9-6所所示示),说说明明吸吸烟与患病又一定关系。烟与患病又一定关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 进进一一步步检检验验的的结结果果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 属性 分类 数据 分析
限制150内