《第7章对数线性模型.ppt》由会员分享,可在线阅读,更多相关《第7章对数线性模型.ppt(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第第7章对数线性模型章对数线性模型对数线性模型Logit模型描述的是概率与协变量之间的关系;对数线性模型用来描述期望频数与协变量之间的关系;考虑期望频数m的取值范围在0到无穷之间,故需要进行对数变换为 ,使它的取值在 之间;对数线性模型具有以下形式:不过,与logit不同的是,对数模型中没有解释变量,是用行列因子的效应参数来表示。二维列联表的对数线性模型设它的对数线性模型就是对 进行分解,分解的方法与方差分析中效应分解的方法完全相同。于是有,其中,是总的平均,和 分别是属性A在Ai时和属性B在Bj时的效应,而 是属性A和B的交互作用(关联项或关联参数)。以上模型是二维列联表的饱和模型,其期望频
2、数的估计就是实际频数 。二维列联表的对数线性模型二维列联表的非饱和模型为:其中没有交互效应,经过转换可以得到可见,列联表独立性成立,故称为独立性对数线性模型。其mij的估计为一般认为,在对数线性模型中,当低阶效应为0时,其高阶效应也为0.因此,非饱和模型除以上形式外,还有另外两种情况:二维列联表的对数线性模型分别为:其中,属性A与B独立,或仅有属性A的效应,或仅有属性B的效应,且期望频数的估计分别为:独立对数线性模型是否成立的似然比检验和皮尔逊卡方检验统计量为:二维列联表的对数线性模型独立性对数线性模型也可以理解为:根据独立性条件 ,在两边取对数就得到一个相加关系,即 依赖于一个与样本量n有关
3、的项,一个与落入第i行的概率有关的项,和一个与落入第j列的概率有关的项,因此独立性具有形式:其中,三个参数分别对应样本量的总效应、行因素的效应和列因素的效应。因此,独立性的原假设等价于该模型的原假设,独立性卡方和似然比检验,就是该模型的拟合优度检验。二维列联表的对数线性模型从独立性模型可知,列联表的对数线性模型并不区分响应变量和解释变量,对单元频数的建模,把行和列都看作响应变量。对数线性模型的优点在于:能定量表示属性A在Ai时和属性B在Bj时的效应,以及它们之间的交互效应。【例】对给出的二维列联表(表7.1),构建对数线性模型。首先根据原列联表可以计算出期望频数估计值,进行独立性检验,,df=
4、(3-1)(3-1)=4,p0.3,故独立性成立。二维列联表的对数线性模型在模型检验通过后,来进行参数估计,方法与方差分析完全相同总的效应平均为:属性A在A1时的效应(行效应)为:类似地,可得到属性A在A2,A3时的效应分别为:属性B在B1,B2,B3时的效应(列效应)分别为:二维列联表的对数线性模型根据以上独立模型的结果可知,在属性A的效应中,A1的行效应最大为0.48,A3的行效应最小为-0.49;在属性B的效应中,B1和B3的列效应相同为-0.31,B2的列效应最大为0.62;因此,对数线性模型可以定量给出各种效应的值。从以上对数线性模型的应用可以看出,对数模型有假设前提:上例是假定每个
5、因子的效应参数和等于0.在一些软件中通常是假定每个属性的最后一个类别的参数等于0.高维列联表的对数线性模型高维列联表的对数线性模型与二维列联表的情况类似,高维列联表的对数线性模型也分饱和模型、非饱和模型;对于三维列联表的饱和模型为:其中,除四个单因子项外,三个双因子项,一个三因子项;而它的非饱和对数模型可能有8种情况:对于模型 ,等价于三维列联表中A,B,C相互独立,记为(A,B,C);对于模型 ,等价于A与BC,B与AC,C与AB相互独立;高维列联表的对数线性模型对于模型 ,等价于A给定后B和C条件独立,B给定后A和C条件独立,C给定后A和B条件独立;对于包括所有一次效应和三个二次效应的模型
6、,等价于所有的独立性被拒绝后的三维列联表的相关模,即两两有交互作用,但三个之间没有交互作用去情形;【例】对例5.3普通车和高档车问题构建对数线性模型(齐次关联模型)。在高维列联表的相关性讨论中,该例中所有的独立性都被拒绝了,因此判断是相关模型,形式为:高维列联表的对数线性模型应用统计软件可以方便得到模型的参数估计;也可以利用迭代法得到的期望频数的估计值(表5.39),来计算模型的效应参数,方法与二维表相类似,与方差分析中效应的计算完全相同;与二维表相比,需要注意的是交互作用的计算方法;在某一格确定后,要用这一格的均值同时减去行效应、列效应和总效应,才是交互效应。在以上齐次关联模型中,条件优势比
7、与分层因素无关,只与两个因子的交互效应有关;两因子的交互效应决定了条件优势比;决定的方式与因子效应的计算有关;高维列联表的对数线性模型在上述齐次关联模型下,无论按哪个属性分层均得到四格表,其对数优势比为:因此,条件优势比与交互效应的关系式为:当按照对数模型每个因子的效应参数和等于0的假设前提时,;当按照软件的处理,令最后一类的参数等于0时,不完备列联表的对数线性模型对于先验0的不完备列联表,也可以建立对数线性模型;不完备二维列联表的对数线性模型,与完备列联表的区别仅在于定义域仅限于非空格,模型特点和功效与完备表类似;不完备列联表的对数线性模型所起的作用,与完备表类似,既是拟独立性讨论的延伸,又具有应用上的同一性;不完备三维列联表的情况与完备的三维表相类似,需要借助软件建立对数线性模型。对数模型与logit模型区别:对数线性模型关心的是属性响应变量之间的关联,而logistic模型描述的是一个属性响应变量怎样依赖于一组解释变量。联系:对于一个对数线性模型,可以对其中一个响应变量构造logit来帮助解释模型;解释变量为属性变量的logistic模型,有等价的对数线性模型;参见属性数据P187
限制150内