《逻辑回归模型分析见解 .docx》由会员分享,可在线阅读,更多相关《逻辑回归模型分析见解 .docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品名师归纳总结考虑具有p个独立变量的向量, 设条件概率为依据观测量相对于某大事发生的概率。规律回来模型可表示为1.1 上式右侧形式的函数称为称为规律函数。以下图给出其函数图象形式。其中。假如含出名义变量,就将其变为dummy变量。一个具有 k 个取值的名义变量,将变为k-1 个 dummy变量。这样,有 1.2 定义不发生大事的条件概率为 1.3 那么,大事发生与大事不发生的概率之比为1.4 这个比值称为大事的发生比the odds of experiencing an event,简称为 odds 。由于0p0。对 odds取对数,即得到线性函数,1.5 假设有 n 个观测样本, 观测值分
2、别为设为给定条件下可编辑资料 - - - 欢迎下载精品名师归纳总结得到的概率。 在同样条件下得到的条件概率为。于是, 得到一个观测值的概率为1.6 由于各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。1.7 上式称为n个观测的似然函数。我们的目标是能够求出访这一似然函数的值最大的参数估计。于是,最大似然估量的关键就是求出参数,使上式取得最大值。对上述函数求对数 1.8 上式称为对数似然函数。为了估量能使取得最大的参数的值。对此函数求导,得到p+1 个似然方程。 1.9 ,j=1,2,.,p.上式称为似然方程。为明白上述非线性方程,应用牛顿拉斐森Newton-Raphson方法进行迭
3、代求解。1.3牛顿拉斐森迭代法对求二阶偏导数,即Hessian矩阵为1.10 假如写成矩阵形式,以表示Hessian矩阵,表示1.11 令可编辑资料 - - - 欢迎下载精品名师归纳总结 1.12 就。再令 注:前一个矩阵需转置 ,即似然方程的矩阵形式。得牛顿迭代法的形式为1.13 留意到上式中矩阵为对称正定的,求解即为求解线性方程中的矩阵。对进行 cholesky分解。最大似然估量的渐近方差asymptoticvariance和协方差 covariance可以由信息矩阵information matrix的逆矩阵估量出来。 而信息矩阵实际上是二阶导数的负值,表示为。估量值的方差和协方差表示为
4、,也就是说, 估量值的方差为矩阵的逆矩阵的对角线上的值,而估量值和的协方差为除了对角线以外的 值。然而在多数情形,我们将使用估量值的标准方差,表示为, for j=0,1,2, ,p1.14 下面争论在规律回来模型中自变量是否与反应变量显著相关的显著性检验。零假设: 0表示自变量对大事发生可能性无影响作用。假如零假设被拒绝, 说明大事发生可能性依靠于的变化。2.1 Wald test对回来系数进行显著性检验时,通常使用Wald检验,其公式为2.1 可编辑资料 - - - 欢迎下载精品名师归纳总结其中 ,为的标准误差。这个单变量Wald统计量听从自由度等于的分布。假如需要检验假设: 0, 运算统
5、计量2.2 其中,为去掉所在的行和列的估量值,相应的,为去掉所在的行和列的标准误差。这里, Wald统计量听从自由度等于p 的分布。假如将上式写成矩阵形式,有2.3 矩阵是第一列为零的一常数矩阵。例如,假如检验,就。然而当回来系数的肯定值很大时,这一系数的估量标准误就会膨胀,于是会导致Wald统计值变得很小, 以致其次类错误的概率增加。也就是说, 在实际上会导致应当拒绝零假设时却未能拒绝。 所以当发觉回来系数的肯定值很大时,就不再用 Wald统计值来检验零假设, 而应当使用似然比检验来代替。2.2 似然比 Likelihood ratio test检验在一个模型里面, 含有变量与不含变量的对数
6、似然值乘以 -2 的结果之差, 听从分布。这一检验统计量称为似然比likelihood ratio,用式子表示为2.4 运算似然值采纳公式1.8 。倘假设需要检验假设: 0, 运算统计量2.5 上式中,表示 0 的观测值的个数,而表示的观测值的个数,那么n 就表示全部观测值的个数了。实际上,上式的右端的右半部分表示只含有的似然值。统计量G 听从自由度为 p 的分布2.3 Score检验在零假设: 0 下,设参数的估量值为,即对应的 0 。运算 Score统计量的公式为可编辑资料 - - - 欢迎下载精品名师归纳总结2.6 上式中,表示在 0 下的对数似然函数1.9 的一价偏导数值,而表示在 0
7、 下的对数似然函数 1.9 的二价偏导数值。 Score统计量听从自由度等于的分布。2.4 模型拟合信息模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的判定依据。1-2LogLikelihood2.7(2) Akaike信息准就 Akaike Information Criterion,简写为 AIC 2.8其中为模型中自变量的数目,为反应变量类别总数减, 对于规律回来有 S=2-1=1。-2LogL的值域为 0 至,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大, -2LogL就变小。因此,将 K+S加到 AIC 公式中以抵销参数数量产生的影响。在其它条件不变的
8、情形下,较小的AIC 值表示拟合模型较好。(3) Schwarz准就这一指标依据自变量数目和观测数量对-2LogL值进行另外一种调整。SC 指标的定义为2.9其中 lnn是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC 或 SC 值越小说明模型拟合越好。odds=p/1-p,即大事发生的概率与不发生的概率之比。而发生比率 odds ration,即(1) 连续自变量。对于自变量,每增加一个单位, odds ration为3.1可编辑资料 - - - 欢迎下载精品名师归纳总结(2) 二分类自变量的发生比率。变量的取值只能为0 或1 ,称为 d
9、ummy variable。当取值为 1 ,对于取值为 0 的发生比率为3.2亦即对应系数的幂。(3) 分类自变量的发生比率。假如一个分类变量包括m 个类别,需要建立的dummy variable的个数为 m-1,所省略的那个类别称作参照类 reference category。设 dummy variable为,其系数为,对于参照类,其发生比率为。3.2规律回来系数的置信区间对于置信度 -,参数的100% -的置信区间为3.3 上式中,为与正态曲线下的临界值critical value,为系数估量的标准误差,和两值便分别是置信区间的下限和上限。当样本较大时,的95% 置信区间为3.4 4.1
10、 前向挑选 forward selection:在截距模型的基础上,将符合所定显著水平的自变量一次一个的加入模型。详细挑选程序如下1 常数即截距进入模型。2 依据公式 2.6 运算待进入模型变量的Score检验值,并得到相应的P 值。3 找出最小的 p 值,假如此 p 值小于显著性水平, 就此变量进入模型。假如此变量是某个名义变量的单面化dummy变量,就此名义变量的其它单面化变理同时也进入模型。不然,说明没有变量可被选入模型。挑选过程终止。4 回到 2 连续下一次挑选。可编辑资料 - - - 欢迎下载精品名师归纳总结4.2 后向挑选 backwardselection:在模型包括全部候选变量
11、的基础上,将不符合保留要求显著水平的自变量一次一个的删除。详细挑选程序如下(1) 全部变量进入模型。(2) 依据公式 2.1 运算全部变量的Wald检验值,并得到相应的p 值。(3) 找出其中最大的 p 值,假如此P 值大于显著性水平,就此变量被剔除。对于某个名义变量的单面化变量,其最小p值大于显著性水平,就此名义变量的其它单面化变量也被删除。不然,说明没有变量可被剔除,挑选过程终止。(4) 回到 2 进行下一轮剔除。4.3 逐步回来 stepwise selection(1) 基本思想:逐个引入自变量。每次引入对影响最显著的自变量,并对方程中的老变量逐个进行检验, 把变为不显著的变量逐个从方
12、程中剔除掉,最终得到的方程中既不漏掉对 影响显著的变量,又不包含对影响不显著的变量。(2) 挑选的步骤:第一给出引入变量的显著性水平和剔除变量的显著性水平,然后按以下图挑选变量。(3) 逐步挑选法的基本步骤逐步挑选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤。二是从回来方程中考虑剔除不显著变量的步骤。假设有 p 个需要考虑引入回来方程的自变量. 设仅有截距项的最大似然估量值为。对 p 个自变量每个分别运算Score检验值,设有最小 p 值的变量为,且有,对于单面化 dummy变量,也如此。假设,就此变量进入模型,不然停止。假如此变量是名义变量单面化dummy可编辑
13、资料 - - - 欢迎下载精品名师归纳总结的变量,就此名义变量的其它单面化变量也进入模型。其中为引入变量的显著性水平。 为了确定当变量在模型中时其它 p-1 个变量也是否重要, 将分别与进行拟合。对 p-1 个变量分别运算 Score检验值,其 p 值设为。设有最小 p 值的变量为,且有. 假设,就进入下一步,不然停止。对于单面化变量,其方式犹如上步。 此步开头于模型中已含有变量与。留意到有可能在变量被引入后, 变量不再重要。 本步包括向后删除。 依据 2.1运算变量与的 Wald检验值, 和相应的 p 值。设为具有最大 p 值的变量,即=max,. 假如此 p 值大于,就此变量从模型中被删除, 不然停止。 对于名义变量, 假如某个单面化变量的最小p 值大于,就此名义变量从模型中被删除。 如此进行下去,每当向前挑选一个变量进入后,都进行向后删除的检查。循环终止的条件是:全部的 p 个变量都进入模型中或者模型中的变量的p 值小于,不包含在模型中的变量的 p 值大于。或者某个变量进入模型后,在下一步又被删除,形成循环。可编辑资料 - - - 欢迎下载
限制150内