半参数回归模型的异方差统计分析.pdf
应用概率统计 第二十卷 第一期 2 0 0 4年 2月 Chi ne s e J o ur na l o f A p pl i e d Pr o ba bi l i t y a nd S t at i s t i c s Vo1 2 0 No 1 Fe b20 0 4 半参数回归模型的异方差统计分析 木 冉昊 朱仲义(华东师范大学统计系,上海,2 0 0 0 6 2)摘 要 在回归分析中,方差齐性的假设是一个普遍关心的问题在参数和非参数回归模型中,关于异方差检验问题已经 有很多的研究,见(I I,【4】,【7】)本文研究了半参数回归模型的异方差检验问题,得到了方差齐性检验的S C O R E统 计量,证明了该统计量的渐近 x 性质,最后给出计算机模拟和实际例子,推广和发展了 E u b a n k和 T h o m a s(1 9 9 3),韦博成(1 9 9 5)的工作 关 键 词:异方差,半参数回归,S c o r e 检验 学 科 分 类 号:O2 1 2 1 1 引 言 考虑如下半参数回归模型 Y i=+9(t i)+C i,i=1,扎,(1 1)其中 l,t i)为解释变量,X i R p,t i 满足 0 t l t 1,C i 独立,并且服从正态分布,E(c i)=0,V a r(岛)=W a。,g(t 1)=,:,(J)绝对连续,=0,1,m一1,并且,()平方可积)的未知函数,为 P 维未知参数 本文只考虑 m=2 的情况 如果=1,i=1,扎,则估计,g(t)是通过最小化 n-1(玑 一 一 g()。+厂 (g(m()。d 扛:1 ,0 (1 2)得到的 如果存在 i 使得 1 即模型(1 1)出现异方差,采用(1 2)式得到的 ,g(t)的估计就不再渐近有 效 半参数回归模型(1 1)是一类非常广泛的统计模型 I-I e c k m a n(1 9 8 6)对模型(1 1)提出了光滑样条的估计 方法,并得到了估计的相合性和渐近正态性 S p e c k m a n(1 9 8 8)对模型(1 1)提出了核与最小二乘估计方法,并研究了估计的渐近性质 对上述模型研究的还有 E u b a n k(1 9 8 8),G r e e nS l i v e r ma n(1 9 9 4)等 上述文献主要假定,V a r(C i)=,i=1,扎 即随机误差具有齐次性的条件下,研究了模型(1 1)而 在回归分析中,随机误差是否存在方差非齐性是理论和应用工作者十分关心的问题 对于线性回归,C o o k We i s b e r g(1 9 8 3)研究了方差非齐性的s c o r e 检验,得到了很好的结果 韦博成(1 9 9 5)把 C o o k We i s b e r g(1 9 8 3)的结果推广到了非线性回归 E u b a n k T h o m a s(1 9 9 3)研究了非参数回归模型的异方差检验 本文主要在上 述文献的基础上研究关于模型(1 1)的异方差检验,得到了S c o r e 检验函数并给出了它的大样本性质,进一步 推广和发展了【1 4】,【7】的工作 以下引入本文所讨论的问题,以及若干必要的记号和公式 在模型(1 1)中通常假定 与某一个协变量 和某一 q 维未知参数 Q有关,=(Q,),(1 3)w(,)为已知函数,并假设存在唯一 O LO 使得对一切 i 都有 W(c o,Z i)=1 因此模型(1 1)异方差的检验问题 等价于以下假设检验问题:Ho:Q=Q 0 VS H1:QQ o (1 4)国家自然科学基金资助项目(1 0 3 7 1 0 4 2)和上海科委重点资助项目(0 2 D J 1 4 0 6 3)。本文 2 0 0 2年 5月 2 9日 收到,2 0 0 3年 5月 2 0日收到修改稿 维普资讯 http:/ 应用概率统计 第二十卷 显然,如果原假设成立,那么模型具有方差齐性,不然则具有异方差性 若 一N(0,0-2 ),则由 G r e e n S l i v e r m a n(1 9 9 4),模型(1 1)的惩罚对数似然函数为,,0-2)=一 耋-o g W(Q 一 i-1 一 n A 7 T-一 (15)其中,y=(9(t i)1,是与设计点 t i 有关的矩阵,使得存在关系 ,1 7 T ,y=(9(t)d t J0 本文得到的一系列结果就是对半参数模型的惩罚对数似然函数考虑得到的 令 0=(O t,y,0-2),Y=(暑,1,暑,rI),X=(。1,rI)T,另夕 卜 设 u(x,t)=+,y,由G r e e nS i lv e r m a n(1 9 9 4),存在矩阵 H x使 声(,t)=+=Hx Y,其中 节为在 Q=Q o 时,最大化(1 5)式所得的估 计 2 S c o r e检验统计量 对于检验问题(1 4),我们可以得到如下定理 定 理1记龟=一 一 (t i),是 通 过 最 小 化(1 2)得 到 的 估 计,设 为(辞 )n 1,=舒 n,设D=o w(a,z )o a T】I。:。=(D 巧)n 口,一D=(一 1 1 T 礼)D,为礼 阶 单 位矩阵 1=(1 1)T 1 则假 设 检验(1 4)的 S CO R E统计量可表示为 S C=三 T -)一 1-D T u 证明:由文 5】,假设检验(1 4)的 S C O R E检验统计量可表示为 S C=(筹)T (),(2 1)(2 2)其中 为(1 5)式中的惩罚对数似然函数,为关于 0 的 F i s h e r 信息阵 a a为 一 中对应于 Q的分块矩 阵 0 为在Q=Q 0 时0 的极大惩罚似然估计 经(1 5)式直接计算可得 一:巩 _1),(2 3)a Q I 口:0 2 一 、其中1=(1 1)T 1,另外把 F i s h e r 信息阵 表示为如下 c Q,y,=(三 三 其 中 A 对 应 于 Q,A 对 应 于 =(),A ss 对 应 于 2 再 对 c 式 直 接 计 算 并 在 =o 处 计 值 可 得,=E(一 0 2 L=1。T。,A 12=E(一 0 2 L)=。,A 2 3-0 A 1 3=E(一 0 2 L =1。T 1,A 3 3-E(一 0 2 L):,由分块矩阵的逆矩阵求法可得 J a a:2(-T-)(2 4)、I 船 站 A A A 维普资讯 http:/ 第一期 冉 昊 朱仲义:半参数回归模型的异方差统计分析 把(2 3),(2 4)式代入(2 2)式得 S C=1(一1)D(D )-1 D (一 1)=三 ()-1 则(2 1)式成立 证毕 群 特 别 当 q=l 时,令 =(a,z)o a】I。:。,=叠 礼,与 皿=一 ,则(2 1)式 可 简 化 为:S C=(墨 皿 蓦)。(2 =1 磁)85 (2 5)关于(2 1)式的检验统计量,我们有如下定理 定理 2 考虑模型(1 1),如果存在定义在【0,1】上的正的连续密度函数,(t),使得设计点 t x,t 满足,t f(t)d t=(2 i 一1)(2 n),0 存在一个常数 兄 a x,使 m D ij-元i n D 幻 I 关于 礼和,满足:(1)礼_ O 0 (2)_ 0 (3)n 1 。(。)_ O 0 (4)n-1 。I I(一Hx)l l。_ 0 则在原假设 a=a o条件下有 S C:)一 U与 x。(口)其中 表示依分布收敛,X 2(口)表示自由度为q 的 X。分布 特别地 q=1 时,令 R i=D i 一(1 n)D 有 s c=(叠 忍 蓦)。(2 量n 2)与x。()(2 6)定理 2 的条件是非常一般的,文献【3】,【4 在研究非参数与半参数回归模型的相关问题时,使用了类似的 条件 此处我们只证当 口=1 的情况,当 口 1 时,证明类似 为了证 明这一个定理,首先给出两个引理 引理 1 设 服从 礼维多元正态分布,均值为,协方差阵为 厶,及 为任一对称的半正定的 礼礼阶 矩阵并且满足如下条件:当 礼_ O 0时(1)m a X(砰)砰_ 0,以为A 的 特 征 根;(2),A。f t r(A。)_ 0;(3)f T A f t r(A。)。_ 0 则有 V A Vt r(A)2 t r(A。)。(2 7)依分布收敛于标准正态分布 该引理是 L i n d e b e r g-F e l l e r 定理的结论(E u b a n k T h o m a s(1 9 9 3)引理 2 在 凰 成立条件下,若模型(1 1)满足定理 2的条件,则有 维普资讯 http:/ 应用概率统计 第二十卷(1)Hx是半正定矩阵且特征根介于 0和 1之间;(2)n _ 时,n-1 。t r(磁)_ 0,k=1,2,证明:由 G r e e n,S i l v e r ma n(1 9 9 4),Hx=A-I-(I A)X(XT(一A)一 XT(一A),其中 A为仅与设计点 列)和 有关的非参数光滑矩阵,且 A是 nn半正定,其特征根介于 0 与 1 之间(见文【4 引理 2)对 A,存在矩阵 P,使得 一A=PPT,因 PT x(xT PP T )一 XT P是幂等对称阵,则 一Hx=P(IP T x(xT PPT )一 XT P)P T 0 所以 日 的特征根大于等于 0小于等于 1 结论(1)得证下面证明(2)令 B=(I A)X(XT A)一 XT(一A),显然 B为半正定阵 t r(B)=t r(IA)(一A)。x(xT(一A)一 XT(一A)。)r l(一A)t r(I A)。x(xT(一A)一 XT(一A)。)=r l(IA)P,其中r l(I A)表示 一A的最大特征值,由于 0 r l(I A)1,则 t r(B)P 因为 B 0,则对任一正整数 k有 t r(B )(t r )P (2 8)另一方面,由于 A 0,B 0,则 由矩阵迹的 Mi n k o w s k i 不等式,得 t r(A+B)(t r(A+B)【(t r(A )+(t r(B )(2 9)由 E u b a n kT h o ma s(1 9 9 3)引理 2并利用(2 8)和(2 9)式,结论(2)成立,引理 2得证 社 定理 2的证明:为证明(2 6)式,令 K=(IHx)R(IHx),R=d i a g(R i)则(2 6)式可表示为 S C=(y T y)2 t r(R z)。由 定理的条件(4)及大数定律可知 。是盯。的相合估计 由此我们仅需证明(Y T a)K(Y a)2 t r(R。)。依 分布收敛于标准正态分布 为此我们首先证明 等 -tr(【2t z)r z-iv(0 11)(2 10)由引理 1,我们仅需验证上式中的有关量满足引理 1的三个条件 为此令 P t 为 K 的特征根 由于 0 一 I,则有)=()=()()由R所满足的条件及 H 的半正定性可得 n-1 t r(K。)=n-1 t r(R R)+n-1 D(t r()+n-1 D(t r(日 i)+n-1 D(t r(日 )+n-1 O(t r(H )则 由引理 2,可得 l i mn-1 t r(K。)=l i m n-1 t r(R。)(2 1 1),l _+o o,l-O O 由K 0,因此有 P =t r(K。)则有(J9)P j一-n 维普资讯 http:/ 第一期 冉 昊 朱仲义:半参数回归模型的异方差统计分析 8 7 故引理 1的条件(1)得证 下须证 需 (2 12)tr f 0 1 因 TK。T(H)O R。(一日)R lI(一丑 )lI。t r(0)t r(0 1 t r(K2 1 则由(2 1 1)式及条件(4)可知(2 1 2)式成立 即引理 1 的条件(2)满足 另一方面,I T II T(一丑 )R(一日 )I,月 lm a x n 一 。l I(一日)I I。l -l=l -一 l 、-一 l(t r(K2)。l l(t r(K2)。n 一 2(t r(K2)。则由定理条件及(2 1 1)式,可知引理 1 的条件(3)满足 由此(2 1 0)式成立 为证(2 6)式,由(2 1 0)与(2 1 1),我们仅需证明 训 (2 1 3)、2 tr(0)由于 R i=一一V,则 t r(R)=R i=0 因此我们有 In-1 。t r(K)I=In-1 。t r(R)一 2 t r(H R)+t r(H I R)】I 2 冠 a x 一 。t r(H )+n-1 。t r(日;)】,则由引理 2 及(2 1 1)式可知(2 1 3)式成立 定理证毕 基于定理 2的证明和 E u b a n k(1 9 9 3)我们很快可以得到定理 3 定理 3 考虑模型(1 1),如果存在定义在【0,1】上的正的连续密度函数,(t),使得设计点 t 1,t 满足 t l =存在一个常数R m a x,使 I昆I 关于n和,满足:(1)n-O 0 (2)-0 (3)n I 。(。)-O 0 (4)n-I 。I I(H )u ll。-0 如 果有 i N(O,l+n ,2 d i),d i 一致有界并且满足存在常数D 1,D 2 使得 Y d i n-D 1,霹 n-D 2,那么有(2 5)依分布收敛于非中心X 2(1)分布,中,L-参数 c=(2 i)。)=1n,d,i (2 R j 定理 3 的证明可以由定理 2的结论和 E u b a n k(1 9 9 3)得到,在此就不给出了 可以看出在满足定理 3 条 件的情况下的 S c o r e 统计量的势函数为 2一 (2 一C)一 (2+C),为正态分布,2为正态分布 1 一Q 2 分位数 其应用可以参见 E u b a n k(1 9 9 3)3 模拟和计算 本节我们通过计算机模拟和一个实际例子来检验 S C O R E统计量的有限样本性质 首先,采用模型 Y l=+g(t i)+,i=1,n,(3 1)维普资讯 http:/ 应用概率统计 第二十卷 其中 i i i d N(0,1),i 1 1 d N(0,1),=1 其次设计点 t i 分别由两种方法产生(1)t i i=+1),i:1,n,(2)t 2 l 取 自(0,1)均匀分布 产生了设计点后,9(t i)分别取两种函数 g x(t i)=3 t +2 7 t i+3,-q 2(t i)=c o s(2 t i)最后由 ,i,g(t i)得到 Y i 的值,于是我们得到数据集(X i,t i,Y i,i=1,n)在实际计 算中,我们采用 Gr e e nS i l v e r ma n(1 9 9 4)光滑样条方法对半参数 回归模型(3 1)进行拟合(对光滑参数 的 选取采用 C V的方法)我们对四种误差模型 i l=e ,i=e。,=e。,=e 计算,得到的四个 S C O R E检验统 计量 用蒙特卡罗方法重复 1 0 0 0 次,得到这四个 S C O R E检验统计量的经验分布函数 j=P1 v s 图 1 当 t=t 1,g:g 1 时,对假设的四种误差模型所得到 S C OR E 检验统计量的经验分布函数与卡方分布函数的比较 图 1 表示的是当 t=t 1,g=g 1 的情况下得到的结果 可以看出各统计量都与 X(1)分布相当接近 其他 情况下得到的结果与图 1 差别不大,故在此省略 下面再考虑检验异方差时,S C OR E检验统计量的势函数 i,t l 和 g(t )的产生方法同上 考虑两种误差结构 C l i N(o,e a t t)和 e 2 一N(O,e t)及两种样本量 礼=5 0或 礼=1 0 0,重复 1 0 0 0次 得到各种情况下的势函数 势函数的性质与 t i,9(如)的选择没有太大的关 系 例如当 n:1 0 0,误差结构为 1 的情况下得到表 1 表 1 两种 t 和 g选择的 S c o r e检验的势函数 1 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 g=g x t:t l 0 9 5 9 0 9 0 6 0 8 2 3 0 7 4 3 0 6 1 4 0 4 4 4 0 3 2 5 0 2 0 1 0 1 1 7 0 0 6 6 0 0 5 9 g=g x t:t 2 0 9 4 7 0 9 1 4 0 8 3 8 0 7 3 0 6 2 0 4 9 1 0 3 2 0 21 2 0 1 2 2 0 0 6 4 0 0 5 3 g=g 2 t:t l 0 9 5 4 0 9 07 0 8 5 8 0 7 0 6 0 61 9 0 4 7 4 0 3 07 0 20 7 0 1 0 6 0 0 6 7 0 0 4 6 g=g 2 t:t 2 0 9 4 9 0 9 21 0 8 2 0 7 4 4 0。6 0 6 0 4 6 4 0 3 41 0 20 4 0 1 0 2 0 0 7 5 0。0 4 3 一0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 g=g x t:t l 0 0 7 3 0 1 0 5 0 1 8 8 0 3 3 5 0 4 8 5 0 5 9 4 0 7 3 4 0 8 4 2 0 9 1 2 0 9 4 9 g=g x t:t 2 0 0 7 8 0 1 1 9 0 2 1 4 0 3 4 5 0 4 7 0 5 8 3 0 7 6 6 0 8 4 4 0 8 9 9 0 9 5 4 g=g 2 t:t l 0 0 6 5 0 1 2 2 0 2 0 3 0 3 2 4 0 4 8 7 0 5 9 9 0 7 3 7 0 8 4 4 0 9 1 6 0 9 5 1 g=g 2 t=t 2 0 0 5 5 0 1 0 9 0 2 2 1 0 3 3 6 0 4 7 5 0 6 0 8 0 7 2 3 0 8 3 6 0 9 0 2 0 9 5 5 故我们固定 g=g 1,t=t 1,观察不同的样本量和不同的误差结构对势函数的影响,得到图 2 维普资讯 http:/ 第一期 冉 昊 朱仲义:半参数回归模型的异方差统计分析 8 9 图2 两种不同的样本量和两种不同的误差结构对应的 S C O R E统计量的势函数图形 从图 2中可以得知 S C OR E检验统计量 比较适合检验误差结构与线性部分相关的情况,而对与非参数部 分相关的误差结构的检验要相对差一点,不过可以通过增加观察个数来取得较好的效果 注意到当 礼=5 0,误差结构为 e l 出现了两个异常值(Q=0 1,a=-0 1时比a=0 还要小一点),通过模 拟得出这种异常时可以接受的 这种异常是由于礼比较小,而且具有与非参数部分相关的误差结构造成的 例牙床疾病数据 此数据的详细讨论可见文献 6 数据中的观察对象是患有某种牙床疾病的人,把这 3 0 个人分为两组,每组 1 5 人 一组为控制组,给他们使用一种止疼药来漱 口,令 =0 另一组为对照组,用水清洗,令 X i=1 t i 是在试验前病人的 S B I 指标值 而 玑是病人经过 3周以后 S B I 指标值 该文献指 出,这组数据可用以下的半参数模型进行拟合,Y i=i +9()+我们采用 G r e e nS i l v e r m a n(1 9 9 4)光滑样条方法进行拟合,得到图3,与文 6 的拟合图像相似 并且得 到光滑参数=0 0 0 0 2 2 8,的估计为 0 0 3 7 分别取 =e a“,W2 =e a ,w3 i=e a ,得到 S c o r e统计量(见表 2)图 3 对牙床数据采用半参数光滑样条的方法拟合得到的函数图形 维普资讯 http:/ 应用概率统计 表 2 W a e w 2 e a t W e l S c o r e 统计量 0 2 0 6 9 0 8 4 2 1 2 3 1 6 6 第二十卷 在 0 1 0 水平()(3 9(1)=2 7)下,对于 3 已经比较接近临界值,所以认为对于 X i 方差相异,用该模型 估计不太好 1】2】3】4 5】6】7】参考文献 C o o k,R D a n d We i s b e r g,S ,D i a g n o s t i c s f o r h e t e r o s c e d a s t i c i t y i n r e g r e s s i o n,B i o me t r i k a,7 0(1 9 8 3),1-1 0 Gr e e n an d S l i v e r man,No n p a r a me t r i c Re g r e s s i o n a nd Ge ne r a l i z e Li n e a r M o d e l,Lo n d o n:Ch a mp man an d Ha l l,1 9 9 4 H e c k man,S p l i n e s mo o t h i n g i n a p a r t l y l i n e ar m o d e l,R S t a t i s t S o c B,4 8(1 9 8 6),2 4 4 2 4 8 E u b a n k and T h o ma s,D e t e c t i n g h e t e r o s c e d ast i c i t y i n n o n p a r a me t r i c r e gre s s i o n,J R S t a t i s t S o c B,5 5(1 9 9 3),1 4 5-1 5 5 Eub an k R L ,S pl i n e Smo o t h i n g a n d No n p a r a me t r i c Re g r e s s i o n,Ne w Yo r k:De c k e r,1 9 8 8 S p e c k man,P ,K e r n e l s mo o t h i n g i n p art i al l i n e ar mo d e l s,R o y S t a t i s t S o e B,5 0(1 9 8 8),4 1 3-4 3 6 韦博成,加权非线性回归的 S c o r e检验及其局部影响分析,应用概率统计,1 1(2)(1 9 9 5),1 4 7 1 5 6 S t a t i s t i c a l Ana l y s i s o f H e t e r o s c e da s t i c i t y i n Se m i pa r a m e t r i c M od e l s RAN HAO ZHU ZHONGYI (De p a r t me n t o f S t a t i s t i c s,E a s t C h i n a No r m a l U n i v e r s i t y,S h a n g h a i,2 口 口 口 J 2)The a s s u m p t i o n o f h omo s c e d as t i c i t y i s c o mmon l y c on c e r n e d i n r e gr e s s i o n a na l ys i sI n p a r a me t r i c an d n o n p a r a me t r i c r e g r e s s i o n mo d e l s,t h e p r o b l e m o f t e s t i n g o f h e t e r o s c e d ast i c i t y wa s d i s c u s s e d b y Co o k we s i b e r g (1 9 8 3),E u b ankT h o mas(1 9 9 3)and We i(1 9 9 5)I n t h i s p a p e r,t h e t e s t i n g o f h e t e r o s c e d ast i c i t y i s r e s e arc h e d f o r s e mi p ar a m e t r i c r e gr e s s i on mo de 1 Th e s c o r e t e s t i s o b t a i ne d t o t e s t h ypo t h e s i s o f ho m o s c e d as t i c i t y an d t he asy mp t o t i c c h i s q u are d p r o p e r t y u n d e r t h e n u l l h y p o t h e s i s i s p r o v e d S i mu l a t i o n s a r e d o n e an d we i l l u s t r a t e o u r t e s t me t h o d s b y u s i n g t h e mo u t h w ash d a t a(S p e c k man,P (1 9 8 8)维普资讯 http:/