欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    广义线性模型_三_.pdf

    • 资源ID:69622972       资源大小:419.98KB        全文页数:7页
    • 资源格式: PDF        下载积分:15金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要15金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    广义线性模型_三_.pdf

    文章编号:10021566(2003)01005107广义线性模型(三)陈希孺(中国科学院研究生院,北京 100039)摘 要:本讲座是广义线性模型这个题目的一个比较系统的介绍。主要分3部分:建模、统计分析与模型选择和诊断。写作时依据的主要参考资料是L.Fahrmeir等人的 Multivariate StatisticalModeling Based on Generalized Linear Models。关键词:广义线性模型;建模;统计分析;模型选择和诊断中图分类号:O212文献标识码:AGeneralized linear modelsCHEN Xi2ru(Graduate School of Chinese Academia of Science,Beijing 100039,China)Abstract:This set of articles gives an introduction to generalized linear models.They can be divided into three parts:Model building,Statistical inference and Model diagnostics.The presentation is mainly based on L.Fahrmeir et al.Multivariate Statistical Modeling Based on Generalized Linear Models.Key words:generalized linear models;model building;statistical inference;model diagnostics(四)状态有序的情况在旅行交通工具的例中,火车、汽车、轮船、飞机等状态,可以认为是“无序”的。一则因为对其优劣次序的看法因人而异,二则即使同一个人,在不同情况下的排序也不同。在有些问题中,目标状态有公认的优劣次序,如病情分1、2、3期,产品品质分1、2、3和等外等等级,都是公认的由好到不好的次序。注意:即使在这种场合,其序号(1,2,)也无数量意义。例1.7呼吸测验:目标Y分3状态:正常、边缘、不正常。自变量2个:年龄,分 40和40-59两级,吸烟史:分“从不吸烟”、“以前级”、“现在吸”3级,数据:例1.8找工作前景的调查调查某大学心理系即将毕业的学生对照工作前景的预期反应分3种:1.不预期能找到合适工作。2.不清楚。3.预期毕业后可立即找到工作。数据:年龄吸烟史结果(人数)正常边缘 不正常40从不吸577277以前吸192203现在吸682461140-59从不吸16440以前吸145157现在吸2454727 大多数有序模型是按下述机制产生:有一个(或几个,此处只考虑一个的情形)明显或潜在的变量U及门限-=01k-1k=,而定Y=r,当且仅当r-1 r|x)=r+x,logP(Yr|x)P(Y r|x)=er+x(1.74)由(1.74)推出:对两组不同的x值x1和x2,有P(Yr|x1)P(Y r|x1)P(Yr|x2)P(Y r|x2)=exp(x1-x2)(1.75)与r无关。若(x1-x2)0,则(1.75)右边 1,因此在x1之下Y取小值的概率。大于在x2之下Y取小值的概率。我们称Y|x1随机的小于Y|x2。反之,若(x1-x2)r|x)=1-F(r+x)=exp(-er+x)(1.76)因此log(-logP(Y r|x)=r+x(1.77)3.极大值分布模型F为极大值分布:F(t)=exp(-e-t),有P(Yr|x)=exp(-er+x)-log(-logP(Yr|x)=r+x(1.78)模型2和3在统计分析方法的角度看是等价的,事实上,若命?Y=(k+1)-Y,则由(1.78)知25中文核心期刊 数理统计与管理 22卷 1期 2003年1月 log(-logP(?Y k+1-r|x)=-r-x(1.79)令?j=-k+1-j,?=-,(1.79)成为log(-logP(?Y k+1-r|x)=?k+1-r+x?,r=1,2,即log(-logP(?Y r|x)=?r+x?(1.80)(1.80)与(1.77)完全一致。因此,把Y的数据转化为?Y,按模型2分析,得(1.77)中r、的估计r、,则模型(1.78)中的r和的估计分别为-k+1-r和-。这3个分布的图形如图三所示。图三看出在小值处,模型1、2接近,而在大值处则模型1、3接近。图中的虚线显示因-x而产生的分布位移,这种位移影响到取各序值概率的大小。积累线性模型的联系函数35广义线性模型(三)仍按前面的记号,记(j)=P(Y=j),j=1,q(q=k-1),=(1),(q)Z(x)=1z(0)(x)11z(0)(x),=1q(1.81)此处已把(1.71)改成较一般的形式U=-z(0)(x)+e(1.82)z(0)(x)由x产生,例如可包含x分量的某些平方项及交互乘积项(交互作用)等。找联系函数(q维)g,使满足g()=g1()gq()=Z(x)=1+z(0)(x)q+z(0)(x)(1.83)把(1.83)与(1.72)对照,注意到P(Yr|x)=(1)+(r),r=1,q(1.84)立即得到(注)gr()=F-1(1)+(r),r=1,q(1.85)由F(-1)(1)+(r)=r+z(0)(x),r=1,q 解出,以得到g的反函数h:(1)+(r)=F(r+z(0)(x),r=1,q(1.86)依次令r=1,2,得(注意到1=-,(1.87)中(r)公式对r=1也对)(1)=F(1+z(0)(x)(r)=F(r+z(0)(x)+F(r-1+z(0)(x),r=2,q,(1.87)注:在前面讨论过的模型中,联系函数有挑选余地。在此处则不然:满足(1.83)的g由模型定了下来(即(1.85),并无选择余地。因此,它可能是也可能不是自然联系函数,但模型中的分布F有挑选余地,故似可挑选之,使由(1.85)决定的g是自然联系函数。我们来看看是否有可能。如将多项分布的概率密度写出,记Y=(Y(1),Y(q)(回忆Y(1),Y(q)是哑变量),有P(Y=(y(1),y(q)=y)=c(y)y(1)(1)y(q)(q)(1-6q1(j)1-6q1y(j)=c(y)7qj=1(j)1-|)y(j)(1-|),|=6qj=1(j)令(j)=log(j)1-|,j=1,q则log(j)1-|=log(1+6qj=1e(j)b()=(1),(q),而P(Y=y)=c(y)exp(y-b()自然联系函数要满足=Z,在此例为log(j)1-|=j+z(0)(x),j=1,q45中文核心期刊 数理统计与管理 22卷 1期 2003年1月 故由(1.85)式下面的式子,知应用F-1(1)+(r)=log(r)1-|,r=1,q(A)因(A)式应对一切满足条件(j)0,6q1(j)1的(1),(q)成立,令r=1,(j)0,j2,有F-1(1)=log(1)/1-(1),即F-1(a)=loga1-a,对一切a:(0,1)。令a=(1)+(r),将有F-1(1)+(r)=log(1)+(q)1-(1)+(r)(B)(A)、(B)右边不一致,说明满足(A)的F不存在,即自然联系函数不存在。于是得g-1=h=(h1,hq),其中(1.88)中hr(t)公式对r=1也对)h1(t)=F(1+t),hr(t)=F(r+t)-F(r-1+t),r=2,q(1.88)而(=EY)=h(x),(x)=Z(x),Z(x)见(1.83)。此处的=EY中的Y已不是(1.84)中那个Y,而是已哑变量化,即Y=Y(1),Y(q),其中Y(j)=1当Y=j(Y为(1.84)中的Y),Y(j)=0当Yj。特别,对logisic模型,有F(t)=et/(1+et),而(1.88)成为h1(t)=e1+t/(1+e1+t),hr(t)=er+t1+e1+t-er-1+t1+er-1+t(1.89)r=2,q 现设有了样本(yi,xi),1in,其中Yi=(Y(1)i,Y(q)i),则(Y1,Yn)的概率密度为const.7ni=1(1)(xi)y(1)i(q)(xi)y(q)i(1-(1)(xi)-(q)(xi)1-6qj=1y(j)i=const.7ni=17qj=1 F(j+z(0)(xi)-F(j-1+z(0)(xi)y(j)i(1.90)7ni=11-F(q+z(0)(xi)1-6qj=1y(j)i 式中的const为一与1,r和都无关的常数。对1,r和作统计推断就基于(1.90),对logistic模型,(1.90)中的F(t)和et/(1+et)取代。设用某种方法,从(1.90)出发,得到了诸与的估计1,q和,而现在我们有了一个新样品并测出其x值为x0,因为P(样品之序值为j|x0)=F(j+z(0)(x0)-F(j-1+z(0)(x0)(1.91)利用诸与的估计值,可得(1.91)左边的一估计值:P(样品之序值为j|x0)=F(j+z(0)(x0)-F(j-1+z(0)(x0)j=1,q(0=-)(1.92)通常,样品的序号值为能或难于直接测定,而是根据其一些性质x(理化的、生物的等等)去判断。(1.92)提供了一种判定方法:即计算k个 p值,若 pj在其中最大,则判定该样品序值为j(如,产品为j等)。当然,为得到估计值1,q及,需要一些样本,对它们,不仅其x值已测定,其Y值(即样本的序值)也已测定。这似乎与上述“样品的序值不能直接测定而需要根据其x值去判断”的说法矛盾。事实是这样的:必须对这些样本作细致的工作(比如用更精密的和成本更高的手段)并由经验丰富的人去判断,这些经过仔细的样本称为训练样本55广义线性模型(三)(training sample)。在许多情况下,诸值作为划分序级的门限,是事先已知而无须估计的(如考试成绩定级的界限)。这时它们无须估计,而(1.90)中需要估计的只是,在另一些情况下,值可能未知,如在工农产品收购中,收购人员根据外形观察等“模糊的”定一个级,心目中未见得有一个明确的值在,但值可以在理论上认为它是潜在的,因而也需要估计。在这个场合有一个实际问题,即1,q必须满足12q(1.93)而其估计结果1,q可能与(1.93)不一致,或者,尤其当某些值很接近时(例如3只比2大一点点),在计算上可能出现困难。下面的做法可以解决这个问题。引进新参数1=1,r=log(r-r-1),r=2,q(1.94)则1=1,r=1+6qj=2ej,r=2,q(1.95)这时1,q不受限制地取Rq中之值,以之取代(1.90)中的1,q,(1.93)变成1,q与的函数。得出1,q的估计值后,由(1.95)得诸的估计值,它们必然满足约束(1.93)。这个做法有一点需要注意之处:为了在新参数下仍保持一种线性形式,需要对联系函数作适当修改:在旧参数(诸,)之下,我们使用的联系函数是(1.85),如果在新参数(诸,)之下仍使用(1.85),将有gr()=F-1(1)+(r)=r+x=1+6rj=2ej+x(1.96)并非(诸,)的线性函数,但由(1.96),得log(F-1(6rj=1(j)-F-1(r-1j=1(j)=r+0,r=2,q(1.97)log(F-1(1)=1+z0(x)(1.98)由(1.97)(1.98)看出,现在应取联系函数g=(g1,gq),其中g1()=log(F-1(1)gr()=log(F-1(6rj=1(j)-F-1(6r-1j=1(j),r=2,q(1.99)而Z(x),由(1.81)修改为Z(x)=1z(0)(x)1010,=1q(1.100)按一般的指数型表述,Y的概率函数为c(y)exp(y-b()。如果是自然联系函数,则=Z(x),又b()见(1.55)。由此可写出本模型下概率函数表达式的简洁形式:7ni=1c(yi).exp6ni=1yiZ(xi)-6ni=1log(1+6qj=1eZj(xi)(1.101)其中Zj(xi),是Z(xi)的第j行,但此处这样做是错误的。因前已指出,在此处不存在自65中文核心期刊 数理统计与管理 22卷 1期 2003年1月 然联系函数,前面(1.90)式是直接从多项分布出发,当然没问题。得出诸,的估计后,按由(1.97)(1.98)得出的公式(1)=F(e1+z(0)(x),(r)=F(F-1(6rj=1(j)+er)-6r-1j=1(j),j=2,q(1.102)(k)=1-6qj=1(j)(诸式中的(j)理解为(j)(x)去依次定(r)并以j代j,代,以得出(r)的估计(r)。对logistic模型,有F-1(t)=logt1-t,因此(1)(x)=exp(exp(1+z(0)(x)/1+exp(exp(1+z(0)(x)(r)(x)=eTr1+eTr-6r-1j=1(j)(x),Tr=6r-1j=1(j)(x)1-6r-1j=1(j)(x)+er,r2(1.103)参考文献1 L.Fahrmeir.Multivariate Statistical Modeling Based on Generalized Linear Models M.New York,Springer-Verlag,1994.2McCullagh.Generalized Linear ModelsM.London/New York,Chapman&Hill,1989 2ndedition.3L.Fahrmeir.Consistency and asymptotic normality of the maximum likelihood estimator in generalized linearmodelsJ.Ann.Statist,1985,342368.上接第32页我国股市经过多年的发展,虽然已经取得了长足的进步,但是规模还是比较小的。特别是与美国股市等发达国家的股市相比规模有限。具体到股市中某一支股票的交易量就更显得很小了。而我国沪市的综合指数包括市场中所有的股票,在一些交易量较小的股票的影响下,沪市的周末效应很容易受到削弱。这也可以认为是沪市周末效应并不是十分典型的一个原因。参考文献1Edward A.Dyl and Stanley A.Martin Weekend Effects on Stock ReturnsJ :A Comment The Journal of Fi2nance Vol.XL,NO.1 March 1985.2Gabriel Hawawini and Donald B.Keim On the Predictability of Common Stock Returns:World-Wide Evi2dence R.Jarrow et al.,Eds.,Handbooks in OR&MS,Vol 9?1995 Elsevier Science B.V.All rights re2served.3Jeffrey Jaffe and Randolph WesterfieldJ The Week-End Effect in Common Stock Returns:The Interna2tional Evidence The Journal of Finance Vol.XL,NO.2 June 1985.4Josef Lakonishok and Maurice LeviJ Weekend Effects on Stock Returns:A Re ply The Journal of FinanceVol.XL,NO.1 March 1985.5 俞乔“市场有效、周期异常与股价波动”J 经济研究,1994.9.5 徐剑刚 上海和深圳股市股票报酬的条件异方差和周末效应J 统计研究1995年第6期(总第68期)75广义线性模型(三)

    注意事项

    本文(广义线性模型_三_.pdf)为本站会员(qwe****56)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开