贝叶斯统计推断及其主要进展_王佐仁.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《贝叶斯统计推断及其主要进展_王佐仁.pdf》由会员分享,可在线阅读,更多相关《贝叶斯统计推断及其主要进展_王佐仁.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、书书书第 卷第 期 统 计 与 信 息 论 坛 年 月 ,【统计理论与方法】贝叶斯统计推断及其主要进展王佐仁,杨琳(西安财经学院 统计学院,陕西 西安 )摘要:贝叶斯统计推断作为现代统计分析方法的重要内容,对于统计学理论的发展具有里程碑的作用。深入总结其研究的主要进展,具有重要的现实意义。在查阅国内外重要学术研究资料的基础上,从贝叶斯统计推断的思想、与古典统计的研究思路比较和贝叶斯统计推断研究的主要进展三个方面作了综述与介绍,力图达到认识贝叶斯统计推断及其研究现状的目的。关键词:共轭分布;先验分布;后验分布;贝叶斯决策中图分类号:文献标志码:文章编号:()收稿日期:;修复日期:作者简介:王佐仁
2、,男,陕西乾县人,教授,研究方向:抽样技术,统计模型及其应用;杨琳,女,山西平遥人,硕士生,研究方向:统计模型及其应用。一、引言贝叶斯统计推断方法起源于 年的一篇论文 机遇理论中一个问题的解。年,拉普拉斯把贝叶斯思想以贝叶斯定理的形式介绍给世人,从此,关于贝叶斯统计推断方法的研究成果成倍增长,直到现在,已公开发表了数千篇的学术论文和近百部著作和专业书籍。研究成果涉及到理论研究和方法应用研究,包括共轭分布族、先验分布、后验分布、统计计算、估计与检验、基于模型的推断方法、贝叶斯风险决策等,几乎所有古典统计的研究内容都有贝叶斯相应的理论与方法,包括估计与检验、广义线性模型、多层建模、缺失数据、非参数
3、统计和函数估计、顺序数据、模型推断与预测、可靠性和生存分析、序贯分析、信号处理、时间序列、实验设计、决策分析和决策论、空间统计等等。与古典统计一样,贝叶斯统计广泛应用在其它领域里,包括图方法和贝叶斯网络、图像处理、信息论、信号处理、生物科学、工程统计、地理和环境科学、信息技术、物理科学、卫生统计以及社会和经济科学等。以贝叶斯方法为基础的智能化、程式化的应用研究如火如荼,研究成果被编制成各种应用软件,成功地使用在自然科学领域和经济社会的各行各业中。国内外虽有关于贝叶斯统计的综述文献,但也是从某一方面的研究进行总结的。本文在参考这些综述文献和前人的研究成果基础上,力图阐明贝叶斯统计推断的思想及其与
4、古典统计研究思路的比较,较全面的总结贝叶斯统计推断的研究领域及其现状,达到深刻认识贝叶斯统计推断和研究现状的目的。二、关于贝叶斯统计推断思想贝叶斯统计推断方法的原创意义在于提出了主观概率或者先验分布的假设。贝叶斯定理以此假设为条件,在严密的柯尔莫哥洛夫概率公理体系下,以数学形式给出,其基本公式为:()()()()()其中()为先验概率,事件()为后验概率。由基本公式派生了连续型的分布密度形式和概率空间上的概率测度表示形式,又在此形式的基础上派生出带有参数变量的其他等等形式。基本公式只是数学结论,没有任何物理含义。先验概率()可以是主观概率,代表人们对于客观事物的认识,或者是实践经验的总结,同时
5、它也可以是客观概率,代表着客观事物的真实状况。此公式的可贵之处在于前者,主观认识的先验概率()可能与真实状况相差甚远,但是,通过事件的发生(信息的提供)对先验概率()进行修正,得到的后验概率()可能会缩小与真实状况之间的差距。在基本公式的基础上,又可以通过事件的发生(信息的再次提供)对先验概率再修正。如果让()(),又有()()。表示提供两次信息后的结果。这种做法可以继续下去,也有()()等等。这些公式说明,贝叶斯思想遵循人类认识世界的普遍规律。从人们对客观世界的主观认识()出发,通过实践(获得信息)、认识(得到后验概率()、再实践(又获得信息)、再认识(又得到后验概率()的过程,达到深刻认识
6、客观事物的目的。先验概率(信息)是认识过程中的一个动态结果,具有累积效应,在确定的时空上,它可以是静态的,随着时空的演化,它可以不断地增加。这种不断的累积作为先验概率(信息)的丰富和完善,使得后验概率(分布)更接近客观实际,因而有着重要的理论与实践意义。它突破了根据大量信息进行推断的传统的统计思想,拓宽了现代统计学视野。三、贝叶斯学派与古典统计学派的研究思路比较贝叶斯理论和方法的 研究 诞 生 了贝叶 斯学派,之前的统计学奠基人费歇尔体系下的统计理论与方法研究称为古典统计学派。两者在研究方法上存在着明显的差异,集中表现在以下两个方面:一是对概率的解释不同。古典统计学派认为概率必须符合科学的要求
7、,可以用大量重复试验的频率去解释。贝叶斯学派认为可以根据对此事件的了解和积累的经验作出关于此事件发生可能性的判断,概率是认识主体对事件出现可能性大小的相信程度,不依赖于实验能否重复。二是在进行统计推断时使用的信息不同。古典统计学派依据两类信息:一类是样本信息。样本是来自于具有一定概率分布的总体,而总体中的参数是普通的未知变量,这是制定统计方法的基础。另一类是数据信息,即观察或试验的结果。费歇尔把统计学的任务概括为三个问题:选定模型、确定统计量和统计量的分布。根据费歇尔的观点,信息量包含在样本中,但样本为数众多,因此须用少数几个统计量把信息集中起来,而抽样分布则决定了统计量的全部性质。贝叶斯学派
8、引进了先验分布和先验信息(先验信息主要来源于经验和历史资料,反映了试验前对总体参数分布的认识),其理论与方法的研究基于样本信息和先验信息,贝叶斯定理中的后验分布是把先验信息和样本信息综合后得到的。同古典统计一样,贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法。普遍的观点认为,一个完全的贝叶斯分析包括数据分析、概率模型的构造、先验信息和效应函数的假设以及最后的决策。由于两个学派研究方法的不同,因而产生的基础理论和方法也不同。在估计理论方面,贝叶斯学派点估计的总体分布为后验分布,而古典统计学派则不然。极大似然估计都作为最重要的估计方法被采用,但古典中的极大似然估计是贝叶斯中
9、的最大后验估计的特殊情况。在取得合理的先验信息时,贝叶斯统计可以利用更多的信息达到更好的估计效果,特别是在小样本的情况下,点估计和区间估计可以有比古典统计更加优良的结果。在假设检验方面:遵循奈曼皮尔逊的一般检验原则,古典统计根据样本信息,依据小概率事件是否发生作为假设真伪的判别标准;在贝叶斯统计中,先验信息直接影响着检验标准,检验标准是根据后验分布设定的,是先验信息的随机函数。在样本信息给定的条件下,假设真伪性的判别依赖于先验信息,也就是说,得出原假设的拒绝域依赖于先验信息,如果先验信息仅仅依赖参数,则真伪性的判别就取决于这个参数。由此可以得出,古典统计学派的统计推断是“从无到有”的过程,常常
10、在总体分布或许是一无所知,或是已知含有未知参数的总体分布族的情况下讨论,推断方法的使用效果依赖于所使用的统计量的针对性和实际问题与总体分布的相近性,在大样本情况下有较好的效果。贝叶斯统计推断则不然,它是一个“从有到有”的过程,遵循由浅入深、由表及里的认识论思想,完全符合人类认识世界普遍规律的一般方法。另外,从贝叶斯统计的研究结果看,它以不断从实践中获得知识和经验为出发点,将历史信息与样本信息结合在一起,形成一套比古典统计更加灵活、更加直观、更加易于理解的统计方法。虽然贝叶斯统计在很多方面比古典统计有明显优势,但是古典统计学派认为,贝叶斯统计仍然有许多本身存在的问题和缺陷。在理论方法的讨论上,先
11、验概率(分布)是贝叶斯方法的关键,如果先验分布已知(符合客观实际),问题已经清楚,无需用贝叶斯方法再研究;如果先验分布一无所知,先验分布的假定就纯粹是主观上的认识,其价值值得斟酌;如果先验分布的部分信息已知,符合这种部分信息的分布将是一个分布族,当这些部分信息不是样本信息时,依据后验分布进行的推断是否能保证其科学性。陈希孺院士也说,关于统计基础的问题,很难用几句话做出确切的表述,大体上可以说,它包括以下两个方面,一是在进行统计推断(及判决)时,应该和不应统计与信息论坛该使用那些知识或信息(如样本、损失、先验分布等),二是应该以怎样的方式去使用这些知识和信息。对于这些问题,贝叶斯学派的解释是,对
12、于研究的同一问题,我们获取样本信息都相同的情况下,几乎没有什么统计分析能够保证是客观的,或者是近似客观的,只有知道全部数据的概率结构时,才会得到明显的客观性,就在此时,贝叶斯统计也得出同样的结论。无疑,贝叶斯学派强调自己拓宽了研究视野,使得古典学派的研究成为自己研究的一部分。更多的是,以模型作为特性的描述对结论会产生重要的影响。实际上,在许多研究问题中,模型的选择对结论产生的影响比先验分布的选择要大得多。古典学派主张只使用样本信息,而且任何优良性的评价都必须在频率概率(即大量次数重复)的体系下,而贝叶斯学派则主张除样本信息外还必须考虑可以是纯主观的先验分布,并依据贝叶斯原则。四、贝叶斯统计研究
13、的主要进展贝叶斯统计推断方法的研究建立在数学理论的基础上。理论研究上,变量的取值从欧氏空间、度量空间、拓扑空间到更广义的仿射空间,概率空间的概率测度选择也突破了勒贝格测度的局限。方法研究上,紧密结合现代信息技术,也尽可能的选择古典统计的方法体系。(一)共轭先验分布族的研究关于贝叶斯理论的先验分布和后验分布的概率结构是长期探讨的问题,符合柯尔莫哥洛夫概率公理体系的共轭分布族还在不断地分类中。在分布族的密度函数首先规定了似然核结构的概念基础上,以勒贝格测度定义了自然共轭分布族,即具有似然核结构的分布族称为自然共轭分布族(和 的定义),一些学者(如 和 的定义)使用标准共轭分布族,这一类分布族的主要
14、特征之一是抽样的封闭性。从这个意义上说,标准共轭分布族中的先验分布通过贝叶斯理论的修正,可以得到仍属于该族的后验分布。在此定义下,对于熟知的分布已经有明确的结论,如对正态分布(,)而言,当已知,未知时,的共轭分布族为逆伽玛分布;当,未知时,参数的共轭分布族为正态 逆伽玛分布;均值向量已知,协方差阵的逆未知时,协方差阵的逆的共轭分布族为逆维希特分布;均值向量、协方差阵的逆均未知时,参数的共轭分布族为正态 逆维希特分布。然而,抽样的封闭性并不是标准共轭族的充分条件,因为对任何密度函数,就某种测度(尤其是勒贝格测度)而言,具有似然结构(未必是似然核结构)的分布族都会在抽样中是封闭的。尽管如此,抽样中
15、的封闭性常被视为定义共轭族的条件。和 提出先验分布族带来的额外性质常被称为共轭,一个特殊但很重要的情况是指数族似然,他们发现关于正则参数的标准共轭族可以用均值参数的后验期望的线性性质来描述。这一结果促使一些学者再定义共轭,和 称任何先验分布族且服从于后验线性性质的族为 共轭。然而,如 指出的,尽管这种共轭定义说明了共轭族的性质,但对于一些指数族的似然性,共轭族并不符合在实际使用中代表性的共轭族,如,考虑方差协方差矩阵已知的多元正态分布的均值的标准共轭分布族。这是由多元正态分布密度以方差协方差矩阵给出的,它与成比例,这类典型的常用共轭族适用于任意方差协方差矩阵。而且,对于一些指数族,例如均值和方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯 统计 推断 及其 主要 进展 王佐仁
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内