第三章贝叶斯估计优秀课件.ppt

上传人：石***

文档编号：91240886

上传时间：2023-05-24

格式：PPT

页数：50

大小：2.22MB

( 4.5 )

《第三章贝叶斯估计优秀课件.ppt》由会员分享，可在线阅读，更多相关《第三章贝叶斯估计优秀课件.ppt（50页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、第三章贝叶斯估计1第1页，本讲稿共50页3先验信息，即在抽样之前有关统计推断的一些信息。譬如，在估计某产品的不合格率时，假如工厂保存了过去抽检这种产品质量的资料，这些资料（包括历史数据）有时估计该产品的不合格率是有好处的。这些资料所提供的信息就是一种先验信息。又如某工程师根据自己多年积累的经验对正在设计的某种彩电的平均寿命所提供的估计也是一种先验信息。由于这种信息是在“试验之前”就已有的，故称为先验信息。以前所讨论的点估计只使用前两种信息，没有使用先验信息。假如能把收集到的先验信息也利用起来，那对我们进行统计推断是有好处的。只用前两种信息的统计学称为经典统计学，三种信息都用的统计学称为贝叶斯统

2、计学。本节将简要介绍贝叶斯统计学中的点估计方法。2第2页，本讲稿共50页二、贝叶斯公式的密度函数形式贝叶斯统计学的基础是著名的贝叶斯公式，它是英国学者贝叶斯（T.R.Bayes17021761）在他死后二年发表的一篇论文论归纳推理的一种方法中提出的。经过二百年的研究与应用，贝叶斯的统计思想得到很大的发展，形成一个统计学派贝叶斯学派。为了纪念他，英国历史最悠久的统计杂志Biometrika在1958年又全文刊登贝叶斯的这篇论文。初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。下面结合贝叶斯统计学的基本观点来引出其密度函数形式。贝叶斯统计学

3、的基本观点可以用下面三个观点归纳出来。3第3页，本讲稿共50页假设随机变量X有一个密度函数p（x；），其中是一个参数，不同的对应不同的密度函数，故从贝叶斯观点看，p（x；）在给定后是个条件密度函数，因此记为p（x）更恰当一些。这个条件密度能提供我们的有关的信息就是总体信息。假设当给定后，从总体p（x）中随机抽取一个样本X1，Xn，该样本中含有的有关信息。这种信息就是样本信息。假设我们对参数已经积累了很多资料，经过分析、整理和加工，可以获得一些有关的有用信息，这种信息就是先验信息。参数不是永远固定在一个值上，而是一个事先不能确定的量。4第4页，本讲稿共50页从贝叶斯观点来看，未知参数是一个随机变

4、量。描述这个随机变量的分布可从先验信息中归纳出来，这个分布称为先验分布，其密度函数用（）表示。1先验分布定义3.1将总体中的未知参数看成一取值于的随机变量，它有一概率分布，记为（），称为参数的先验分布。2后验分布在贝叶斯统计学中，把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本X1，Xn，和参数的联合密度函数 5第5页，本讲稿共50页在这个联合密度函数中。当样本给定之后，未知的仅是参数了，我们关心的是样本给定后，的条件密度函数，依据密度的计算公式，容易获得这个条件密度函数这就是贝叶斯公式的密度函数形式，称为的后验密度函数，或后验分布。而6第6页，本讲稿共50页是样本的边际分布，

5、或称样本的无条件分布，它的积分区域就是参数的取值范围，随具体情况而定。前面的分析总结如下：人们根据先验信息对参数已有一个认识，这个认识就是先验分布（）。通过试验，获得样本。从而对的先验分布进行调整，调整的方法就是使用上面的贝叶斯公式，调整的结果就是后验分布。后验分布是三种信息的综合。获得后验分布使人们对的认识又前进一步，可看出，获得样本的的效果是把我们对的认识由（）调整到。所以对的统计推断就应建立在后验分布的基础上。7第7页，本讲稿共50页例1设事件A的概率为，即。为了估计而作n次独立观察，其中事件A出现次数为X，则有X服从二项分布即如果此时我们对事件A的发生没有任何了解，对的大小也没有任何

6、信息。在这种情况下，贝叶斯建议用区间（0，1）上的均匀分布作为的先验分布。因为它在（0，1）上每一点都是机会均等的。这个建议被后人称为贝叶斯假设。8第8页，本讲稿共50页此式在定义域上与二项分布有区别。再计算X的边际密度为样本X与参数的联合分布为即9第9页，本讲稿共50页拉普拉斯计算过这个概率,研究男婴的诞生比例是否大于0.5?如抽了251527个男婴,女婴241945个贝叶斯统计学首先要想方设法先去寻求的先验分布。先验分布的确定大致可分以下几步：第一步，选一个适应面较广的分布族作先验分布族，使它在数学处理上方便一些，这里我们选用分布族10第10页，本讲稿共50页注：作为的先验分布族是恰当的，

7、从以下几方面考虑：1参数是废品率，它仅在（0，1）上取值。因此，必需用区间（0，1）上的一个分布去拟合先验信息。分布正是这样一个分布。2分布含有两个参数a与b，不同的a与b就对应不同的先验分布，因此这种分布的适应面较大。11第11页，本讲稿共50页3样本X的分布为二项分布b（n，）时，假如的先验分布为分布，则用贝叶斯估计算得的后验分布仍然是分布，只是其中的参数不同。这样的先验分布（分布）称为参数的共轭先验分布。选择共轭先验分布在处理数学问题上带来不少方便。4国内外不少人使用分布获得成功。第二步，根据先验信息在先验分布族中选一个分布作为先验分布，使它与先验信息符合较好。利用的先验信息去确定分布中

8、的两个参数a与b。从文献来看，确定a与b的方法很多。例如，如果能从先验信息中较为准确地算得先验平均和先验方差，则可令其分别等于分布的期望与方差最后解出a与b。12第12页，本讲稿共50页如果从先验信息获得则可解得a=3，b=12这意味着的先验分布是参数a=3，b=12的分布。假如我们能从先验信息中较为准确地把握的两个分位数，如确定确定的10分位数0。1和50的中位数0。5，那可以通过如下两个方程来确定a与b。13第13页，本讲稿共50页假如的信息较为丰富，譬如对此产品经常进行抽样检查，每次都对废品率作出一个估计，把这些估计值看作的一些观察值，再经过整理，可用一个分布去拟合它。假如关于的信息较少

9、，甚至没有什么有用的先验信息，那可以用区间（0，1）上的均匀分布（a=b=1情况）。用均匀分布意味着我们对的各种取值是“同等对待的”，是“机会均等的”。14第14页，本讲稿共50页贝叶斯本人认为，当你对参数的认识除了在有限区间（c，d）之外，其它毫无所知时，就可用区间（c，d）上的均匀分布作为的先验分布。这个看法被后人称之为“贝叶斯假设”。确定了先验分布后，就可计算出后验分布，过程如下：x=0，1，n，01于是X的边际分布为15第15页，本讲稿共50页最后在给出X=x的条件下，的后验密度为显然这个后验分布仍然是分布，它的两个参数分别是a+x和b+n-x。我们选后验期望作为的贝叶斯估计，则的贝叶

10、斯估计为与前面的极大似然估计是不同的。16第16页，本讲稿共50页如果用（0，1）上的均匀作为的先验分布，则的贝叶斯估计为计算如下：后验分布为17第17页，本讲稿共50页三、常用的一些共轭先验分布对于一些常用的指数分布族，如果仅对其中的参数感兴趣，下表列出了它们的共轭先验分布及后验期望。分布共轭先验分布后验分布正态分布正态分布二项分布分布 Poisson分布分布（a，b）18第18页，本讲稿共50页EX1 设是一批产品的不合格率，已知它不是0.1就是0.2，且其先验分布为（0.1）=0.7,（0.2）=0.3假如从这批产品中随机取8个进行检查，发现有2个不合格，求

11、的后验分布。解：19第19页，本讲稿共50页EX2 设一卷磁带上的缺陷数服从泊松分布P（）其中可取1.0和1.5中的一个,又设的先验分布为（1.0）=0.4（1.5）=0.6假如检查一卷磁带发现了3个缺陷，求的后验分布。20第20页，本讲稿共50页四、贝叶斯推断（估计）条件方法由于未知参数的后验分布是集三种信息（总体、样本和先验）于一身，它包含了所有可供利用的信息。故有关的参数估计和假设检验等统计推断都按一定方式从后验分布提取信息，其提取方法与经典统计推断相比要简单明确得多。基于后验分布的统计推断就意味着只考虑已出现的数据（样本观察值）而认为未出现的数据与推断无关，这一重要的观点被称为“条件观

12、点”，基于这种观点提出的统计方法被称为条件方法。21第21页，本讲稿共50页例如经典统计学认为参数的无偏估计应满足：其中平均是对样本空间中所有可能出现的样本而求的，可实际中样本空间中绝大多数样本尚未出现过，而多数从未出现的样本也要参与平均是实际工作者难以理解的。故在贝叶斯推断中不用无偏性，而条件方法是容易被实际工作者理解和接受的。22第22页，本讲稿共50页估计1.贝叶斯估计定义3.2 使后验密度达到最大的值称为最大后验估计；后验分布的中位数称为后验中位数估计；后验分布的期望值称为的后验期望值估计，这三个估计都称为贝叶斯估计，记为。例1 为估计不合格率，今从一批产品中随机抽取n件，

13、其中不合格品数X服从，一般选取为的先验分布，设已知，由共轭先验分布可知，的后验分布为可计算得：23第23页，本讲稿共50页选用贝叶斯假设，则第一、在二项分布时，的最大后验估计就是经典统计中的极大似然估计，即的极大似然估计就是取特定的先验分布下的贝叶斯估计。第二、的后验期望值估计要比最大后验估计更合适一些。第三、的后验期望值估计要比最大后验估计更合适一些。表2.1列出四个实验结果,在试验1与试验2中,“抽检3个产品没有一件不合格”与抽检10个产品没有一件是不合格”这两件事在人们心目中留下的印象是不同的。后者的质量要比前者的质量更信得过。24第24页，本讲稿共50页试验号样本量n不合

14、格数x1 3 0 0 0.2002 10 0 0 0.0833 3 3 1 0.8004 10 10 1 0.917表 3.1 不合格率的二种贝叶斯估计的比较25第25页，本讲稿共50页在试验3和试验4中，“抽检3个产品全部不合格”与抽检“10个产品全部不合格”也是有差别的。在实际中，人们经常选用后验期望估计作为贝叶斯估计。2.贝叶斯估计的误差设是的一个贝叶斯估计，在样本给定后，是一个数，在综合各种信息后，是按取值，所以评价一个贝叶斯估计的误差的最好而又简单的方式是用对的后验均方差或平方根来度量，定义如下：称为的后验均方差,而其平方根称为后验标准差.定义3.2设参数的后验分布为,贝叶斯估

15、计为,则的后验期望26第26页，本讲稿共50页当时,则,称为后验均方差.后验均方差与后验方差有如下关系:这表明,当时,可使后验均方差达到最小,实际中常取后验均值作为的贝叶斯估计值.27第27页，本讲稿共50页例2设一批产品的不合格率为,检查是一个一个进行,直到发现第一个不合格品为止,若X为发现第一个不合格品时已检查的产品数,则X服从几何分布,其分布列为设的先验分布为,如今只获得一个样本观察值x=3,求的最大后验估计,后验期望估计,并计算它的误差.故联合分布为X=3的无条件概率为(利用全概率公式)28第28页，本讲稿共50页故或可看出,的最大后验估计的后验方差为29第29页，本讲稿共50

16、页3.区间估计(可信区间)对于区间估计问题,贝叶斯方法具有处理方便和含义清晰的优点,而经典方法求置信区间常受到批评.定义3.3参数的后验分布为,对给定的样本和概率,若存在这样的二个统计量与,使得则称区间为参数的可信水平为贝叶斯可信区间,或简称为的可信区间.而满足30第30页，本讲稿共50页的称为的(单侧)可信下限.满足的称为的(单侧)可信上限.这里的可信水平和可信区间与经典统计中的置信水平与置信区间虽是同类的概念,但两者还是有本质的差别,主要表现在下面二点:1.在条件方法下,对给定的样本和可信水平,通过后验分布可求得具体的可信区间,譬如,的可信水平为0.9的可信区间是,这时

17、我们可以写出31第31页，本讲稿共50页 2.在经典统计中寻求置信区间有时是困难的,因为它要设法构造一个枢轴量,使它的分布不含未知参数,这是一项技术性很强的工作.相比之下可信区间只要利用后验分布,不需要再去寻求另外的分布,可信区间的寻求要简单得多.例3 设是来自正态总体的一个样本观察值,其中已知,若正态均值的先验分布取为,其中与已知,则可求得的后验分布为,由此获得的可信区间32第32页，本讲稿共50页EX1 设随机变量X的密度函数为(1)假如的先验分布为U(0,1),求的后验分布.(2)假如的先验分布为求的后验分布及后验期望估计33第33页，本讲稿共50页3、2贝叶斯决策方法决

18、策就是对一件事作决定。它与推断的差别在于是否涉及后果。统计学家在作推断时是按统计理论进行的，但很少考虑结论在使用后的损失。可决策者在使用推断时必需与得失联系在一起，能带来利润的就会使用，使他遭受损失的就不会采用，度量得失的尺度就是损失函数。它是著名的统计学家A.Wald（19021950）在40年代引入的一个概念。从实际归纳出损失函数是决策的关键。贝叶斯决策：把损失函数加入贝叶斯推断就形成贝叶斯决策论，损失函数被称为贝叶斯统计中的第四种信息。34第34页，本讲稿共50页一、决策的基本概念 3 2 0 1 4 34 1 2例1 设甲乙二人进行一种游戏，甲手中有三张牌，分别标以。乙手中也有三张牌，

19、分别标以。游戏的规则是双方各自独立的出牌，按下表计算甲的得分与乙的得分。35第35页，本讲稿共50页这是一个典型的双人博弈（赌博）问题。不少实际问题可归纳为双人博弈问题。把上例中的乙方改为自然或社会，就形成人与自然（或社会）的博弈问题。例2 农作物有两个品种：产量高但抗旱能力弱的品种和抗旱能力强但产量低的品种。在明年雨量不知的情况下，农民应该选播哪个品种可使每亩平均收益最大？这是人与自然界的博弈。以明年60mm雨量为界来区分雨量充足和雨量不充足。写出收益矩阵（单位：元）1000 200100 40036第36页，本讲稿共50页例3 一位投资者有一笔资金要投资，有以下几个投资供他选择：购买股

20、票，根据市场情况，可净赚5000元，但可能使他亏损10000元存入银行，不管市场情况如何总可净赚1000元这位投资者在金融市场博弈。未来的金融市场也有两种情况：看涨与看跌可写出投资者的收益矩阵5000 1000-10000 1000投资者将依据收益矩阵决定他的资金投向何方这种人与自然（或社会）的博弈问题称为决策问题37第37页，本讲稿共50页二、决策的三要素1 状态集，其中每个元素表示自然界（或社会）可能出现的一种状态，所有可能状态的全体组成状态集。2 行动集，其中a表示人对自然界可能采取的一个行动一般行动集有两个以上的行动可供选择。若有两个行动无论对自然界的哪一个状态出现，总比收益

21、高，则就没有存在的必要，可把它从行动集中去掉，使留在行动集中的行动总有可取之处。38第38页，本讲稿共50页3 收益函数，函数值表示当自然界处于状态，而人们选取行动时所得到的收益大小。收益函数的值可正可负，若正表示盈利，负表示亏损，单位常用货币单位，收益函数的建立不是件容易的事，要对所研究的问题有全面的了解才能建立起来。收益矩阵39第39页，本讲稿共50页三、损失函数1、从收益到损失为了统一处理，在决策中常用一个更为有效的概念：损失函数。在状态集和行动集都为有限时用损失矩阵。这里的损失函数不是负的收益，也不是亏损。例如，某商店一个月的经营收益为1000元，即亏1000元。这是对成本而言。

22、我们不能称为损失，而称其为亏损。我们讲的损失是指“该赚而没有赚到的钱”，例如该店本可以赚2000元，当由于某种原因亏了1000元，那我们说该店损失了3000元。用这种观点认识损失对提高决策意识是有好处的。按上述观点从收益函数可以很容易获得损失函数。40第40页，本讲稿共50页例4 某公司购进某种货物可分大批、中批和小批三种行动，记为，未来市场需求量可分为高、中、低三种状态，记为，三个行动在不同的市场的利润如下这是一个收益矩阵，我们把它改写为损失矩阵如下：41第41页，本讲稿共50页2、损失函数构成决策问题的三要素：由收益函数容易获得损失函数例5 某公司购进一批货物投放市场，若购进数量a低于市场

23、需求量，每吨可赚15万元。若购进数量超过市场需求量，超过部分每吨反要亏损35万元。由此可写出收益函数42第42页，本讲稿共50页显然，当购进数量a等于市场需求量时，收益达到最大43第43页，本讲稿共50页3、损失函数下的悲观准则第一步，对每个行动a选出最大损失值，记为第二步，在所有选出的最大损失中再选出最小者，则满足则称为悲观准则下的最优行动，这是一种保守策略，不求零损失，但愿少损失例4幻灯片 41在悲观准则下，第一步的最大损失值依次为3.7，4，8第二步，在上面三个最大损失值中最小值为3.7，对应的行动为44第44页，本讲稿共50页4、常用损失函数（1）平方损失函数这是在统计决策中用得

24、最多的损失函数（2）线性损失函数（3）01损失函数（4）多元二次损失函数45第45页，本讲稿共50页四、贝叶斯决策问题先验信息和抽样信息都用的决策问题称为贝叶斯决策问题。若以下条件已知，则我们认为一个贝叶斯决策问题给定了。（4）定义在的二元函数称为损失函数46第46页，本讲稿共50页1、后验风险函数我们把损失函数对后验分布的期望称为后验风险，记为，即后验风险就是用后验分布计算的平均损失 47第47页，本讲稿共50页2、决策函数定义在给定的贝叶斯决策问题中，从样本空间到行动集A上的一个映照称为该决策问题的一个决策函数，表示所有样本空间从到A上的决策函数组成的类称为决策函数类。在贝叶斯决策中我们面临的是决策函数类D，要在D中选择决策函数，使其风险最小48第48页，本讲稿共50页3、后验风险准则定义在给定的贝叶斯决策问题中是其决策函数称为决策函数的后验风险。假如在决策函数中存在这样的决策函数，它在D中有最小的风险，即则称为后验风险准则下的最优决策函数，或称贝叶斯决策，或贝叶斯解49第49页，本讲稿共50页4、平方损失函数下的贝叶斯估计定理在平方损失函数下，的贝叶斯估计为后验均值，即在平方损失函数下，任何一个决策函数的后验风险为0.50第50页，本讲稿共50页

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

18 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第三章贝叶斯估计优秀课件

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：第三章贝叶斯估计优秀课件.ppt
链接地址：https://www.taowenge.com/p-91240886.html