《第八章-序贯决策分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《第八章-序贯决策分析ppt课件.ppt(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章 序贯决策分析广西大学数学与信息科学学院运筹管理系8.1多阶段决策8.1.1多阶段决策问题 决策过程比较复杂;需要将过程分为若干个相互联系的阶段,分别对每阶段都做出决策;各阶段的决策结果前后相互衔接,彼此相互关联,前阶段决策结果影响后阶段决策目标,后阶段决策状态又依赖于前阶段状态设置;各个阶段决策形成一个完整的决策过程(序列);8.1多阶段决策8.1.1多阶段决策问题 决策者关心的是整个决策过程的总体效应,而不单是各阶段的决策结果。总之,若一个决策问题需要经过相互衔接、相互关联的若干阶段决策才能完成,则自然称之为多阶段决策。8.1多阶段决策8.1.2多阶段决策方法及其应用实例多阶段决策分
2、析的步骤适当地划分阶段;确定各阶段的状态变量,寻找各阶段之间的联系;从后到前用逆序归纳法进行决策分析,每一阶段决策可采用各种单阶段决策方法。主要方法是决策树方法和动态规划方法。8.1多阶段决策例8.1 某企业考虑是否花费1万元购买某新产品专利。若购买了专利,可进行大批生产(a1)、中批生产(a2)或小批生产(a3),可能出现的市场销售情况也分为畅销(1)、一般(2)和滞销(3)三种。其收益(利润,万元)矩阵如下表:状态状态 PP()112233aa110.60.6442233aa220.30.3333322aa330.10.1111111例8.1为了更正确地掌握市场情况,正式投产公司打算先生产
3、少量产品试销,试销费需要5000元。试销结果分为产品受欢迎(H1),一般(H2)和不受欢迎(H3)三种。由于试销面不宽,试销结果的准确性有限。其准确度(似然分布矩阵)见下表:PP()PP(HH11)PP(HH22)PP(HH33)110.60.60.60.60.30.30.10.1220.30.30.20.20.60.60.20.2330.10.10.20.20.30.30.50.5例8.1如不买此项专利,把这笔费用用在其他方面,在同样的时期可获利1.1万元。那么,该公司应该如何决策?(1)是否买专利?(2)如果买专利,是否采取试销办法?(3)如果不试销,应大批生产,中批生产还是小批生产?如果
4、试销,又应该如何根据试销结果决定其行动?第一阶段127买专利不买专利试销不试销3456H1H2H38910a1a2a3123(略)第二阶段 第三阶段例8.1例8.1解:这是一个三阶段决策问题,采用逆序归纳法进行决策分析,先要计算在一定的试销结果下的各后验概率。由全概率公式:计算得:例8.1再由贝叶斯公式:计算得:例8.1v当试销结果为 H1时:故当试销结果为 H1时,应选择大批生产a1,截去方案a2、a3,结点4的值为3.406万元。-结点8-结点9-结点10例8.1v当试销结果为 H2时:故当试销结果为 H2时,应选择中批生产a2,截去方案a1、a3,结点5的值为2.62万元。例8.1v当试
5、销结果为 H3时:故当试销结果为 H3时,也应选择中批生产a2,截去方案a1、a3,结点6的值为1.53万元。例8.1v试销收益期望值:故当不试销时,应选择大批生产a1,截去方案a2、a3,结点7的值为2.7万元。v不试销的收益期望值:-结点3例8.1决策:(1)购买专利;(2)不试销;(3)大批生产a2。v v购买专利总期望收益2.711.7万元,大于不买技术的收益1.1万元,截去不买专利方案,结点1的值为1.7万元。v试销收益期望值扣除试销费用5000元后小于不试销的收益值,截去试销方案,结点2的值为2.7万元。第一阶段127买专利不买专利试销不试销3456H10.44H2 0.39H3
6、0.178910a1a2a30.8180.1360.046(略)第二阶段 第三阶段例8.14万元2万元3万元1.1万元3.406万2.77万1万3.406万2.62万1.53万2.78054万-0.5万2.7万2.7万-1万1.7万8.1多阶段决策有一类多阶段决策问题,在进行决策后又产生一些新情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策,就构成一个序列,这就是序列决策。特点:决策次数事前并不明确,决策阶段划分次数依赖于决策过程中出现的特殊状况。仍可用决策树法解这类问题,关键是:确定一个决策序列终止的原则。【例8.2】某厂家的产品装箱出厂,每箱有产品10
7、00件,产品的次品率有0.01,0.40,0.90三种可能,相应概率分别为 0.2,0.6,0.2。有两种产品检验方案:整箱检验(a1),检验费100元;不作整箱检验(a),在销售中若顾客发现次品,允许调换并赔偿,每件损失0.25元。【例8.2】为了更好地选择检验方案,可先从任意一箱中随机地抽取一件产品作为样品。第一次抽样后,可继续进行第二次、第三次等若干次抽样,每次抽样成本均为4.2元,样本容量均为1。试进行序列决策:(1)是否需要抽样?(若需要,抽样几次?)(2)在抽样或不抽样的前提下,采用何种方案进行检验?【例8.2】解:1,2,3分别表示产品次品率为 0.01,0.4,0.9三种状态。
8、对于抽样检验一件产品,X=1和X=0分别表示样品为次品和合格品两个结果。结果值均用期望损失值表示。序列决策树图不能够一次绘制成功,而是随着决策过程序列的延伸和终止依次进行。为了简化图形,行动方案al和a2、可能出现的状态及其对应的损失值均在图中略去,仅在方案枝末端标注上期望损失值。4532867抽样继续抽样a1a2A1A2A3A4不抽样X1=0X1=1停止抽样9X2=0X2=1a1a2继续抽样停止抽样(略)【例8.4】相应的损失矩阵为先进行第一次抽样的后验概率计算该问题的费用矩阵为:【例8.2】【例8.2】第一次抽样的后验概率矩阵为【例8.2】后验行动方案的期望损失值矩阵为一次抽样后最满意方案
9、分别为:6.894.3250.458219.52.6933.404.3250.458253.3119.525抽样a1a2a1a2a1a2A1A2A3A4S1S2不抽样X1=0X1=10.5780.4220.34260.62280.03460.34260.56870.42650.00470.56870.42650.20.60.20.00470.56870.42650.20.20.697.5000012597.5000012597.50000125期望损失值(包含抽样费用)4.20 若为正品,则无须检验整箱产品;若为次品,则整箱检验。最满意方案是,应抽取一件产品作样品检验。【例8.2】在A2上X1
10、=1的决策点处,由于行动方案a1的期望损失值0.4582已小于抽样费用4.20,所以第二次抽样分支S2在此处被截断,决策序列在该分支上终止。而在Xl0的决策点处,由于行动方案al,a2。的期望损失值分别为33.40和4.324,均大于抽样费用4.20,因此,在此分支上,可进行第二次抽样,抽样结果用X2表示。X20和X2=1分别表示第二次抽样抽取一个样品为正品和次品。【例8.2】第二次抽样的后验概率计算如下:【例8.2】【例8.2】第二次抽样的后验概率矩阵为后验行动方案的期望损失值矩阵为 二次抽样后最满意方案分别为:【例8.2】由于X2=0在的决策点处,方案a2的期望损失值0.6038已小于抽样
11、费用4.20,则序列决策的这一分支应该终止。同样,对于X2=1决策点处,由于方案a1的期望损失值1.1778也小于抽样费用,则这一分枝也应终止。于是,到此决策序列全部终止。【例8.2】4.20a1a2s1a1a2s2X1=02533.44.3254.2019.50.578a1a2s3X2=046.170.60384.200.7163a1a2s3X1=113.734.200.28371.1778a1a2s2X1=113.734.200.4220.4582A1A2A3S1S26.89 2.694.3250.45820.76664.3251.1778【例8.2】在A3上 X2=0的决策点处,最满意行
12、动方案为a2,截去a1和 s3;在 X2=1的决策点处,最满意行动方案为 a1,截去 a2和 s3。在 s2状态点处,期望损失值为:【例8.2】在A2上 X1=0的决策点处,最满意行动方案为a2,截去a1和 s2;在 X1=1的决策点处,最满意行动方案为 a1,截去 a2和 s2。在 s1状态点处,期望损失值为:在A1决策点处,最满意方案的期望损失值为:所以截去a1和a2。【例8.2】综上所述,决策是:应该进行一次抽样检验。v若为正品,则采取行动方案a2,即整箱产品不予检验;v若为次品,则采取行动方案a1,即整箱产品予以检验,序列决策过程也可以用简化决策树图表示。6.89 2.694.204.
13、3250.4582s10.5780.422a1a24.3250.46218.2马尔可夫决策研究这样的一类决策问题:采取的行动已经确定,但将这个行动付诸实践的过程又分为几个时期。在不同的时期,系统可以处在不同的状态,而这些状态发生的概率又可受前面时期实际所处状态的影响。其中一种最简单、最基本的情形,是每一时期状态参数的概率分布只与这一时期的前一时期实际所处的状态有关,而与更早的状态无关,这就是所谓的马尔可夫链。8.2马尔可夫决策8.2.1马尔可夫决策问题马氏过程马尔科夫(M.A.Markov)提出一种描述系统状态转移的数学模型,称为马尔科夫过程,简称马氏过程。马氏决策利用马氏过程分析系统当前状态并预测未来状态的决策方法,称为马尔科夫决策,简称马氏决策。8.2马尔可夫决策8.2.2马尔可夫链与转移概率矩阵 若随机过程X(t),t T,对于任意的t1t2tn,tiT都有 Px(tn)y|x(tn-1)=xn-1,x(t1)=x1=Px(tn)y|x(tn-1)=xn-1则称X(t),t T具有马尔可夫性。含义:x(tn)的将来只是通过现在与过去发生联系,一旦现在已知,则将来与过去无关。
限制150内