数学建模中的统计分析问题样本比较置信度评估.docx
-
资源ID:57597105
资源大小:334.93KB
全文页数:25页
- 资源格式: DOCX
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
数学建模中的统计分析问题样本比较置信度评估.docx
编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):24 / 25白血病临床治疗的统计分析问题摘要 一、 问题重述为研究某药物6是否有治疗以缓解病痛的作用,研究者在持续1年的急性白血病治疗的临床试验中,将42位急性白血病患者(进入项目的时间有先后)随机地分成两组(各21人)。对一组病人用药物6治疗以缓解病痛,而另一组病人用安慰剂。安慰剂的外形和颜色及药物完全相同,但不含任何药物,病人自己并不知道实际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解的持续时间(以周为单位),持续时间越长则疗效越好。数据见表1。表一:处理组和控制组各21人的病痛缓解的持续时间(周)处理组(使用6)21人6,6,6,7,10,13,16,22,23,6+,9+,10+,11+,17+19+,20+,25+,32+,32+,34+,35+,控制组(使用安慰剂)21人1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23表1数据后面有+者表示,当项目结束时缓解仍在持续。例如,处理组中的20+表示:该病人在项目结束前20小时进入临床治疗,使用6后,缓解持续到项目结束。因此,该病人的实际缓解持续时间至少为20周,很可能大于20周。这种数据在统计学中称为删失数据。我们需要回答的问题是:问题1. 6能否显著延长缓解的持续时间?问题2. 如果问题一不能得到肯定的回答,则对该药物没有必要进一步研究;反之,如果结论是肯定的,预测以后的病人在使用6后的缓解持续时间的有关参数,对6的效果给出有足够置信度的量化评估。二、 模型假设1 假设在项目期间的食物,生存环境,其他药物等外界因素对6药效及病人病痛无影响; 2 假设在项目期间各个阶段病人的6药物服用量充足,治疗方式恰当;3 假设在项目期间无其他病痛误判,粗心等原因引起数据记录失误;4 假设对同一个病人使用药物的效果始终一样;5 假设每个病人的身体、精神素质都是相当的,不会因此而使药物的效果变化;6 假设病人自己并不知道实际服用的是药物还是安慰剂;7 假设病人的年龄、性别对试验无影响;8 假设两组病人是随机分配的。三、 符号说明及其概念解释3.1 符号说明3.2 概念解释生存时间:疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短。所经历的时间称为生存时间。完全及不完全数据:一部分研究对象可观察到死亡,从而得到准确的生存时间,所提供的信息是完全的,称为完全数据;另一部分病人由于失访、意外事故、或到观察结束时仍存活等原因,无法知道确切的生存时间,它提供了不完全的信息,称为不完全数据(截尾数据、删失数据)。生存分析:生存时间一般是通过随访收集。不完全数据提供了部分信息。须要用专门的方法进行统计处理,这类统计方法起源于对寿命资料的统计分析,故称为生存分析。死亡概率:指已活满t时刻的个体,在此后一段时期内(t至)死亡的可能性。生存概率:表示在某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小。四、 问题分析本文研究者在持续1年的急性白血病治疗的临床试验中,对42位急性白血病患者随机均等地分成两组,一组病人用药物6治疗以缓解病痛,而另一组病人用安慰剂。通过对两组病人病痛缓解的持续时间进行对照比较分析,从而研究某药物6是否有治疗以缓解病痛的作用。此问题可以转化为生存分析问题,即每个病人的缓解时间可以看每个成个体的寿命,从而可以采用生存分析的相关知识对问题进行分析求解。由已知可知,每个病人进入项目试验的先后顺序不同,缓解病痛的时效也不同(如图一所示)。始点终点图一:病人的缓解持续时间通过对表1数据的分析,我们发现有些数据后面有+者表示,当项目结束时缓解仍在持续,这种数据在统计学中称为删失数据,又称截尾数据和不完全数据。对于这类数据的处理,如果我们丢弃删失数据只考虑确切数据,则会损失大量的信息;若将删失数据当作确切数据处理,则会低估了生存时间的平均水平。用统计学的术语,白血病缓解效果的分析是一个“两样本比较”问题,一般用两正态样本均值比较的t检验。但现在由于样本分布未知,而且在时间数据的分析中,由于数据分布有很大的偏度,正态分布是一个“坏”的模型。又因为数据是不完全的(有删失数据),常规的、用于完全数据的分析方法不能简单套用。 所以我们引入生存分析这一概念对本文进行分析求解。生存时间经常服从的基线分布有指数分布、分布、对数正态分布、对数分布和分布。由于缓解持续时间不长,因此年龄、体质等可能影响缓解持续时间的因素作用不大,可以认为在任何时刻缓解持续的结束是随机的。又指数分布具有恒定危险率的特点,所以可假设生存时间服从指数分布,由次进行检验。对于问题二,要预测持续时间参数,则先要给出其相关的参数,在对其置信区间进行预测。五、 模型建立及求解5.1 问题一的模型参数回归模型本案例中样本容量不大,我们事先根据其生存函数曲线将分布假定为指数分布,所以可采用参数回归模型的分析方法,首先对指数分布进行检验,然后使用点估计的方法分别对两组数据的参数进行估计,接着对其有花都进行检验。用参数假设检验来判断处理组及控制组的缓解时间分布是否有显著差别从而判断药物6能否显著延长缓解的持续时间。首先分别对处理组和控制组的数据进行分析处理,由此拟合一个满意的参数分布,再用参数假设检验来判断处理组和控制组的缓解时间分布是否有显著差别,从而回答问题一:6能否显著延长缓解的持续时间。5.1.1 模型的准备我们假设每个病人病痛缓解的持续时间为生存时间。在这批数据中,其中控制组(使用安慰剂)的数据是完全的,没有删失数据。因为完全数据的分析比较简单,所以我们先对控制组数据进行处理。在刻画时间分布模型的特征方面,“生存函数”和“危险率函数”是两个重要的函数。对控制组数据进行处理通过计算机吃力可得,控制组生存函数图像为:生存函数又称可靠性函数。是个体寿命超过某个时刻的概率。X记为个体的生存期,生存函数定义为:累积生存函数为:危险率函数也称为风险函数、瞬时死亡率、年龄别死亡率、条件死亡率,常用h(t)表示,它表示已存活到t时刻的一个体,死于(t,)小区间内的概率的极限。 累积危险函数为:为指数分布的危险率,或称为尺度参数,其大小决定了生存时间的长短,危险率越大,生存率下降越快;危险率越小,生存时间越长。在指数分布模型中,是常数,及时间t 无关。因为本文所给的生存资料分布具有不规则、不确定或未知分布的特点,所以采用非参数法估计生存率。 根据本文的样本含量为小样本,所以选择乘积极限估计法()来出来数据。乘积极限估计法简称积限法或法,是直接用概率乘法原理估计生存率,它是由统计学家和于1958年首先提出的,因此又称为法。此法计算生存率时,先将每个个体的生存时间按照由小到大的顺序排列,排序时若截尾值及非截尾值的观察时间相同,则规定非截尾值小于截尾值,排在截尾值之前。然后依次计算出各时段的死亡概率、生存概率,进而计算出从观察开始至各时刻的生存率(如图一、二所示)。一:处理后的控制组编秩缓解周期初期死亡死亡概率生存概率累积生存率累计危险函数1212122/2119/210.904762-0.1000834593421922/1917/190.809524-0.211309094531711/1716/170.761905-0.2719337156741622/1614/160.666667-0.4054651088951422/1412/140.571429-0.559615288101381244/128/120.380953-0.965080396141511822/86/80.285714-1.252762468161712622/64/60.190476-1.6582275771815411/43/40.142857-1.9459096491917311/32/30.095238-2.3513747572022211/21/20.047619-3.0445219382123111/1001.对处理组和控制组的累计生存率取自然对数,即取其累计危险函数:;2.以个体寿命t 为横坐标,为纵坐标画折线图。由上图可明显看出其图形走势近似直线。从而可以证明我们构建指数模型的思路是可行的。因此设 即:由此可以直观的认为指数分布对数据的拟合是比较满意。5.1.2 指数回归模型的构建: 指数分布准备知识:若随机变量T 具有概率密度函数为:,则称 T服从参数为(为尺度参数)的指数分布,简记为。T 的总体分布函数为:由此可导出以下公式:人们用不变的危险率来刻划指数分布的特征,为指数分布模型中唯一的参数,其极大似然估计为:其中,n 为样本含量;为每个观察对象的生存时间,i =1包括完全数据和截尾数据;m 为数据中完全数据的个数。指数分布只有中只有一个参数,令控制组参数为因为控制组的数据是完全的,我们使用如下方法对参数进行估计。 1、没有删失数据的极大似然估计:两边取对数得:再对其进行求导得:最后得:而控制组是完全数据不含删失数据,所以代入该极大似然估计模型得:因此我们可以初步得出用来拟合控制组数据,为进一步确定这一假设,我们将对其拟合度进行优化检验。用拟合优度对拟合效果进行评估构造一个度量所假设的分布拟合数据优度的经验统计量D,D的值越小则表示拟合的越好。为了更好的确定其拟合的效果,我们令,近似的认为当时拟合效果较好。由于该分布为但一分布,则采用检验法进行优度检验。首先作出控制组总体分布的经验分布函数,总体分布函数为 假设控制组21人的病痛缓解的持续时间是总体的一样本,则可以得到控制组经验分布函数的观察值为:因为对于任一实数t,当时,以概率1一致收敛于分布函数,即:换句话说,对于任一实数t,当n充分大时,经验分布函数的任一个观察值及总体分布函数只有微小的差别,从而在实际上可当作来使用。检验统计量为了便于求解,我们可简化通过求解得:,则故此得到对控制数据的拟合较好。对处理组数据的处理:通过计算机处理得到处理组的生存函数曲线图对于含有删失数据的分布,我们采用含有删失数据的乘积限估计。因为处理组中含有删失数据,所以我们对n个数据合为k个不同的死亡时期,从小到大排列为:。在时间上重复的个数为,满足大于或等于(死亡、刪失、重复)的个数记为。假设在区间上的刪失数据,其时间不早于。当时,条件概率的经验估计为: , 0,1,,k由此得到其经验生存函数:当,=1当,由 得:累积生存函数处理后的处理组编秩缓解周期初期死亡死亡概率生存概率累积生存率累计危险函数1362133/2118/210.857143-0.1541506846+180010.857143-0.15415068571711/1716/170.806723-0.21477530269+160010.806723-0.2147753027101511/1514/150.752941-0.283768173810+140010.752941-0.283768173911+130010.752941-0.28376817310131211/1211/120.690196-0.3707795511161111/1110/110.627451-0.4660898441217+100010.627451-0.4660898441319+90010.627451-0.4660898441420+80010.627451-0.4660898441522711/76/70.537815-0.6202405231623611/65/60.448179-0.802562081725+50010.448179-0.80256208181932+40010.448179-0.802562082034+20010.448179-0.802562082135+10010.448179-0.80256208使用软件对附录一、二的数据做出如下处理:1、 对处理组和控制组的累计生存率取自然对数,即取其累计危险函数:;2、 以个体寿命t 为横坐标,为纵坐标画折线图。由上图可明显看出其图形走势近似直线。从而可以证明我们构建指数模型的思路是可行的。因此设 即:由此可以直观的认为指数分布对数据的拟合是比较满意。有删失数据的极大似然估计:设有n 个急性白血病患者(观察对象)进入急性白血病治疗的临床试验中, 其中有删失数据 m 个,即病人治疗到一半项目结束(即), 而另外个病人在时能够接受到治疗。利用这一样本,我们用最大似然估计法来估计。我们可以知道一个观察对象在失效的概率近似为(i =1),而其余得个观察对象活过得概率为即:故上述观察结果出现的概率近似地为:其中为常数。因忽略一个常数因子不影响q 的最大似然估计,故可取似然函数为:对数似然函数为:令 于是得到的最大似然估计为:其中,称为总观察时间,它表示直至时刻为止n个病人的试验时间的总和;m 表示出现观察终点的人数。因为处理组中含有删失数据,所以将数据代入以上极大似然估计模型得:因此我们可以初步得出用来拟合控制组数据,为进一步确定这一假设我们同样对其拟合度进行优化检验。(同控制组)经检验得到能较好的拟合处理组数据。由此得,控制组拟合函数为,处理组拟合函数为,则控制组的危险率要大于处理组,故同一时期控制组的生存率低。如下图所示,我们可以对两组病人的生存状况进行直观的比较。图中显示了两组病人的生存率随时间的延长成指数下降的趋势,处理组和控制组的下降率分别为0.025周和0.115周。 控制组和处理组的危险率比较5.1.3 似然比检验模型为了回答药物6能否显著延长缓解的持续时间,我们需构建似然比检验模型进行定性的分析:原假设 : (两组患者的生存率是相同的)备择假设 : (两组患者的生存率不相同)因,的极大似然估计分别为:l l = = , 又根据两样本的合并样本得到合并的尺度参数的估计为:构造似然函数:则似然比为:相应的对数似然函数为:如果成立,则似然比统计量为:即: 取显著性水平,按自由度为 1的界值作出决策。同时:因为,而统计量的实测值。由于16.75显著大于3.84,其否定区域,即备择假设成立。所以药物6能否显著延长缓解的持续时间。综上所述,6具有显著延长缓解的持续时间,且其平均延长时间为控制组的4.6倍,即。由于控制组平均缓解时间。则周5.2 问题二的模型由问题一得出的结果证明了6能够显著延长缓解的持续时间,所以我们可以预测以后的病人在使用6后的缓解持续时间的有关参数,对6的效果给出有足够置信度的量化评估。5.2.1 模型的建立 由研究者对42位急性白血病患者做持续1年的急性白血病治疗的临床试验可知,研究者不仅希望得到一种有效的药能够对急性白血病患者具有显著延长缓解的持续时间的作用,而且也想通过试验得到该药的有效适用范围。由此,我们确定以下评估效果的参数:1 以后的病人使用6后的期望缓解的持续时间;2 以后的病人使用6后,其缓解的持续时间超过半年(26周)的概率;3 以后的病人使用6后,具有70%的可能性其期望缓解的持续时间不低于某个下限。由问题一的求解可知,处理组的指数分布能够较好的拟合其缓解持续时间分布,其指数拟合分布函数。 由指数分布的性质知,以后的病人使用6后的期望缓解的持续时间最大似然估计值为:周; 以后的病人使用6后,其缓解的持续时间超过半年(26周)的概率为:; 采用分为点估测法设估计分位数为,则满足由此可知则,由此得 得出理想值之后,我们需要对其效果给出足够置信度的量化估计,即:1. 病人期望缓解持续时间的置信区间;2. 持续时间超过半年(26周)的概率置信下限;3. 病人使用6后,具有70%的可能性其期望缓解的持续时间不低于某个下限的置信下限。设处理组函数分布的似然函数为,为缓解期望时间估计值的待估计量,信息函数由问题一可知,我们取的显著性水平,则其置信水平。根据最大似然估计的渐进正态性有:,取。另外,由于处理组服从指数分布,则似然函数。得:,m为处理组数据中完全数据的个数同时取似然的自然对数得:对取二次偏微分得:由此知,由于不依赖任何未知参数,根据正态分布的分位定义得:即:所以我们得到期望时间的置信区间为:()又因为,查表得由代入上式可得期望延续时间u为95%的置信区间由故:(1)u的置信区间39.853,40.147。由此可知:期望延续时间u的置信下限为=39.853,此时的参数所以(2)的95%的置信下限为(3)的95%的置信下限为5.2.2 模型的求解5.2.3 模型的检验六、 模型的评价及推广本文所建立的模型具有以下特点:合理性:每个实际问题都有一定得“背景机理”,而我们选择的统计模型考虑了该问题的背景机理;合适性:我们的模型能够较好的拟合数据;简单性:我们建立的模型比较简单,同时又可以较好的拟合数据,能够避免由随机因素造成的模型变形,而且容易从背景机理上解释。参考文献附录附录一:处理后的处理组编秩缓解周期初期死亡死亡概率生存概率生存率1362133/2118/210.85714346+180010.857143571711/1716/170.80672369+160010.8067237101511/1514/150.752941810+140010.752941911+130010.75294110131211/1211/120.69019611161111/1110/110.6274511217+100010.6274511319+90010.6274511420+80010.6274511522711/76/70.5378151623611/65/60.4481791725+50010.448179181932+40010.4481792034+20010.4481792135+10010.448179附录二:处理后的控制组编秩缓解周期初期死亡死亡概率生存概率生存率1212122/2119/210.9047623421922/1917/190.809524531711/1716/170.7619056741622/1614/160.6666678951422/1412/140.571429101381244/128/120.380953141511822/86/80.285714161712622/64/60.1904761815411/43/40.1428571917311/32/30.0952382022211/21/20.0476192123111/100附录三:相关的程序及代码67910111316171920222325323435;0.8571428570.8067226890.8067226890.7529411760.7529411760.6901960780.6274509090.6274509090.6274509090.6274509090.5378150650.4481792210.4481792210.4481792210.4481792210.448179221;6:0.01:35;1(,'');(,'') ;(,'g','',1.5) ; ;(' ')