随机微分方程在数理金融中的应用硕士学位.doc
《随机微分方程在数理金融中的应用硕士学位.doc》由会员分享,可在线阅读,更多相关《随机微分方程在数理金融中的应用硕士学位.doc(29页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流随机微分方程在数理金融中的应用硕士学位.精品文档.摘 要复杂数据主要表现在相依、非线性、维数高与不完全观测等,在股市、基因序列和经济等领域中经常出现。为解决巨型数据集合问题,数据挖掘的理论、方法和技术已应运而生。而针对诸如怎样同时检验成千上万个基因中哪些基因的表达水平有显著性差异之类的高维统计推断问题,以错误发现率为主要特征的非参数估计方法无疑为其提供了一个有效的解决途径。本文主要研究考察错误发现率的在各种参数模型和非参数模型下的控制检验方法,全文共分为四章。文章首先介绍了所选取课题的背景和意义,以及国内外在该方向的研究现状。在多重假设检验的
2、背景下,给出了错误发现率的定义,提出利用p值进行假设检验,并在假设检验独立和相依的情形下对错误发现率的控制方法进行了探讨。在研究错误发现率的控制方法时,发现在处理多重假设检验问题时,核心的问题是如何估计真实零假设的个数,因此本文采用经验贝叶斯估计来估计它的值。在参数混合模型和非参数混合模型中研究真实零假设的估计问题是本文的核心内容。针对正态混合分布模型和Beta混合分布模型两种参数混合模型,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别介绍了最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法。文章的最后以Hedenfalk报告的
3、一组乳腺癌患者的基因数据为例进行仿真研究,发现错误发现率为微阵列数据的多重假设检验提供了合适的错误控制指标。 关键词:错误发现率;多重假设检验;p值;非参数估计;微阵列数据AbstractComplex data always appear in the stock market, gene sequences, economic and other fields, which mainly show the characteristic of dependent, nonlinear, high dimension and incomplete observations. In order
4、to solve the problem of huge data collection, the theories, methods and techniques of data mining are proposed. While how to examine the high-dimensional statistical inference problem, such as the significant differences of expression levels in thousands of genes, the non-parametric estimation of fa
5、lse discovery rate provide an effective solution.This paper mainly investigate the test method based on the false discovery rate of various parametric model and non-parametric model, which is divided into four chapters. Firstly, this paper introduce the background and significance of the topic, and
6、the current studies in this direction at home and abroad. Under the background of multiple hypotheses testing, the paper describe the definition of the false discovery rate, propose using the p-value to test the hypothesis testing, and discuss the controlling method of the false discovery rate when
7、the hypotheses testing is independent or dependent. When we investigate the controlling method of the false discovery rate and studied the multiple hypothesis testing problem, we find that the central problem is how to estimate the number of true null hypothesis, so this paper use the empirical Baye
8、s estimation to estimate its value. Investigating the estimation of true null hypothesis in the mixing parametric model and non-parametric model is core of the dissertation. Aiming at the mixed normal distribution model and Beta mixture distribution model, This paper use the method of moment estimat
9、ion and least squares estimation method based on the p-value to estimate its value; On studying the non-parametric mixture model, the paper introduce the least square estimation method, Beta distribution fitting model method and the Beinstein polynomial fitting model method. Finally, the paper condu
10、ct the simulation research based on a group of patients with breast cancer gene data by Hedenfalk, and find that the false discovery rate is able to provide a suitable error control targets for the multiple hypothesis testing of microarray data.Keywords: false discovery rate, multiple hypotheses tes
11、ting, p-value, non-parametric estimation, microarray data目 录摘 要IAbstractII第1章 绪 论11.1 课题研究的背景及意义11.2 国内外在该方向的研究现状11.2.1 国外对错误发现率的研究现状11.2.2 国内研究现状31.3 本文拟研究的主要内容31.4 创新点3第2章 错误发现率的多重检验方法52.1 多重假设检验的错误测度52.2 值的定义、性质和计算方法62.3 独立情形下基于FDR控制的检验方法72.4 相依情形下基于FDR控制的检验方法82.5 真实零假设的个数或比值的估计92.5.1 估计92.5.2 经验
12、贝叶斯估计112.6 本章小结12第3章 参数混合模型和非参数混合模型的估计133.1 引言133.2 正态分布混合模型133.3 Beta分布混合模型173.4 非参数混合模型的估计213.4.1 最小二乘估计223.4.2 Beta分布拟合模型233.4.3 Beinstein多项式拟合模型253.5 本章小结26第4章 错误发现率的估计方法的应用274.1 引言274.2 微阵列数据实例研究274.3 本章小结29结 论30参考文献31哈尔滨工业大学学位论文原创性声明和使用权限34致 谢35第1章 绪 论1.1 课题研究的背景及意义复杂数据主要表现在相依、维数高、非线性与不完全观测等,经
13、常出现在股市、基因序列和经济等领域中。在研究处理低维的简单数据时,采用传统的数理统计方法是有效的,但在研究比较复杂的数据时,就会变得比较困难。因此,“复杂数据的统计推断问题”已被列为我国统计学研究的重点课题。随着科学技术的不断发展,在实际的统计研究过程中,出现了越来越多的大型数据集合问题。在研究巨型数据的高维统计推断问题时,以错误发现率为主要特征的非参数估计方法为其提供了一个有效地解决途径。在巨型数据问题的统计分析中,错误发现率( false discovery rate, FDR)有着非常重要的作用,现已被越来越多地应用在微阵列(Microarray)数据研究和功能磁共振成像(Functio
14、nal magnetic resonance imaging, fMRI)等领域。以微阵列数据研究和功能磁共振成像(fMRI)为代表的现代生物技术已经给医学界的研究带来了很大的影响。由于错误发现率可以为大规模数据多重检验中的错误控制提供一个合适的测量标准,因此在微阵列数据的研究中,研究者通常采用错误发现率(FDR)来控制多重假设检验的错误率。例如在研究基因表达的差异性试验中,假设我们挑选了个差异表达的基因,其中有个是真正有差异表达的,另外有个其实是没有差异表达的,也就是说是假阳性的。在试验中我们希望错误比例不能超过某个预先设定的值(比如),在统计学意义上,这就等价于控制FDR不能超过.1.2
15、国内外在该方向的研究现状1.2.1 国外对错误发现率的研究现状多重假设检验的统计显著性问题已经引起了许多统计学者的注意。1995年,Benjamini和Hochberg在研究多重假设检验时首次提出了错误发现率的概念,并在多重检验中对它的控制方法做了研究,给出了计算方法1。然而,由于当时没有学者研究大规模数据,因此并未受到重视,甚至还受到广大学者的质疑。若干年后,随着微阵列数据研究的不断发展,大规模数据的频繁出现使得FDR有了实际的应用,错误发现率的理论和应用研究也在逐渐走向成熟。FDR(false discovery rate)的定义如下:上式中的和分别表示个假设检验中错误拒绝和正确拒绝检验的
16、个数,表示个假设检验中总的拒绝原假设的个数,表示数学期望。Storey和Tibshirani(2003)提出了阳性错误发现率( positive false discovery rate,pFDR)的定义,并在DNA微阵列数据试验应用过程中,分别给出了统计数据独立和相关条件下的程序计算过程2。pFDR的定义为:其中和的含义与上文相同。比较FDR和pFDR两者的定义可知,pFDR是FDR的一种特例。设假设检验的检验统计量为,分别假设和,令和分别表示检验统计量的零分布和相间分布。同时进行次试验。也就是说,考察个假设检验:及其检验统计量. 对每个,分别假设和. 假定对每个,都有和. 被当做的一个样本
17、,且具有混合分布 (1-1)设全体试验的拒绝域的集合为。未被发现的错误率( false non-discovery rate,FNR)首次被Genovese和Wasserman(2002)3提出。从参考文献4和5中,我们可以得到正错误发现率(pFDR)和未被发现的错误率(FNR)的贝叶斯解释:上式中的分母和可以由经验分布估计得出结果,有时也会从已知的或者由采样的方法得到的零分布中得到结果。如果可以由检验统计量估计,那么pFDR和pFNR就是可以估计的。Allison等人(2002)采用有限Beta混合模型,利用这些数量模拟了微阵列数据分析中的值6。关于多重假设检验问题的研究,也受到了国际著名统
18、计学家的高度重视,且已编入了国际统计学的教材中。Erich Lehmann编著的Theory of Point Estimation和Testing Statistical Hypotheses是世界各国培养统计学研究生的标准教材,被世界各国的大学广泛采用。2005年,Lehmann还撰文提出了k-族错误率(k-FWER)的概念。另外,斯坦福大学统计系教授Bradley Efron也对此问题作出了深入的研究,并在许多重要报告中介绍了FDR的应用成果7-9。1.2.2 国内研究现状 在国内统计学研究中,目前对多重假设检验中错误发现率问题的研究才刚刚起步。黄丽萍等(2003)以脑功能磁共振成像(f
19、MRI)为实验,对多重假设检验的FDR控制方法进行了研究,他们利用计算机编程技术对FDR控制方法进行了详细的研究,并在功能磁共振成像(fMRI)数据分析中加以应用10。缪柏其(2005)和朱钰(2005)介绍了FDR控制检验方法取得的显著成果11。东北师范大学郭建华教授指导的裴艳波(2005)的硕士论文对多重假设检验问题中关于三种错误测度-FWER,FDR和pFDR及其控制方法进行了较全面的介绍12。此外,苟鹏程(2006)对微阵列数据的多重比较进行了探讨13。1.3 本文拟研究的主要内容本文主要研究错误发现率的非参数估计方法,并以微阵列数据为实例进行仿真研究。在第二章中,我们从多重假设检验的
20、错误测度的角度出发,引入错误发现率的概率意义,研究了p值的定义和性质,并着重介绍真实零假设的个数或比值的估计方法;在第三章,我们详细介绍比值在参数混合模型与非参数混合模型下的估计方法;第四章以微阵列数据为例,进行仿真研究,并得出相关结论。1.4 创新点本文的创新点在于:首先,本文在多重假设检验的背景下,介绍了错误发现率的定义,并提出利用p值进行假设检验;其次,在对正态混合分布模型和Beta混合分布模型两种参数混合模型进行研究时,文章采用矩估计方法和基于p值的最小二乘估计方法进行研究;在研究非参数混合模型时,分别采用最小二乘估计方法、Beta分布拟合模型和Beinstein多项式拟合模型的方法进
21、行研究;最后,在以Hedenfalk的乳腺癌微阵列数据作为实例对微阵列数据进行仿真研究时,本文采用置换检验的方法对错误发现率的控制方法进行研究,得到合理的实验结果。第2章 错误发现率的多重检验方法2.1多重假设检验的错误测度在研究多重假设检验问题时,最核心的内容就是如何控制总体检验所犯的错误。由于涉及多重检验,因此情况将变得非常复杂。例如,同时对个假设进行检验,分别记为. 如果原假设为真,则令,否则令. 记. , 即分别为 和 中含有的元素的个数。显然有. 对于这个检验结果的分类见表2-1.其中,表示拒绝总数,即个检验中显著性假设的个数,是一个可观测的随机变量;表示个检验中犯第类错误的个数;表
22、示犯第类错误(假阴性)的总数,和均为不可观测的随机变量。在实际的检验过程中我们发现,表2-1中的一些量,例如是不可观测的。在多重假设检验中,为了衡量检验总体的第类错误,我们必须首先要寻找一种比较合理的错误测度,然后进一步研究该错误测度的控制检验方法,以达到尽可能多地发现显著性假设的目的。这里我们主要介绍错误发现率(FDR) 的定义及其衍生出来的各种相关测度。定义2.1:FDR 称为错误发现率(False discovery rate)。1995年,Cahgeton和Peshereg提出了错误发现率的概念。下面是由错误发现率衍生出来的各种相关概念。定义2.2:cFDR(r)称为条件错误发现率(c
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 随机 微分方程 数理 金融 中的 应用 硕士学位
限制150内