国家自然科学奖推荐书式样.doc
《国家自然科学奖推荐书式样.doc》由会员分享,可在线阅读,更多相关《国家自然科学奖推荐书式样.doc(34页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1 41101.01.010.149国家自然科学奖推荐书式样 国家自然科学奖推荐书( 年度)一、项目基本情况一、项目基本情况学科评审组: 序号: 编号:中文名统计因果推断项目 名称英文名Statistical Causal Inference主要完成人耿直推荐单位(盖章) 或推荐专家中国数学学会1多元分析代码11017552统计计算代码1101764学科分类 名称3代码所属科学技术领域数理统计, 多元统计, 生物统计任务来源国家自然科学基金委具体计划、基金的名称和编号:项目完成人耿直 1997 年获教育部跨世纪优秀人才项目;1999-2002 获国家杰出青年基金项目(19825103);199
2、9-2003,主持国家基金委重点项目:应用统计(19831010),此后参与应用统计重点项目三次:2005-2008(10431010)、2010-2013(10931002)、2014-2017(11331011)。承担了国家基金委面上项目(10771007):和(11171365),负责 973 项目子项目(2003CB715902)。探讨因果推断的统计方法:1)研究 Simpson 悖论、因果推断和不完全数据;2)提出替代指标悖论,又称中间变量悖论、工具变量悖论,研究不可忽略缺失数据机制和分析方法;3)研究网络图模型,探讨因果机制和因果网络的结构学习。已呈交的科技报告编号:项目起止时间起
3、始:2000 年 1 月 1 日完成: 2015 年 12 月 1 日国家科学技术奖励工作办公室制2 41101.01.010.149二、项目简介二、项目简介(限 1200 字)本项目研究因果作用的评价方法和因果网络的参数学习和结构学习方法,探讨因果推断在生物医学中的统计问题。近年来,有关因果推断的研究成为了统计学最关注的热点研究方向之一。我们在因果推断方向作出了一系列成果.关于著名的 Yule-Simpson 悖论,国内学者提出了一系列避免虚假相关性的条件和统计推断方法(JRSSB 1992,1993,1995,2002,2006 等)。针对生物医学中现有的替代指标准则,国内学者提出了替代指
4、标悖论(又称中间变量悖论、工具变量悖论)(JRSSB, 2007, 2010 等) 。针对临床试验不依从情况,我们论证了因果作用的可识别性和统计推断方法,该成果为 2009 年Biometrics 的唯一讨论文章。在因果网络方面,我们提出了不完全数据学习因果网络的方法 (Artifficial Intelligengce, 2006),将大规模网络的学习问题分解为小网络学习问题的递归分解学习方法,提出因果网络的主动学习方法,利用最少的干预次数确定因果方向的最佳干预试验方法(3 篇论文发表在 J Mach Learn Research 2008) 。另外,我们参加了2008 年 World Co
5、ngress on Comput. Intelligence 组织了因果挑战,并获得了 Best Overall Contribution Award。我们在因果推断和因果机制方向的研究成果受到国际同行的关注,曾应邀在 ICIAM 2011 做 1 小时大会报告、日本统计计算大会做 1 小时特别讲座、CSPS-IMS 2005 的 55 分钟特别讲座, IMS-APRM 2012 做了 45 分钟特邀报告等。本项目探索因果推断,主要研究内容为:1.替代指标(Surrogate)准则和替代指标悖论因果推断中的替代指标的准则是因果推断和医学研究的重要问题。Chen, Geng Simpson, J
6、RSSB 1951)的发现说明了相关不是因 果,为统计学提出了挑战性的问题。统计学在因果方面的研究步履艰难,正如 Holland(1986,JASA)所 说:Problems involving causal inference have dogged at the heels of statistics since earlest days.尽管目前人们在自然科学和社会科学的研究中可以利用先进的设备获得大量的数据,但 是人们认识自然和社会的最大障碍之一也许是缺乏从获得的大量数据中认知因果关系的方法。Pearl (Causality, 2009, 2nd Ed):“在过去的一个世纪中,许多发现
7、被推迟是由于缺少描述因果的数学语言。 ”现在因果推断主要采用两种数学模型:潜在结果模型(Neyman, 1923; Rubin, 1974)和因果网络模型 (Pearl, 2000;Spirtes et al. 2000)。我们研究这两种因果模型,探讨因果作用的可识别性和因果网 络的学习。主要创新点和贡献如下:1)提出了替代指标悖论,探讨了替代指标的准则提出了替代指标悖论,探讨了替代指标的准则( (多元统计多元统计 11017551101755;代表性论文;代表性论文 JRSSJRSS B B 20072007, JRSSJRSS B B 2010,2010, StatStat MedMed
8、20112011 等等) ) 在很多科学研究中终点指标(Endpoint)的观测非常困难、代价高或时间长。所以,常需要寻找替代 指标(Surrogate)观测。例如,临床试验评价治疗 AIDS 病药物,常用 CD4 作为替代指标,而难以用 10 年 生存期的终点指标评价疗效。因此确定替代指标的准则是因果推断和医学临床试验的重要问题。目前已 经提出了很多替代指标的准则,华盛顿大学 Prentice 院士(Statist. Med., 1989)提出了替代指标的条 件独立性准则,称为统计替代指标,该论文成为这个刊物被引用最高的论文。Prentice 准则已经被临床 疗效评价广泛使用。哈佛大学 Ru
9、bin 院士等人 (Frangakis and Rubin,Biometrics, 2002;Rubin,SJS, 2004)发现统计替代指标不满足因果必要性(因果必要性:处理对替代指标没有因果作用,则处理对终点 指标没有因果作用) 。他们对 Prentice 准则进行了批判,提出了主分层替代指标的准则。牛津大学统计 系主任 Lauritzen (SJS, 2004)利用因果网络提出了强替代指标的准则,比主分层准则更严格地描述了替 代指标与终点指标的因果路径的关系。我们(JRSS B 2007 Statist Med, 2011)发现 Prentice 统计替代指标准则、Rubin 主分层准则
10、和 Lauritzen 强替代指标准则都存在一个严重的问题,即用这些替 代指标可能会得出与事实相悖的结论,这就是我们(JRSS B 2007)提出的“替代指标悖论(Surrogate Paradox)”:治疗 T 对替代指标 S 有正的平均因果作用(ACE),这些替代指标 S 对终点指标 T 也有正的因 果作用,但是,该治疗 T 对终点指标 Y 有负的因果作用。该悖论可以表示为这个发现说明了目前的几种替代指标准则都存在严重的问题。Moore (Deadly Medicine, 1995)报道过著 名的医药临床的惨案事件,描述了将抑制心律失常作为降低猝死的替代指标,最终发现上市的药物不但 不能降
11、低,反而增加了猝死的比率,导致数万人死于这类药物。 Alonso Ju Wu, He Spirtes et al. 2000)在高维数据情 况下计算复杂性和统计检验功效等方面都有困难。我们(AI 2006)提出利用不完全数据学习有向图的方法。 我们(Xie Ma, Xie Kuroda, Geng, SPL 2003)提出了利用 Delta 和 Epsilon 算法加速 EM 算法收敛速度的方法,这种加速算法只需要使用 EM 算法得到的估计序列,不需计算 信息阵等附加计算。3)3)可压缩性和混杂因素可压缩性和混杂因素( (多元统计多元统计 11017551101755; JRSSJRSS B
12、B 20022002,JRSSJRSS B B 20062006 等等) ) 我们(JRSSB 2006)探讨一般分布的关联度量的可压缩性。两个变量的关联度量的正负号可能被一个 混杂因素改变,称为 Simpson 悖论。Cox Ele J Stat 2009)引 用。进一步,我们(Stat Sinica 2008)提出了多种关联度量之间强度的蕴含关系,探讨了各种关联度量 可压缩性的条件。8 41101.01.010.149目前,所有因果推断几乎都要求不可忽略性假定,它是关键假定之一。我们(JRSSB 2002)在不需要 这个可忽略性假定下探讨了混杂因素的提议和判断准则。流行病学研究中存在着不同
13、的混杂定义,一直采 用经验归纳出来的判别混杂因素的准则. 我们提出了混杂的形式定义, 并且提出偶然混杂因素的概念, 给出了无混杂的充分必要条件,在此基础上论证了判断混杂因素的准则.判断混杂因素时常使用两个准则: 可压缩性准则与可比较性准则.流行病学者对这两个准则存在争议.我们论证它们之间的关系和互补性。我们(Wang, Geng et al. SS 2007 ) 探讨因果分布作用的估计精度,论证了调整混杂因素能消除偏 倚,但是调整非混杂因素将会降低估计精度,该结果同样适应于小样本的情况。很多学者只是在大样本 下比较估计量的渐近方差探讨是否有必要调整非混杂因素。我们 (Wang, Geng et
14、 al. JSPI, 2009)探讨了如何确定和筛选多混杂因素的方法。我们(Geng Ding,Geng 10th China JRSSB; FrangakisFrangakis Geng, Z.; Jia, J.Z.5.7212007, 69, 919-9322007年10月耿直Hua ChenHua Chen,Zhi Geng, Jinzhu Jia 14Google 30是2Criteria for surrogate end points based on causal distributions / J Royal Statistical Society B / Ju, C.; Ge
15、ng, Z.5.7212010,72,129-1422010年 3月耿直Chuan JuChuan Ju, Zhi Geng6103Collapsibility of distribution dependence / J Royal Statistical Society B / Ma, Zongming; Xie, X.C.; Geng, Z.5.7212006,68,127-133 2006年 3月耿直Zongming MaZongming Ma, Xianchao Xie, Zhi Geng514是164Criteria for confounders in epidemiologic
16、al studies / J Royal Statistical Society B / Geng, Z.; Guo, J.H.; Fung, W.K.5.7212002,64,3-152002年 3月 耿直Zhi GengZhi Geng,Jianhua Guo, W. K, Fung 1326是5A recursive method for structural learning of directed acyclic graphs / J Machine Learning Research / Xie, X.C.; Geng, Z.2.8532008,9,459-4832008年 3月耿
17、直Xianchao XieXianchao Xie, Zhi Geng2147是6Active Learning of Causal Networks with Intervention Experiments and Optimal Designs / J Machine Learning Research / He, Y.B.; Geng, Z.2.8532008,9, 2523-25472008年 11月耿直Yangbo HeYangbo He, Zhi Geng1335是177Decomposition of structural learning about directed acy
18、clic graphs / Artificial Intelligence / Xie, X.C.; Geng,Z; Zhao, Q.2.5112006,170, 422-4392006年 4月耿直Xianchao XieXianchao Xie, Zhi Geng1527是8Mixed graphical models with missing data and the partial imputation EM algorithm / Scandina J Statistics / Geng, Z.; Wan, K.; Tao, F.1.0632000,27, 433-4442000年 9
19、月耿直耿直Zhi Geng,Kang Wan, Feng Tao1324是合 计100213补充说明(视情填写):补充说明(视情填写):承诺:承诺:上述论文专著用于报奖的情况,已征得未列入项目主要完成人的作者的 同意。知识产权归国内所有,且不存在争议。第一完成人签名:耿直第一完成人签名:耿直182.2. 主要论文专著目录(不超过主要论文专著目录(不超过 2020 篇,含上述全部代表性论文专著)篇,含上述全部代表性论文专著)序号论文专著名称/刊名/作者影响因子年卷页码(xx 年 xx 卷xx 页)发表时间年 月 日SCI 他引次数他引总次数知识产权是否归国内所有1Criteria for sur
20、rogate end points / J Royal Statistical Society B / Chen, H.; Geng, Z.; Jia, J.Z.5.7212007, 69, 919-9322007 年10 月1433是2Criteria for surrogate end points based on causal distributions / J Royal Statistical Society B / Ju, C.; Geng, Z.5.7212010,72,129-142 2010 年 3月817是3Collapsibility of distribution d
21、ependence / J Royal Statistical Society B / Ma, Zongming; Xie, X.C.; Geng, Z.5.7212006,68,127-1332006 年 3月516是4Criteria for confounders in epidemiological studies / J Royal Statistical Society B / Geng, Z.; Guo, J.H.; Fung, W.K.5.7212002,64,3-152002 年 3 月1430是5A recursive method for structural learn
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 国家自然科学 推荐书 式样
限制150内