国家自然科学奖推荐书式样.doc
1 41101.01.010.149国家自然科学奖推荐书式样 国家自然科学奖推荐书( 年度)一、项目基本情况一、项目基本情况学科评审组: 序号: 编号:中文名统计因果推断项目 名称英文名Statistical Causal Inference主要完成人耿直推荐单位(盖章) 或推荐专家中国数学学会1多元分析代码11017552统计计算代码1101764学科分类 名称3代码所属科学技术领域数理统计, 多元统计, 生物统计任务来源国家自然科学基金委具体计划、基金的名称和编号:项目完成人耿直 1997 年获教育部跨世纪优秀人才项目;1999-2002 获国家杰出青年基金项目(19825103);1999-2003,主持国家基金委重点项目:应用统计(19831010),此后参与应用统计重点项目三次:2005-2008(10431010)、2010-2013(10931002)、2014-2017(11331011)。承担了国家基金委面上项目(10771007):和(11171365),负责 973 项目子项目(2003CB715902)。探讨因果推断的统计方法:1)研究 Simpson 悖论、因果推断和不完全数据;2)提出替代指标悖论,又称中间变量悖论、工具变量悖论,研究不可忽略缺失数据机制和分析方法;3)研究网络图模型,探讨因果机制和因果网络的结构学习。已呈交的科技报告编号:项目起止时间起始:2000 年 1 月 1 日完成: 2015 年 12 月 1 日国家科学技术奖励工作办公室制2 41101.01.010.149二、项目简介二、项目简介(限 1200 字)本项目研究因果作用的评价方法和因果网络的参数学习和结构学习方法,探讨因果推断在生物医学中的统计问题。近年来,有关因果推断的研究成为了统计学最关注的热点研究方向之一。我们在因果推断方向作出了一系列成果.关于著名的 Yule-Simpson 悖论,国内学者提出了一系列避免虚假相关性的条件和统计推断方法(JRSSB 1992,1993,1995,2002,2006 等)。针对生物医学中现有的替代指标准则,国内学者提出了替代指标悖论(又称中间变量悖论、工具变量悖论)(JRSSB, 2007, 2010 等) 。针对临床试验不依从情况,我们论证了因果作用的可识别性和统计推断方法,该成果为 2009 年Biometrics 的唯一讨论文章。在因果网络方面,我们提出了不完全数据学习因果网络的方法 (Artifficial Intelligengce, 2006),将大规模网络的学习问题分解为小网络学习问题的递归分解学习方法,提出因果网络的主动学习方法,利用最少的干预次数确定因果方向的最佳干预试验方法(3 篇论文发表在 J Mach Learn Research 2008) 。另外,我们参加了2008 年 World Congress on Comput. Intelligence 组织了因果挑战,并获得了 Best Overall Contribution Award。我们在因果推断和因果机制方向的研究成果受到国际同行的关注,曾应邀在 ICIAM 2011 做 1 小时大会报告、日本统计计算大会做 1 小时特别讲座、CSPS-IMS 2005 的 55 分钟特别讲座, IMS-APRM 2012 做了 45 分钟特邀报告等。本项目探索因果推断,主要研究内容为:1.替代指标(Surrogate)准则和替代指标悖论因果推断中的替代指标的准则是因果推断和医学研究的重要问题。Chen, Geng Simpson, JRSSB 1951)的发现说明了相关不是因 果,为统计学提出了挑战性的问题。统计学在因果方面的研究步履艰难,正如 Holland(1986,JASA)所 说:Problems involving causal inference have dogged at the heels of statistics since earlest days.尽管目前人们在自然科学和社会科学的研究中可以利用先进的设备获得大量的数据,但 是人们认识自然和社会的最大障碍之一也许是缺乏从获得的大量数据中认知因果关系的方法。Pearl (Causality, 2009, 2nd Ed):“在过去的一个世纪中,许多发现被推迟是由于缺少描述因果的数学语言。 ”现在因果推断主要采用两种数学模型:潜在结果模型(Neyman, 1923; Rubin, 1974)和因果网络模型 (Pearl, 2000;Spirtes et al. 2000)。我们研究这两种因果模型,探讨因果作用的可识别性和因果网 络的学习。主要创新点和贡献如下:1)提出了替代指标悖论,探讨了替代指标的准则提出了替代指标悖论,探讨了替代指标的准则( (多元统计多元统计 11017551101755;代表性论文;代表性论文 JRSSJRSS B B 20072007, JRSSJRSS B B 2010,2010, StatStat MedMed 20112011 等等) ) 在很多科学研究中终点指标(Endpoint)的观测非常困难、代价高或时间长。所以,常需要寻找替代 指标(Surrogate)观测。例如,临床试验评价治疗 AIDS 病药物,常用 CD4 作为替代指标,而难以用 10 年 生存期的终点指标评价疗效。因此确定替代指标的准则是因果推断和医学临床试验的重要问题。目前已 经提出了很多替代指标的准则,华盛顿大学 Prentice 院士(Statist. Med., 1989)提出了替代指标的条 件独立性准则,称为统计替代指标,该论文成为这个刊物被引用最高的论文。Prentice 准则已经被临床 疗效评价广泛使用。哈佛大学 Rubin 院士等人 (Frangakis and Rubin,Biometrics, 2002;Rubin,SJS, 2004)发现统计替代指标不满足因果必要性(因果必要性:处理对替代指标没有因果作用,则处理对终点 指标没有因果作用) 。他们对 Prentice 准则进行了批判,提出了主分层替代指标的准则。牛津大学统计 系主任 Lauritzen (SJS, 2004)利用因果网络提出了强替代指标的准则,比主分层准则更严格地描述了替 代指标与终点指标的因果路径的关系。我们(JRSS B 2007 Statist Med, 2011)发现 Prentice 统计替代指标准则、Rubin 主分层准则和 Lauritzen 强替代指标准则都存在一个严重的问题,即用这些替 代指标可能会得出与事实相悖的结论,这就是我们(JRSS B 2007)提出的“替代指标悖论(Surrogate Paradox)”:治疗 T 对替代指标 S 有正的平均因果作用(ACE),这些替代指标 S 对终点指标 T 也有正的因 果作用,但是,该治疗 T 对终点指标 Y 有负的因果作用。该悖论可以表示为这个发现说明了目前的几种替代指标准则都存在严重的问题。Moore (Deadly Medicine, 1995)报道过著 名的医药临床的惨案事件,描述了将抑制心律失常作为降低猝死的替代指标,最终发现上市的药物不但 不能降低,反而增加了猝死的比率,导致数万人死于这类药物。 Alonso Ju Wu, He Spirtes et al. 2000)在高维数据情 况下计算复杂性和统计检验功效等方面都有困难。我们(AI 2006)提出利用不完全数据学习有向图的方法。 我们(Xie Ma, Xie Kuroda, Geng, SPL 2003)提出了利用 Delta 和 Epsilon 算法加速 EM 算法收敛速度的方法,这种加速算法只需要使用 EM 算法得到的估计序列,不需计算 信息阵等附加计算。3)3)可压缩性和混杂因素可压缩性和混杂因素( (多元统计多元统计 11017551101755; JRSSJRSS B B 20022002,JRSSJRSS B B 20062006 等等) ) 我们(JRSSB 2006)探讨一般分布的关联度量的可压缩性。两个变量的关联度量的正负号可能被一个 混杂因素改变,称为 Simpson 悖论。Cox Ele J Stat 2009)引 用。进一步,我们(Stat Sinica 2008)提出了多种关联度量之间强度的蕴含关系,探讨了各种关联度量 可压缩性的条件。8 41101.01.010.149目前,所有因果推断几乎都要求不可忽略性假定,它是关键假定之一。我们(JRSSB 2002)在不需要 这个可忽略性假定下探讨了混杂因素的提议和判断准则。流行病学研究中存在着不同的混杂定义,一直采 用经验归纳出来的判别混杂因素的准则. 我们提出了混杂的形式定义, 并且提出偶然混杂因素的概念, 给出了无混杂的充分必要条件,在此基础上论证了判断混杂因素的准则.判断混杂因素时常使用两个准则: 可压缩性准则与可比较性准则.流行病学者对这两个准则存在争议.我们论证它们之间的关系和互补性。我们(Wang, Geng et al. SS 2007 ) 探讨因果分布作用的估计精度,论证了调整混杂因素能消除偏 倚,但是调整非混杂因素将会降低估计精度,该结果同样适应于小样本的情况。很多学者只是在大样本 下比较估计量的渐近方差探讨是否有必要调整非混杂因素。我们 (Wang, Geng et al. JSPI, 2009)探讨了如何确定和筛选多混杂因素的方法。我们(Geng Ding,Geng 10th China JRSSB; FrangakisFrangakis Geng, Z.; Jia, J.Z.5.7212007, 69, 919-9322007年10月耿直Hua ChenHua Chen,Zhi Geng, Jinzhu Jia 14Google 30是2Criteria for surrogate end points based on causal distributions / J Royal Statistical Society B / Ju, C.; Geng, Z.5.7212010,72,129-1422010年 3月耿直Chuan JuChuan Ju, Zhi Geng6103Collapsibility of distribution dependence / J Royal Statistical Society B / Ma, Zongming; Xie, X.C.; Geng, Z.5.7212006,68,127-133 2006年 3月耿直Zongming MaZongming Ma, Xianchao Xie, Zhi Geng514是164Criteria for confounders in epidemiological studies / J Royal Statistical Society B / Geng, Z.; Guo, J.H.; Fung, W.K.5.7212002,64,3-152002年 3月 耿直Zhi GengZhi Geng,Jianhua Guo, W. K, Fung 1326是5A recursive method for structural learning of directed acyclic graphs / J Machine Learning Research / Xie, X.C.; Geng, Z.2.8532008,9,459-4832008年 3月耿直Xianchao XieXianchao Xie, Zhi Geng2147是6Active Learning of Causal Networks with Intervention Experiments and Optimal Designs / J Machine Learning Research / He, Y.B.; Geng, Z.2.8532008,9, 2523-25472008年 11月耿直Yangbo HeYangbo He, Zhi Geng1335是177Decomposition of structural learning about directed acyclic graphs / Artificial Intelligence / Xie, X.C.; Geng,Z; Zhao, Q.2.5112006,170, 422-4392006年 4月耿直Xianchao XieXianchao Xie, Zhi Geng1527是8Mixed graphical models with missing data and the partial imputation EM algorithm / Scandina J Statistics / Geng, Z.; Wan, K.; Tao, F.1.0632000,27, 433-4442000年 9月耿直耿直Zhi Geng,Kang Wan, Feng Tao1324是合 计100213补充说明(视情填写):补充说明(视情填写):承诺:承诺:上述论文专著用于报奖的情况,已征得未列入项目主要完成人的作者的 同意。知识产权归国内所有,且不存在争议。第一完成人签名:耿直第一完成人签名:耿直182.2. 主要论文专著目录(不超过主要论文专著目录(不超过 2020 篇,含上述全部代表性论文专著)篇,含上述全部代表性论文专著)序号论文专著名称/刊名/作者影响因子年卷页码(xx 年 xx 卷xx 页)发表时间年 月 日SCI 他引次数他引总次数知识产权是否归国内所有1Criteria for surrogate end points / J Royal Statistical Society B / Chen, H.; Geng, Z.; Jia, J.Z.5.7212007, 69, 919-9322007 年10 月1433是2Criteria for surrogate end points based on causal distributions / J Royal Statistical Society B / Ju, C.; Geng, Z.5.7212010,72,129-142 2010 年 3月817是3Collapsibility of distribution dependence / J Royal Statistical Society B / Ma, Zongming; Xie, X.C.; Geng, Z.5.7212006,68,127-1332006 年 3月516是4Criteria for confounders in epidemiological studies / J Royal Statistical Society B / Geng, Z.; Guo, J.H.; Fung, W.K.5.7212002,64,3-152002 年 3 月1430是5A recursive method for structural learning of directed acyclic graphs / J Machine Learning Research / Xie, X.C.; Geng, Z.2.8532008,9,459-4832008 年 3月2154是6Active Learning of Causal Networks with Intervention Experiments and Optimal Designs / J Machine Learning Research / He, Y.B.; Geng, Z.2.8532008,9, 2523-25472008 年 11月1642是7Decomposition of structural learning about 2.709 2006,170, 422-4392006 年 4 月1532是19directed acyclic graphs / Artificial Intelligence / Xie, X.C.; Geng,Z; Zhao, Q.8Mixed graphical models with missing data and the partial imputation EM algorithm / Scandina J Statistics / Geng, Z.; Wan, K.; Tao, F.0.8352000,27, 433-4442000 年 9 月1425是9Identifiability and Estimation of Causal Effects in Randomized Trials with Noncompliance and Completely Nonignorable Missing Data(with discussions)/ Biometrics / Chen, H.; Geng, Z.; Zhou, X.H.1.7642009, 65; 675-6822009 年 9 月1013是10Identifiability and estimation of causal effects by principal stratification with outcomes truncated by death / J. Am. Statist. Asso./ Peng Ding, Zhi Geng, X. H. Zhou2.0362011,106,1578-15912011 年 10月712是11Structural learning of chaingraphs via decomposition. J. Machine Learning Research/Zongming Ma,Xianchao Xie, Zhi Geng2.8532008, 9, 2847-2880.2008 年 12月1030是2012Sharp bounds on causaleffects in case-control and cohort studies/Biometrika/M. Kuroki, Z. Cai, Zhi Geng1.5062010,97, 123-1322010 年 4 月36是13Learning local directed acyclic graphs based on multivatriate time series data / Annals of Applied Statistics/ W. Deng,Zhi Geng, H. Li1.6892013, 7, 1663-16832013 年 10月01是14Association pattern discovery via theme dictionary models/J. Royal Statist Soc. B/K. Deng,Zhi Geng, J. Liu5.7212014, 76, 319-3472014 年 6 月01是15Identifiability of causal effects for binary variables with baseline data missing due to death/ Biometrics/W. Yan, Y. Q. Hu, Zhi Geng1.5212012, 68, 121-1282012 年 3 月22是16Sufficient conditions for 2.3282011, 30, 2422-24342011 年 11月710是21concluding surrogacy based on observed data/ Statist. Medicine /Z. G. Wu, P. He, Zhi Geng17Decomposition of search for v-structures in DAGs/J. Multivar. Analy./ Zhi Geng, C. Wang, Q. Zhao0.9432005, 96, 282-2942005 年 6 月812是18Confounding, homogeneity and collapsibility for causal effects in epidemiologic studies/ Statistica Sinica/ Zhi Geng, J. H. Guo, T. S. Lau, W. K. Fung1.2262001, 11, 63-752001 年 3 月916是19Collapsibility for directed acyclic graphs/ Scand. J. Statist./X. C. Xie, Zhi Geng1.0632009, 36, 185-2032009 年 4 月36是20Some association measurementsand their collapsibility/ Statistica Sinica/X. C. Xie, Z. M. Ma, Zhi Geng1.2262008, 18, 1165-11832008 年 10月317是22合 计16937323六、代表性论文专著被他人引用的情况六、代表性论文专著被他人引用的情况(不超过 8 篇)序号被引代表性论文专著序号引文题目/作者引文刊名/影响因子引文发表时间(年 月 日)11Surrogate Measures and Consistent Surrogates/ VanderWeele, T. J.Biometrics,2013, 69, 561581/ IF=1.7642013/621Surrogacy assessment using principal stratification when surrogate and outcome measures are multivariate normal / A. Conlon and J. TaylorBiostatistics, 2014, 15, 2, 266283 / IF=2.2362014/533Distortion of effects caused by indirect confounding / Wermuth, N.; Cox, D. R.Biometrika, 2008, Vol 95, 17-33 / IF=1.0142008/243Triangular systems for symmetric binary variables / Wermuth, N.; Marchetti, G.; Cox, D. R. Electronic J Statistics, 2009, Vol 3, 932-955 / IF = 1.0252009/655A note on minimal d-separation trees for structural learning /Liu, B.; Guo J.H.; Jing, B.Y.Artificial Intelligence, 2011, Vol 174, 442-448 / IF = 2.5112010/466Introduction to Causal Inference / Spirtes, P.J Machine Learning Research, 2010,Vol 11, 1643-1662 / IF = 2.9492010/578The nested Dirichlet distribution and incomplete categorical data analysis / Ng, K.W.; Tang, M.L.; Tian G.L.;Tan, M.Statistica Sinica, 2009, Vol 19, 251 - 271 / IF=0.9452009/188The TM algorithm for maximising a conditional likelihood function / Edwards, D; Lauritzen, S.LBiometrika, 2001, Vol 88, 961 - 972 / IF=1.0142001/1224七、主要完成人情况表七、主要完成人情况表姓 名耿直性别男排 名1国 籍中国出生年月1956 年 10 月出 生 地北京民 族汉身份证号110108195610135733归国人员是归国时间198941技术职称教授最高学历博士最高学位博士毕业学校日本,九州大学毕业时间1989327所学专业数理统计电子邮箱zhigengpku.edu.cn办公电话010-62751837移动电话13661135550通讯地址北京市海淀区北京大学数学科学学院邮政编码1008711工作单位北京大学行政职务无二级单位数学科学学院党 派无所 在 地北京市 完成单位北京大学 单位性质高校参加本项目的起止时间 2000 年 1 月 至 2015 年 12 月 对本项目主要学术贡献:本人负责主持了与因果推断相关的一系列科研项目,包括:1997 年教育部跨世纪优秀人才项目,1998 年国家杰出青年基金项目,1999 年主持的国家基金委重点项目应用统计和面上项目;以及此后参加的国家基金委重点项目和创新群体项目等。本项目所有成果是在本人指导下完成的。在项目期间(2000-2014)有 61 篇 SCI 检索论文。因果推断是本人主要研究方向,研究Simpson 悖论、因果作用评价、因果网络的参数学习和结构学习,又提出了替代指标悖论(Surrogate Paradox)。2000 年以来,12 次应邀在国际会议进行邀请报告,其中包括 2011 年ICIAM 的 1 小时大会报告、2012 年 IMS-APRM 的 50 分钟特邀报告、2005 年 Joint meeting of CSPS / IMS 的 55 分钟 Special Lecture 等. 曾获国家科技奖励情况: 1996,国家教委科技进步奖二等奖,不完全数据与关联可压缩性, (排 1) 1997,国家教委和人事部全国优秀留学回国人员 1997,国家教委跨世纪优秀人才 1998,国家杰出青年基金 2004,北京市科学技术奖二等奖,中西医结合治疗 SARS (排 9) 2004,北京市科学技术奖二等奖,流行病学与统计学结合因果探讨的理论方法(排 2) 2008,全国统计科学研究优秀成果奖,一等奖, (排 1) 2008,“Best Overall Contribution Award” at Causal Challenge of IEEE Word Congress Comput Intellg25声明声明:本人遵守国家科学技术奖励条例 及其实施细则的有关规定和国家科学技术奖励 工作办公室对推荐工作的具体要求,保证所提 交材料真实有效,且不存在任何违反中华人 民共和国保守国家秘密法和科学技术保密 规定等相关法律法规及侵犯他人知识产权的 情形。该项目是本人本年度被推荐的唯一项目。 如有虚假,愿意承担相应责任并接受相应处理。 如产生争议,保证积极配合调查处理工作。本人签名:耿直2015 年 12 月 23 日完成单位声明完成单位声明:本单位确认该完成人情况 表真实有效,且不存在任何违反中华人民共 和国保守国家秘密法和科学技术保密规定 等相关法律法规及侵犯他人知识产权的情形。 如产生争议,愿意积极配合调查处理工作。 工作单位声明工作单位声明:本单位对该完成人报奖无 异议。单位(盖章)年 月 日26八、推荐单位意见八、推荐单位意见(专家推荐不填此栏)推荐单位通讯地址邮政编码联 系 人联系电话电子邮箱传 真推荐意见:声明:声明:本单位遵守国家科学技术奖励条例及其实施细则的有关规定和国家科学技术奖励工作办公室对推荐工作的具体要求,保证所推荐项目的全部推荐材料真实有效,且不存在任何违反中华人民共和国保守国家秘密法和科学技术保密规定等相关法律法规及侵犯他人知识产权的情形。如有虚假,愿意承担相应责任并接受相应处理。如产生争议,保证积极配合调查处理工作。推荐单位(盖章)年 月 日27八、专家推荐意见八、专家推荐意见(单位推荐不填此栏)姓 名身份证号院 士学 部最 高 奖年 度工作单位通讯地址邮政编码电子邮箱联系电话推荐意见:声明:声明:本人遵守国家科学技术奖励条例及其实施细则的有关规定和国家科学技术奖励工作办公室对推荐工作的具体要求,保证所推荐项目的全部推荐材料真实有效,且不存在任何违反中华人民共和国保守国家秘密法和科学技术保密规定等相关法律法规及侵犯他人知识产权的情形。如有虚假,愿意承担相应责任并接受相应处理。如产生争议,保证积极配合调查处理工作。本人同意作为该项目的推荐专家向社会公布。专家签名:年 月 日28九、英文推荐书九、英文推荐书 THE NOMINATION FORM FOR THE STATE NATURAL SCIENCE AWARD, P.R.CHINA1.GENERAL1.GENERAL INFORMATIONINFORMATIONProject TitlePrimarily achieved bySubject categoryBrief introduction to the project(within 500 words)Prepared by NOSTA292.2. PRIMARYPRIMARY DISCOVERIESDISCOVERIES303.3. PEERPEER REVIEWSREVIEWS ANDAND EVALUATIONSEVALUATIONS314.4. PUBLICATIONSPUBLICATIONS325.5. PRINCIPALPRINCIPAL ACHIEVERSACHIEVERSAchiever NoNamePrimary Academic contributions to this projectAchiever NoNamePrimary Academic contributions to this projectAchiever NoNamePrimary Academic contributions to this projectAchiever NoNamePrimary Academic contributions to this projectAchiever NoNamePrimary Academic contributions to this project33十、附件十、附件1代表性论文专著(不超过 8 篇)2他人引用代表性引文专著(不超过 8 篇)3检索报告4知情同意报奖证明5完成人合作关系说明6国际合作证明7其他证明34