人类群体遗传学.ppt
人类群体遗传学基本原理和分析方法 中科院-马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院研究生课程 人类群体遗传学徐书华 金 力序号日 期课程内容授课教师13月06日Hardy-Weinberg平衡检验原理及其应用徐书华23月13日遗传漂变效应及有效群体大小的估计徐书华33月20日进化树的构建方法及应用徐书华43月27日人群遗传结构分析(I)徐书华54月03日单倍型估计及连锁不平衡分析徐书华64月10日人群遗传结构分析(II)徐书华74月17日基因定位中的关联分析徐书华84月24日人类基因组中的连锁不平衡模式及标签位点的选择徐书华5月01日劳动节放假95月08日基因表达数据的分析方法严 军105月15日Coalescence原理及应用李海鹏115月22日遗传多态性统计量,自然选择检验原理和方法徐书华125月29日全基因组基因型数据正选择检验方法唐 鲲136月05日法医学检测及分析方法李士林146月12日复习156月19日课程考试教育基地20072008学年第二学期学年第二学期人类群体遗传学分析方法人类群体遗传学分析方法课程表课程表上课时间:每周四上午10:00-11:50 上课地点:中科大厦4楼403室第7教室第五讲单倍型估计及连锁不平衡分析第五讲基本概念连锁不平衡原理及其统计量影响连锁不平衡的因素连锁不平衡在基因定位研究中的应用基本概念遗传多态性(Geneticpolymorphism)指在一个群体中,同时存在的两种或两种以上的指在一个群体中,同时存在的两种或两种以上的变异类型,每种类型的频率比较高,一般认为每变异类型,每种类型的频率比较高,一般认为每种变异型超过种变异型超过1 1即可定为多态现象,不足即可定为多态现象,不足1 1的的称为罕见变异型,或者称为突变(称为罕见变异型,或者称为突变(mutationmutation)。)。人类存在多种遗传多态现象(多态性),主要有人类存在多种遗传多态现象(多态性),主要有染色体多态性、酶和蛋白质多态性、抗原多态性染色体多态性、酶和蛋白质多态性、抗原多态性的的DNADNA多态性五类。多态性五类。单核苷酸多态性单核苷酸多态性单核苷酸多态性(singlenucleotidepolymorphism(singlenucleotidepolymorphism,SNPSNP,读作,读作“snip”),snip”),主要是指在基因组水平上由单个核苷酸的变异所引起的主要是指在基因组水平上由单个核苷酸的变异所引起的DNADNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的知多态性的90%90%以上。以上。SNPSNP在人类基因组中广泛存在,平均每在人类基因组中广泛存在,平均每300300600600个碱基对中就有个碱基对中就有1 1个,估计其总数可达个,估计其总数可达10001000万个甚至更多。万个甚至更多。SNPSNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换碱基的转换(transition)(transition)或颠换或颠换(transversiontransversion)所引起,也可由碱基所引起,也可由碱基的插入或缺失所致。但通常所说的的插入或缺失所致。但通常所说的SNPSNP并不包括后两种情况。并不包括后两种情况。理论上讲,理论上讲,SNPSNP既可能是二等位多态性,也可能是既可能是二等位多态性,也可能是3 3个或个或4 4个等位多个等位多态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说态性,但实际上,后两者非常少见,几乎可以忽略。因此,通常所说的的SNPSNP都是二等位多态性的(都是二等位多态性的(biallelicbiallelic)。)。genotypehaplotype相邻位点的等位基因在同一条染色体上的排列方式From genotype to haplotypesampleSNP1SNP21ATCG2ATCC3TTCG4ATCC5AACG6ATGGgenotypehaplotypephased dataunphased dataReconstructhaplotypefromgenotypeCLARKS algorithm?Parsimony-based methodParsimony-based methodE-M algorithm?Likelihood-based methodLikelihood-based methodPHASE algorithm?BayesianBayesian methodmethodReconstruct haplotype at individual level0010011101010100000111110101101111111111010010000101010111011000011101100000110111001111100001000100111010101000001111101011011111111110100100001010101110110000111011000001101110011111000010001011111110101111101000101001000000001000011000001101000111001100000000111111001100010001000000010111111101011111010001010010000000010000110000011010001110011000000001111110011000100010000000101111010101000001111101011010111111110101001001000000000101000000000000001100110001000100000001011110101010000011111010110101111111101010010010000000001010000000000000011001100010001000001101011101010100000111110101101011111111010011110001111111010100000110001111110011000100010000011010111010101000001111101011010111111110100111100011111110101000001100011111100110001000100000001001110101010000011111010110111111111101001000010101011101100001110100000010000011000100110110010011101010100000111110101101111111111010010000101010111011000011101000000100000110001001101111010011010101000001111101011011111111110100000011000000000000010000000100000100110001000100000110100110101010000011111010110111111111101000000110000000000000100000001000001001100010001000000010111101010100000111110101101011111111010010100100000000010100000000000000100000110001001101100101111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011110100000000000000000000000000000000000010000000110000000000000100000001000001001100010001000001101000000000000000000000000000000000000100000001100000000000001000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000000000000000000000000000000000000000000010100000110000000000000100000001000001001100010001000001101011101010100000111110101101011111111010010100100000000010100000000000000100000110001001101111010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011000000000000000000000000000000000000000010001000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000100010000011010001110010100000000000100000110001001101100101111111010111110100010100100000000100001100000110100011100110000000000000100110001000100000001011111110101111101000101001000000001000011000001101000111001100000000000001001100010001000000000000000000000000000000000000000000000101000001100000000000001000000110000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000001100000100110001000100000110101000000000000000000000000000000000010000000110000000000000100000001000001011100111110000101101010000000000000000000000000000000000100000001100000000000001000000010000010111001111100001000000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101111000111111101010100000001000001001100010001000000000000000000000000000000000000000000000101000001100000000000001000000010000010011000100010000000000000000000000000000000000000000000001010000011000000000000010000000100000100110001000100000001011111110101111101000101001000000001000011000001101000111001100000001000001001100010001000000010111111101011111010001010010000000010000110000011010001110011000000010000010011000100010000011010111111010111110100010100100000000100001101001000000000100000001100000000110010011010000110110101111110101111101000101001000000001000011010010000000001000000011000000001100100110100001100000000000000000000000000000000000000000101011110001111111010100001110000000110111001111100001000000000000000000000000000000000000000001010111100011111110101000011100000001101110011111000010001011111110101111101000101001000000001000010000110000000000000100000001000001011100111110000100010111111101011111010001010010000000010000100001100000000000001000000010000010111001111100001000101111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011001011111110101111101000101001000000001000011000001101000111001010000000000010000011000100110111101011111101011111010001010010000000010000110000011010001110010100000000000100000110001001101111010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011000000000000000000000000000000000000000010000000110000000000000100000001000001001100010001000000000000000000000000000000000000000000000100000001100000000000001000000010000010011000100010000011010111111010111110100010100100000000100001100000110100011100101000000000001000001100010011011110101111110101111101000101001000000001000011000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000101011110001111111010101000000010000010011000100010000000000000000000000000000000000000000000001010111100011111110101010000000100000100110001000100000000000000000000000000000000000000000000010101000001101000111001010000000000010000011000100110110000000000000000000000000000000000000000101010000011010001110010100000000000100000110001001101100101111111010111110100010100100000000100001110000011111110101000000000011111110010011010001010001011111110101111101000101001000000001000011100000111111101010000000000111111100100110100010101101011101010100000111110101101011111111010010100100000000010100000000000000100000110001001101111010111010101000001111101011010111111110100101001000000000101000000000000001000001100010011011软件演示PHASE&fastPHASEPHASEinputfileformatPositionandLocustypeGenotypecodingExampleofinputfileformatPHASEinputfileformat40407 7P1354957613621676137061561370828313958290P135495761362167613706156137082831395829014224204143127161422420414312716SSSSSSSSSSSSSSYRI-1YRI-1TGTTCTTTGTTCTT CCCCCCCCCCCCCCYRI-2YRI-2TCCCCTTTCCCCTT TCCCCTTTCCCCTTYRI-3YRI-3TGCTCTTTGCTCTT CCCTCCTCCCTCCTYRI-4YRI-4TGTCCTTTGTCCTT CCCCCCTCCCCCCTYRI-5YRI-5TGCTCTTTGCTCTT CCCCCCCCCCCCCCYRI-6YRI-6TCTCCTTTCTCCTT TCCCCCTTCCCCCTAlterativeformat-foption-noptionOptionsaffectingruntimesandaccuracy-XoptionRunningPHASEmultipletimes-xoptionRunningseveraldatasetsfromthesameinputfile-DoptionLinkageDisequilibrium(LD)LDisthenon-randomassociationofallelesatadjacentloci.WhenaparticularalleleatonelocusisfoundWhenaparticularalleleatonelocusisfoundtogetheronthesamechromosomewithatogetheronthesamechromosomewithaspecificalleleatasecondlocusmoreoftenspecificalleleatasecondlocusmoreoftenthanexpectedifthelociweresegregatingthanexpectedifthelociweresegregatingindependentlyinapopulationthelociareinindependentlyinapopulationthelociareindisequilibrium.disequilibrium.连锁不平衡LinkageDisequilibrium(LD)F是相邻位点之间的非随机关联,当一个位点上的某一等位基因与另一位点上的等位基因共同出现的概率大于随机组合的假设,则这两个位点之间存在连锁不平衡。CommonlyusedLDmeasurements(LewontinLewontin,1964)1964)(Hill&Weir,(Hill&Weir,1994)1994)Independencetest(p-value)B1B1B2B2A1A1a ab ba+ba+bA2A2c cd dc+dc+da+ca+cb+db+dn n2x2 table testFisher exact testPopulationrecombinationrate(4Ner)4Ner:populationrecombinationparameter.Alternativelydenotedby,4NecorCr rororc cistherecombinationrateacrosstheistherecombinationrateacrosstheregionofinterest;regionofinterest;NeNeistheeffectivepopulationsize.istheeffectivepopulationsize.Humanrecombinationrate=4Ner=4x10000 x1cM/Mb=4x10000 x0.01M/1000000bp=0.0004/bp=0.4/kb4NerandLD4NerasanapproachforquantifyingLD;ThisapproachavoidsrelianceonpairwisemeasuresofLD,whichdifferfrommarkertomarker,andfacilitatescomparisonsbetweenregions.LD统计量的性质-|D|D|D|具有很好的性质,当且仅当两个具有很好的性质,当且仅当两个SNPSNP位点没有被重组打位点没有被重组打断,或者没有因为回复突变、基因转换等因素影响的情况下,断,或者没有因为回复突变、基因转换等因素影响的情况下,|D|=1|D|=1。在这种情况下,对于两个位点来说,从样本中最多。在这种情况下,对于两个位点来说,从样本中最多能观察到三种单倍型。能观察到三种单倍型。|D|=1|D|=1被认为是完全的连锁不平衡被认为是完全的连锁不平衡(completeLDcompleteLD)。)。|D|1|D|1/3的连锁不平衡水平,使得样本量的增加不超过3倍,可以作为“实用连锁不平衡”的底线。LD统计量的性质-p-value因为p值严重依赖于样本量的大小,所以不能用来比较使用了不同样本量的研究结果。另外,只要样本量足够大,很容易获得统计上显著的p值,比如r2=0.01的连锁不平衡在1,000条染色体的样本可以是统计上极其显著的。再者,尽管实际的连锁不平衡远远低于可用于基因定位中有用的水平,p值却往往让人误以为连锁不平衡延伸了很远,因为连锁平衡的微弱偏离可以在相当长的距离上观察到。总的说来,对于两两位点之间连锁不平衡的度量方式,r2是一个比较好的统计量,尤其是在关联分析的框架下来考虑的话,r2可以直接与功效联系起来。影响连锁不平衡的因素分子水平分子水平重组率的不均匀分布重组率的不均匀分布 突变率的不均匀分布突变率的不均匀分布基因转换基因转换 群体水平群体水平遗传漂变遗传漂变群体扩张群体扩张人群混合和人群迁移人群混合和人群迁移群体结构群体结构自然选择自然选择重组率的不均匀分布已知重组率在整个基因组中的变化超过一个数量级。已知重组率在整个基因组中的变化超过一个数量级。因为连锁不平衡的衰减主要就是重组驱动的,所以因为连锁不平衡的衰减主要就是重组驱动的,所以连锁不平衡将以相反的比例随着重组率的波动而波连锁不平衡将以相反的比例随着重组率的波动而波动。甚至有人认为重组有可能绝大多数集中在基因动。甚至有人认为重组有可能绝大多数集中在基因组中一些局部的组中一些局部的“重组热点重组热点”(hotspothotspot),从而其),从而其他地方重组很少发生。按照这个观点,连锁不平衡他地方重组很少发生。按照这个观点,连锁不平衡将在非重组区表现得很强,而在将在非重组区表现得很强,而在“重组热点重组热点”表现表现得很弱。尽管已经有实验研究提示这种情况确实在得很弱。尽管已经有实验研究提示这种情况确实在基因组的某些区域发生,但是基因组的某些区域发生,但是“重组热点重组热点”的一般的一般性,性,“热点热点”区域以内和以外的重组频率差异程度区域以内和以外的重组频率差异程度以及这些区域的长度分布都有待于进一步的研究和以及这些区域的长度分布都有待于进一步的研究和确认。确认。突变率的不均匀分布基因组中的某些区域比如在CpG二核苷酸位置附近,单核苷酸多态位点可能具有较高的突变率,从而与附近的位点表现出很弱的连锁不平衡甚至没有连锁不平衡,尽管实际上没有重组发生。基因转换在减数分裂期间,如果发生基因转换事件,一般是一条染色体的一个短片段转移到另外一条染色体上。这个效应等价于近距离发生了两次重组事件,于是连锁不平衡被打断,如同重组和回复突变产生的效果。已经有一些研究表明,人类基因组中基因转换的发生非常频繁,对紧密连锁位点之间的连锁不平衡产生重要影响。遗传漂变遗传漂变描述的是在有限群体大小的群体中,由于遗传漂变描述的是在有限群体大小的群体中,由于每一代的随机取样造成的基因频率和单倍型频率的每一代的随机取样造成的基因频率和单倍型频率的改变的现象,这是群体遗传学中见到的最普遍的现改变的现象,这是群体遗传学中见到的最普遍的现象。等位基因频率的变化在小群体中尤其迅速,一象。等位基因频率的变化在小群体中尤其迅速,一般来说,在一个稳定的(而不是增长的)小群体中,般来说,在一个稳定的(而不是增长的)小群体中,随着单倍型的不断丢失,遗传漂变会使连锁不平衡随着单倍型的不断丢失,遗传漂变会使连锁不平衡不断增强。不断增强。群体扩张群体的快速增长或群体扩张因为削弱了遗传漂变的影响,从而导致连锁不平衡的增强。人群混合和人群迁移人群之间的混合或者迁移可以产生新的连锁不平衡。人群之间的混合或者迁移可以产生新的连锁不平衡。在人群混合之初,连锁不平衡的强度与混合人群之在人群混合之初,连锁不平衡的强度与混合人群之间等位基因频率的差异相关或成比例,而与位点之间等位基因频率的差异相关或成比例,而与位点之间的物理距离无关。在随后的世代中,相互不连锁间的物理距离无关。在随后的世代中,相互不连锁的位点之间的的位点之间的“伪伪”连锁不平衡很快消失,而那些连锁不平衡很快消失,而那些连锁的相邻位点之间的连锁不平衡因为重组会逐渐连锁的相邻位点之间的连锁不平衡因为重组会逐渐衰减,但是相对要缓慢得多。理论上来讲,在混合衰减,但是相对要缓慢得多。理论上来讲,在混合人群中进行基因定位可以使标记的需要量大大减少。人群中进行基因定位可以使标记的需要量大大减少。已经有研究试图在一些混合人群,比如美国黑人当已经有研究试图在一些混合人群,比如美国黑人当中用这种策略进行基因定位。中用这种策略进行基因定位。群体结构一般人群认为群体结构各方面的特征都会对连锁不平衡产生影响。在人类群体中,人群的分化有可能对连锁不平衡的模式有相当重要的影响,然而我们有限的知识大多来自于模式生物的研究。在拟南芥(Arabidopsis)的研究提示,在没有降低遗传变异的条件下,极度的近交(inbreeding)可以产生高水平的连锁不平衡。自然选择一般认为自然选择可以通过两条途径影响连锁不平衡,第一一般认为自然选择可以通过两条途径影响连锁不平衡,第一个途径是个途径是“搭乘效应搭乘效应”(hitchhikingeffecthitchhikingeffect),在这种情况),在这种情况下,受选择位点附近的整个单倍型可能一起被快速地下,受选择位点附近的整个单倍型可能一起被快速地“扫荡扫荡”(sweepsweep)到很高的频率甚至固定下来。对有害突变)到很高的频率甚至固定下来。对有害突变(deleteriousvariantsdeleteriousvariants)的选择同样可能导致连锁不平衡的)的选择同样可能导致连锁不平衡的增加,尽管效应一般会很微弱,因为有害的单倍型会被从群增加,尽管效应一般会很微弱,因为有害的单倍型会被从群体中体中“扫除扫除”,从而使单倍型的种类减少。自然选择影响连,从而使单倍型的种类减少。自然选择影响连锁不平衡的第二个途径是通过上位选择(锁不平衡的第二个途径是通过上位选择(epistaticepistatic selectionselection)使得同一条染色体上两个位点或多个位点的等位)使得同一条染色体上两个位点或多个位点的等位基因组合在一起,共同传递。这种形式的选择导致不同位点基因组合在一起,共同传递。这种形式的选择导致不同位点特定的等位基因之间的关联。尽管这是果蝇遗传学历史上导特定的等位基因之间的关联。尽管这是果蝇遗传学历史上导致连锁不平衡研究的主要动机,因为可以通过连锁不平衡的致连锁不平衡研究的主要动机,因为可以通过连锁不平衡的研究检测(上位)自然选择是否发生,然而,在人类基因组研究检测(上位)自然选择是否发生,然而,在人类基因组中,还没有迹象表明这种形式的选择影响连锁不平衡的强度中,还没有迹象表明这种形式的选择影响连锁不平衡的强度和模式。和模式。软件演示ArlequinHaploview常用软件PHASE&fastPHASEhttp:/http:/stephenslab.uchicago.edu/software.htmlstephenslab.uchicago.edu/software.htmlArlequin3.01http:/anthro.unige.ch/software/arlequin/http:/anthro.unige.ch/software/arlequin/Haploviewhttp:/http:/www.broad.mit.edu/mpg/haploviewwww.broad.mit.edu/mpg/haploview/练习利用HapMap数据分析连锁不平衡;http:/www.hapmap.orghttp:/www.hapmap.org