基因组学技术在致病基因发现.ppt
《基因组学技术在致病基因发现.ppt》由会员分享,可在线阅读,更多相关《基因组学技术在致病基因发现.ppt(99页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 1 1基因组学技术在致病基因发现基因组学技术在致病基因发现及临床诊断中的应用及临床诊断中的应用引言对疾病的研究一直是人类科研活动的重点和热点之一 人类所有疾病都具有遗传影响和背景,但只有在一少部分疾病中,遗传因素起主要作用 遗传病通常具有先天性、终生性和家族性的特点 2遗传病分类遗传病分类单基因遗传病研究策略回顾单基因遗传病研究策略回顾复杂疾病研究策略回顾复杂疾病研究策略回顾应用二代测序技术寻找易感基因应用二代测序技术寻找易感基因3遗传病分类遗传病分类单基因遗传病单基因遗传病多基因遗传病多基因遗传病染色体疾病染色体疾病线粒体疾病线粒体疾病体细胞遗传病体细胞遗传病 4权威的在线人类孟德尔遗传数
2、据库(Online Mendelian Inheritance in Man,OMIM),目前已收录的以孟德尔遗传方式为主的遗传病约6700种,其中常染色体连锁的约6200中,性染色体连锁的500种。在这6700多种遗传疾病中,其中已确定其分子遗传基础的单基因病接近3000种,表型已知而致病分子基础未知的约有1830多种。由于单基因病的遗传异质性,还有很多的亚型未被发现。单基因遗传病单基因遗传病AutosomalX-LinkedY-LinkedMitochondrialTotal*Genewithknownsequence12605620483513308+Gene with known se
3、quence and phenotype3141802334#Phenotypedescription,molecularbasisknown27252364282993%Mendelianphenotypeorlocus,molecularbasisunknown1632134501771Other,mainlyphenotypeswithsuspectedmendelianbasis1831130201963Total191071138596520369OMIM Statistics for May 3,20116多基因遗传病多基因遗传病遗传方式复杂,无显性和隐性之分,故也称多因子遗传或复
4、杂疾病。常见的有唇腭裂、先天性下颌前突、高血压、糖尿病、精神分裂症、类风湿性关节炎及先天性心脏病等。复杂疾病的发病率常有地区或族群差异。比如在世界范围内,唇腭裂的发生率约为1/700,拉美、亚洲发生率高,非洲较低。下颌前突亚洲群体发病率较高,大约有8%40%,非洲为3%8%,欧美较低,约为0.4%4%。7染色体疾病染色体疾病数目性染色体畸变数目性染色体畸变例子如Down综合征,即21三体综合征表型特征有智力低下、伸舌、鼻梁低平、眼裂上斜、小耳、小颌、枕平、内眦敖皮、颈短及肌张力减低等,常伴有先天性心脏发育缺陷结构性染色体畸变结构性染色体畸变 是在细胞分裂过程中曾有染色体断裂所致。常见的结构异常
5、有缺失、环状染色体、易位、重复、倒位和等臂染色体。如毛细血管扩张性共济失调症 染色体数目异常比结构异常更常见8疾病致病基因查找研究p疾病致病基因查找 对疾病的诊断与治疗有巨大意义除DNA水平,还有RNA、蛋白、细胞水平等自动化DNA测序仪与微阵列芯片-强有力工具人类基因组计划完成 总体框架p传统的基于连锁不平衡(LD)的方法基于家系的Linkage分析基于大样本的Association分析很多成功范例疾病致病基因定位研究罕见疾病感染率低(318,000 tag SNPs20数据分析方法数据分析方法Genome StudioCall rate 99%CNV partition至少连续5个探针21
6、数据分析方法数据分析方法连锁分析MerlinGenehunterMendel单体型分析MerlinHaplopainterCNV partition22连锁分析流程连锁分析流程23参数连锁分析在复杂疾病中的应用参数连锁分析在复杂疾病中的应用在复杂疾病连锁分析中,很多研究倾向于非参数分析,避开对遗传模式的猜测仍有一些学者认为参数连锁在复杂疾病研究中仍然有不可替代的优势在很多研究采用一系列不同的遗传模式,以得到最优遗传模式参数最好结合参数和非参数分析的结果,二者吻合度到,共同支持的连锁区域更可信。24参数连锁分析在复杂疾病中的应用参数连锁分析在复杂疾病中的应用双致病位点连锁分析在定位到两个或多个候
7、选区域的复杂疾病家系研究中,具有重要意义双致病位点模式可以提高复杂疾病连锁信号的检测效能。这种方法已在多项复杂疾病如家族性高胆固醇血症、静脉血栓栓塞和双相情感障碍研究中成功运用。双区域连锁分析数值高于与单个区域连锁值提示遗传因素相互影响是客观存在的。而这种优势越明显,则越支持两个区域的相互作用。25CNVCNV与疾病与疾病CNV不仅在基因组中广泛存在,而且在基因富集区尤为突出。大量研究已证实CNV是某些复杂疾病的易感因素,与人类的一些复杂性状,如个体之间的感官差异(包括嗅觉、听觉、味觉和视觉)也有关系。目前已知多种复杂疾病与特定基因的CNV有着明确关系。目前,关于基因组内CNV与疾病的相关性仍
8、处在广泛的研究中,可以肯定的是,其中高频拷贝数变异区域往往在减数分裂时产生重排,导致发育异常类疾病。26总体结论总体结论基于类似孟德尔遗传的大家系(患者大于10例,至少3代),采用SNP芯片连锁分析是定位复杂疾病易感基因的有效方法之一。双致病位点连锁分析在定位到两个或多个候选区域的复杂疾病家系研究中,具有重要意义。27应用二代测序技术寻找易感基因 外显子组测序 单个病例、病例组、核心家系 全基因组测序几个病例、癌组织28应用二代测序技术寻找易感基因随着二代高通量测序技术的成熟,基于家系样本和少量病例样本的全基因组重测序和外显子组重测序在疾病易感基因研究方面开始显现巨大优势。目前,已有数十种疾病
9、通过外显子组重测序成功定位到了新的易感基因及突变,比如恶性黑素瘤、和痉挛性截瘫。全基因组重测序主要是在癌症这样异常复杂的疾病研究中应该更广泛,比在肝癌和乳腺癌。29外显子捕获测序(WES)技术外显子区域基因组主要功能区至少85%孟德尔遗传疾病突变位点位于外显子域只占全基因组1%区域,数据量小外显子捕获测序多重探针杂交,特异扩增2009 年首次应用于致病基因的筛选Freeman Sheldon syndrome,4样本样本-MYH3,验证了已有研究结果。,验证了已有研究结果。(NG S B,Jay Shendure,Nature,2009)2010年科学杂志十大科学突破之一WES筛选疾病致病基因
10、策略筛选目标引起氨基酸变化的未知或已知罕见突变(missense,nonsense,splice SNP,coding Indel)筛选方案疾病遗传模型筛选策略样本常染色体隐性隐性遗传common LOH gene无关个体,家系常染色体显性显性遗传疾病 common mutated gene无关个体,家系高异质性常染色体显性遗传疾病common LOH gene家系,无关个体自发突变(germline)平均0.86 NS-SNP/新生儿(Lynch M,PNAS,2010)common mutated gene无关个体,父/母/子自发突变(somatic)common mutated gene
11、无关个体(正常组织,患病组织)WES实验方法外显子捕获试剂盒及实验Agilent 公司SureSelect Human All Exon Kit试剂盒(有效覆盖区域 30M)Pair-end文库Illumina Paired-End Genomic DNA Sample Prep Kit(p/n PE-102-1001)试剂盒,平均插入片段长度200测序平台及实验Illumina Hiseq 2000单样本单道(lane),目标测序长度100,循环次数为108次WES数据分析目标:Rare或novel突变,NS/SS/cIndel流程图WES数据分析方法和软件选择依据:1000 Genomes
12、使用软件使用软件原始数据质量评估与过滤-SolexaQA软件包原始数据定位(Reads Alignment)软件-BWA软件数据校准和重定位 Genome Analysis Toolkit(GATK)突变和插入缺失查找 SamtoolsdbSNP 和1000 Genomes 位点过滤-自编Perl 程序 基因注释 自编程序 突变功能评估-Polyphen-2突变基因筛选复合杂合突变基因 -筛选流程NGS突变查找中的FN和FP问题NGS突变查找中的存在假阴性和假阳性未知突变中的FP问题尤难发现解决方法应用及检验:新算法,后续大样品SNP验证NGS突变查找中的FN和FP问题FN主要与测序覆盖度有关
13、FP主要来自系统偏差和数据处理偏差系统偏差:454单碱基重复引起插入缺失;Solexa/SOLiD累计误差数据分析偏差:对齐错误,Paralog突变查找软件通常计算整体的FNR和FPR未知突变中的FP问题发现现象FP在未知突变数据集(NDB)中富集,而已知位点(DB)突变数据中少。估测随机抽取50个候选未知突变,使用Samtools工具观察其序列对齐情况。类型低质量突变比例1/4末端或靠近末端极端单向覆盖Indel错误对齐单碱基重复区疑似FP总数个数35322971342比例70%64%58%14%26%84%未知突变中的FP问题碱基置换率考察同类型碱基置换(transition)应高于不同类
14、型碱基置换(transversion)。结果:DB突变符合正常情况,NDB突变明显偏离。未知突变中的FP问题解释1)已发现报导的突变位点数量巨大(24M),个体细胞中可发现的新的突变越来越少。真正突变中大部分是频率较高的已知突变。2)相对于全基因组,已报告位点只占少数(8%),随机假阳性事件大部分发生在非已报导位点。Venter研究Venter团队2008年基于Sanger测序数据的研究(HuRef)表明,相对于db129,至少25%的新突变是假阳性。何况是NGS?FP对未知致病基因突变查找的影响FP对基于未知致病基因突变查找的影响加大人工负担降低样本利用效率引发假阴性事件样本过多,目标区域覆
15、盖率不足未知突变中的FP问题分析FP突变有哪些特征,哪些最严重?Solexa:低质量碱基,读序末端,前面有单碱基重复,插入缺失定位紊乱,单向极端覆盖,等等。很难确定硬阈值:界限不清,与设备、试剂有关。未知突变中的FP问题分析突变碱基重复(VR)JPT数据应用二代测序技术研究发病机理、开发临检标志物 转录组测序miRNA组测序 甲基化组测序免疫组测序44An example白血病相关的三株淋巴细胞系转录白血病相关的三株淋巴细胞系转录组差异表达及组差异表达及microRNA表达调控分析表达调控分析研究背景研究背景 急性淋巴急性淋巴细胞白血病胞白血病 急性淋巴细胞白血病急性淋巴细胞白血病以未分化或分
16、化异常的原始幼淋巴细胞在造血组织中恶性增殖为特征,由内源性或外源性致癌物诱发DNA损伤,导致原癌基因突变或过表达以及抑癌基因失活,从而引起的一种恶性血液肿瘤。l 白血病细胞恶性增生活跃l 细胞形态异常l 细胞内多出现空泡l 大量退化细胞出现l 粒系、红系、巨核系细胞明显受抑5研究背景研究背景(引自Rosenbauer Frank,et al.2007)辐射暴露 吸烟 有毒化学物(苯并芘、苯)化疗 唐氏综合症及其他特定类型遗传疾病 骨髓增生异常综合征及其他特定类型血液病 一型T细胞白血病病毒(HTLV-1)感染 家族病史 白血病病白血病病发诱发诱因因 白血病白血病发生生3研究背景研究背景 淋巴系
17、白血病淋巴系白血病转录组StudyPlatformSamples(n)&sourceMain objectiveYeoh et al.(2002)Affymetrix HG_U95Av2360 ALLALL sub-classificationRoss et al.(2002)Affymetrix U133 A&B132 ALLALL sub-classificationIndependent validationvan Delft et al.(2005)Affymetrix U133 ATotal:10784 ALL20 AML3 unclassified leukemiaDifferen
18、tial diagnosis of acute leukemiaHaferlach et al.(2005)Affymetrix U133 A&BTotal:937620 AML152 ALL75 CML45 CLL45 nonleukemiaDifferential diagnosis of acute leukemiaHoffmann et al.(2006)Affymetrix U133 ATraining set:104 published ALLTest set:47 additional ALLALL sub-classificationAnderson et al.(2007)S
19、wegene Human 27K RAPTotal:12187 B-lineage ALL11 T-lineage ALL23 AMLDifferential diagnosis of acute leukemia(引自Staratschek-Jox,et al.2009)6研究背景研究背景 淋巴系白血病淋巴系白血病miRNAmiRNALeukemia typePatients analyzedRegulation abnormalityPutative targetsmiR-9-1/2/3ALLAdult and childhood patients,CLDown-regulatedNDmi
20、R-10bALLAdult and childhood patients,CLDown-regulatedNDmiR-34(family)ALLAdult and childhood patients sample,CLDown-regulatedNDmiR-124a(family)ALLAdult and childhood patients sample,CLDown-regulatedCDK6,FOXA2miR-128(a/b)ALL;B cellE2A/PBX1,T cell,Pro-B-ALL,ALLAdult and childhood patients PB or BMUp-re
21、gulatedUBE2W,BMI-1miR-150ALLPatient PB or BMUp-regulatedDown-regulatedMYBmiR-181a(family)ALL,AML;M1 and M2Patient PB or BMUp-regulatedTCL-1,AKT3miR-222AML,Pre-B-ALLAdult and childhood patients PB or BMUp-regulatedC-KIT(引自Zac Chatterton,et al.2010)7CL,Cell Line;PB,Peripheral Blood;BM,Bone Marrow;ND,N
22、ot Determined研究目的及意研究目的及意义I.通过新一代测序技术对不同淋巴细胞系中基因表达丰度和功能分析,了解淋巴系白血病细胞的转录谱基本特征;II.不同分化阶段的细胞间相互比较,理解分化相关基因在调节淋巴系多方向分化过程中的重要作用;III.不同白血病亚型细胞间的比较,了解不同亚型的淋巴细胞白血病之间差异形成的分子基础以及各自关键的调控因素;IV.从基因转录和转录后调控的角度分析白血病相关的淋巴细胞间基因表达谱差异形成的主要原因,并为临床诊断、治疗及药物研发提供一定的理论基础。Cell Line 1Cell Line 2Cell Line 3mRNAmiRNAExpressionR
23、egulationNetworkDiagnosisDifferentiationDrug designTherapy10Lymphoblastic cell linesDiverse differential periodsLeukemia related材料与方法材料与方法 实验取取样n RS4;11 来源于32岁急性B淋巴前体细胞白血病女性病患的骨髓;n Jurkat 来源于14岁急性T细胞白血病男性病患的外周血;n GM 来源于正常女性静脉血,经EBV转染后永生化的B淋巴细胞。细细胞胞系系RS4;11JurkatGM样本制备样本制备复苏后,悬浮培养细胞系;Trizol方法提取Total
24、RNA;Ribo-minus方法提取mRNAmRNA-seq;Flash-page切胶18-30bp的片段miRNA-seq。12材料与方法材料与方法 整合分析策略整合分析策略mRNA数据miRNA数据差异表达分析基因功能分类代谢途径富集差异表达分析新miRNA预测靶基因预测数据整合分析数据整合分析DEGWEGOKEGGDEGRNA foldRNAhybridMirandaTarget ScanmiRNA功能预测构建调控网络实验验证实验验证临床应用临床应用17GO KEGGIPA结果与果与讨论 总体差异比体差异比较1共表达基因聚类分析特异性表达基因功能分类25结果与果与讨论 白血病白血病细胞差
25、异胞差异2OncogeneRS4;11JurkatGMSPI111.030.047.84RHOB10.811.900.31RUNX23.840.100.35AFF128.454.773.96MYC49.6676.0932.86VAV37.1823.531.69TET10.144.540.36ECT25.9123.49.82CCND10.012.781.50LCK6.41130.932.37FOS0.200.773.06IRF415.840.0390.93KLF64.475.1325.52NFkB22.812.3317.84原癌基因表达聚类29结果与果与讨论 B细胞分化差异胞分化差异2细胞迁移3
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 技术 致病 基因 发现
限制150内