基因组测序与分析.ppt
《基因组测序与分析.ppt》由会员分享,可在线阅读,更多相关《基因组测序与分析.ppt(60页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、西北农林科技大学农学院遗传教研组西北农林科技大学农学院遗传教研组主讲人:胡银岗主讲人:胡银岗第一节 基因组计划1 1、人类基因组计划简介、人类基因组计划简介、人类基因组计划简介、人类基因组计划简介 人类基因组计划准备用人类基因组计划准备用人类基因组计划准备用人类基因组计划准备用1515年时间,年时间,年时间,年时间,投入投入投入投入3030亿美元,完成人类全部亿美元,完成人类全部亿美元,完成人类全部亿美元,完成人类全部2424条条条条染色体的染色体的染色体的染色体的3103109 9脱氧核苷酸对脱氧核苷酸对脱氧核苷酸对脱氧核苷酸对(bp)(bp)的序列测定,主要任务包括作图的序列测定,主要任务
2、包括作图的序列测定,主要任务包括作图的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转遗传图谱、物理图谱的建立及转遗传图谱、物理图谱的建立及转遗传图谱、物理图谱的建立及转录图谱的绘制录图谱的绘制录图谱的绘制录图谱的绘制)、测序和基因识别。、测序和基因识别。、测序和基因识别。、测序和基因识别。其中还包括模式生物其中还包括模式生物其中还包括模式生物其中还包括模式生物(如大肠杆菌、如大肠杆菌、如大肠杆菌、如大肠杆菌、酵母、线虫、小鼠等酵母、线虫、小鼠等酵母、线虫、小鼠等酵母、线虫、小鼠等)基因组的作基因组的作基因组的作基因组的作图和测序,以及信息系统的建立。图和测序,以及信息系统的建立。图和
3、测序,以及信息系统的建立。图和测序,以及信息系统的建立。作图作图作图作图和和和和测序测序测序测序是基本的任务,在此基是基本的任务,在此基是基本的任务,在此基是基本的任务,在此基础上解读和破译生物体生老病死以础上解读和破译生物体生老病死以础上解读和破译生物体生老病死以础上解读和破译生物体生老病死以及和疾病相关的遗传信息及和疾病相关的遗传信息及和疾病相关的遗传信息及和疾病相关的遗传信息基因组基因组 一个物种中所有基因的整体组成一个物种中所有基因的整体组成2.人类基因组测序策略采集采集5个自愿者的个自愿者的DNA样品样品构建构建3种不同插入子大小的基种不同插入子大小的基因组文库因组文库2Kb,10K
4、b和和50Kb完成约完成约完成约完成约27002700万次万次万次万次插入子末端测序插入子末端测序插入子末端测序插入子末端测序,总长总长总长总长14800Mb14800MbGeneBankGeneBank下载下载下载下载104018104018个个个个BACBAC末端末端末端末端顺序顺序顺序顺序PFPPFP发表的公开发表的公开发表的公开发表的公开数据主要为数据主要为数据主要为数据主要为BACBAC克隆的顺序克隆的顺序克隆的顺序克隆的顺序,共共共共4443.3Mb4443.3Mb随机测序与序列组装方法随机测序与序列组装方法指导测序与序列组装方法指导测序与序列组装方法相结合进行序列组装相结合进行序
5、列组装A.Celera Genomics 人类基因组人类基因组的测序策略的测序策略B 国际人类基因组测序策略国际人类基因组测序策略构建构建构建构建BACBAC克隆克隆克隆克隆 限制性限制性限制性限制性酶处酶处理理理理获获得指得指得指得指纹纹 根据指根据指根据指根据指纹纹重叠方法重叠方法重叠方法重叠方法组组建建建建BACBAC克隆重叠群克隆重叠群克隆重叠群克隆重叠群 根据根据根据根据STSSTS标记标记,将将将将BACBAC克隆重叠群克隆重叠群克隆重叠群克隆重叠群标标定在物理定在物理定在物理定在物理图图上上上上 每个每个每个每个BACBAC克隆内部采用克隆内部采用克隆内部采用克隆内部采用鸟枪鸟枪
6、法法法法测测序序序序,组组装装装装 将将将将BACBAC插入插入插入插入顺顺序与序与序与序与BACBAC克隆指克隆指克隆指克隆指纹纹极重叠群极重叠群极重叠群极重叠群对对比比比比,将已将已将已将已阅读阅读的的的的顺顺序序序序锚锚定到物理定到物理定到物理定到物理图图上上上上两种策略的比较两种策略的比较鸟枪法策略鸟枪法策略鸟枪法策略鸟枪法策略 指导测序指导测序指导测序指导测序策略策略策略策略不需背景信息不需背景信息不需背景信息不需背景信息 构建克隆群构建克隆群构建克隆群构建克隆群 (遗传、物理图谱遗传、物理图谱遗传、物理图谱遗传、物理图谱)时间短时间短时间短时间短 需要几年的时间需要几年的时间需要几
7、年的时间需要几年的时间 需要大型计算机需要大型计算机需要大型计算机需要大型计算机得到的是草图得到的是草图得到的是草图得到的是草图(Draft)(Draft)得到精细图谱得到精细图谱得到精细图谱得到精细图谱3.人类基因组研究的惊人发现 19号染色体号染色体是是含基因最丰富含基因最丰富的染色的染色体,而体,而13号染色体号染色体含基因量最少含基因量最少目前已经发现和定位了目前已经发现和定位了26000多个多个功能基因,其中尚有功能基因,其中尚有42%的基因尚的基因尚不知道功能不知道功能人类基因组中存在人类基因组中存在“热点热点”和大片和大片“荒漠荒漠”。在染色体上有基因成簇密。在染色体上有基因成簇
8、密集分布的区域,也有大片的区域只有集分布的区域,也有大片的区域只有“无用无用DNA”不包含或含有极少不包含或含有极少基因的成分。基因的成分。基因组上大约有基因组上大约有14的的区域没有基因的片段区域没有基因的片段。353的基因包含重复的序列的基因包含重复的序列。这说明那些原来被认为是这说明那些原来被认为是“垃圾垃圾”的的DNA也起重要作用,应该被进一步研也起重要作用,应该被进一步研究。究。4.单核苷酸多态性 人类人类人类人类99999 9的基因密码是相的基因密码是相的基因密码是相的基因密码是相同的同的同的同的,而,而,而,而差异不到差异不到差异不到差异不到0 01 1,不同人群仅有不同人群仅有
9、不同人群仅有不同人群仅有140140万个万个万个万个核苷酸核苷酸核苷酸核苷酸差异。这些差异是由差异。这些差异是由差异。这些差异是由差异。这些差异是由“单一单一单一单一核苷酸多样性核苷酸多样性核苷酸多样性核苷酸多样性”(SNPSNP)产)产)产)产生的,它构成了不同个体的生的,它构成了不同个体的生的,它构成了不同个体的生的,它构成了不同个体的遗传基础,个体的多样性被遗传基础,个体的多样性被遗传基础,个体的多样性被遗传基础,个体的多样性被认为是产生遗传疾病的原因。认为是产生遗传疾病的原因。认为是产生遗传疾病的原因。认为是产生遗传疾病的原因。在整个基因组序列中,在整个基因组序列中,在整个基因组序列中
10、,在整个基因组序列中,人与人与人与人与人之间的变异仅为万分之一人之间的变异仅为万分之一人之间的变异仅为万分之一人之间的变异仅为万分之一,从而说明从而说明从而说明从而说明人类不同人类不同人类不同人类不同“种属种属种属种属”之间并没有本质上的区别之间并没有本质上的区别之间并没有本质上的区别之间并没有本质上的区别。5.Shotgun测序及分析n nDNADNA的提取和纯化的提取和纯化的提取和纯化的提取和纯化n n载体预备:和载体预备:和载体预备:和载体预备:和DNADNA片断结合,从而能够在细菌中片断结合,从而能够在细菌中片断结合,从而能够在细菌中片断结合,从而能够在细菌中扩增。扩增。扩增。扩增。n
11、 nDNADNA片段的制备:将片段的制备:将片段的制备:将片段的制备:将DNADNA用超声波切成能够测序用超声波切成能够测序用超声波切成能够测序用超声波切成能够测序的小片断的小片断的小片断的小片断n n转化培养:小片断和载体结合,植入细菌中进行转化培养:小片断和载体结合,植入细菌中进行转化培养:小片断和载体结合,植入细菌中进行转化培养:小片断和载体结合,植入细菌中进行扩增。扩增。扩增。扩增。n n提质粒:从细菌中提取出繁殖好的质粒提质粒:从细菌中提取出繁殖好的质粒提质粒:从细菌中提取出繁殖好的质粒提质粒:从细菌中提取出繁殖好的质粒n n电泳检测:检测质量的好坏电泳检测:检测质量的好坏电泳检测:
12、检测质量的好坏电泳检测:检测质量的好坏n n测序:上测序仪测序测序:上测序仪测序测序:上测序仪测序测序:上测序仪测序DNA整体整体切成切成小段小段小段和载体结合小段和载体结合结合后进行测序结合后进行测序还没有完!拼接!还没有完!拼接!n n因为整个基因组太长(上因为整个基因组太长(上M),而每次只能测而每次只能测得一个得一个500的小片断的小片断(read)n n问题:如何根据问题:如何根据read恢复原始顺序?恢复原始顺序?n n类比:类比:10本圣经,都从随机点起始剪成本圣经,都从随机点起始剪成500个字母左右的小纸条,问:给你这么一堆个字母左右的小纸条,问:给你这么一堆小纸条,你能读出圣
13、经来吗?小纸条,你能读出圣经来吗?n n但是都会拼错!但是都会拼错!Shotgun法序列拼接法序列拼接ConsensusConsensusSequenceSequenceGapGap Low Base Low Base QualityQualitySingleSingleStrandedStrandedRegionRegionMis-AssemblyMis-Assembly(Inverted)(Inverted)拼接错误:拼接错误:Repeat的存在的存在实例:流感嗜血杆菌基因组的测序及顺序组装超声波打断纯化的基因组超声波打断纯化的基因组超声波打断纯化的基因组超声波打断纯化的基因组DNADNA
14、 琼琼脂糖脂糖脂糖脂糖电电泳收集泳收集泳收集泳收集1.61.62.0Kb2.0Kb2.0Kb2.0Kb的的的的区区区区段、段、段、段、纯纯纯纯化化化化 构构构构建到建到建到建到质质质质粒粒粒粒载载载载体中体中体中体中 随随随随机挑机挑机挑机挑选选选选1968719687个个个个克隆克隆克隆克隆,进进进进行行行行2864328643次次次次测测测测序序序序,得到可得到可得到可得到可读读读读顺顺顺顺序序序序为为为为11 631 485 bp11 631 485 bp 组组组组装成装成装成装成140140个个个个覆盖全基因覆盖全基因覆盖全基因覆盖全基因组组组组范范范范围围围围的的的的独独独独立的立的
15、立的立的顺顺顺顺序重序重序重序重叠叠叠叠群群群群,各重各重各重各重叠叠叠叠群群群群间间间间仍有仍有仍有仍有间间间间隙隙隙隙 顺顺顺顺序序序序间间间间隙隙隙隙 物理物理物理物理间间间间隙隙隙隙 载体或宿主菌载体或宿主菌载体或宿主菌载体或宿主菌 选用不当而被丢失选用不当而被丢失选用不当而被丢失选用不当而被丢失的序列的序列的序列的序列测序时遗漏的测序测序时遗漏的测序测序时遗漏的测序测序时遗漏的测序解决办法解决办法:通过相邻已知通过相邻已知顺序作为探针筛选已有顺序作为探针筛选已有的基因组文库的基因组文库解决办法解决办法:利用其它宿主菌利用其它宿主菌与载体重新构建文库与载体重新构建文库运用计算机软件进行
16、序列拼接运用计算机软件进行序列拼接Francis Collins VS.J.Craig Venter6.基因识别基因识别 n n基因识别(基因识别(gene identification)是)是HGP的重要内容之一,其目的是识别全部人的重要内容之一,其目的是识别全部人类的基因。类的基因。n n基因识别包括:基因识别包括:识别基因组编码区识别基因组编码区识别基因结构识别基因结构n n基因识别目前常采用的有二种方法:基因识别目前常采用的有二种方法:从基因组序列中识别转录表达的从基因组序列中识别转录表达的DNA片段片段从从cDNA文库中挑取并克隆。文库中挑取并克隆。7.模式生物的基因组测序模式生物的
17、基因组测序酵母大肠杆菌果蝇线虫老鼠 水稻基因组测序水稻基因组测序水稻是全球半数以上人口的主食,水稻是全球半数以上人口的主食,水稻是全球半数以上人口的主食,水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。对解决全球粮食问题具有重要意义。对解决全球粮食问题具有重要意义。对解决全球粮食问题具有重要意义。20022002年我国科学家完成了水稻基因年我国科学家完成了水稻基因年我国科学家完成了水稻基因年我国科学家完成了水稻基因组定序和初步分析组定序和初步分析组定序和初步分析组定序和初步分析。出人意料的是,。出人意料的是,。出人意料的是,。出人意料的是,水稻的基因竟比人类基因还要多得水稻的基因
18、竟比人类基因还要多得水稻的基因竟比人类基因还要多得水稻的基因竟比人类基因还要多得多。多。多。多。人类基因大约有人类基因大约有人类基因大约有人类基因大约有3 3万多个万多个万多个万多个,水稻水稻水稻水稻有有有有4 4万多个基因万多个基因万多个基因万多个基因。水稻基因组可说是继人类基因组之水稻基因组可说是继人类基因组之水稻基因组可说是继人类基因组之水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是后,完成定序的最大基因组,也是后,完成定序的最大基因组,也是后,完成定序的最大基因组,也是至今已知最大的植物基因组。至今已知最大的植物基因组。至今已知最大的植物基因组。至今已知最大的植物基因组。
19、8.人类基因组计划对医学事业的影响人类基因组计划对医学事业的影响 促进对致病基因的克隆促进对致病基因的克隆疾病的预测与诊断疾病的预测与诊断如果掌握了与某种疾病相关的基因及突变,则如果掌握了与某种疾病相关的基因及突变,则如果掌握了与某种疾病相关的基因及突变,则如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断。可以对该疾病进行预测、诊断。可以对该疾病进行预测、诊断。可以对该疾病进行预测、诊断。基因疗法的发展与应用基因疗法的发展与应用通过生物学、医学等技术对疾病相关基因进行通过生物学、医学等技术对疾病相关基因进行通过生物学、医学等技术对疾病相关基因进行通过生物学、医学等技术对疾病相
20、关基因进行抑制或调控,即可达到治疗某一疾病的效果。抑制或调控,即可达到治疗某一疾病的效果。抑制或调控,即可达到治疗某一疾病的效果。抑制或调控,即可达到治疗某一疾病的效果。基因变异与疾病基因变异与疾病第二节第二节 DNA DNA片段组装片段组装大规模基因组测序大规模基因组测序得到待测序列的一系列序列片段得到待测序列的一系列序列片段这些序列片段覆盖待测序列这些序列片段覆盖待测序列序列片段之间也存在着相互覆盖或者重叠。序列片段之间也存在着相互覆盖或者重叠。目标序列目标序列序列碎片序列碎片(1)碱基标识错误)碱基标识错误1.片段组装的片段组装的4个主要问题个主要问题(2)不知道片段的方向)不知道片段的
21、方向(3)存在重复区域)存在重复区域(4)缺少覆盖()缺少覆盖(gap)2、序列片段组装过程、序列片段组装过程序列片段组装过程三个步骤:序列片段组装过程三个步骤:序列片段组装过程三个步骤:序列片段组装过程三个步骤:首先进行序列片段的两两比较,确定可能的片段首先进行序列片段的两两比较,确定可能的片段首先进行序列片段的两两比较,确定可能的片段首先进行序列片段的两两比较,确定可能的片段之间的覆盖(或者重叠);之间的覆盖(或者重叠);之间的覆盖(或者重叠);之间的覆盖(或者重叠);确定所有片段统一的覆盖模式,即确定各个序列确定所有片段统一的覆盖模式,即确定各个序列确定所有片段统一的覆盖模式,即确定各个
22、序列确定所有片段统一的覆盖模式,即确定各个序列片段的相对位置;片段的相对位置;片段的相对位置;片段的相对位置;最后确定片段组装结果,即确定目标序列。最后确定片段组装结果,即确定目标序列。最后确定片段组装结果,即确定目标序列。最后确定片段组装结果,即确定目标序列。1、基因组、基因组DNA的奥秘的奥秘u 遗传信息存贮在遗传信息存贮在4种字符组成的核酸序列中种字符组成的核酸序列中 u“天书天书”用遗传语言书写的人类遗传蓝本用遗传语言书写的人类遗传蓝本包含的信息量巨大包含的信息量巨大更重要的是目前人类对它了解甚少更重要的是目前人类对它了解甚少天书中只有天书中只有4个字符(碱基个字符(碱基A、T、G、C
23、)既没有段落,也没有标点符号既没有段落,也没有标点符号是一个长度为是一个长度为3109的一维序列。的一维序列。第三节第三节 基因组基因组DNA序列分析序列分析 科学家对这本天书了解最多的部分就是遗传密码科学家对这本天书了解最多的部分就是遗传密码密码子的特点密码子的特点(1)密码子的使用是非随机的)密码子的使用是非随机的 如果密码子的第一、第二位碱基是如果密码子的第一、第二位碱基是A、U,那么第,那么第三位将尽可能使用三位将尽可能使用G、C;反之亦然。;反之亦然。如果三位都用如果三位都用G、C,则配对容易,分解难;三位,则配对容易,分解难;三位都用都用A、U,则相反。,则相反。一般地说,高表达的
24、基因,要求翻译速度快,要求一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分手也快。密码子和反密码子配对快、分手也快。(2)密码子的使用有一定的统计规律)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同不同种属偏爱的密码子不同 人类基因组:人类基因组:密码子第三位取密码子第三位取A、U的情况占的情况占90%而第三位取而第三位取G、C仅占仅占10%密码子的使用偏爱性与密码子的使用偏爱性与基因功能基因功能 蛋白质结构蛋白质结构相关相关(3)密码子中的密码)密码子中的密码 三个碱基的位置与所编码的氨基酸性质存在着联系三
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 分析
限制150内