生物信息学序列拼接幻灯片.ppt
《生物信息学序列拼接幻灯片.ppt》由会员分享,可在线阅读,更多相关《生物信息学序列拼接幻灯片.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学 序列拼接第1页,共56页,编辑于2022年,星期一序列拼接序列拼接 序列拼接任务即将测序生成的reads短片段拼接起来,恢复出原始的序列。该问题是序列分析的最基本任务,是基因组研究成功与失败的关键,拼接结果直接影响到序列标注,基因预测、基因组比较等后续任务。基因组序列的拼接也是基因组研究必须解决的首要难题。其困难不仅来自它的海量数据(以人类基因组序列为例,从数量为10兆级的片断恢复出长度为亿级的原始序列),而且源于它含有高度重复的序列。第2页,共56页,编辑于2022年,星期一第3页,共56页,编辑于2022年,星期一拼接问题的难点拼接问题的难点 DNA测序数据有其固有的四个的特点
2、,他们也正是解决实际的序列拼接问题的难点所在:1测序有误差 2不完全覆盖性 3序列所在链不确定 4重复序列的干扰第4页,共56页,编辑于2022年,星期一1测序有误差测序有误差 由于测序技术的局限,难免会出现测序错误,尤其是在序列的末端,一般错误率可控制在1以下。所以对每个碱基一般有一个正确概率,以质量打分的形式给出。因此每个ri都有个可信度。而read与read之间有不同程度的重叠,由此导致有的重叠可信度高,有的重叠可信度低。第5页,共56页,编辑于2022年,星期一2不完全覆盖性不完全覆盖性 不是所有的碱基被测序的次数都等于平均测序覆盖度。极端的情况,可能会出现源基因组序列上部分区域未被测
3、序的情况(这段区域称为gap)。即,测序的reads集合不是原始基因组序列一个完整覆盖。此时需要借助于各种图谱如:基因组指纹图谱(genome fingerprint map),基因组级物理图谱(genome-wide physical map),细胞发生图谱(cytogenetic maps)等协助对reads进行定位第6页,共56页,编辑于2022年,星期一3序列所在链不确定序列所在链不确定 由于测序过程中无法确定特定片断属于DNA双链中的哪一条链上,所以我们在拼接过程中并不清楚使用的是read的正义链,还是其互补链。4重复序列的干扰重复序列的干扰 DNA序列自身含有高度重复的子序列,它们
4、一种表现为短序列的串级重复,比如:(GGAA)n。或AmTn等。另一种表现为大量相似序列(其拷贝数可达几十万)散布在基因组的各个地方。Repeat的存在,将导致fragments间overlap的不真实性,进而产生错拼的结果。因此在拼接过程中耍确定这些序列的形式及大小,才能保证以高概率恢复出其在原始真实序列中的位置第7页,共56页,编辑于2022年,星期一拼接算法评价拼接算法评价 以上拼接问题的四个难点不仅极大的增加了解决实际拼接问题的难度,而且从某种程度上说无法完整地恢复出原始DNA序列来。即实际上仅能构建出若干个contig(重建的fragments的一种排列形式,它覆盖基因组上一段连续区
5、域)这些contig将指导测序项目finishing阶段的实验方法最终构建DNA完整序列。第8页,共56页,编辑于2022年,星期一 目前,国际上对拼接软件的公认评价标准包括两方面,即重建出的contig的数目和准确度。我们发展的基因组序列拼接新算法的目标是在确保准确性的前提下,构建尽量少的contig,以减少测序后期大量的人力和财力的投入。第9页,共56页,编辑于2022年,星期一基因组序列拼接算法研究现状基因组序列拼接算法研究现状 现在最常用的拼接程序使用的拼接算法可分成两类,一类是将拼接问题转化为在图中寻找的Hamilton路径的问题;另一类是将拼接问题在某种特殊情况下转化成寻求图中的E
6、uler路径的问题。他们均有其成功的典型算法。第10页,共56页,编辑于2022年,星期一1.转化为转化为Hamilton Path问题问题 每个DNA片段(read)相当于图中一个结点,如果两个片段之间存在着重叠(overlap)关系,则在两个结点之间定义一条边,而沿着DNA原始序列从头到尾,则必然经过每个结点一次且仅一次,即是一条Hamilton路径。一条contig表示图中一条简单路,此类算法以Phrap,TIGR Assembler,CAP3,GigAssemble等为代表。第11页,共56页,编辑于2022年,星期一 他们都是遵循“overlap-layout-consensus”的
7、框架。首先,为了构建图。计算任意两个read间可能的比对情况。其次,通过去除歧义的或者不确信的边得到较为准确的图,并在其上寻找非交叉的简单路的集合,该集合对应于contig的集合。最终,通过对包含在一个简单路上的所有read进行多序列比对,为每一个contig构建一个一致性序列(consensus sequence)。第12页,共56页,编辑于2022年,星期一2.转化为转化为Euler Path问题问题 EULER是这类算法的代表。与传统方法沿着“OverlapLayoutConsensus”路线不同,它不计算各个read之间的Overlap,即没有Overlap步骤。它的大致想法如下:为了
8、排除read中的错误,获得Error-Free的read,将所有的read切割成小片n-mers。第13页,共56页,编辑于2022年,星期一 将每个read和Gk的近似进行比对,寻求read的最小改变能够使得read的所有n-mers包含在Gk的近似集合中。从而构建了高质量序列,而对于Poor read,直接抛弃,对Chimeric read(两端在n-mers中但整体不在的reads)进行特殊处理。第14页,共56页,编辑于2022年,星期一 初始的想法是要实现去除reads中的测序错误的目的,如果知道原始序列G,那么直接使用测序获得的read和G进行比较即可。但是实际上G并不可知,那么退
9、而求其次,G的序列片断Gk亦可,事实上Gk亦不可知。所以将所有的read切割成小片n-mers,所有Solid的n-mers形成的集合称为Gk的近似。最后,构造De Bruijn图。第15页,共56页,编辑于2022年,星期一现有算法的主要问题现有算法的主要问题 虽然已经开发了以上的算法,基因组序列拼接问题尚未彻底解决,以上两类算法都存在着各自的缺陷。第16页,共56页,编辑于2022年,星期一 对于第一类算法来说,实际上是在图中寻找一条使得评价函数值最优的Hamilton路径,这是一个NP完全问题。一般都采用greedy-merging的算法近似求解。由于这种step-by-step的局部贪
10、心算法,其明显的局部特性忽略了reads间“长距离”或者整体性的联系,从而导致了拼接错误,即拼接结果和真实的DNA原始序列不同。最近研究指出,在对已知序列的流行性感冒嗜血杆菌基因组的拼接过程中,无论是Phrap,TIGR Assembler,还是CAP3,都发生了拼接错误的现象。第17页,共56页,编辑于2022年,星期一 对于第二类算法来说,它只能在特殊的情况下,才能将问题简化成寻求一条Euler路径,最终的结果是从多条候选的Euler超路中选择出来的。EULER算法依然存在拼接错误,且结果选择的过程没有理论依据。EULER软件在实际数据集的运行速度上和第一类算法相当。更重要的是,EULER
11、采用的算法过于独立,很难利用其他辅助生物信息,导致其实用性和流行性大打折扣。第18页,共56页,编辑于2022年,星期一局部搜索局部搜索(Local Search)方法方法胡杰胡杰第19页,共56页,编辑于2022年,星期一 将局部搜索方法运用于一个具体的问将局部搜索方法运用于一个具体的问题,需要对以下四项进行明确的定义。题,需要对以下四项进行明确的定义。1将原同题表示成一个优化问题,即定义一个可行域以及在该可行域上的一个目标函数。2定义可行域中的邻域结构,即说明满足什么条件的两个点相邻。第20页,共56页,编辑于2022年,星期一3确定在邻域中的搜索方式。4局部极值点的处理。如果当前解点邻域
12、中的所有点的目标函数值都比当前点大,那么这点就称为局部极值点。在一些问题中,局部极值点就是全局最优点。而对另一些问题而言,局部极值点已经满足求解实际问题的需求。第21页,共56页,编辑于2022年,星期一基于局部搜索的序列拼接算法框架基于局部搜索的序列拼接算法框架 主要目标主要目标是在layout阶段尽可能准确的前提下,获得更长的contig。具体的,使用局部搜索算法求得数据集上近似全局的最短超串;然后根据求得的最短公共超串对应的fragment的排列关系为基础获得“consensus segment”第22页,共56页,编辑于2022年,星期一1.Overlap定义定义 如果一个串的前缀是另
13、一个串的后缀则认为这两个串之间存在overlap,并根据over-lap构建超串。对给定的串f和g,存在多个可能的overlap关系 比如说,若f=ACTGGGAGCAGC,g=AGCAGCTTTTACT,那么他们之间至少存在两个overlap形式。第23页,共56页,编辑于2022年,星期一第24页,共56页,编辑于2022年,星期一 在我们的算法中,仅考虑两个串之间最大的overlap情况,并定义overlap(f,g)表示f和g之间存在的多个overlap关系中最长的一个overlap所包含的字符个数。在上面的例子中overlap(f,g)=6。如果f和g之间overlap区域长度小于M
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 序列拼接幻灯片 生物 信息学 序列 拼接 幻灯片
限制150内