生物序列联配中的算法.ppt
《生物序列联配中的算法.ppt》由会员分享,可在线阅读,更多相关《生物序列联配中的算法.ppt(71页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物序列联配中的算法,张 法,提 纲,背景知识序列相似性的比较两条序列的联配问题多序列的联配问题一些启发式的算法生物序列联配中的并行算法,DNA(1) 脱氧核糖核酸,DNA的分子组成核甘(nucleotides)磷酸盐(phosphate)糖(sugar)一种碱基腺嘌呤(Adenine)鸟嘌呤(Guanine)胞嘧啶(Cytosine)胸腺嘧啶(Thymine),DNA(2),碱基的配对原则A(腺嘌呤)T(胸腺嘧啶)C(鸟嘌呤)G(胞嘧啶) 一个嘌呤基与一个嘧啶基通 过氢键联结成一个碱基对。DNA分子的方向性53,DNA(3),DNA的双螺旋结构 碱基对之间的互补能力,DNA(4),DNA的复
2、制在DNA解旋酶的作用 下两条链分离开,分 别作为一个模板,在 聚合酶的作用下合成 一条新链。,RNA、转录和翻译,RNA(核糖核酸):单链结构、尿嘧啶U代替胸腺嘧啶T、位于细胞核和细胞质中。转录:DNA链 RNA链 信使RNA(mRNA),启动子。翻译: mRNA上携带遗传信息在核糖体中合成蛋白质的过程。,变异,进化过程中由于不正确的复制,使DNA内容发生局部的改变。 变异的种类主要有以下三种: 替代(substitution)插入或删除(insertion or deletion) indel重排(rearrangement),蛋白质,由氨基酸依次链接形成在生物体中总共有20种氨基酸。蛋白
3、有十分复杂的三维结构。其三维机构决定了蛋白质的功能。,基 因,什么是基因?DNA上具有特定功能的一个片断,负责一种特定性状的表达。一般来讲,一个基因只编码一个蛋白质。,基因组,任何一条染色体上都带有许多基因,一条高等生物的染色体上可能带有成千上万个基因,一个细胞中的全部基因序列及其间隔序列统称为genomes(基因组)。,DNA上的基因,基因,基因的编码,基因编码是一个逻辑的映射,表明存储在DNA和mRNA中的基因信息决定什么样的蛋白质序列。每个碱基三元组称为一个密码子(codon)碱基组成的三元组的排列共有4364种,而氨基酸共有20种类型,所以不同的密码子可能表示同一种氨基酸。,带来的问题
4、,序列排列问题 基因组的重排问题 蛋白质结构和功能的预测 基因(外显子、内含子)查找问题 序列装配(Sequence Assembly)问题,生物序列相似性的比较,动机,在生物学的研究中,将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段 ,生物学领域中绝大部分的问题在计算机科学领域中主要体现为序列或字符串的问题 。,序列联配问题的分类,如果两个序列具有足够的相似性,则认为两者具有同源性。序列相似性的比较 (两条序列的联配)序列的分类序列的排列多序列的联配,两条序列联配问题的分类,全局联配(Global Alignment)局部联配(Local Alignment)空位处罚(Gap
5、Penalty),全局联配(1)定义,定义1:两个任意的字符 x和y,(x,y)表示表x和y比较时的分值。 (x,x)=2, (x,y)= (x,-)= (-,y)=-1定义2:S= s1sn和T=t1tm,其全局联配A可以用序列S和T来表示,其中: (1) | S | = | T |; (2) 将S和T中的空字符除去后所得到的序列分别为S和T;联配A的分值Score为:,全局联配(2)原始算法,输入:序列S和T,其中 | S | = | T | = n 输出:S和T的最优联配 for i=0 to n do for (S的所有的子序列A,其中| A | = i ) do for (T的所有的
6、子序列B,其中| B | = i ) do ,全局联配(3),动态规划DP(Dynamic Programming)Smith-Waterman 算法计算出两个序列的相似分值,存于一个矩阵中。(相似度矩阵、DP矩阵)根据此矩阵,按照动态规划的方法寻找最优的联配序列。,全局联配(4),前提条件递归关系,全局联配(5),在得到相似度矩阵后,通过动态规划回溯(Traceback)的方法可获得序列的最优联配序列 。例: S = “a c g c t g”和T = “c a t g t” (x,x)=2, (x,y)= (x,-)= (-,y)=-1,三种可能的最优联配序列:S: a c g c t g
7、 - T: - c a t g t S: a c g c t g - T: - c a t g t S: - a c g c t g T: c a t g - t -,局部联配(1),两条序列在一些局部的区域内具有很高的相似度。在生物学中局部联配比全局联配更具有实际的意义。两条DNA长序列,可能只在很小的区域内(密码区)存在关系。不同家族的蛋白质往往具有功能和结构上的相同的一些区域。,局部联配(2),前提条件: V(i, 0) = 0; V(0, j) = 0;递归关系: 找出i*和j*,使得:,局部联配(3),对全局联配策略稍作修改可得到局部最优联配算法。联配的路径不需要到达搜索图的尽头 ,
8、如果某种联配的分值不会因为增加联配的数量而增加时,这种联配就是最佳的。依赖于记分系统的性质:因为某种路径的记分会在不匹配的序列段减少 ,当分值降为零时,路径的延展将会终止,一个新的路径就会产生。,局部联配(4),S = “ a b c x d e x ”,T= “ x x x c d e ” 记分函数(x,y): (x,x)=2, (x,y)= (x,-)= (-,y)=-1,S = “ a b c x d e x ”,T= “ x x x c d e ” 局部最优联配是: c x d e c - d e或 x - d e x c d e,空位处罚(1),空位:序列中任意连续的尽可能长的空格。
9、 空位的引入是为了补偿那些插入或缺失,但是在序列的联配中引入的空位不能太多,否则会使序列的排列变得面目全非。每引入一个空位,联配的分值都会有所扣除,常见的罚分规则主要有两种:空位权值恒定模型仿射空位处罚模型,空位处罚(2),空位权值恒定模型: 在每个空位中的空格的分值为零, 即:(x,-)= (-,y) = 0 联配的分值为:其中,Wg为开放一个空位的罚分,空位处罚(3),仿射空位处罚模型(Affine Gap Model) 用一个附加的罚分比例去乘空位的长度 Wg+qWs 联配的分值为:,空位处罚(4),初始条件: V(0, 0) = 0; V(i, 0) = E(i, 0) = Wg +
10、iWs; V(0, j) = F(0, j) = Wg + jWs; 递归条件: V(i, j) = max G(i, j), E(i, j), F(i, j); G(i, j) = V(i-1, j-1) +(Si, Tj); E(i, j) = max E(i, j-1) + Ws, V(i, j-1) + Wg + Ws F(i, j) = max F(i-1, j) + Ws, V(i-1, j) + Wg + Ws.,利用动态规划计算序列最优联配的算法的复杂度分析:时间复杂度;O(nm) 空间复杂度:O(n+m),最新的相关的研究,在动态规划算法的基础上提出了一种新的方法,解决在序列
11、局部联配的最优排列中经常出现的马赛克问题(在最优排列中间经常出现的相似度很低的保守区域)把hash表方法引入到基因组序列的局部联配问题中,同时提高了原有算法的效率和质量,多序列联配(1),两条序列联配问题的一般化推广动机:携带更多的消息、生物学家的一种重要手段。 DNA或蛋白质数据库容量的指数级的增长,即使使用很简单的记分函数也很难找到一种在有效时间内的解决方法,而几乎所有的近似算法和许多的启发式算法,实际上都是在算法的计算速度和获得最佳联配结果的敏感性之间寻找一种权衡(tradeoff)策略。,多序列联配(2),rigorous算法两条序列 多条序列, NP hardtree_based算法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 序列 中的 算法
限制150内