最新如何进行序列分析PPT课件.ppt
《最新如何进行序列分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新如何进行序列分析PPT课件.ppt(108页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、如何进行序列分析如何进行序列分析一、碱基组成一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2
2、位碱基小得多。表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列)相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计之间的关联,这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markovchain)理论理论得到得到(Javare和和Giddings,1989)三同向重复序列分析三同向重复序列分析除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)
3、。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按:计算字码值。这些值的取值范围为1到4k例如:5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在
4、位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin,1983)四、四、RNARNA二级结构预测二级结构预测 尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制
5、区以及RNA分子中可能形成稳定折叠结构的区段。五、从序列中寻找基因五、从序列中寻找基因 1.基因及基因区域预测 基因按其功能可分为结构基因结构基因和调控基因调控基因:结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mR
6、NA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。所谓基因区域预测基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因 基因区域的预测是一个活跃的研究领域
7、,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测测(如最长如最长ORF法等法等),随着各类数据库的建立和完善,通过相似,随着各类数据库的建立和完善,通过相似性列线比对也可以预测可能的基因。同时,一批新方法也被提了性列线比对也可以预测可能的基因。同时,一批新方法也被提了出来,如隐马尔可夫模型出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动态、动态规划法规划法(dynam
8、ic programming)、法则系统、法则系统(ruled-based system)、语言学、语言学(linguistic)方法、线性判别分析方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树、决策树(decision tree)、拼接列、拼接列线线(spliced alingment)、博利叶分析、博利叶分析(Fourier analysis)等。等。下表列出了下表列出了claverie(1997)对部分程序预测基因区域能力的比较对部分程序预测基因区域能力的比较结果,表中同时列出了相应算法和程序的网址。结果,表中同时列出了相应算法和程序的网址
9、。目前基因区域预测的各种算法均存在以下2个问题(1)目前算法对基因中的非编码区和基因间序列非编码区和基因间序列不加任何区别,所以预测出的基因仍然是不完全的,对5和3非编译区(UTR,untranslated region)的预测基本上还是空白;(2)目前大多数算法都是基于已知基因序列基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列,而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练,由于训练所用的序列毕竟是有限的,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就要大打折扣了要解决以上两个问题,需要对基因结构进行更深入的研究,寻找隐藏在基因不同结构中的内在统
10、计规律。2发现基因的一般过程 从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次第一步:获取DNA目标序列 如果你已有目标序列,可直接进入第2步;可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找目标序列第二步:查找ORF并将目标序列翻译成蛋白质序列利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将DNA序列翻译成蛋白质序列 第三步:在数据库中进行序列搜索 可以利用BLAST进行ORF核苷酸序列和OR
11、F翻译的蛋白质序列搜索第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment)虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于进一步加深目标序列的认识进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行第五步:查找基因家族第六步:查找目标序列中的特定模序 分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索
12、;对蛋白质序列进行统计分析和有关预测第七步:预测目标序列结构 可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构第八步:获取相关蛋白质的功能信息 为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索第九步:把目标序列输入“提醒”服务器 如果有与目标序列相似的新序列数据输入数据库,提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器3解读序列(making
13、sense of the sequence)大致有2条途径可以发现基因:(1)基于同源性的方法,包括已知mRNA序列的应用;(2)基因家族和特殊序列间的比较。最初的方法包括利用各种计算机手段分析外显子和其它序列信号,如酶切位点六、基于编码区特性:最长六、基于编码区特性:最长ORFORF法法 基因区域或蛋白质编码区的识别,特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类预测基因组的全部编码区或称为开放阅读框的方法
14、概括来说也可以分为三类:一类是基于编码区所具有的独特信号,如始起密码子、终止密码子等;二是基于编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的;三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前二类方法主要是利用编码区的特性来寻找,下面对这二类方法做简单描述最长ORF法:在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因 利用编码区与非编码区密码
15、子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法 CpG岛:CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核
16、苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一七、序列比对七、序列比对相似性和同源性 局部相似性和整体相似性 相似性分数矩阵 概念:概念:数据库的搜索数据库的搜索FastABLAST 数据库搜索的基础是序列的相似性比对,而寻找同源序列则是数据库搜索的主要目的之一。所谓同源序列同
17、源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。同源性可以用来描述染色体同源性可以用来描述染色体“同源染同源染色体色体”、基因、基因“同源基因同源基因”和基因组的一个片断和基因组的一个片断“同源片断同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性和同源性相似性和同源性 相似性相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。相似性本身的含义,并不要求与进化起源是相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的远近、甚至于结构与功能有什么联系。否同一,与亲缘关系的
18、远近、甚至于结构与功能有什么联系。当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。总之,不能把相似性和同源性混为一谈。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。而同源又有两种不同的情况即垂直方向的(orthology)与水平方向的(paralogy)。直系同源直系同源(orthology)是比较基因组学中最重要的定义。直系同源的定义是:(1)在进化上起源于一个始祖基因并垂直传递(vertical descent)的同源基因;(2)分布于两种或两种以上物种的基因
19、组;(3)功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;(4)结构相似;(5)组织特异性与亚细胞分布相似鉴定直系同源的实际操作标准(practical criteria)为:如基因组中的A基因与基因组中的A基因被认为是直系同源,则要求:(1)A的产物比任何在基因组中所发现的其它基因产物都更相似于A产物;(2)A与A的相似程度比在任何一个亲缘关系较远的基因组中的任一基因都要高;(3)A编码的蛋白与A编码的蛋白要从头到尾都能并排比较,即含有相似以至于相同的模序(motif)旁系同源旁系同源(paralogy)基因是指同一基因组(或同系物种的基因组)中,由于始祖基因的加倍而横向(hor
20、izontal)产生的几个同源基因。直系与旁系的共性是同源,都源于各自的始祖基因。其区别区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,旁系同源则是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定义上对功能上没有严格要求,可能相似,但也可能并不相似(尽管结构上具一定程度的相似),甚至于没有功能(如基因家族中的假基因)。旁系同源的功能变异可能是横向加倍后的重排变异或进化上获得了另一功能,其功能相似也许只是机械式的相关(mechanistically related),或非直系同源基因取代新产生的非亲缘或远缘蛋白在不同物种具有相似的功能。局部相似性和整体
21、相似性局部相似性和整体相似性 序列比对的基本思想,是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除(图2)。图2 序列比对,图中“-”表示插入和删除,用字符表示相同的残基,“+”表示相似残基 序列比对的最终实现,必须依赖于某个数学模型。不同的模型,可以从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。序列比对的数学模型大体可以分为两类,一类从全长序列出发,考虑序列的整
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 如何 进行 序列 分析 PPT 课件
限制150内