生物信息学复习题及答案(陶士珩)剖析.docx
《生物信息学复习题及答案(陶士珩)剖析.docx》由会员分享,可在线阅读,更多相关《生物信息学复习题及答案(陶士珩)剖析.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。2(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。3(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。4 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。5 : ( ) a . 总是不计入总数中。6.点矩阵( ):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x
2、,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到及查询序列()相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。8值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,及同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的(高分片段
3、对)得分的期望分布联系起来计算的。通常使用低于0.05来定义统计的显著性。19. 打分矩阵( ):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。10空位():在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。11:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有, 等工具,还具有文献数据库。另外还具有, , , , , , , , , .12序列格式:是将或者蛋白质序
4、列表示为一个带有大于号()开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。13序列格式:是 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是,对序列的注释;第四部分是序列本身,以“”结尾。14检索系统:是开发的核心检索系统,集成了的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点,可以使用关键词如基因名字、物种名字及生物学功能检索等。15矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替
5、代频率的观察。每个矩阵适合特定的进化距离。例如,在62矩阵中,比对的分值来自不超过62%一致率的一组序16.系统发生树( )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化及多样性的基础,是相近物种相关生物学数据的来源。17.基因树及物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新
6、的独特的基因序列的事件。基因复制事件可能发生在物种形成之前或之后,造成基因树及物种树拓扑结构存在差异的(来自两个物种的两个基因的分化可能发生在物种形成事件之前)。18. 有根树:包含一唯一的节点,将其作为树中所有物种的共同祖先,并且这一节点到其他节点的路径也是唯一的,最常用的确定树根的方法就是利用分子钟理论。在相同序列数条件下,有根树的可能的形式要多于无根树,这就有根树出错的概率明显高于无根树;无根树:找不到代表祖先树根的唯一节点的系统树。无根树只能确定之间的亲缘关系的远近,在相同序列数条件下,可能的构树形式相对有根树要少,并且无根树是没有方向的,其中线段的两个演化方向都有可能。19.分子钟:
7、认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说,即蛋白序列间的氨基酸替换数正比于序列间的分歧世代数。意义:利用蛋白质序列的恒定的进化速率,可以推算不同物种序列发生分化的时间,从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间。缺陷:不同生物体的分子进化速率差别是很大的,如病毒的一些序列;不同基因的分子钟一般不同;只能用于长期进化历程中仍保持其生物学功能的那些基因,那些进化丢失功能或基因复制后改变功能的不能适用;进化速率是可变的,某些基因在自我扩增后进化速率大大提高;20.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
8、利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。21. 邻接法( ):其首先确定距离最近的分类单元对。然后使系统树的总距离达到最小,不断循环将相邻分类单元秉承一个新的分类单元,最终建立相应的系统发育树。其是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服算法要求进化速率保持恒定的缺陷。需要理解的地方: 1. 序列的相似性及同源性有什么区别及联系?答:(1)相似性是指序列之间相关的一种统计学的量度,两序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相应的分数来
9、衡量这种相似;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一致性的百分比的可能是同源的。(2)相似的不一定是同源的,同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。相反同源序列由于来源于共通过祖先则表现出一定的相似性。2. ?(1)核酸序列有四种碱基构成,当用两条核酸序列比对时出现随机匹配的概率是25%,而蛋白序列由20种氨基酸序列组成,当用两条蛋白序列比对时出现随机匹配的概率是5%,因此用核酸序列比对时出现假阳性概率比较大,可靠性差。(2)密码子的简并。由于密码子存在
10、简并现象,导致密码子的变化不一定会导致氨基酸的变化,即一个氨基酸可以有多个密码子,因而在进化过程中蛋白质序列比核酸序列更为保守,采用蛋白序列比对更具有实际的意义。(3)当序列相似性很高时可以选择序列进行比对。3矩阵的假设条件及1及250的关系。(1)假设条件:a.临近突变独立。相邻位置的突变是独立的互不影响的。b.进化历程的独立。每个位点的突变概率仅由当前状态决定。c.位置独立。某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。(2)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被
11、自然选择接受的突变改变。250则是1自乘250次后得到的,即100个氨基酸中发生250个可被自然选择接受的点突变,但这并不意味250次后,每个氨基酸都发生变化,最后仍然具有20%的相似性,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸;1常用于近缘序列(85%),而250用于相似度为20%左右的的远缘序列。(3)1250生物学意义:250矩阵适用于20%一致性的的远相关蛋白的比对,而1适用于85%的近缘序列,说明了生物进化是朝着趋异进化的,但总能彼此保持一定的相似性。 120: 40% ; 80: 50% ; 60: 60% ;(4)矩阵的局限性: : 3D 。 ;A , 1
12、 a , 4. 此矩阵及矩阵的比较:相同之处是都在打分矩阵中使用对数比值;执行双序列比对时都基于查询序列和匹配序列的一致程度,然后选择矩阵。(1)矩阵是建立在一个进化突变模型的基础上,他认为的突变是一个马尔科夫的过程,即每个位点的突变是相互独立的,且及该位点以前的突变无关;而矩阵没有明确的进化模型,他根据同一蛋白家族中序列保守的模块中观察到的替换情况得到。(2)用于产生矩阵的蛋白质家族及多肽链数目,比大约多20倍,结果将更加可靠。 (3)基于全局比对得到的,用于追朔蛋白的进化起源而是基于局部比对,用于寻找局部的保守的区域。(4) 中,n 越小,表示氨基酸变异的可能性越小;相似的序列之间比较应该
13、选用n值小的矩阵,不太相似的序列之间比较应该选用n值大的矩阵。250用于约20%相同序列之间的比较。中,n越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选 用n值小的矩阵。62用来比较62相似度的序列,80用来比较80左右的序列。5.空格罚分机制线性罚分模型:是某个固定的罚分,不区分起始空位及延伸空位,无论有多少个空格每个空格罚分的值是固定的,可以用公式表示。仿射罚分。由两部分组成,起始空位罚分大,延伸空位罚分小,可由方程(1) 表示,其中为 a ;g为 ;r为 ;X为 通常 : 2 3 ; : 0.1 0.3 .空格的末端罚分机制:对
14、于全局比对和序列长度相同同源性比对,一般包含罚分。而不知道同源性或长度不同的应不包含对末端空格的罚分。6. :位点特异性反复比对,首先进行一般的比对,从比对结果中构建多序列比对的搜索矩阵,然后用此矩阵在一次搜索原来的数据库,重复5次直到没有新的结果出现为止。其是一种更加高灵敏度的程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。:模式识别,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序,是一种高灵敏性的程序,一般经过一次搜索即可取得很好的效果,而当一次之后其及功能是一致的。广泛用于蛋白家族成员的鉴定。7.8: ;( ) / ( + ) , 9.10.马尔科夫链和隐马尔科夫链的异
15、同点及应用(1)相同点:是一个数学模型,是一种随机的过程,隐马尔可夫模型是马尔可夫链的一种,都是关于转移概率的模型,都可用来使用来分析蛋白质家族序列的模型。(2)定义:a.隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程具有一定状态数的隐马尔可夫链和显示随机函数集。.马尔科夫链:是一个数学模型,是一种随机的过程,马尔科夫链的每一个环表示系统的一个状态.由前一个状态转变成现在状态的概率,仅由前一状态决定。这种转换
16、包括往自身的转换和其他可能的转换,并且概率服从一定的分布。b.马尔可夫模型当前状态的概率仅取决于前一状态,而隐马尔可夫模型只及当前状态有关,而及而及导致其成为当前状态的历史变换无关。c.马尔科夫模型多用于原核生物的序列建模,而隐马尔可夫模型能很好地对真核生物序列建模,实现了基因预测从原来单纯的编码序列的预测发展到了基因整体结构的预测。d.在马尔科夫链中每一个状态对应于一个可观察的事件,状态是已知的;而隐马尔可夫模型是对马尔科夫模型的推广,使得可观察的是状态的一个概率函数,而状态本身是不可观察的,所能观察到的是他的发散状态。(3)隐马尔可夫模型的应用:多序列比对,基因各部分结构的识别,蛋白二级结
17、构预测。11.用构建进化树的步骤1) (A, B).2) a . A ; B .3) a b.4) A B a . . a 5) 1.6) .7) .8) .12(创建的为有根树,基于分子钟理论)物种ABCDB9C811D121510E1518135(1)两条序列间的最小距离是,所以物种D和E聚到一组,如下图。ED (2) 计算新的距离矩阵,其中复合物种()替换D和E,如下表。其他物种及新物种组之间的距离由它们及组中两个物种(D和E)之间距离的平均值决定,如d()1/2()=1/2(12+15)=13.5物种ABCB9C81113.516.511.5 第二次聚类在A和C之间,组成类。如下图,C
18、A ED(3) 将A和C合并,计算新的矩阵,如下表,最后一次聚类()B)将物种B的分支点放在()和()的共同祖先之间。物种B1016.512.5BCA ED()B)()(4)设未知数,计算距离。13法建树所谓信息位点,它必须在至少2个分类群中具有相同的序列性状。信息位点是指那些至少存在2个不同碱基且每个不同碱基至少出现两次的位点。14.原理,区别及适用距离法:假定序列尊循分子钟假说,通过构建分子序列之间的距离来构建系统发生树。首先需要根据某种进化模型计算所有对象间的进化距离,然后根据不同的算法,从进化距离最短的开始依次聚类,利用距离方阵计算出最优树,或将分支长度之和最小化,获得最优树,常见的有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 复习题 答案 陶士珩 剖析
限制150内