2022年生物信息学复习题及答案西农 .pdf
《2022年生物信息学复习题及答案西农 .pdf》由会员分享,可在线阅读,更多相关《2022年生物信息学复习题及答案西农 .pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、学而不思则惘,思而不学则殆生物信息学复习题及答案(陶士珩)名词解释1. Homology (同源 ): 来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。2.Orthologs(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。3. Paralogs (旁系(并系)同源): 指同一个物种中具有共同祖先,通过基因复制产生的一组基因, 这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。4. Xenologs (异同源 ) :通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。5.Identi
2、ty Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。6. 点矩阵( dot matrix ):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在 2 个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出
3、现一条或者几条直线;如果完全没有相似性则不能连成直线。7. E 值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。 衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query )相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。8.P 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分 S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP (高分片段对)得分的期望分布联系起来计算的。通常使用低
4、于0.05来定义统计的显著性。P=1-e-E 9.打分矩阵( scoring matrix): 在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM )两类方法 , 是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。10 空位( gap): 在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。11.NCBI:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank 等工具,还具有PubMed文献
5、数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 12.FASTA序列格式 :是将 DNA或者蛋白质序列表示为一个带有大于号()开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。13genbank 序列格式: 是 GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;
6、第四部分是序列本身,以“/ ”结尾。14. Entrez检索系统: 是 NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点,可以使用关键词如基因名字、物种名字及生物学功能检索等。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 10 页学而不思则惘,思而不学则殆15. BLOSUM 矩阵: 模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62 矩阵中,比对的分值来自不超过 62% 一致率的一组序16. 系统
7、发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中, 每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17. 基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程, 而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因复制事件可能发生在物种形成之前或之后,造成基
8、因树与物种树拓扑结构存在差异的(来自两个物种的两个基因的分化可能发生在物种形成事件之前)。18. 有根树 :包含一唯一的节点,将其作为树中所有物种的共同祖先,并且这一节点到其他节点的路径也是唯一的,最常用的确定树根的方法就是利用分子钟理论。在相同序列数条件下,有根树的可能的形式要多于无根树,这就有根树出错的概率明显高于无根树;无根树:找不到代表祖先树根的唯一节点的系统树。无根树只能确定之间的亲缘关系的远近,在相同序列数条件下, 可能的构树形式相对有根树要少,并且无根树是没有方向的,其中线段的两个演化方向都有可能。19. 分子钟: 认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说,即
9、蛋白序列间的氨基酸替换数正比于序列间的分歧世代数。意义:利用蛋白质序列的恒定的进化速率,可以推算不同物种序列发生分化的时间,从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间。缺陷: 不同生物体的分子进化速率差别是很大的,如病毒的一些序列; 不同基因的分子钟一般不同;只能用于长期进化历程中仍保持其生物学功能的那些基因, 那些进化丢失功能或基因复制后改变功能的不能适用;进化速率是可变的,某些基因在自我扩增后进化速率大大提高;20. 生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。 利用数学知识建立各种数学模型; 利用计算机为工具对实验所
10、得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。21.邻接法( neighbor-joining method) :其首先确定距离最近的分类单元对。然后使系统树的总距离达到最小,不断循环将相邻分类单元秉承一个新的分类单元,最终建立相应的系统发育树。 其是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA 算法要求进化速率保持恒定的缺陷。需要理解的地方:window size dotplot 1.序列的相似性与同源性有什么区别与联系?答: (1)相似性是指序列之间相关的一种统计学的量度,两序列的的相似性可以基于序列的一
11、致性和相似度的百分比,也可以用相应的分数来衡量这种相似;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一致性的百分比的可能是同源的。(2)相似的不一定是同源的,同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。相反同源序列由于来源于共通过祖先则表现出一定的相似性。2. why the reliability of protein alignment is higher than that of DNA?(1) 核酸序列有四种碱基构成,当用两条核酸序列比对时出现随机匹配的概率
12、是25% ,而蛋精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 10 页学而不思则惘,思而不学则殆白序列由20 种氨基酸序列组成,当用两条蛋白序列比对时出现随机匹配的概率是5% ,因此用核酸序列比对时出现假阳性概率比较大,可靠性差。(2)密码子的简并。由于密码子存在简并现象,导致密码子的变化不一定会导致氨基酸的变化, 即一个氨基酸可以有多个密码子,因而在进化过程中蛋白质序列比核酸序列更为保守,采用蛋白序列比对更具有实际的意义。(3)当序列相似性很高时可以选择DNA序列进行比对。3.PAM矩阵的假设条件及PAM1 与 PAM250的关系。
13、(1)假设条件:a. 临近突变独立。相邻位置的突变是独立的互不影响的。b. 进化历程的独立。每个位点的突变概率仅由当前状态决定。c. 位置独立。 某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。(2)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个 PAM就是一个进化的变异单位, 即 100 个氨基酸中有1个发生可能被自然选择接受的突变改变。PAM250 则是 PAM1 自乘 250 次后得到的,即100 个氨基酸中发生250 个可被自然选择接受的点突变,但这并不意味250 次 PAM后,每个氨基酸都发生变化,最后仍然具有20% 的相似性
14、,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸;PAM1常用于近缘序列(85% ) ,而 PAM250用于相似度为20% 左右的的远缘序列。(3)PAM1-PAM250 生物学意义:PAM250矩阵适用于20% 一致性的的远相关蛋白的比对,而PAM1适用于 85% 的近缘序列, 说明了生物进化是朝着趋异进化的,但总能彼此保持一定的相似性。 PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar; (4)PAM 矩阵的局限性:Basic assumption: No correlations in exch
15、ange frequencies between neighboring sites.Structural analysis has confirmed role of neighboring residues in 3D structure。Different sites within proteins show different levels of variability;A phylogenetic tree must be constructed first, implying some circularity in the analysis The original PAM1 ma
16、trix was based on a limited number of families, not necessarily representative of all protein families 4. 此矩阵与PAM矩阵的比较:相同之处是都在打分矩阵中使用对数比值;执行双序列比对时都基于查询序列和匹配序列的一致程度,然后选择矩阵。(1)PAM 矩阵是建立在一个进化突变模型的基础上,他认为aa 的突变是一个马尔科夫的过程,即每个位点的aa 突变是相互独立的,且与该位点以前的突变无关;而 BLOSUM 矩阵没有明确的进化模型,他根据同一蛋白家族中序列保守的aa 模块中观察到的替换情况得到
17、。(2)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM 比 PAM大约多 20 倍, 结果将更加可靠。(3)PAM 基于全局比对得到的,用于追朔蛋白的进化起源而BLOSUM 是基于局部比对,用于寻找局部的保守的区域。(4) PAM-n 中, n 越小,表示氨基酸变异的可能性越小;相似的序列之间比较应该选用n值小的矩阵,不太相似的序列之间比较应该选用n 值大的矩阵。 PAM-250用于约 20% 相同序列之间的比较。BLOSUM-n 中,n 越小,表示氨基酸相似的可能性越小;相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选用 n 值小的矩阵。 BLOSUM-62用来比
18、较62相似度的序列,BLOSUM-80 用来比较80左右的序列。5. 空格罚分机制线性罚分模型: 是某个固定的罚分,不区分起始空位与延伸空位,无论有多少个空格每个空gxwx精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 10 页学而不思则惘,思而不学则殆格罚分的值是固定的,可以用公式Wx=gx表示。仿射罚分。由两部分组成,起始空位罚分大,延伸空位罚分小,可由方程Wx=g+r(x-1)or Wx=g+rx表示, 其中 Wx为 gap penalty score of a gap of length ; g为 gap opening pen
19、alty ;r 为 gap extension penalty;X为 gap length 通常 Gap opening penalty: 2 3 times larger than the most negative value in the substitution matrix that is being used;Gap extension penalty: 0.1 to 0.3 times the value of the gap opening penalty. 空格的末端罚分机制:对于全局比对和序列长度相同同源性比对,一般包含罚分。而不知道同源性或长度不同的应不包含对末端空格的罚
20、分。6. PSI-BLAST and PHI-BLAST PSI-BLAST: 位点特异性反复比对,首先进行一般的blastp比对,从比对结果中构建多序列比对的搜索矩阵, 然后用此矩阵在一次搜索原来的数据库,重复 5 次直到没有新的结果出现为止。其是一种更加高灵敏度的Blastp程序,对于发现远亲物种的相似蛋白或某个蛋白家族的新成员。PHI-Blast:模式识别BLAST ,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序,是一种高灵敏性的blastp程序,一般经过一次搜索即可取得很好的效果,而当一次之后其与PSI-BLAST 功能是一致的。广泛用于蛋白家族成员的鉴定。7.8.Sens
21、itivity: ability to find all related sequences;(true positives) / (true positives + false negative) The most sensitive search finds all related sequences, but might have lots of false positives Specificity (selectivity): ability to reject unrelated sequences(true positive) / (true positive + false p
22、ositive);The most specific search will return only related sequences, but might have lots of false negatives 9. 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 10 页学而不思则惘,思而不学则殆10. 马尔科夫链和隐马尔科夫链的异同点及应用(1)相同点:是一个数学模型,是一种随机的过程,隐马尔可夫模型是马尔可夫链的一种,都是关于转移概率的模型,都可用来使用来分析蛋白质家族序列的模型。(2)定义: a. 隐马尔可夫模型是马尔可夫
23、链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程 -具有一定状态数的隐马尔可夫链和显示随机函数集。. 马尔科夫链:是一个数学模型,是一种随机的过程,马尔科夫链的每一个环表示系统的一个状态. 由前一个状态转变成现在状态的概率,仅由前一状态决定。这种转换包括往自身的转换和其他可能的转换,并且概率服从一定的分布。b. 马尔可夫模型当前状态的概率仅取决于前一状态,而隐马尔可夫模型只与当前状态有关,而与而与导致其成为当前状态的历史变换无关。c.
24、 马尔科夫模型多用于原核生物的DNA序列建模,而隐马尔可夫模型能很好地对真核生物DNA序列建模,实现了基因预测从原来单纯的编码序列的预测发展到了基因整体结构的预测。d. 在马尔科夫链中每一个状态对应于一个可观察的事件,状态是已知的; 而隐马尔可夫模型是对马尔科夫模型的推广,使得可观察的是状态的一个概率函数,而状态本身是不可观察的,所能观察到的是他的发散状态。(3)隐马尔可夫模型的应用:多序列比对,基因各部分结构的识别,蛋白二级结构预测。11. 用 Fitch-Margoliash构建进化树的步骤1)Find the mostly closely related pairs of sequenc
25、es (A, B). 2)Treat the rest of the sequences as a composite. Calculate the average distance from A to all others; and from B to all others. 3)Use these values to calculate the length of the edges a and b. 4)Treat A and B as a composite. Calculate the average distances between AB and each of the othe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年生物信息学复习题及答案西农 2022 生物 信息学 复习题 答案
限制150内