2022年生物信息学复习题及答案西农.docx
《2022年生物信息学复习题及答案西农.docx》由会员分享,可在线阅读,更多相关《2022年生物信息学复习题及答案西农.docx(18页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆生物信息学复习题及答案(陶士珩)名词说明1. Homology 同源 : 来源于共同祖先的序列相像的序列及同源序列;序列相像序列并不一定是同源序列;2.Orthologs(直系同源):指由于物种形成的特别大事来自一个共同祖先的不同物种中的同源序列,它们具有相像的功能;3. Paralogs (旁系(并系)同源): 指同一个物种中具有共同祖先,通过基因复制产生的一组基因, 这些基因在功能上的可能发生了转变;基因复制大事是促进新基因进化的重要推 动力;4. Xenologs 异同源 :通过横向转移,来源于共生或病毒侵染而产
2、生的相像的序列,为异 同源;5.Identity Score :The sum of the number of identical matches and conservative high scoring substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap 总是不计入总数中;6. 点矩阵( dot matrix ):构建一个二维矩阵,其 X轴是一条序列,Y 轴是另一个序列,然后在 2 个序列相同碱基的对应位置(x,y)加点,假如两条序列完全
3、相同就会形成一条主对角线,假如两条序列相像就会显现一条或者几条直线;假如完全没有相像性就不能连成直线;7. E 值:得分大于等于某个分值S 的不同的比对的数目在随机的数据库搜寻中发生的可能性; 衡量序列之间相像性是否显著的期望值;E值大小说明白可以找到与查询序列(query )相匹配的随机或无关序列的概率,相像性越能反映真实的生物学意义,E 值越小意味着序列的相像性偶然发生的机会越小,也即 E 值越接近零,越不行能找到其他匹配序列;8.P 值:得分为所要求的分值比对或更好的比对随机发生的概率;它是将观测得到的比对得分 S,与同样长度和组成的随机序列作为查询序列进行数据库搜寻进行比较得到的 HS
4、P(高分片段对)得分的期望分布联系起来运算的;通常使用低于 0.05 来定义统计的显著性;-E P=1-e9. 打分矩阵( scoring matrix): 在相像性检索中对序列两两比对的质量评估方法;包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如 列相像性分析的基础,其不同的挑选将会显现不同的分析结果;PAM)两类方法 , 是序10 空位( gap): 在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最 佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位;11.NCBI :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有 BLAS
5、T, Entrez ,GenBank 等工具,仍具有 PubMed文献数据库;另外仍具有 Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 12.FASTA 序列格式 :是将 DNA或者蛋白质序列表示为一个带有大于号()开头的核苷酸或 者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特别要求;13genbank 序列格式: 是 GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一;该文件格式按域划分为4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含
6、注释,主要包含生物功能或数据库信息;第三部分是 feature,对序列的注释;第四部分是序列本身,以“/ ” 结尾;14. Entrez 检索系统: 是 NCBI开发的核心检索系统,集成了 NCBI的各种数据库,具有链接的数据库多,使用便利,能够进行交叉索引等特点,可以使用关键词如基因名字、物种名字及生物学功能检索等;名师归纳总结 - - - - - - -第 1 页,共 10 页精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆15. BLOSUM矩阵: 模块替代矩阵;矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观看;每个矩阵适合特定的进化距离;例如,在
7、 不超过 62%一样率的一组序BLOSUM62矩阵中,比对的分值来自16. 系统发生树( Phylogenetic tree )是讨论生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法;在树中, 每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估量的演化时间);是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源;17. 基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程, 而基因树就是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点就代表一个祖先基因分
8、化为两个新的特殊的基因序列的大事;基因复制大事可能发生在物种形成之前或之后,造成基因树与物种树拓扑结构存在差异的(来自两个物种的两个基因的分化可能发生在物种形成大事之前);18. 有根树 :包含一唯独的节点,将其作为树中全部物种的共同祖先,并且这一节点到其他节点的路径也是唯独的,最常用的确定树根的方法就是利用分子钟理论;在相同序列数条件下,有根树的可能的形式要多于无根树,这就有根树出错的概率明显高于无根树;无根树:找不到代表祖先树根的唯独节点的系统树;无根树只能确定之间的亲缘关系的远近,在相同序列数条件下, 可能的构树形式相对有根树要少,并且无根树是没有方向的,其中线段的两个演化方向都有可能;
9、19. 分子钟: 认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说,即蛋白序列间的氨基酸替换数正比于序列间的分歧世代数;意义:利用蛋白质序列的恒定的进化速率,可以推算不同物种序列发生分化的时间,从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间;缺陷: 不同生物体的分子进化速率差别是很大的,如病毒的一些序列; 不同基因的分子钟一般不同;只能用于长期进化历程中仍保持其生物学功能的那些基因, 那些进化丢失功能或基因复制后转变功能的不能适用;进化速率是可变的,某些基因在自我扩增后进化速率大大提高;20. 生物信息学:讨论大量生物数据复杂关系的学科,其特点是多学科交叉,以互联
10、网为媒介,数据库为载体; 利用数学学问建立各种数学模型; 利用运算机为工具对试验所得大量生物学数据进行储存、检索、处理及分析,并以生物学学问对结果进行说明;21. 邻接法( neighbor-joining method) :其第一确定距离最近的分类单元对;然后使系统树的总距离达到最小,不断循环将相邻分类单元秉承一个新的分类单元,最终建立相应的系统发育树; 其是一种不仅仅运算两两比对距离,仍对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷;需要懂得的地方:window size dotplot 1. 序列的相像性与同源性有什么区分与联系?答
11、:(1)相像性是指序列之间相关的一种统计学的量度,两序列的的相像性可以基于序列的一样性和相像度的百分比,也可以用相应的分数来衡量这种相像;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一样性的百分比的可能是同源的;(2)相像的不肯定是同源的,同源的就表现出肯定的相像性;由于在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见;表现出肯定的相像性;相反同源序列由于来源于共通过祖先就2. why the reliability of protein alignment is higher than that of
12、 DNA.名师归纳总结 1 核酸序列有四种碱基构成,当用两条核酸序列比对时显现随机匹配的概率是25%,而蛋第 2 页,共 10 页- - - - - - -精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆白序列由 20 种氨基酸序列组成,当用两条蛋白序列比对时显现随机匹配的概率是 5%,因此 用核酸序列比对时显现假阳性概率比较大,牢靠性差;(2)密码子的简并;由于密码子存在简并现象,导致密码子的变化不肯定会导致氨基酸的变化,即一个氨基酸可以有多个密码子,采纳蛋白序列比对更具有实际的意义;因而在进化过程中蛋白质序列比核酸序列更为保守,(3)当序列相像性很高时可以挑选
13、DNA序列进行比对;3.PAM矩阵的假设条件及 PAM1与 PAM250的关系;(1)假设条件: a. 接近突变独立;相邻位置的突变是独立的互不影响的;b. 进化历程的独立;每个位点的突变概率仅由当前状态打算;仅有这两个氨基酸打算;c. 位置独立; 某个氨基酸突变为另一个氨基酸(2)基于进化的点突变模型,假如两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高;一个 PAM就是一个进化的变异单位 , 即 100 个氨基酸中有 1 个发生可能被自然挑选接受的突变转变;PAM250就是 PAM1自乘 250 次后得到的,即 100 个氨基酸中发生 250 个可被自然挑选接受的点突
14、变,但这并不意味 250 次 PAM后,每个氨基酸都发生变化,最终仍旧具有 20%的相像性,由于其中一些位置可能会经过多次突变,甚至可能会变回到原先的氨基酸;PAM1常用于近缘序列(85%),而 PAM250用于相像度为 20%左右的的远缘序列;(3)PAM1-PAM250生物学意义: PAM250矩阵适用于20%一样性的的远相关蛋白的比对,而PAM1适用于 85%的近缘序列, 说明白生物进化是朝着趋异进化的,但总能彼此保持肯定的相似性; PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar; (4)PAM矩阵的局限性:B
15、asic assumption: No correlations in exchange frequencies between neighboring sites.Structural analysis has confirmed role of neighboring residues in 3D structure;Different sites within proteins show different levels wx gxof variability;A phylogenetic tree must be constructed first, implying some cir
16、cularity in the analysis The original PAM1 matrix was based on a limited number of families, not necessarily representative of all protein families 4. 此矩阵与 PAM矩阵的比较:相同之处是都在打分矩阵中使用对数比值;执行双序列比对时都基于查询序列和匹配序列的一样程度,然后挑选矩阵;(1)PAM矩阵是建立在一个进化突变模型的基础上,他认为aa 的突变是一个马尔科夫的过程,即每个位点的aa 突变是相互独立的,且与该位点以前的突变无关;而 BLOSU
17、M矩阵没有明确的进化模型,他依据同一蛋白家族中序列保守的(2)用于产生矩阵的蛋白质家族及多肽链数目,靠;aa 模块中观看到的替换情形得到;BLOSUM比 PAM大约多 20 倍, 结果将更加可(3)PAM基于全局比对得到的,用于追朔蛋白的进化起源而 BLOSUM是基于局部比对,用 于查找局部的保守的区域;(4) PAM-n 中, n 越小,表示氨基酸变异的可能性越小;相像的序列之间比较应当选用 n 值小的矩阵,不太相像 的序列之间比较应当选用 n 值大的矩阵; PAM-250用于约 20%相同 序列之间的比较;BLOSUM-n中,n 越小,表示氨基酸相像的可能性越小;相像的序列之间比较应当选用
18、 n 值大的矩阵,不太相像的序列之间比较应当选用 n 值小的矩阵; BLOSUM-62用来比较 62相像度的序列,BLOSUM-80用来比较 80左右的序列;5. 空格罚分机制名师归纳总结 线性罚分模型: 是某个固定的罚分,不区分起始空位与延长空位,无论有多少个空格每个空第 3 页,共 10 页- - - - - - -精选学习资料 - - - - - - - - - 学而不思就惘,思而不学就殆格罚分的值是固定的,可以用公式 Wx=gx表示;仿射罚分;由两部分组成,起始空位罚分大,延长空位罚分小,可由方程 Wx=g+rx-1or Wx=g+rx 表示,其中 Wx为 gap penalty sc
19、ore of a gap of length r 为 gap extension penalty;X 为 gap length ;g为 gap opening penalty ;通常 Gap opening penalty: 2 3 times larger than the most negative value in the substitution matrix that is being used;Gap extension penalty: 0.1 to 0.3 times the value of the gap opening penalty. 空格的末端罚分机制:对于全局比对和
20、序列长度相同同源性比对,一般包含罚分;而不知 道同源性或长度不同的应不包含对末端空格的罚分;6. PSI-BLAST and PHI-BLAST PSI-BLAST: 位点特异性反复比对,第一进行一般的blastp比对,从比对结果中构建多序列比对的搜寻矩阵, 然后用此矩阵在一次搜寻原先的数据库,重复 5 次直到没有新的结果显现为止;其是一种更加高灵敏度的Blastp程序,对于发觉远亲物种的相像蛋白或某个蛋白家族的新成员;PHI-Blast:模式识别 BLAST,是一种既能和查询匹配又能和模式匹配的的蛋白序列的比对程序,是一种高灵敏性的 blastp 程序,一般经过一次搜寻即可取得很好的成效,而
21、当一次之后其与 PSI-BLAST 功能是一样的;广泛用于蛋白家族成员的鉴定;7.8.Sensitivity: ability to find all related sequences;true positives / true positives + false negative The most sensitive search finds all related sequences, but might have lots of false positives Specificity selectivity: ability to reject unrelated sequencest
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 生物 信息学 复习题 答案
限制150内