2022年生物信息学复习题及答案 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年生物信息学复习题及答案 .pdf》由会员分享,可在线阅读,更多相关《2022年生物信息学复习题及答案 .pdf(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学复习题一、名词解释生物信息学 , 二级数据库 , FASTA 序列格式 , genbank序列格式 , Entrez ,BLAST ,查询序列 query ,打分矩阵 scoring matrix ,空位 gap ,空位罚分, E值, 低复杂度区域,点矩阵dot matrix ,多序列比对,分子钟,系统发育phylogeny ,进化树的二歧分叉结构, 直系同源, 旁系同源,外类群,有根树,除权配对算法 UPGMA ,邻接法构树,最大简约法构树,最大似然法构树,一致树 consensus tree , bootstrap , 开放阅读框ORF , 密码子偏性codon bias ,基因
2、预测的从头分析法,结构域domain ,超家族,模体 motif ,序列表谱profile ,PAM 矩阵,BLOSUM,PSI-BLAST ,RefSeq,PDB数据库, GenPept ,折叠子, TrEMBL ,MMDB,SCOP ,PROSITE ,Gene Ontology Consortium,表谱profile 。二、问答题1生物信息学与计算生物学有什么区别与联系?2试述生物信息学研究的基本方法。3试述生物学与生物信息学的相互关系。4 美国国家生物技术信息中心 NCBI 的主要工作是什么?请列举3 个以上 NCBI维护的数据库。5序列的相似性与同源性有什么区别与联系?6BLAST
3、套件的 blastn 、blastp 、blastx 、tblastn和 tblastx子工具的用途什么?7简述 BLAST搜索的算法。8什么是物种的标记序列?9什么是多序列比对过程的三个步骤?10简述构建进化树的步骤。11简述除权配对法 UPGMA的算法思想。12简述邻接法 NJ的算法思想。13简述最大简约法 MP 的算法思想。14简述最大似然法 ML 的算法思想。15UPGMA 构树法不精确的原因是什么?16在 MEGA2 软件中,提供了多种碱基替换距离模型,试列举其中2 种,解释其含义。17试述 DNA 序列分析的流程及代表性分析工具。18如何用 BLAST发现新基因?19试述 SCOP
4、 蛋白质分类方案。20试述 SWISS-PROT 中的数据来源。21TrEMBL 哪两个部分?22试述 PSI-BLAST 搜索的 5 个步骤。三、操作与计算题1)如何获取访问号为U49845的 genbank 文件?解释如下 genbank 文件的 LOCUS 行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用 Entrez 检索系统,对核酸数据搜索,输入如下信息,将获得什精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 10 页么结果:AF114696:AF11
5、4714ACCN 。 3) 相比使用 BLAST套件搜索数据库, BLAST2 工具在结果呈现上有什么优点?4)MEGA2 如何将其它多序列比对格式文件转化为MEGE 格式的多序列比对文件?5)什么简约信息位点Pi?6)以下软件的主要用途是什么?RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction. 7) 为下面的序列比对确定比对得分:匹配得分= +1,失配得分 = 0 ,空位得分 = -1 。TGTACGGCTATA TC - -CGCCT TA 8) 用 UPG
6、MA 重建系统发生树,距离矩阵如下:物种A B C D B 9 C 8 11 D 12 15 10 E 15 18 13 5 9画出 4 个物种的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸,3 棵可能的无根树中有几棵是一样简约的( 因为他们有最小替换数 )?有几棵树的替换树是2?有大于 2 个替换的树吗 ? 10如何将所研究的蛋白质与其他相关蛋白质做结构比对。答案部分一、名词解释:生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介, 数据库为载体。 利用数学知识建立各种数学
7、模型; 利用电脑为工具对实验所得大量生物学数据进行储存、检索、处理及分析, 并以生物学知识对结果进行解释。二级数据库: 在一级数据库、 实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。P11,第 2 段。FASTA 序列格式 :是将 DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号表示一个新文件的开始,其他无特殊要求。genbank 序列格式:是 GenBank 数据库的基本信息单位, 是最为广泛的生物信息学序列格式之一。 该文件格式按域划分为4 个部分:第一部分包含整个记录的信息描述符;第二部分包含注释;第三部分是引文区,提供了这
8、个记录的科学依据;第四部分是核苷酸序列本身,以“/ ”结尾。 P13,第 2 段。Entrez 检索系统: 是 NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。P83-85。BLAST :基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 10 页查询序列 query sequence:也称被检索序列,用来在数据库中检索并进行相似性比较的序列。 P98,第 1 段。打分矩阵s
9、coring matrix :在相似性检索中对序列两两比对的质量评估方法。包括基于理论如考虑核酸和氨基酸之间的类似性和实际进化距离如PAM 两类方法。 P29,第 2 段。空位 gap: 在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最正确比对结果, 这样在其中一序列上产生中断现象,这些中断的位点称为空位。 P29,第 2 段。空位罚分 :空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件, 所以要对其进行罚分, 空位罚分的多少直接影响比照的结果。 P37,倒数第 2 段。E值:衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询
10、序列 query 相匹配的随机或无关序列的概率,E 值越接近零,越不可能找到其他匹配序列, E值越小意味着序列的相似性偶然发生的时机越小,也即相似性越能反映真实的生物学意义。P95 低复杂度区域:BLAST 搜索的过滤选项。指序列中包含的重复度高的区域, 如 polyA。P100,第一段。点矩阵 dot matrix :构建一个二维矩阵,其X轴是一条序列, Y轴是另一个序列,然后在 2 个序列相同碱基的对应位置x,y加点,如果两条序列完全相同则会形成一条主对角线, 如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。P39-41。多序列比对: 通过序列的相似性检索得到许
11、多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来答复大量的生物学问题。P48,需要概括。分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。P112-113 系统发育分析: 通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。P112,第一段。进化树的二歧分叉结构: 指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 P113 ,最后一段。系统发育图: P114直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。 P28,P146 旁系并
12、系同源: 指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了改变。P28,P147 外类群:是进化树中处于一组被分析物种之外的, 具有相近亲缘关系的物种。 P120 有根树: 能够确定所有分析物种的共同祖先的进化树。P113 除权配对算法 UPGMA:最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。 P119 邻接法 neighbor-joining method:是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化, 从而对树的拓扑结构进行限制, 能够克服 UPGMA 算法要求
13、进化速率保持恒定的缺陷。P118 。最大简约法 MP :在一系列能够解释序列差异的的进化树中找到具有最少核酸精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 10 页或氨基酸替换的进化树。P120 最大似然法ML :它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。 最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。P122 一致树consensus tree :在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。 P121 自举法检验 Bootstrap :放回式抽样统计法
14、。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。P122 开放阅读框 ORF :开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。 P131 密码子偏好性 codon bias : 氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致, 大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。P133 基因预测的从头分析: 依据综合利用基因的特征, 如剪接位点, 内含子与外显子边界,调控区,预测基因组序列中包含的基因。P134-145 简约信息位点: 指基于 DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果
15、每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121, 第 2 行结构域 domain :保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。P158 模体motif :短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般 10-20 个残基。 P161, 最后一行PAM矩阵: PAM 指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1% 的替代量需要的进化
16、时间。 P30-31 BLOSUM 矩阵: 模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62 矩阵中,比对的分值来自不超过62% 一致率的一组序列。 P34 折叠子 Fold :在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。P162 TrEMBL :是与 SWISS-PROT 相关的一个数据库。 包含从 EMBL 核酸数据库中根据编码序列 (CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。 P21 PDB Protein Data Bank :PD
17、B 中收录了大量通过实验X射线晶体衍射,核磁共振 NMR 测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。 PDB 数据库的访问号由一个数字和三个字母组成如,4HHB ,同时支持关键词搜索,还可以FASTA 程序进行搜索。 P22 MMDB(Molecular Modeling Database):是NCBI 所开发的生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与 PDB相比,对于数据库中的每一个生物大分子结构,MMDB 具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子
18、三维结构模型显示、结构分析和结构比较工具。? 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 10 页SCOP 数据库: 提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。 SCOP 数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB 的连接,序列,参考文献,结构的图像等。 可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类 class 、 折叠子 fold 、 超家族 super family 、家族 family 、单个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年生物信息学复习题及答案 2022 生物 信息学 复习题 答案
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内