2022年生物信息学复习题及答案.docx
《2022年生物信息学复习题及答案.docx》由会员分享,可在线阅读,更多相关《2022年生物信息学复习题及答案.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品学习资源生物信息学复习题一、名词说明生物信息学 ,二级数据库 , FASTA序列格式 , genbank 序列格式 , Entrez ,BLAST,查询序列 query ,打分矩阵 scoring matrix,空位 gap,空位罚分, E 值,低复杂度区域,点矩阵 dot matrix,多序列比对,分子钟,系统发育phylogeny ,进化树的二歧分叉结构, 直系同源, 旁系同源, 外类群,有根树, 除权配对算法 UPGMA,邻接法构树,最大简约法构树,最大似然法构树,一样树consensus tree ,bootstrap ,开放阅读框ORF,密码子偏性codon bias ,基因猜测
2、的从头分析法,结构域 domain,超家族,模体 motif ,序列表谱profile,PAM矩阵, BLOSU,M PSI-BLAST,RefSeq,PDB数据库, GenPept,欢迎下载精品学习资源折叠子, TrEMBL, MMD,Bprofile;二、问答题SCOP, PROSITE, Gene Ontology Consortium,表谱欢迎下载精品学习资源1生物信息学与运算生物学有什么区分与联系?2试述生物信息学讨论的基本方法;3试述生物学与生物信息学的相互关系;4美国国家生物技术信息中心 NCBI的主要工作是什么?请列举 3 个以上 NCBI保护的数据库;5序列的相像性与同源性有
3、什么区分与联系?6BLAST套件的 blastn 、blastp 、blastx 、tblastn和 tblastx子工具的用途什么?7简述 BLAST搜寻的算法;8什么是物种的标记序列?9什么是多序列比对过程的三个步骤?10简述构建进化树的步骤;11简述除权配对法 UPGMA的算法思想;12简述邻接法 NJ的算法思想;13简述最大简约法 MP的算法思想;14简述最大似然法 ML的算法思想;15UPGM构A 树法不精确的缘由是什么?16在 MEGA2软件中,供应了多种碱基替换距离模型,试列举其中2 种,说明其含义;17试述 DNA序列分析的流程及代表性分析工具;18如何用 BLAST发觉新基因
4、?19试述 SCOP蛋白质分类方案;20试述 SWISS-PRO中T 的数据来源;21TrEMBL哪两个部分?22试述 PSI-BLAST 搜寻的 5 个步骤;三、操作与运算题1) 如何猎取拜访号为 U49845的 genbank 文件?说明如下 genbank 文件的 LOCUS行供应的信息:LOCUSSCU498455028bpDNAlinearPLN 21-JUN-19992) 利用 Entrez 检索系统,对核酸数据搜寻,输入如下信息,将获得什欢迎下载精品学习资源么结果:AF114696:AF114714ACCN;3) 相比使用 BLAST套件搜寻数据库, BLAST2工具在结果出现上
5、有什么优点?4) MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?5) 什么简约信息位点 Pi ?6) 以下软件的主要用途是什么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORF finder, neural network promoter prediction.7) 为下面的序列比对确定比对得分:匹配得分= +1 ,失配得分 = 0 ,空位得分= -1 ;TGTACGGCTATA TC - -CGCCTTA8) 用 UPGMA重建系统发生树,距离矩阵如下:物种ABCDB9C811D121510E15181359画出 4 个物种
6、的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸, 3 棵可能的无根树中有几棵是一样简约的 由于他们有最小替换数 . 有几棵树的替换树是 2.有大于 2 个替换的树吗 .10如何将所讨论的蛋白质与其他相关蛋白质做结构比对;答案部分一、名词说明:生物信息学:讨论大量生物数据复杂关系的学科,其特点是多学科交叉,以互 联网为媒介, 数据库为载体; 利用数学学问建立各种数学模型;利用电脑为工具对试验所得大量生物学数据进行储存、 检索、处理及分析, 并以生物学学问对结果进行说明;二级数据库: 在一级数据库、 试验数
7、据和理论分析的基础上针对特定目标衍生而来,是对生物学学问和信息的进一步的整理;P11,第 2 段;FASTA序列格式 :是将 DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号 表示一个新文件的开头,其他无特别要求;genbank 序列格式: 是 GenBank 数据库的基本信息单位, 是最为广泛的生物信息学序列格式之一; 该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息描述符;其次部分包含注释;第三部分是引文区,供应了这个记录的科学 依据;第四部分是核苷酸序列本身,以“/ ”结尾; P13,第 2 段;Entrez检索系统: 是 NCBI开发的核心检索系统
8、,集成了NCBI 的各种数据库, 具有链接的数据库多,使用便利,能够进行交叉索引等特点;P83-85;BLAST:基本局部比对搜寻工具,用于相像性搜寻的工具,对需要进行检索的序 列与数据库中的每个序列做相像性比较;P94欢迎下载精品学习资源查询序列 query sequence:也称被检索序列,用来在数据库中检索并进行相像性比较的序列; P98,第 1 段;打分矩阵scoringmatrix :在相像性检索中对序列两两比对的质量评估方法;包括基于理论如考虑核酸和氨基酸之间的类似性和实际进化距离如PAM两类方法; P29,第 2 段;空位 gap: 在序列比对时,由于序列长度不同,需要插入一个或
9、几个位点以取得最正确比对结果, 这样在其中一序列上产生中断现象, 这些中断的位点称为空位; P29,第 2 段;空位罚分 :空位罚分是为了补偿插入和缺失对序列相像性的影响,序列中的空位的引入不代表真正的进化大事, 所以要对其进行罚分, 空位罚分的多少直接影响比照的结果; P37,倒数第 2 段;E 值: 衡量序列之间相像性是否显著的期望值;E 值大小说明白可以找到与查询序列 query 相匹配的随机或无关序列的概率, E 值越接近零,越不行能找到其他匹配序列, E 值越小意味着序列的相像性偶然发生的时机越小,也即相像性越能反映真实的生物学意义; P95低复杂度区域: BLAST搜寻的过滤选项;
10、指序列中包含的重复度高的区域, 如 polyA;P100,第一段;点矩阵 dot matrix :构建一个二维矩阵,其 X轴是一条序列, Y 轴是另一个序列,然后在 2 个序列相同碱基的对应位置 x,y加点,假如两条序列完全相同就会形成一条主对角线, 假如两条序列相像就会显现一条或者几条直线;假如完全没有相像性就不能连成直线; P39-41;多序列比对: 通过序列的相像性检索得到很多相像性序列,将这些序列做一个总体的比对,以观看它们在结构上的异同,来答复大量的生物学问题;P48,需要概括;分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间; P112-
11、113系统发育分析: 通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以讨论推断不同物种或基因之间的进化关系;P112,第一段;进化树的二歧分叉结构: 指在进化树上任何一个分支节点, 一个父分支都只能被分成两个子分支; P113,最终一段;系统发育图: P114直系同源: 指由于物种形成大事来自一个共同祖先的不同物种中的同源序列,具有相像或不同的功能; P28, P146旁系并系同源: 指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了转变;P28, P147外类群:是进化树中处于一组被分析物种之外的, 具有相近亲缘关系的物种; P120有根树: 能够确
12、定全部分析物种的共同祖先的进化树;P113除权配对算法 UPGMA: 最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到全部的聚类被加入,最终产生树根; P119邻接法 neighbor-joining method:是一种不仅仅运算两两比对距离,仍对整个树的长度进行最小化, 从而对树的拓扑结构进行限制, 能够克服 UPGM算A 法要求进化速率保持恒定的缺陷; P118;最大简约法MP:在一系列能够说明序列差异的的进化树中找到具有最少核酸欢迎下载精品学习资源或氨基酸替换的进化树; P120最大似然法ML:它对每个可能的进化位点安排一个概率, 然后综合
13、全部位点, 找到概率最大的进化树; 最大似然法答应采纳不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树; P122一样树consensus tree :在同一算法中产生多个最优树,合并这些最优树得到的树即一样树; P121自举法检验 Bootstrap : 放回式抽样统计法;通过对数据集多次重复取样, 构建多个进化树,用来检查给定树的分枝可信度;P122开放阅读框 ORF:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列; P131密码子偏好性 codon bias : 氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一样, 大多数高效表达的基因仅使用那些含量高
14、的同功tRNA所对应的密码子,这种效应称为密码子偏好性;P133基因猜测的从头分析: 依据综合利用基因的特点, 如剪接位点, 内含子与外显子边界,调控区,猜测基因组序列中包含的基因;P134-145简约信息位点: 指基于 DNA或蛋白质序列,利用最大简约法构建系统发育树时,假如每个位点的状态至少存在两种,每种状态至少显现两次的位点;其它位点为都是非简约性信息位点;P121, 第 2 行结构域 domain:保守的结构单元,包含特殊的二级结构组合和疏水内核, 可能单独存在,也可能与其他结构域组合;相同功能的同源结构域具有序列的相像性; P158模体motif :短的保守的多肽段, 含有相同模体的
15、蛋白质不肯定是同源的, 一般 10-20 个残基; P161, 最终一行PAM矩阵: PAM指可接受突变百分率;一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相像性,并产生蛋白质之间的比对;一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间; P30-31BLOSUM矩阵: 模块替代矩阵;矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观看;每个矩阵适合特定的进化距离;例如,在BLOSUM6矩2 阵中,比对的分值来自不超过 62%一样率的一组序列; P34折叠子 Fold : 在两个或更多的蛋白质中具有相像二级结构的大区域,这些大区域具有特定的
16、空间取向; P162TrEMBL:是与 SWISS-PRO相T 关的一个数据库; 包含从 EMBL核酸数据库中依据编码序列 CDS翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT 数据库中; P21PDBProteinData Bank:PDB中收录了大量通过试验 X 射线晶体衍射,核磁共振 NMR测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等; PDB数据库的拜访号由一个数字和三个字母组成 如,4HHB,同时支持关键词搜寻,仍可以 FASTA程序进行搜寻; P22MMDBMolecular Modeling Database:是NCBI所开发的
17、生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于试验的生物大分子结构数据;与 PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有很多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,仍供应生物大分子三维结构模型显示、结构分析和结构比较工具;.欢迎下载精品学习资源SCOP数据库: 供应关于已知结构的蛋白质之间结构和进化关系的具体描述,包 括蛋白质结构数据库 PDB中的全部条目; SCOP数据库除了供应蛋白质结构和进化关系信息外,对于每一个蛋白质仍包括下述信息:到PDB的连接,序列,参考文献,结构的图像等; 可以按结构和进化关系对蛋白质分类, 分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 生物 信息学 复习题 答案
限制150内