2022年生物信息学复习题及答案.docx
精品学习资源生物信息学复习题一、名词说明生物信息学 ,二级数据库 , FASTA序列格式 , genbank 序列格式 , Entrez ,BLAST,查询序列 query ,打分矩阵 scoring matrix,空位 gap,空位罚分, E 值,低复杂度区域,点矩阵 dot matrix,多序列比对,分子钟,系统发育phylogeny ,进化树的二歧分叉结构, 直系同源, 旁系同源, 外类群,有根树, 除权配对算法 UPGMA,邻接法构树,最大简约法构树,最大似然法构树,一样树consensus tree ,bootstrap ,开放阅读框ORF,密码子偏性codon bias ,基因猜测的从头分析法,结构域 domain,超家族,模体 motif ,序列表谱profile,PAM矩阵, BLOSU,M PSI-BLAST,RefSeq,PDB数据库, GenPept,欢迎下载精品学习资源折叠子, TrEMBL, MMD,Bprofile;二、问答题SCOP, PROSITE, Gene Ontology Consortium,表谱欢迎下载精品学习资源1生物信息学与运算生物学有什么区分与联系?2试述生物信息学讨论的基本方法;3试述生物学与生物信息学的相互关系;4美国国家生物技术信息中心 NCBI的主要工作是什么?请列举 3 个以上 NCBI保护的数据库;5序列的相像性与同源性有什么区分与联系?6BLAST套件的 blastn 、blastp 、blastx 、tblastn和 tblastx子工具的用途什么?7简述 BLAST搜寻的算法;8什么是物种的标记序列?9什么是多序列比对过程的三个步骤?10简述构建进化树的步骤;11简述除权配对法 UPGMA的算法思想;12简述邻接法 NJ的算法思想;13简述最大简约法 MP的算法思想;14简述最大似然法 ML的算法思想;15UPGM构A 树法不精确的缘由是什么?16在 MEGA2软件中,供应了多种碱基替换距离模型,试列举其中2 种,说明其含义;17试述 DNA序列分析的流程及代表性分析工具;18如何用 BLAST发觉新基因?19试述 SCOP蛋白质分类方案;20试述 SWISS-PRO中T 的数据来源;21TrEMBL哪两个部分?22试述 PSI-BLAST 搜寻的 5 个步骤;三、操作与运算题1) 如何猎取拜访号为 U49845的 genbank 文件?说明如下 genbank 文件的 LOCUS行供应的信息:LOCUSSCU498455028bpDNAlinearPLN 21-JUN-19992) 利用 Entrez 检索系统,对核酸数据搜寻,输入如下信息,将获得什欢迎下载精品学习资源么结果:AF114696:AF114714ACCN;3) 相比使用 BLAST套件搜寻数据库, BLAST2工具在结果出现上有什么优点?4) MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?5) 什么简约信息位点 Pi ?6) 以下软件的主要用途是什么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORF finder, neural network promoter prediction.7) 为下面的序列比对确定比对得分:匹配得分= +1 ,失配得分 = 0 ,空位得分= -1 ;TGTACGGCTATA TC - -CGCCTTA8) 用 UPGMA重建系统发生树,距离矩阵如下:物种ABCDB9C811D121510E15181359画出 4 个物种的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸, 3 棵可能的无根树中有几棵是一样简约的 由于他们有最小替换数 . 有几棵树的替换树是 2.有大于 2 个替换的树吗 .10如何将所讨论的蛋白质与其他相关蛋白质做结构比对;答案部分一、名词说明:生物信息学:讨论大量生物数据复杂关系的学科,其特点是多学科交叉,以互 联网为媒介, 数据库为载体; 利用数学学问建立各种数学模型;利用电脑为工具对试验所得大量生物学数据进行储存、 检索、处理及分析, 并以生物学学问对结果进行说明;二级数据库: 在一级数据库、 试验数据和理论分析的基础上针对特定目标衍生而来,是对生物学学问和信息的进一步的整理;P11,第 2 段;FASTA序列格式 :是将 DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号 >表示一个新文件的开头,其他无特别要求;genbank 序列格式: 是 GenBank 数据库的基本信息单位, 是最为广泛的生物信息学序列格式之一; 该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息描述符;其次部分包含注释;第三部分是引文区,供应了这个记录的科学 依据;第四部分是核苷酸序列本身,以“/ ”结尾; P13,第 2 段;Entrez检索系统: 是 NCBI开发的核心检索系统,集成了NCBI 的各种数据库, 具有链接的数据库多,使用便利,能够进行交叉索引等特点;P83-85;BLAST:基本局部比对搜寻工具,用于相像性搜寻的工具,对需要进行检索的序 列与数据库中的每个序列做相像性比较;P94欢迎下载精品学习资源查询序列 query sequence:也称被检索序列,用来在数据库中检索并进行相像性比较的序列; P98,第 1 段;打分矩阵scoringmatrix :在相像性检索中对序列两两比对的质量评估方法;包括基于理论如考虑核酸和氨基酸之间的类似性和实际进化距离如PAM两类方法; P29,第 2 段;空位 gap: 在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最正确比对结果, 这样在其中一序列上产生中断现象, 这些中断的位点称为空位; P29,第 2 段;空位罚分 :空位罚分是为了补偿插入和缺失对序列相像性的影响,序列中的空位的引入不代表真正的进化大事, 所以要对其进行罚分, 空位罚分的多少直接影响比照的结果; P37,倒数第 2 段;E 值: 衡量序列之间相像性是否显著的期望值;E 值大小说明白可以找到与查询序列 query 相匹配的随机或无关序列的概率, E 值越接近零,越不行能找到其他匹配序列, E 值越小意味着序列的相像性偶然发生的时机越小,也即相像性越能反映真实的生物学意义; P95低复杂度区域: BLAST搜寻的过滤选项;指序列中包含的重复度高的区域, 如 polyA;P100,第一段;点矩阵 dot matrix :构建一个二维矩阵,其 X轴是一条序列, Y 轴是另一个序列,然后在 2 个序列相同碱基的对应位置 x,y加点,假如两条序列完全相同就会形成一条主对角线, 假如两条序列相像就会显现一条或者几条直线;假如完全没有相像性就不能连成直线; P39-41;多序列比对: 通过序列的相像性检索得到很多相像性序列,将这些序列做一个总体的比对,以观看它们在结构上的异同,来答复大量的生物学问题;P48,需要概括;分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间; P112-113系统发育分析: 通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以讨论推断不同物种或基因之间的进化关系;P112,第一段;进化树的二歧分叉结构: 指在进化树上任何一个分支节点, 一个父分支都只能被分成两个子分支; P113,最终一段;系统发育图: P114直系同源: 指由于物种形成大事来自一个共同祖先的不同物种中的同源序列,具有相像或不同的功能; P28, P146旁系并系同源: 指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了转变;P28, P147外类群:是进化树中处于一组被分析物种之外的, 具有相近亲缘关系的物种; P120有根树: 能够确定全部分析物种的共同祖先的进化树;P113除权配对算法 UPGMA: 最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到全部的聚类被加入,最终产生树根; P119邻接法 neighbor-joining method:是一种不仅仅运算两两比对距离,仍对整个树的长度进行最小化, 从而对树的拓扑结构进行限制, 能够克服 UPGM算A 法要求进化速率保持恒定的缺陷; P118;最大简约法MP:在一系列能够说明序列差异的的进化树中找到具有最少核酸欢迎下载精品学习资源或氨基酸替换的进化树; P120最大似然法ML:它对每个可能的进化位点安排一个概率, 然后综合全部位点, 找到概率最大的进化树; 最大似然法答应采纳不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树; P122一样树consensus tree :在同一算法中产生多个最优树,合并这些最优树得到的树即一样树; P121自举法检验 Bootstrap : 放回式抽样统计法;通过对数据集多次重复取样, 构建多个进化树,用来检查给定树的分枝可信度;P122开放阅读框 ORF:开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列; P131密码子偏好性 codon bias : 氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一样, 大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性;P133基因猜测的从头分析: 依据综合利用基因的特点, 如剪接位点, 内含子与外显子边界,调控区,猜测基因组序列中包含的基因;P134-145简约信息位点: 指基于 DNA或蛋白质序列,利用最大简约法构建系统发育树时,假如每个位点的状态至少存在两种,每种状态至少显现两次的位点;其它位点为都是非简约性信息位点;P121, 第 2 行结构域 domain:保守的结构单元,包含特殊的二级结构组合和疏水内核, 可能单独存在,也可能与其他结构域组合;相同功能的同源结构域具有序列的相像性; P158模体motif :短的保守的多肽段, 含有相同模体的蛋白质不肯定是同源的, 一般 10-20 个残基; P161, 最终一行PAM矩阵: PAM指可接受突变百分率;一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相像性,并产生蛋白质之间的比对;一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间; P30-31BLOSUM矩阵: 模块替代矩阵;矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观看;每个矩阵适合特定的进化距离;例如,在BLOSUM6矩2 阵中,比对的分值来自不超过 62%一样率的一组序列; P34折叠子 Fold : 在两个或更多的蛋白质中具有相像二级结构的大区域,这些大区域具有特定的空间取向; P162TrEMBL:是与 SWISS-PRO相T 关的一个数据库; 包含从 EMBL核酸数据库中依据编码序列 CDS翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT 数据库中; P21PDBProteinData Bank:PDB中收录了大量通过试验 X 射线晶体衍射,核磁共振 NMR测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等; PDB数据库的拜访号由一个数字和三个字母组成 如,4HHB,同时支持关键词搜寻,仍可以 FASTA程序进行搜寻; P22MMDBMolecular Modeling Database:是NCBI所开发的生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于试验的生物大分子结构数据;与 PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有很多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,仍供应生物大分子三维结构模型显示、结构分析和结构比较工具;.欢迎下载精品学习资源SCOP数据库: 供应关于已知结构的蛋白质之间结构和进化关系的具体描述,包 括蛋白质结构数据库 PDB中的全部条目; SCOP数据库除了供应蛋白质结构和进化关系信息外,对于每一个蛋白质仍包括下述信息:到PDB的连接,序列,参考文献,结构的图像等; 可以按结构和进化关系对蛋白质分类, 分类结果是一个具有层次结构的树, 其主要的层次依次是类 class 、折叠子fold 、超家族super family 、家族 family 、单个 PDB蛋白结构记录; P23 PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮忙识别蛋白质家族的统计特点;PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等; PROSITE仍包括依据多序列比对而构建的序列统计特点,能更敏锐地发觉一个序列是否具有相应的特点;P22RefSeq:给出了对应于基因和蛋白质的索引号码, 对应于最稳固、 最被人承认的Genbank序列; .PSI-BLAST:位点特异性迭代比对;是一种特地化的的比对,通过调剂序列打分矩阵 scoring matrix探测远缘相关的蛋白; P97GeneOntology协会: 编辑一组动态的、可控的基因产物不同方面性质的字汇的 协会; 从 3 个方面描述基因产物的性质, 即,分子功能, 生物过程, 细胞区室;表谱 PSSM:指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜寻序列数据库; P97比较基因组学: P148二、问答题1绪论1) 生物信息学的进展经受了那几个阶段2) 生物信息学步入后基因组时代后,其进展方向有哪几个方面;1请列举 3 个以上 Entrez 系统可以检索的数据库;答: P832序列的相像性与同源性有什么区分与联系?答:相像性是指序列之间相关的一种量度,两序列的的相像性可以基于序列的一样性的百分比; 而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系; P1473BLAST套件的 blastn 、blastp 、blastx 、tblastn和 tblastx子工具的用途什么?答: blastn 是将给定的核酸序列与核酸数据库中的序列进行比较; Blastp 是使用蛋白质序列与蛋白质数据库中的序列进行比较, 可以查找较远的关系; Blastx 将给定的核酸序列依据六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和 EST很有用; Tblastn将给定的氨基酸序列与核酸数据库中的序列 双链按不同的阅读框进行比对, 对于查找数据库中序列没有标注的新编码区很有用; Tblastx只在特别情形下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对; P974简述 BLAST搜寻的算法思想;答:BLAST是一种局部最优比对搜寻算法,将所查询的序列打断成很多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字” word”; 当肯定长度的的字 W与检索序列的比对到达一个指定的最低分T后,初始欢迎下载精品学习资源比对就终止了; 一个序列的匹配度由各部分匹配分数的总和打算,获得高分的序列叫做高分匹配片段 HSP,程序将最好的 HSP双向扩展进行比对, 直到序列终止或者不再具有生物学显著性,最终所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段 MSP,这样, BLAST既保持了整体的运算速度,也保护了比对的精度; P955什么是物种的标记序列?答:指物种特有的一段核苷酸序列; 可以通过相像性查询, 得到某一序列在数据库中的某一物种中反复显现,且在其他物种中没有的明显相像的序列;6什么是多序列全局比对的累进算法?答:第一,全部的序列之间逐一比对双重比对 ;其次,生成一个系统树图, 将序列按相像性大致分组; 第三, 使用系统树图作为引导, 产生出最终的多序列比对结果; P527简述构建进化树的步骤,每一步列举1-2 种使用的软件或统计学方法;答:1多序列比对: Clustal W2校比照对结果: BIOEDIT3建树: MEGA4评估系统发育信号和进化树的坚固度:自举法Bootstrap P114 8简述除权配对法 UPGMA的算法思想;答:通过两两比对聚类的方法进行,在开头时,每个序列分为一类,分别作为一 个树枝的生长点, 然后将最近的两序列合并, 从而定义出一个节点, 将这个过程不断的重复,直到全部的序列都被加入,最终得到一棵进化树;P1199简述邻接法 NJ构树的算法思想;答:邻接法的思想不仅仅运算最小两两比对距离,仍对整个树的长度进行最小化, 从而对树的拓扑结构进行限制; 这种算法由一棵星状树开头, 全部的物种都从一个中心节点动身,然后通过运算最小分支长度的和相继查找到近邻的两个序列, 每一轮过程中考虑全部可能的序列对, 把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到查找全部的近邻序列;P11710简述最大简约法 MP的算法思想; P68答:是一种基于离散特点的进化树算法; 生物演化应当遵循简约性原就, 所需变异次数最少演化步数最少 的演化树可能为最符合自然情形的系统树;在具体的操作中,分为非加权最大简约分析或称为同等加权和加权最大简约分析, 后者是依据性状本身的演化规律 比方 DNA不同位点进化速率不同 而对其进行不同的加权处理; P12011简述最大似然法 ML的算法思想; P69答:是一种基于离散特点的进化树算法; 该法第一选择一个合适的进化模型, 然后对全部可能的进化树进行评估, 通过对每个进化位点的替代安排一个概率, 最终找出概率最大的进化树; P12212UPGMA构树法不精确的缘由是什么? P69答:由个于 UPGMA假设在进化过程中全部核苷酸 / 氨基酸都有相同的变异率,也就是存在着一个分子钟; 这种算法当所构建的进化树的序列进化速率明显不一样时,得到的进化树相对来说不精确的;P119,倒数第 2 段,前 4 行;13在 MEGA2软件中,供应了哪些碱基替换距离模型,试列举其中3 种,说明其含义;欢迎下载精品学习资源答:碱基替换模型包括, No.of differences、p-distance、Jukes-Cantor distance 、T ajima-Nei distance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distance: 表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Cantor :模型假设 A T C G的替换速率是一样的,然后给出两个序列核苷酸替换数的最大似然估量Kimura 2-parameter :模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中 4 钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的14列举 5 项 DNA序列分析的内容及代表性分析工具;答:1查找重复元件: RepeatMasker2同源性检索确定是否存在已知基因: BLASTn3从头开头方法猜测基因: Genscan4分析各种调控序列: TRES/DRAGON PROMOTOR FINDER5 CpG岛: CpGPlotP130,表格15如何猎取拜访号为 U49845的 genbank 文件?说明如下 genbank 文件的 LOCUS行供应的信息:LOCUSSCU49845 5028 bpDNAlinearPLN21-JUN-1999答:1拜访 NCBI的 Entrez 检索系统,2选择核酸数据库,3输入 U49845序列拜访号开头检索;第哪一项 LOCUS名称,前三个字母代表物种名其次项是序列长度第三项是序列分子类型 第四项是分子为线性的 第五项是 GenBank分类码第六项是最终修订日期P1316利用 Entrez 检索系统对核酸数据搜寻,输入如下信息,将获得什么结果:AF114696:AF114714ACCN; P35答:获得序列拜访号 AF114696到 AF114714之间的连续编号的序列;17MEGA如2 何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?答:1选择菜单 file ,2选择 Text File Editor and Format Coverter 工具, 3调入需要转换的序列和相应的格式, 4获得转换后的 MEGA格式的文件并储存;18为下面的序列比对确定比对得分:匹配得分 = +1 ,失配得分 = 0 ,空位得分= -1 ;TGTACGGCTATATC - -CGCCT -TATTGC T-A-CC GG10-1-111答:欢迎下载精品学习资源GC0CC1TT1A-1TT1AA1最终得分 1+0+-1 +-1 +1+1+0+1+1+-1 +1+1=419) 用 UPGM重A 建系统发生树,距离矩阵如下:物种ABCD B9C811D121510E1518135答:用 Newick 格式表示的树图:ACBDE;分析过程:1两条序列间的最小距离是 dDE, 所以物种 D和 E聚到一组,如以下图;DEDE(2) 运算新的距离矩阵,其中复合物种 DE替换 D和 E,如下表;其他物种与新物种组之间的距离由它们与组中两个物种 D和 E之间距离的平均值打算 , 如,dDEA=1/2 dAD+dAE物种ABCB9C811DE其次次聚类在 A和 C之间,组成 AC类;如以下图,DEACACDE欢迎下载精品学习资源(3) 将 A和 C合并,运算新的矩阵,如下表,最终一次聚类ACB将物种B的分支点放在 AC和 DE的共同祖先之间;物种BACAC10DEDEBACACBDE20) 画出 4 个物种的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是T,T,C 和 C,为每个内部节点推断的祖先序列 ,标出最可能的候选核苷酸 . 3 棵可能的无根树中有几棵是一样简约的 由于他们有最小替换数 . 有几棵树的替换树是 2.,有大于 2 个替换的树吗 .答:欢迎下载精品学习资源ATB TA TC CTCTTCCD CB TD C欢迎下载精品学习资源C CA T欢迎下载精品学习资源B TTTD C欢迎下载精品学习资源2 棵一样简约,替换树为 2; 2 棵;没有;21) 以下软件的主要用途是什么?RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.答:RepeatMasker:是对重复序列进行分析的软件GpGPlot:用来查找一条 DNA序列中 CpG岛,使用 Gardine-Garden 和 Frommer描述的方法Splice View:是对一段序列进行剪接位点的分析即其中的受体和供体位点Genscan:是一种从头分析工具ORF finder :是用来分析序列 ORF的工具neural networkpromoter prediction:神经网络启动子猜测是另外一种分析启动子的方法22试述 SWISS-PROT中的数据来源;答:1从核酸数据库经过翻译推导而来;2从蛋白质数据库 PIR 选择出合适的数据;3从科学文献中摘录;4讨论人员直接提交的蛋白质序列数据;23TrEMBL哪两个部分? 答:1SP-TrEMBLSWISS-PROT TrEMBL包含最终将要集成到 SWISS-PROT的数据,全部的 SP-TrEMBL序列都已被给予 SWISS-PRO的T 登录号;2REM-TrEMBLREMaining TrEMBL包括全部不预备放入 SWISS-PRO的T 数据,因此这部分数据都没有登录号;24试述 PSI-BLAST 搜寻的 5 个步骤;答:1 选择待查序列 query 和蛋白质数据库;2 PSI-BLAST构建一个多序列比对,然后创建一个序列表谱profile又称特定位置打分矩阵 PSSM;3 PSSM 被用作 query搜寻数据库4 PSI-BLAST估量统计学意义 E values5 重复 3和 4 ,直到没有新的序列发觉;25试述蛋白质三维结构猜测的三类方法1同源建模, 对于一个未知结构的蛋白质, 找到一个已知结构的同源蛋白质, 以该蛋白质的结构为模板, 为未知结构的蛋白质建立结构模型, 序列相像性低于30%的蛋白质难以得到抱负的结构模型;2在已知结模板的序列一样率小于 25%时,使用折叠识别方法进行猜测;3在找不到已知结构的蛋白质模板时使用从头猜测的方法;P178-18126列举 5 种常用的系统发育分析软件欢迎下载