2022年生物信息学复习资料.docx
精选学习资料 - - - - - - - - - 一、名词说明 31 个 1. 生物信息学 : 广义: 应用信息科学的方法和技术, 讨论生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,讨论和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学;狭义:和利用生物分子数据;应用信息科学的理论、方法和技术,治理、分析2. 3.二级数据库 :对原始生物分子数据进行整理、 分类的结果, 是在一级数据库、试验数据和理论分析的基础上针对特定的应用目标而建立的;多序列比对:讨论的是多个序列的共性;序列的多重比对可用来搜寻基因组序列的功能区域,也可用于讨论一组蛋白质之间的进化关系;4.系统发育分析: 是讨论物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树;5.直系同源:假如由于进化压力来维护特定模体的话,模体中的组成蛋白应当 是进化保守的并且在其他物种中具有直系同源性;指的是不同物种之间的同源性,例如蛋白质的同源性,DNA 序列的同源性;(来自百度)6.旁系(并系)同源: 是那些在肯定物种中的来源于基因复制的蛋白,可能会进化出新的与原先有关的功能;用来描述在同一物种内由于基因复制而分别的同源基因;(来自百度)7. 8.FASTA 序列格式:将一个 DNA 或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串;开放阅读框( ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子;(来自百度)9. 结构域: 大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域;10. 空位罚分: 序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以掌握空位插入的合理性; (来自百度)11. 表达序列标签: 通过从 cDNA 文库中随机选择的克隆进行测序所获得的部分cDNA 的 3或 5端序列;(来自文献)12. Gene Ontology 协会:13. HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,码部分与非编码部分在核苷酸的选用频率上对应着不同的DNA 序列的编 Markov 模型;14. 一级数据库:数据库中的数据直接来源于试验获得的原始数据,只经过简洁 的归类整理和注释15. 序列一样性:指同源DNA 次序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示;16. 序列相像性: 指同源蛋白质的氨基酸序列中一样性氨基酸和可取代氨基酸所 占的比例;17. Blastn:是核酸序列到核酸库中的一种查询;库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对; (来自百度)名师归纳总结 18. Blastp:是蛋白序列到蛋白库中的一种查询;库中存在的每条已知序列将逐第 1 页,共 5 页一地同每条所查序列作一对一的序列比对;(来自百度)- - - - - - -精选学习资料 - - - - - - - - - 19. Blastx:是核酸序列到蛋白库中的一种查询;先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对;(来自百度)20. Tblastn:是蛋白序列到核酸库中的一种查询;与 BLASTX 相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对;(来自百度)21. Tblastx:是核酸序列到核酸库中的一种查询;此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生 生 36 种比对阵列; (来自百度)6 条可能的蛋白序列) ,这样每次比对会产22. KEGG:京都基因与基因组百科全书,是系统分析基因功能、基因组信息的 数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研 究者把基因及表达信息作为一个整体网络进行讨论;23. ChIP-Seq:就是通过高通量测序对 蛋白和 DNA 相互作用相关讨论;24. 分子生物网络:ChIP 所得到的序列进行测序,从而进行25. 蛋白质相互作用( PPI):是指蛋白质分子之间的相关性,并从生物化学、信 号转导和遗传网络的角度讨论这种相关性;26. 高通量测序:一次性对几百万到十亿条 DNA 分子进行并行测序,又称为下 一代测序技术,其使得可对一个物种的转录组和基因组进行深化、细致、全貌的分析,所以又被称为深度测序;27. 比较蛋白质组学:即对模式生物或重要生命过程的蛋白质组学特点进行比 较;28. NCBInr :29. GT-AG 结构:30. Entrez 检索系统:面对生物学家的数据库查询系统,其特点之一是使用非常 便利;它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一个数据库;31. 系统生物学:是从系统水平来懂得生物学系统,利用一系列的原理与方法学来讨论分子行为与系统特性与功能的关系,测生物的功能、表型和行为;二、选择题( 30 个)通过运算生物学来定量阐明和预1. 下面哪种数据库源于 mRNA 信息( A): A. dbEST、B. PDB、C. OMIM 、D. HTGS 2. 假如我们试图做蛋白质亚细胞定位分析,应使用();A.NDB 数据库、 B.PDB数据库、 C.GenBank数据库、 D.SWISS-PROT 数据库3. PIR 是(); A.核酸数据库 数据库、B.mRNA 数据库、 C.启动子数据库、 D.蛋白质4. 以下哪一项不属于启动子讨论范畴?()A.CpG 岛猜测、B.转录起始点猜测、C.糖基化修饰、 D.甲基化检测 5. HTGS 的含义是( C);A.表达序列标签、 B.序列标签位点、 C.高通量基因组 序列、 D.人工合成序列 6. STS 的含义是(); A. 表达序列标签、 B.序列标签位点、 C.高通量基因组序 列、 D.人工合成序列名师归纳总结 - - - - - - -第 2 页,共 5 页精选学习资料 - - - - - - - - - 7. HGP 是(C); A.在线人类孟德尔遗传数据、因组方案、 D.水稻基因组方案B.国家核酸数据库、 C.人类基8、以下中属于一级蛋白质结构数据库的是:()A. EMBL 、 B. DDBJ、C. PDB、D.SWISS-PROT 9BLAST 教案所程序中, 哪个方法是不存在的? ()A. BLASTP 、 B. BLASTN 、C. BLASTX 、D. BLASTQ 10人类基因组的结构特点不包括:()A. 基因进化、 B. 基因数目、 C.基因重复序列、 D. 基因组复制 11、以下哪个选项不是微阵列试验设计的内容?()A. 贝叶斯网络法、 B. 对比组的选择、 C. 重复样本的使用、 D. 随机化原就 12、构建序列进化树的一般步骤不包括 . ()A. 建立 DNA 文库、 B. 建立数据模型、 C. 建立取代模型、 D. 建立进化树 13、在 Genbank 数据库中,生物学工作者向其提交数据有两种方式,其中用于 提交少量数据的是基于 Web 方式的();A. BankIt、 B. Sequin、C. Version、D. Matrix 14、序列数据库包括核酸序列数据库和蛋白序列数据库;以下哪个不属于蛋白质序列数据库?()A. PIR 、B. Uniprot 、 C. SWISS-PROT、 D. OMIM 15、序列数据库包括核酸序列数据库和蛋白序列数据库;以下哪个不属于核酸列数据库?()A. Genbank、B. GenPept、C. EMBL 、D. DDBJ 16、()是 NCBI 供应的集成检索工具,通过一次检索可查询 NCBI 多个子数据库中的相关信息;A. Retrieve、B. SRS、C. Entrez、D. PIR 17、Entrez 数据库中的剪贴板的容量是 ();A.500 条记录、B.1000 条记录、C.5000条记录、 D.10000 条记录18、蛋白质信号肽的猜测工具有(); A.nnpredict、B.PredictProtein、C.SingalD、D.SingalP 19、Bioinformatics 的含义是(); A. 生物信息学、 B. 基因组学、 C. 蛋白质组学、 D. 表观遗传学20、目前应用于基因芯片表达数据统计分析的主要方法是();A. 卡方检验、B. 相关分析、 C. 聚类分析、 D. 正态性分布检验21、NCBI 中人类无冗余基因数据库是();D. URF A. UniGene、B. UniPro、C. UniRef、22、基本局部比对搜素工具是();A. Mega、 B. ClustalW、C. BLAST 、D. GCG 23、依据讨论发觉, 人类基因组中真正编码蛋白质的区域仅占 DNA 序列的();A.1-2%、B.3-5%、C.5-10%、D.10-20% 24、被誉为“ 生物信息学之父” 的科学家是();吴瑞、 D. 林华安A. Dulbecco、B. Sanger、C.25、多序列比对工具是(); A. BLAST 、B. ClustalW、C. Mega、D. GCG 26、生物芯片分析中使用的聚类分析输出图形主要以以下哪种方式表现?()A. 以彩色小方块阵列表示、 B. 以蜂窝外形表示、 C. 以黑白圆点表示、 D. 以彩色线条表示27、HTGS 的含义是(); A.表达序列标签、 B.序列标签位点、 C.高通量基因组序列、 D.人工合成序列28、accession number的含义是(); A.登录号、 B.算法、 C.比对、 D.类推名师归纳总结 - - - - - - -第 3 页,共 5 页精选学习资料 - - - - - - - - - 29、()是欧洲分子生物学网 EMBLnet 的主要检索工具,也是一个开放的数据 查询系统;A. Query 、B. SRS、C. PDB、D. PIR 30、数据挖掘的四个步骤不包括以下哪个 据记录、 D. 结果分析三、是非题( 16 个). ()A. 数据选择、B. 数据转换、C. 数1、生物学就是试验科学,全部的讨论结论从试验中来,于试验中得到验证;2、比较是科学讨论中最常见的方法,在生物信息学讨论中, 比对是最常用和最经典的讨论手段;3、两个蛋白质序列相像性超过 30%就是同源蛋白;4、蛋白质序列相像性指一级序列中氨基酸残基相同;5、蛋白质序列相像性指氨基酸残基具有相像特性 性等相同;. 侧链基团大小电荷性、疏水6、核酸序列相像性指序列中相同碱基所占的比例;7、对一段未知功能DNA 片段进行功能猜测需对其进行3 位翻译;8、对一段未知功能DNA 片段进行功能猜测需对其进行6 位翻译;9、相像性是指一种很直接的数量关系,无需试验验证;10、相像性是指一种很直接的数量关系,也需试验验证;11、不同种属间的同源序列称为直向同源序列;12、不同种属间的同源序列称为共生同源序列;13、所谓局部比对,即分析两个序列是否有局部序列的相像;14、所谓整体比对,即找出两个序列全长的最优比对结果;15、PSI-BLAST 是 BLAST 程序家族中敏锐性最高的子程序;16、PHI-BLAST 是 BLAST 程序家族中敏锐性最高的子程序;四、问答题( 15 个)1、生物信息学的进展经受了哪几个阶段 2、序列的相像性与同源性有什么区分与联系?3、BLAST 套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途什么?4、生物信息学的主要讨论领域;5、初级数据库、二级数据库的概念,说出几个数据并说明包含什么数据;6、简述高通量测序的应用范畴 7、简述系统发生分析步骤 8、说出至少一种蛋白质结构数据库和一种可视化工具;9、 Entrez 集成于哪个数据库平台?主要功能是什么?在应用中可以拜访哪些子 数据库(请列举 5 个以上)?10、试述 SWISS-PROT 中的数据来源 11、分子生物网络可以分成哪几类?简洁介绍;12、常用的蛋白质互作数据库有哪些?13、试述蛋白质三维结构猜测的三类方法 14、国际上权威的核酸序列数据库有那些?15、生物分子数据类型有哪些?五、论述题( 4 个)1、假设你克隆得到了一段未知的DNA 序列,从你学习到的生物信息学分析方名师归纳总结 - - - - - - -第 4 页,共 5 页精选学习资料 - - - - - - - - - 法和软件,设计一个流程来分析该基因的功能和家族分类;2、BLAST 套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途什么?3、谈谈生物信息学在药物设计中的应用4、什么是系统生物学?系统生物学的讨论包括哪些环节?名师归纳总结 - - - - - - -第 5 页,共 5 页