生物信息学期末考试重点(共7页).docx
《生物信息学期末考试重点(共7页).docx》由会员分享,可在线阅读,更多相关《生物信息学期末考试重点(共7页).docx(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1、 (Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着和的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。2、 数据库(Database)是按照来组织、和管理数据的仓库,它产生于距今六十多年前,随着和市场的发展,特别是二十世纪九十年代以后,不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种,从最简单的存储有各种数据的到能够进行海量的大型都在各个方面得到了广泛的应用。3、 表达序列标签 从一
2、个随机选择的cDNA 克隆进行5端和3端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 120bp。EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。4、 开放阅读框 是序列中的一段无终止序列打断的序列,可编码相应的。ORF识别包括检测六个阅读框架并决定哪一个包含以和为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件
3、。5、 蛋白质的一级结构 在每种蛋白质中按照一定的数目和组成进行排列,并进一步折叠成特定的前者我们称为蛋白质的一级结构,也叫初级结构或基本结构。蛋白质一级结构是理解、作用机制以及与其同源的必要基础。6、 基因识别 是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基因组研究的基础。7、 单核苷酸多态 指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。这种变异可由单个碱基的转换(transition)或颠换(transversion)所
4、引起,也可由碱基的插入或缺失所致,它是人类可遗传的变异中最常见的一种。占所有已知多态性的90%以上。8、 系统发育进化树Phylogenetic trees用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,进化树由结点(node)和进化分支(branch)组成,每一结点表示一个分类学单元(属、种群、个体等),进化分支定义了分类单元(祖先与后代)之间的关系,一个分支只能连接两个相邻的结点。进化树分支的图像称为进化的拓扑结构,其中分支长度表示该分枝进化过程中变化的程度,标有分枝长度的进化分支叫标度枝(scaled branch)。9、 序列拼接 为了保证测序结果的准确性,单基因短片段(7
5、00pd左右)测序一般应采用双向测序,然后将双向测序的结果拼接在一起,从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的,最后也需要将测出的短片段拼接成一条完整的序列。10、 分子钟 11、 直系同源(orthology) )在进化上起源于一个始祖基因并垂直传递的同源基因;分布于两种或两种以上物种的基因组;功能高度保守乃至于近乎相同,甚至于其在近缘物种可以相互替换;结构相似;组织特异性与亚细胞分布相似。12、 基因芯片(gene chip) 通过微加工技术 ,将数以万计、乃至百万计的特定序列的DNA片段(基因探针),有规律地排列固定于2cm2的硅片、玻片 等支持物
6、上,构成的一个二维DNA探针阵列,与计算机的电子芯片十分相似,所以被称为基因芯片。基因芯片主要用于基因检测工作 。13、 转录组 Transcriptome 广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。14、 人类基因组计划 是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类(指)中所包含的30亿个对组成的序列,从而绘制图谱,并且辨识其载有的及其序列,达到破译人类遗传信息的最终目的。15、 中心法则central dogma是指从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转
7、录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有的生物所遵循的法则。在某些病毒中的RNA自我复制(如等)和在某些病毒中能以RNA为模板成DNA的过程(某些致癌病毒)是对中心法则的补充。16、 序列比对 将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔。对应的相同或相似的符号(在中是A, T(或U), C, G,在蛋白质中是的单字母表示)排列在同一列上。这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,与突变相应,而空位与插入或缺失对应。17、 序列拼接 为了保证测序结果的准确性,单基因短片段(700pd左
8、右)测序一般应采用双向测序,然后将双向测序的结果拼接在一起,从而获得一致性序列。线粒体基因组测序和DNA长片段测序一般是通过分段测序来完成的,最后也需要将测出的短片段拼接成一条完整的序列。18、 基因预测 二、简答1、BLAST的五个子程序Blastn (核酸) ;protein blast ;blastp(蛋白质);tblastn(蛋白质);tblastx(核酸)2、系统发育树构建的方法 最大似然法:是一种具有理论性的点估计法,此方法的基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最
9、好地拟合样本数据的参数估计量。 简约法:根据离散型性状包括形态学性状和分子序列(DNA,蛋白质等)的变异程度,构建生物的系统发育树,并分析生物物种之间的演化关系。 邻接法:一种快速的聚类方法,不需要关于分子钟的假设,不考虑任何优化标准,基本思想是进行类的合并时,不仅要求待合并的类是相近的,而且要求待合并的类远离其他的类,从而通过对完全没有解析出的星型进化树进行分解,来不断改善星型进化树。3、序列比对的意义 生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发, 分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析, 也就是研
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 期末考试 重点
限制150内