2022年《生物信息学》复习资料.pdf
word 生物信息学先锋版中译本 第二版科学出版社打分政策 :60% 期末考试( 70%掌握内容、 25% 熟悉内容、 5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学 :生物信息学是生物学 和信息技术 的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、 表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计算机快速、可靠地执行重复任务的能力以及 处理问题的能力。然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。生物信息学课程范围:使初学者理解生物信息学的基本原理 ,并获得相应的应用能力 。具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。2. 生物信息学实例:数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, 序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign 基因搜索Genscan, GenomeScan, GeneMark, GRAIL 蛋白结构域分析与鉴定pfam, BLOCKS, ProDom, 基因调控元件的计算机模式识别Gibbs Sampler, AlignACE, MEME 蛋白折叠预测PredictProtein, SwissModeler 生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)http:/www.ncbi.nlm.nih.gov/EBI (The European Bioinformatics Institute) http:/www.ebi.ac.uk/The Canadian Bioinformatics Resource http:/www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource) http:/expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank) http:/www.rcsb.org/PDB/B: 数据采集一、 DNA, RNA 和蛋白质测序1. DNA 测序原理:DNA 测序是采用全自动的链终止反应 完成的,这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA 片段。共有4 种反应,每种代表DNA 4 个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA 片段通过聚丙烯酰胺凝胶电泳(PAGE) 分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。2. DNA 序列类型:DNA 序列来源主要有3 种方式。 基因组 DNA 直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA 包含内含子; cDNA 由 mRNA 反转录而来, 并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组 DNA 来自实验室,包含克隆载体等人工精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 16 页 - - - - - - - - - - word DNA 分子。3. 基因组测序策略:一次读段 (one read)只能用于短的DNA 分子 (约 800bp)测序,所以大的DNA 分子,如基因组,必须首先将其打碎成片段。基因组测序可以分为两种方式:霰弹法测序 (shot-gun sequencing)包括随机 DNA 片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序 (clone contig sequencing)包括亚克隆系统的产生及其测序。4. 序列质量控制:通过在 DNA 双链上进行多次读段完成高质量序列数据的测定。可使用如Phred 等程序对最初的跟踪数据 (trace data)进行碱基识别和质量判断。载体序列和重复的DNA 片段被屏蔽后,使用 Phrap 程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工校对解决。5. 单遍( Single-pass)测序:低质量的序列数据可以由单次读段产生(单遍测序, single-pass sequencing) 。尽管不很准确,但单遍序列如ESTs 和 GSSs,可以以低廉的价格快速大量地产生。6. RNA 测序:大部分 RNA 序列可以从相应的DNA 序列推断得到,但是需要用特殊的方法来识别被改变的核苷,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱7. 蛋白质测序:目前,大部分蛋白质测序是通过质谱 (MS) 技术 进行的,应用这一技术可以通过测量真空中离子的 分子质量电荷比来计算精确的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。 通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的 蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。二、蛋白质结构的确定1. X-ray 衍射晶体学:X 衍射晶体学是一种通过精确定向的蛋白质晶体的X 射线衍射模式来确定蛋白质结构的方法。这种方法中, X 射线因晶体中原子的电子密度 和空间方向 的不同而发生散射,可用 傅立叶变换 的数学方法从衍射数据中重构电子密度图,以建立结构模型。2. 核磁共振谱:NMR 是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的磁状态间转换。 吸收光谱的性质受原子类型及其周围化学性质影响,所以 NMR spectroscopy可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR 谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性蛋白的分析。3. 其他方法:对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X 射线纤维衍射、电子显微镜和CD 光谱 (circular dichroism spectroscopy) 。C:数据库内容、结构和注释一、 文件格式1. 三种常用序列格式:常用核酸和蛋白序列格式:NBRF/PIR 格式文件名后缀为:.pir o 或 .seq FASTA 格式文件名后缀为:.fasta GDE 格式文件名后缀为gde 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 16 页 - - - - - - - - - - word 例:ID 代码 : 5H1B_CAVPO 序列登录号 : O08892 NBRF/PIR格式 : P1; 5HT1B_CA VPO Guinea pig serotonin receptor accession: O08892 MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT. FASTA 格式 : 5HT1B_CA VPO O08892 | guinea pig serotonin receptor MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT. GDE 格式: % 5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT. 2. 比对序列文件:可用下述常用格式中任何一种:NBRF/PIR, FASTA,GDE 多序列比对格式:MSF, PHYLIP and ALN 3. 结构数据文件:结构数据用PDB 格式的平面文件(flat files) 来维护, 这类文件包含: 正交的原子坐标值 (X, Y, Z 轴) ;注释、说明和实验细节。NOTE :1、ATOM 行以字符计数,而不是以单词计数;2、NMR 文件没有分辨率REMARK行。二、已注释的序列数据库1. 初级序列数据库:保存 raw sequence data, 并对每个条目做了进一步的注释:feature table-properties of seq. 2. 辅助序列数据库:特别类型的序列数据. eg. ESTs, GSSs and unfinished genomic seq. data 3. 序列提交: Sequence(序列) Internet(互联网)NCBI/EMBL/DDBJ(数据库)4. SWISS-PROT 和 TrEMBL :SWISS-PROT: 收集了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息 。TrEMBL: 翻译了初级核酸数据库中的编码序列。TrEMBL 中各条目的注释不如SWISS-PROT 中的条目那样详细。5. 数据库查询 :Searching by Sequence similarity BLAST Text-based SearchingEntrez or SRS accession number accession number:提供基因及其产物的唯一标示号D: 生物数据检索一、通过Entrez 和 DBGET/LinkDB进行数据检索1. 访问分布数据:利用专业的数据检索工具Entrez, DBGET和 SRS 进行数据库搜索2. Entrez:Entrez 可以用来搜索NCBI 中集成的所有数据库包括GenBank, OMIM 以及文精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 16 页 - - - - - - - - - - word 献数据库MEDLINE 3. NCBI 和 Entrez:EntrezAll databases 模式搜索,以文本是形式进行文本搜索 :以单词或逻辑短语为关键词4. DBGET/LinkDB DBGET/ LinkDB : 日本京都大学和人类基因组中心联合开发的集成数据检索系统。它整合了 20 数据库并与KEGG 相关联。LinDB: is a database of links, each of which is represented as a binary relation in the form of: dbname1:identifier1 - dbname2:identifier2 DBGET: has powerful capabilities to search against this graph object The molecular biology databases in the world can be retrieved uniformly by specifying the combination of the database name and the identifier: dbname:identifier Identifier :organism:gene 三种搜索模式:bget, bfind, blink 二、使用SRS 的数据检索1. 开源 SRS:SRS 由欧洲生物信息研究所开发,其集成有80 多个分子生物学数据库。SRS可下载和安装在本地计算机上使用。2. 使用 SRS :SRS 与 Entrez 和 DBGET 的数据分类的原理不同。SRS 的使用包括选择一个或多个分组,在每一个选定的组中选择一个或多个现有的数据库。查询方式有两种: 标准模式、扩展模式 。3. 安装 SRS :SRS 可以通过脚本语言ICARUS 编程来查询使用者自己的数据库。E: 通过序列相似性标准搜索序列数据库(重难点章节)一、以序列相似性标准搜索序列数据库1. 序列相似性搜索1.1. 序列相似性搜索:通过序列相似性来搜索数据库,我们可以找到与所查询序列相似的序列。可以用这些找到的序列信息来预测查询序列的结构或功能 。 依据相似性进行预测是生物信息学中强大而且广泛使用的方法,其根本依据是分子进化 。当序列拥有个共同的祖先序列时,它们往往在序列、结构和生物学功能上具有相似性。这很可能是生物信息学上最重要的思想 ,因为它使得我们可以进行预测 。1.2. 序列比对:任何一对 DNA 序列都有一定程度的相似。序列比对 :是使 相似度 量化的第一步,用来区分偶然性的相似和 真实的生物学关系。比对结果:以 变化(突变) 、插入或缺失(indels或空位) 来显示序列之间的差异,这些差异可以用进化术语来说明。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 16 页 - - - - - - - - - - word 1.3. 比对算法:动态规划算法 (Dynamic programming algorithms )可以计算两条序列之间的最佳联配。两个变体 : Smith-Waterman algorithm: local align. Needleman-Wunsch algorithm: global align.当序列不是全长关联时局部比对是有效的。例如仅在某些特定功能域相似的蛋白质序列,或仅在外显子区域关联的DNA 序列等。Local alignment-BLAST 1.4. 比对打分和空位罚分:用简单的比对打分来测量相同匹配残基 的比例或数目。 得从比对打分中扣去空位罚分 ,以保证比对算法能得出有生物学意义的结果而没有太多的空位。Score: S = sum (si) + sum (xk) 空位罚分可以根据预期的应用进行调整。有下述三种情况:固定罚分 : 与空位长度无关;比例罚分 :与空位长度成比例;放射罚分 : 包括gap opening 和 gap extension 两部分罚分Constant: x=u+vk, v=0 Proportional : x=u+vk, u=0 Affine: x=u+vk, u, v 0 k is the number (length) of the linked gaps 例: SEQ1: AATTGA TTG CGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG K=3 我们并不总是很清楚空位罚分常数u 和 v 该采用什么值,这在某种程度上依赖于所比对的序列的性质。Close sequence relationship: higher gap penalties Distant relationships: lower gap penalties 1.5. 序列相似性测量:序列相似度可用比对算法、序列一致性百分率(percentage sequence identities)或更复杂的方法得出的分值来量化。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 16 页 - - - - - - - - - - word SEQ1: AATTGA TTG CGCATTTAAAGGG SEQ2: AACTGA- - - CGCATCTTAAGGG percentage sequence identities: (16/22) 100=73% Note:必须是在长的比对结果中找到的高比例一致,才有可能反映真正的生物学或进化关系。对 DNA 序列来说,比对序列并使序列一致性百分率(即percentage sequence identities )最大化是合乎情理的。但对蛋自序列而言,则应该更多地考虑组成序列的单体的属性。某些氨基酸之间的替代比其他氨基酸更频繁,所以,在蛋白序列比对算法中需要考虑这个因素。1.6. 相似性和同源性:任何序列之间均存在相似,但是仅当序列是从一个共同的祖先 进化而来时, 它们才是同源的。同源序列常常具有相似的生物学功能, 但是基因复制的进化机制允许生物体有多余的基因拷贝 。这些多余的基因拷贝于是自由地进化出新的功能,成为有不同功能的同源基因。直系同源( orthologs): 不同物种的两个同源基因有相同的功能,就称它们是直系同源; 旁系同源( paralogs): 当同一或不同物种的两个基因有不同的功能,就把它们称为是旁系同源 . 不同功能的同源基因的例子:溶解酶 (lysozyme,一种酶)和 -乳白蛋白 (-lactalbumin ,一种哺乳动物调节蛋白) 。这些蛋白质有非常相似的序列,几乎已肯定是同源的,但却有极其不同的功能。2. 氨基酸替换矩阵(难点)2.1. 相同氨基酸数目的最大化:比对蛋白质序列从而使相同的氨基酸数目(即 percentage sequence identities )最大化。其中,每对匹配的相同氨基酸对比对分值的贡献是1,不一致的氨基酸对对比对分值的贡献是0。 (如下图所示)这是对密切相关的序列进行比对的好方法,但这并不能揭示 远亲之间 的进化关系。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页,共 16 页 - - - - - - - - - - word 2.2. 进化:因为要维持蛋白质结构和功能,所以编码蛋白质的序列的进化比基因组的大多数其他部分的进化更为缓慢 。一个例外是快速进化也可能发生在新近复制基因的多余拷贝 中。2.3. 允许的替换: 进化中蛋白序列的变化往往包括相近属性 氨基酸间的替代, 因为这样才能保持蛋白质的结构稳定。比如:同一进化家族的蛋白质序列通常表现为有相似物理化学性质的氨基酸间的替代。2.4. 替换打分矩阵:这些矩阵给进化中所有可能的氨基酸替换打分,分值越高, 意味着替换的可能性越大。进行序列比对的动态规划算法可以采用从这些矩阵得到的分值来进行运算。E.g. BLOSUM62 andPAM250 . PAM : Accepted Point Mutations (认可的点突变 )PAM250 : 表示矩阵的进化距离是每100 个残基有 250 个氨基酸变化。PAMn : n 值越小,表示进化距离越短。PAM250BLOSUM : blocks substitution matrix BLOSUM62 : 用于构造矩阵的blocks 的最小序列一致性百分数至少为62%。更小数字的BLOSUM 矩阵表示更长的进化距离(BLOSUM50 所代表的进化距离要比BLOSUM62 要长) 。Note: BLOSUM 矩阵通常比PAM 好用。Blossum62Note: 一致氨基酸比对的分值也有差异,这反映了 氨基酸在天然蛋白序列中的出现频率的不精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 7 页,共 16 页 - - - - - - - - - - word 同。两个相同的非常见氨基酸的比对(如W 和 W)要比两个相同的常见氨基酸的比对更有可能反映一个进化上有意义的比对。因此,相同的非常见氨基酸的比对具有更高的分值。2.5. 意义:替换打分矩阵可以查找蛋白质序列间较远的亲缘关系。NOTE :蛋白序列比对比核酸序列比对更可能找到较远的亲缘关系。2.6. 可视化: 点阵图 (Dot plots)-点阵图是使序列相似性可视化并找到重复片段 的一一个非常好的方法。3. 数据库搜索 : FASTA 和 BLAST :3.1. 数据库搜索:把查询序列与数据库中每条序列依次比对并返回最高分(最相似)序列,就能找到与查询序列相近的序列。这可以通过 动态规划算法完成,但实际上常用的是更快的近似方法。3.2. 算法和 软件 :BLAST和 FASTA提供了非常快速的序列数据库搜索途径。与动态规划不同,它们并不能保证找到数据库里每条序列的最佳可能比对,但实际上这对性能的影响通常来说是最小的。它们最初通过搜索短的一致或接近一致匹配的字母(word)片段 ,然后再将这些片段延伸到更长的匹配。BLAST和 FASTA都基于同样的假设, 即高分值的比对结果可能含有短的一致或近似一致的序列片段( short stretches or words) 。(1)BLAST: W (word length); T (threshold score); 寻找长度为W 比对得分 T 的 words 扩展这些words 直到比对得分跌落到一定值, 产生大量HSP s (high-scoring segment pairs) 通过动态规划比对好全部序列高打分区域,得出最终比对结果及其分值。(2)FASTA: ktup;寻找完全匹配的长度为ktup 的 words 寻找含有高密度words 匹配的ungapped 的序列比对; 将其组装成高分值的gapped 的序列比对通过动态规划比对好全部序列高打分区域,得出最终比对结果及其分值。3.3. 统计得分:相似度记分的p 值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低 p值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的 E 值是至少与所识别的相似性记同样高分值的偶然事件的期望频率。两序列间相似度的低p 值对应于大数据库搜索的高 E 值。low phigh E当 E 值很小的时候和p值很接近3.4. 敏感性和特异性:敏感性 衡量数据库中真实生物序列关系的比例,该关系表现为击中项(hit) 。特异性 指的是对应于真实生物学关系的击中项的比例。这些测度量化了数据库搜索策略的优良度 。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 8 页,共 16 页 - - - - - - - - - - word Sensitivity: Sn = ntp / (ntp + nfn ) Specificity: Sp = ntp / (ntp + nfp ) 注: (tp: true positive ;fn: false negative ;fp: false positive )改变 E 和 p 的默认值会导致这些互补的优良度测量方法之间的平衡。3.5. 数据库类型:数据库和查询序列可以是蛋白质或核苷酸序列,不同种类的序列和组合有不同的查询策略。一般来说, 如果使用编码蛋白质的核苷酸数据库和或将查询序列翻译成蛋白质序列,搜索会更加敏感。3.6. 可行例子和现有程序:BLAST at the NCBI 、FASTA at the EBI搜索许多一般用途的序列数据库。RESULTS : 按 E value 排序NOTE : 必须检查有关序列的比对结果以发现序列间相似的区域。NCBI 的 BLAST 网站:http:/www.ncbi.nlm.nih.gov/BLAST/(建议自己动手操作以加深理解)4. 序列过滤:4.1. 非特异性的序列相似:一些类型的序列相似要比其他类型难揭示进化关系。Examples: 低组成复杂度区域间的相似, 短的重复片段间的相似以及编码普通结构的蛋白序列(如 卷曲螺旋 )间的相似等。4.2. 相似性搜索:上述区域类型会降低相似性搜索结果的质量,所以在搜索前常常要将其从搜索序列中过滤掉。SEG and DUST : detect and filter low complexity sequences; XNU : filter short period repeats; COILS : detect the presence of potential coiled coil structures. 5. 数据库迭代搜索和PSI-BLAST 5.1. 寻找进化关系:趋异进化 可以使蛋白质序列变得无法识别,但却保持结构和功能的相似。而BLAST 和FASTA 此类方法有时只能发现数据库中的一小部分进化关系。有许多生物信息学搜索已经着重于发现序列间的疏远进化关系。5.2. 数据库的迭代搜索:精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 9 页,共 16 页 - - - - - - - - - - word PSI-BLAST是一种迭代的搜索方法,可以提高BLAST 和 FASTA 的相似序列发现率。每次迭代都发现一些中间序列 ,用来在接下去的迭代中寻找查询序列的更多疏远相关序列。PSI-BLAST常常可以找到比BLAST 结果多达两倍的进化关系。PSI-BLAST的潜在问题是存在不相关序列对迭代结果的污染,而其难点则与蛋白质的结构域的结构有关。F: 多重序列比对 : 基因和蛋白家族(实验四)一、多序列比对和家族关系1.多序列比对 :家族性蛋白质和核苷酸序列的内在关系可以用多序列比对来阐明。当所考察的序列不同时,保守的残基往往是维持稳定结构或生物学功能的关键残基。多序列比对可以揭示关于蛋白质结构和功能的许多线索。与两序列比对相比,多序列比对更富含进化保守关系的信息,因此通常能告诉我们更多的信息。2.软件 :最著名的是ClustalW 软件包, ftp:/ftp-igbmc.u-strasbg.fr/pub/ClustalX. 3.渐进比对:目前大多数程序使用渐进的比对 方法,该方法有运行速度较快的优点。该法以两序列比对来初步评价序列的相关性,并在这个基础上构建向导树 (guide tree) ;然后使用向导树逐步添加序列到比对中,从最密切相关的序列开始到距离最远的序列结束。渐进比对方法通常非常有效,但也存在一个问题,即比对过程中早期产生的比对错误不能被矫正而是被“ 冻结 ” 在比对结果中。 生物化学知识有时能够提供正确的比对信息。当自动产生的比对结果不太理想时,就需要软件来人工编辑比对结果。渐进比对过程中常用到几种精练 方法。例如在Clustal 程序包中,1)空位罚分 发生变化以使空位插入更有可能发生在亲水的环状区域;2)根据比对 序列的相关程度可以采用不同的氨基酸替换打分矩阵。二、蛋白家族和模式数据库1.蛋白家族: 把序列分配到蛋白质家族中是预测蛋白质功能的一种非常有价值的方法。已开发出许多方法来代表蛋白质家族信息,这些方法存储在二级蛋白质家族数据库中。2.一致序列:是把多序列比对的信息压缩至单条序列 。 主要的缺点是除了在特定位置最常见的残基 (60% )之外,它们不能表示任伺概率信息。一致序列的缺陷:1)大量来自序列的不含一致残基的信息被忽略掉,即使这些位点包含所允许的保守替换。2)一致序列的产生说明了任何蛋白家族的表示是有偏向的,这主要是由于来源的序列集是有偏向的。3.数据库 :1)PROSITE 数据库:包含与蛋白质家族成员 、特定蛋白功能及翻译后修饰有关的序列模式。数据库是人工编排的,任何已知的假阳性或假阴性都会报道出来。在 PROSITE 中, 特殊的符号,包括方括号(如 LIVM)、波形括号(如FD )和 x(n)用来表示模式中每个位点可供选择的残基。PROSITE 模式的特点:它们长度比序列全长短得多;它们允许特定位置的替换。因此,它们能够发现家族中的远亲关系 ,也能够帮助我们了解家族成员共有的结构或功能信息。PROSITE 模式有很多缺点:首先,它们长度较短使得不相关序列中有假阳性 的存在 ;其次,虽然它们允许描述特定位置的变化,但无法计算该变化的概率 。2)PRINTS 和 BLOCKS :它们用来自序列最保守区域的多序列比对的无空位片段 (blocks or motifs) 来表示蛋白质家族。通过更多代表序列的信息,它们有可能比短PROSITE 模式更为敏感。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 10 页,共 16 页 - - - - - - - - - - word 如果能匹配某特定家族相关motif 的一个子集就意味着它们有发现剪接突变体、 序列片段以及代表 亚家族 的能力。两者都已有基于WWW 的数据库搜索引擎。这些数据库中的motifs 要比 PROSITE 模式覆盖更大的序列区域。与PROSITE 不同,序列中 motifs 的匹配通常要考虑氨基酸替换矩阵,因而对某一固定模式不要求严格的匹配。因此, 这种匹配更为敏感(可以找到更多远亲关系)和更加特异(更少的假阳性出现)。三、蛋白结构域家族1.结构域家族 :许多蛋白质是由结构域以模块化的方式构建的。因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。Prodom 是由自动方法产生的蛋白质结构域序列的数据库,这一数据库来自于蛋白质序列数据库。2.序列轮廓:又称为权重矩阵 ,它们表示 完全的结构域序列,是一种描述蛋白结构域家族相关序列的方法。 多序列比对中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法。序列轮廓可以被用作某些PROSITE 数据库条目中序列模式之外的替代方法。3.隐马尔可夫模型:这类模型是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态, 并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高,从其他家族中生成序列的概率较低。现在已有算法可以近似地得出从某特定家族模型中生成一条新的蛋白序列的概率,而且它们可以用来把新的蛋白序列归类到某一蛋白家族中。4.网上资源:Pfam 和 SMART 可以被用于蛋白质结构域家族的分析。Interpro 联合了 PROSITE, PRINTS, Pfam, Prodom 和 SMART ,从而形成了一个整合的资源。G: 系统发育学(实验四)一、系统发育学、遗传分类学和存在论1.物种间的相似性和差异性可以被用来推断进化关系(系统发育学)。这是因为,如果两物种非常相似, 它们可能拥有一个新近的共同祖先。确定生物体间进化关系的科学分支即系统发育学。三种方法:表现型分类法、遗传分类法、进化分类法系统发育分析:许多不同的特征能够用于系统发育的分析中,但是核苷酸和蛋白质序列是最为常用的,因为它们为所有的生命形式所共有(允许研究关系密切或疏远的类别),而且可以客观地比较。序列间的相关性可以使用序列比对算法客观地量化。这即是生物信息学在系统发育学中所起的重要作用。序列系统发育分析背后的简单原理是:两条序列间相似度越高,从一条序列变成另一条序列所需要的突变就越少,因而它们拥有的共同祖先就越近。然而,从这类分析得出的任何进化关系必须假定:所比较的序列存在不变的突变率并且没有差异选择。但是这些条件实际上很难达到。二、构建系统发育树1.系统发育树 是一种显示进化关系的简单方法,物种由节点(nodes)表示,遗传路径由枝(links)来表示。系统发育树可以从相似度表(similarity tables )或距离表(distance tables )中构建而来。这些表显示了生物体中一套给定特征间的相似性,采用匹配的百分比(相似度表),或者差异的百分比(距离表)来表示。三种 建树方法 :距离矩阵法、最大简约法、最大似然法2.建树 软件 :PAUP (phylogenetic analysis using parsimony)、PHYLIP (phylogenetic inference package) 3.检验方法 :一棵给定的树不一定能准确地代表进化历史。然而,数据的可靠性可以通过下述方法进行评估: 1)如果不同方法构建树能得出同样的结果,这可很好证明该树是可信的。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 11 页,共 16 页 - - - - - - - - - - word 2) Bootstrapping 和 jack-knifing 方法 :重新取样并构建更多的树来评估。三、大分子序列的进化1.DNA 在进化过程中积累突变,导致了不同株系后代DNA 、RNA 和蛋白质序列的分歧。基于大分子序列间差异的系统发育树被称为分子系统发育。由于 内部突变率 和选择压力 的差异, 不同大分子序列进化速率不同,使得对亲缘关系较近和较远的生物体都可以进行系统发育分析2.大分子序列的选择:对于密切相关的生物体,使用一种快速进化的分子如线粒体DNA 比较合适。对于有很大分歧的系统发育关系,则需要用高度保守的分子如核糖体RNA 。注意不要选择不适当的大分子序列来解释明显的系统发育关系。H: 序列注释(实验三)一、基因组注释原理1.注释:这一术语是指从原始序列数据中获得有用的生物学信息。这主要是指在基因组.DNA中寻找基因和其他功能元件(结构注释 ) ,并给出这些序列的功能信息(功能注释 ) 。由于基因结构和基因组组织的不同,原核生物和真核生物的基因组注释涉及不同的问题。2.用计算机寻找基因:可以用计算机来预测基因组DNA 上基因的位置。这可以通过信号自动检测 寻找保守的模体(motif) 、内容自动检测 (寻找序列背景类似基因的区域)和同源性搜索(寻找与以前已发现的基因序列相匹配的区域)等方法的组合来完成。然而, 没有一种基因查找的方法是100%可靠的。Signals 是不连续的局部序列模体,如启动子,剪切供体和受体位点, 起始和终止密码子,以及 polyA 尾位点 。Contents 是不同长度的扩展序列,如编码区、 CpG 岛 (CpG island )等。Homologies 是已知基因之间的匹配,如代表基因的表达序列标签(ESTs)序列等。3.检测ORFs(可读框):ORF : 一段较长( 300bp) 的位于起始密码子(usually, ATG) 和 终止密码子(无义密码子, TGA, TAG or TAA) 之间的有义密码子序列,在细菌基因组中, 基因很少有内含子的中断。因此, 检测基因的有效途径是对基因组序列进行六个可读框的翻译并识别长的可读框(ORF)。4.检测Exons 和 Introns 在高等真核生物基因组中,基因呈分散状分布,并被大量的长内含子所中断。外显子太短,从而不能仅仅通过ORF 搜索来发现,所以需要采用包括外显子检测 和内容自动检测、剪切信号的识别 这种组合方法,并结合 cDNA 序列 等辅助信息来构建全长基因 的模型。二、注释工具和资源1.基因预测软件基因预测程序使用从头算预测( ab initiomethods)and/or 同源搜索(homology searches ) 来识别基因组DNA 中的基因。 NCBI ORF finder 通过执行六个可读框的翻译来识别 ORFs。 对于复杂的真核生物基因组,则需要更复杂的统计分析方法。2.测量预测准确性:没有一个基因查找程序是100%精确的,所以较好的方法是使用几个程序来注释相同的基因组序列。预测精度用 敏感性(能正确预测真正的基因或外显子)和特 异性(能正确排除假基因或假外显子)来衡量。3.注释流水线: 处理从基因组计划中产生的大量数据的唯一途径是使用连续的流水线-注释流水线“ 飞速 ” 注释。精品资料 - - - 欢