2022年《生物信息学》复习资料.pdf
《2022年《生物信息学》复习资料.pdf》由会员分享,可在线阅读,更多相关《2022年《生物信息学》复习资料.pdf(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、word 生物信息学先锋版中译本 第二版科学出版社打分政策 :60% 期末考试( 70%掌握内容、 25% 熟悉内容、 5% 理解内容)(请注意红体与黑体字)A: 生物信息学概述1. 生物信息学 :生物信息学是生物学 和信息技术 的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、 表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略:逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用:生物信息学需要计算
2、机快速、可靠地执行重复任务的能力以及 处理问题的能力。然而,生物信息学中涉及的许多问题仍需要专家的人工处理,同时原始数据的完整性和质量也很关键。生物信息学课程范围:使初学者理解生物信息学的基本原理 ,并获得相应的应用能力 。具体包括生物信息学的一些关键领域:数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。2. 生物信息学实例:数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, 序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign 基因搜索Genscan, GenomeScan, G
3、eneMark, GRAIL 蛋白结构域分析与鉴定pfam, BLOCKS, ProDom, 基因调控元件的计算机模式识别Gibbs Sampler, AlignACE, MEME 蛋白折叠预测PredictProtein, SwissModeler 生物信息学网站:包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站:(详细参考书本p9)NCBI (The National Center for Biotechnology Information)http:/www.ncbi.nlm.nih.gov/EBI (The European Bioinform
4、atics Institute) http:/www.ebi.ac.uk/The Canadian Bioinformatics Resource http:/www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource) http:/expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank) http:/www.rcsb.org/PDB/B: 数据采集一、 DNA, RNA 和蛋白质测序1. DNA 测序原理:DNA 测序是采用全自动的链终止反应 完成的,这一技术通过加入限量的双脱氧核苷
5、酸来产生有特定终止碱基的嵌套DNA 片段。共有4 种反应,每种代表DNA 4 个碱基中的一个,每个碱基分别带有不同的荧光标记。DNA 片段通过聚丙烯酰胺凝胶电泳(PAGE) 分离,当每个片段移动到凝胶的末端时可以通过扫描仪读取序列。2. DNA 序列类型:DNA 序列来源主要有3 种方式。 基因组 DNA 直接来自基因组,包括基因和基因外核酸序列,真核生物的基因组DNA 包含内含子; cDNA 由 mRNA 反转录而来, 并且只对应于基因组中能表达的部分,它不包含内含子;最后,重组 DNA 来自实验室,包含克隆载体等人工精品资料 - - - 欢迎下载 - - - - - - - - - - -
6、 欢迎下载 名师归纳 - - - - - - - - - -第 1 页,共 16 页 - - - - - - - - - - word DNA 分子。3. 基因组测序策略:一次读段 (one read)只能用于短的DNA 分子 (约 800bp)测序,所以大的DNA 分子,如基因组,必须首先将其打碎成片段。基因组测序可以分为两种方式:霰弹法测序 (shot-gun sequencing)包括随机 DNA 片段的生成,通过大量片段测序来覆盖整个基因组;与之相反,克隆重叠群测序 (clone contig sequencing)包括亚克隆系统的产生及其测序。4. 序列质量控制:通过在 DNA 双链
7、上进行多次读段完成高质量序列数据的测定。可使用如Phred 等程序对最初的跟踪数据 (trace data)进行碱基识别和质量判断。载体序列和重复的DNA 片段被屏蔽后,使用 Phrap 程序将序列拼接成重叠群(contigs),剩下的不一致部分通过人工校对解决。5. 单遍( Single-pass)测序:低质量的序列数据可以由单次读段产生(单遍测序, single-pass sequencing) 。尽管不很准确,但单遍序列如ESTs 和 GSSs,可以以低廉的价格快速大量地产生。6. RNA 测序:大部分 RNA 序列可以从相应的DNA 序列推断得到,但是需要用特殊的方法来识别被改变的核苷
8、,这些方法包括:生化实验、核磁共振谱( NMR spectroscopy)、质谱7. 蛋白质测序:目前,大部分蛋白质测序是通过质谱 (MS) 技术 进行的,应用这一技术可以通过测量真空中离子的 分子质量电荷比来计算精确的分子质量。软离子化方法可以对蛋白质这样的大分子进行质谱分析。 通过比较经胰蛋白酶裂解而获得的多肽片段的分子质量与从数据库中蛋白质的虚拟消化(virtual digest)预测而来的分子质量的异同推断序列。通过在碰撞室(collision cell)中产生的 蛋白质片段嵌套集合可以进行重新测序,并可通过单个氨基酸残基计算不同长度片段间分子质量的差异。二、蛋白质结构的确定1. X-
9、ray 衍射晶体学:X 衍射晶体学是一种通过精确定向的蛋白质晶体的X 射线衍射模式来确定蛋白质结构的方法。这种方法中, X 射线因晶体中原子的电子密度 和空间方向 的不同而发生散射,可用 傅立叶变换 的数学方法从衍射数据中重构电子密度图,以建立结构模型。2. 核磁共振谱:NMR 是某些原子的一种属性,即在外加磁场范围内原子通过吸收电磁辐射可以在不同的磁状态间转换。 吸收光谱的性质受原子类型及其周围化学性质影响,所以 NMR spectroscopy可以区分不同的化学功能团。核磁共振谱也因空间上原子的接近而改变。NMR 谱的分析可以重建原子的三维构型,产生一系列结构模型。这一技术只适合小的可溶性
10、蛋白的分析。3. 其他方法:对于大的不容易结晶的蛋白质,需要用其他的分析方法来推测结构,这包括X 射线纤维衍射、电子显微镜和CD 光谱 (circular dichroism spectroscopy) 。C:数据库内容、结构和注释一、 文件格式1. 三种常用序列格式:常用核酸和蛋白序列格式:NBRF/PIR 格式文件名后缀为:.pir o 或 .seq FASTA 格式文件名后缀为:.fasta GDE 格式文件名后缀为gde 精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 2 页,共 16 页 - -
11、 - - - - - - - - word 例:ID 代码 : 5H1B_CAVPO 序列登录号 : O08892 NBRF/PIR格式 : P1; 5HT1B_CA VPO Guinea pig serotonin receptor accession: O08892 MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT. FASTA 格式 : 5HT1B_CA VPO O08892 | guinea pig serotonin receptor MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHI
12、YQDSIALPWKVLLVVLLALIT. GDE 格式: % 5HT1B_CAVPO O08892 | guinea pig serotonin receptor MGNPEASCTPPA VLGSQTGLPHANVSAPPNNCSAPSHIYQDSIALPWKVLLVVLLALIT. 2. 比对序列文件:可用下述常用格式中任何一种:NBRF/PIR, FASTA,GDE 多序列比对格式:MSF, PHYLIP and ALN 3. 结构数据文件:结构数据用PDB 格式的平面文件(flat files) 来维护, 这类文件包含: 正交的原子坐标值 (X, Y, Z 轴) ;注释、说明和实验
13、细节。NOTE :1、ATOM 行以字符计数,而不是以单词计数;2、NMR 文件没有分辨率REMARK行。二、已注释的序列数据库1. 初级序列数据库:保存 raw sequence data, 并对每个条目做了进一步的注释:feature table-properties of seq. 2. 辅助序列数据库:特别类型的序列数据. eg. ESTs, GSSs and unfinished genomic seq. data 3. 序列提交: Sequence(序列) Internet(互联网)NCBI/EMBL/DDBJ(数据库)4. SWISS-PROT 和 TrEMBL :SWISS-P
14、ROT: 收集了确认的蛋白质序列及与结构、功能和所属蛋白质家族有关的注释信息 。TrEMBL: 翻译了初级核酸数据库中的编码序列。TrEMBL 中各条目的注释不如SWISS-PROT 中的条目那样详细。5. 数据库查询 :Searching by Sequence similarity BLAST Text-based SearchingEntrez or SRS accession number accession number:提供基因及其产物的唯一标示号D: 生物数据检索一、通过Entrez 和 DBGET/LinkDB进行数据检索1. 访问分布数据:利用专业的数据检索工具Entrez,
15、 DBGET和 SRS 进行数据库搜索2. Entrez:Entrez 可以用来搜索NCBI 中集成的所有数据库包括GenBank, OMIM 以及文精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 3 页,共 16 页 - - - - - - - - - - word 献数据库MEDLINE 3. NCBI 和 Entrez:EntrezAll databases 模式搜索,以文本是形式进行文本搜索 :以单词或逻辑短语为关键词4. DBGET/LinkDB DBGET/ LinkDB : 日本京都大学和人
16、类基因组中心联合开发的集成数据检索系统。它整合了 20 数据库并与KEGG 相关联。LinDB: is a database of links, each of which is represented as a binary relation in the form of: dbname1:identifier1 - dbname2:identifier2 DBGET: has powerful capabilities to search against this graph object The molecular biology databases in the world can b
17、e retrieved uniformly by specifying the combination of the database name and the identifier: dbname:identifier Identifier :organism:gene 三种搜索模式:bget, bfind, blink 二、使用SRS 的数据检索1. 开源 SRS:SRS 由欧洲生物信息研究所开发,其集成有80 多个分子生物学数据库。SRS可下载和安装在本地计算机上使用。2. 使用 SRS :SRS 与 Entrez 和 DBGET 的数据分类的原理不同。SRS 的使用包括选择一个或多个分
18、组,在每一个选定的组中选择一个或多个现有的数据库。查询方式有两种: 标准模式、扩展模式 。3. 安装 SRS :SRS 可以通过脚本语言ICARUS 编程来查询使用者自己的数据库。E: 通过序列相似性标准搜索序列数据库(重难点章节)一、以序列相似性标准搜索序列数据库1. 序列相似性搜索1.1. 序列相似性搜索:通过序列相似性来搜索数据库,我们可以找到与所查询序列相似的序列。可以用这些找到的序列信息来预测查询序列的结构或功能 。 依据相似性进行预测是生物信息学中强大而且广泛使用的方法,其根本依据是分子进化 。当序列拥有个共同的祖先序列时,它们往往在序列、结构和生物学功能上具有相似性。这很可能是生
19、物信息学上最重要的思想 ,因为它使得我们可以进行预测 。1.2. 序列比对:任何一对 DNA 序列都有一定程度的相似。序列比对 :是使 相似度 量化的第一步,用来区分偶然性的相似和 真实的生物学关系。比对结果:以 变化(突变) 、插入或缺失(indels或空位) 来显示序列之间的差异,这些差异可以用进化术语来说明。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 4 页,共 16 页 - - - - - - - - - - word 1.3. 比对算法:动态规划算法 (Dynamic programming
20、 algorithms )可以计算两条序列之间的最佳联配。两个变体 : Smith-Waterman algorithm: local align. Needleman-Wunsch algorithm: global align.当序列不是全长关联时局部比对是有效的。例如仅在某些特定功能域相似的蛋白质序列,或仅在外显子区域关联的DNA 序列等。Local alignment-BLAST 1.4. 比对打分和空位罚分:用简单的比对打分来测量相同匹配残基 的比例或数目。 得从比对打分中扣去空位罚分 ,以保证比对算法能得出有生物学意义的结果而没有太多的空位。Score: S = sum (si)
21、+ sum (xk) 空位罚分可以根据预期的应用进行调整。有下述三种情况:固定罚分 : 与空位长度无关;比例罚分 :与空位长度成比例;放射罚分 : 包括gap opening 和 gap extension 两部分罚分Constant: x=u+vk, v=0 Proportional : x=u+vk, u=0 Affine: x=u+vk, u, v 0 k is the number (length) of the linked gaps 例: SEQ1: AATTGA TTG CGCATTTAAAGGG SEQ2: AACTGA - - - CGCATCTTAAGGG K=3 我们并不
22、总是很清楚空位罚分常数u 和 v 该采用什么值,这在某种程度上依赖于所比对的序列的性质。Close sequence relationship: higher gap penalties Distant relationships: lower gap penalties 1.5. 序列相似性测量:序列相似度可用比对算法、序列一致性百分率(percentage sequence identities)或更复杂的方法得出的分值来量化。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 5 页,共 16 页 -
23、- - - - - - - - - word SEQ1: AATTGA TTG CGCATTTAAAGGG SEQ2: AACTGA- - - CGCATCTTAAGGG percentage sequence identities: (16/22) 100=73% Note:必须是在长的比对结果中找到的高比例一致,才有可能反映真正的生物学或进化关系。对 DNA 序列来说,比对序列并使序列一致性百分率(即percentage sequence identities )最大化是合乎情理的。但对蛋自序列而言,则应该更多地考虑组成序列的单体的属性。某些氨基酸之间的替代比其他氨基酸更频繁,所以,在蛋白
24、序列比对算法中需要考虑这个因素。1.6. 相似性和同源性:任何序列之间均存在相似,但是仅当序列是从一个共同的祖先 进化而来时, 它们才是同源的。同源序列常常具有相似的生物学功能, 但是基因复制的进化机制允许生物体有多余的基因拷贝 。这些多余的基因拷贝于是自由地进化出新的功能,成为有不同功能的同源基因。直系同源( orthologs): 不同物种的两个同源基因有相同的功能,就称它们是直系同源; 旁系同源( paralogs): 当同一或不同物种的两个基因有不同的功能,就把它们称为是旁系同源 . 不同功能的同源基因的例子:溶解酶 (lysozyme,一种酶)和 -乳白蛋白 (-lactalbumi
25、n ,一种哺乳动物调节蛋白) 。这些蛋白质有非常相似的序列,几乎已肯定是同源的,但却有极其不同的功能。2. 氨基酸替换矩阵(难点)2.1. 相同氨基酸数目的最大化:比对蛋白质序列从而使相同的氨基酸数目(即 percentage sequence identities )最大化。其中,每对匹配的相同氨基酸对比对分值的贡献是1,不一致的氨基酸对对比对分值的贡献是0。 (如下图所示)这是对密切相关的序列进行比对的好方法,但这并不能揭示 远亲之间 的进化关系。精品资料 - - - 欢迎下载 - - - - - - - - - - - 欢迎下载 名师归纳 - - - - - - - - - -第 6 页
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 2022 生物 信息学 复习资料
限制150内