《生物信息学》学生复习资料.doc
《《生物信息学》学生复习资料.doc》由会员分享,可在线阅读,更多相关《《生物信息学》学生复习资料.doc(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流生物信息学学生复习资料.精品文档.生物信息学复习资料陈芳 宋东光教材:生物信息学简明教程(钟扬编)1 绪论分子生物学与计算机、信息科学的结合生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules. 生物信息学及其分支学科分子生物信息学(molec
2、ular informatics)即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecular computin
3、g)将DNA作为一种信息储存器,应用PCR技术和生物芯片等来进行计算。 生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。 生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。生物信息学的功能是表示、存储和分布数据。开发从数据中发现知识的分析工具处于第二位。生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析;基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临
4、的主要挑战:1)互操作的生物信息系统及相关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学基本方法与前沿技术基本方法1)建立生物数据库2)数据库检索3)序列分析4)统计模型5)算法前沿技术1)数据管理技术2)数据仓库、数据挖掘与数据库中的知识发现技术3)图像处理与可视化技术生物信息学的应用生物信息的经济价值与生
5、物信息学市场基因组分析基因芯片药物开发其他应用领域生物信息学的主要研究领域及其应用前景生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析;基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战:1)互
6、操作的生物信息系统及相关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学的应用前景生物信息的经济价值与生物信息学市场基因组分析基因芯片药物开发其他应用领域2 生物信息学的计算机基础数据管理与数据库技术数据库是以一种能够保存持久并可以被操作的方式来保存的数据集合。包括文本文件、电子数据表格和图象。数据库系统由一个
7、数据库和周围的环境,包括软件、操作系统、硬件和使用它的用户所组成。计算机网络与Internet计算机网络是为了资源共享和信息交流的目的而互相连接起来的计算机的集合。互联网络(Internetwork)是指通过中间设备连接的多个网络的集合,形成覆盖范围更广的计算机网络。网络分类根据距离分类: 局域网(LAN, Local Area Network)连接小范围内的计算机,一般系统覆盖半径为几百米到几公里,是随着PC机的发展而发展起来的;广域网(WAN, Wide Area Network)可以连接地理位置比较分散的计算机, Internet是最大的WAN,连接了不同大洲的数百万个网络. 介于二者的
8、是城域网(MAN, Metropolitan Area Network). Internet提供的服务Telnet: 主机远程登录;FTP: 文件传输;Email: 电子邮件;Usenet: 新闻组;WWW: 万维网.数据仓库和数据挖掘Data warehouse: 面向主题的、集成的、持久的、历史的数据集合。从各种数据资源中获得原始数据按辅助决策的主题要求形成当前基本数据层按综合决策要求形成综合数据层由时间机制转为历史数据层;KDD: knowledge discovery in database, 从数据中发现有用信息和模式的过程,包括数据选择预处理转换数据挖掘解释或评价knowledge
9、;Datamining:利用算法对KDD过程获得的信息和模式进行提取,对隐藏信息进行预测性的或描述性的模型匹配.数据挖掘的基本技术包括分类(classification), 回归(regression), 时序分析(time series analysis), 预测(prediciton), 聚类(clustering), 概括(summarization), 关联(association), 顺序发现(sequence discovery)等. 3 生物信息学资源与数据挖掘生物信息学资源基因组信息蛋白质信息整合生物学信息分子数据挖掘工具 序列相似性查询软件BLAST序列查询和模式识别数据挖掘
10、工具生物信息学资源查找科学文献几乎每种主要的期刊都有自己的Web站点,网上也有很多文献数据库,如NCBI的Medline数据库(PubMed)等。PubMed介绍PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统(www.ncbi.nlm.nih.gov/entrez)。MEDLINE是美国国立医学图书馆(U.S.National Library of Medicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。收录了全世界70多个国家和地区的4000余种生物医学期刊,现有书目
11、文摘条目1000万余条,时间起自1966年。虽然是世界范围的,但是大多数记录是从英语资料(87%)或有英文摘要(72%)的文献中获得的。PubMed使用以关键词为基础的搜索策略,允许逻辑运算符AND/OR/NOT,用户可以使用Mesh(Medical Subject Heading)查找。Mesh是一个标准词库,可用来帮助查找用不同名称代表同一概念的文献。可用Mesh浏览器查询相关的Mesh词。基因组信息DNA测序双脱氧测序(ddNTPs)(Sanger 1977)自动测序(荧光标记引物)毛细管测序: 提高100倍(2005)基因组测序1)YAC, BAC(100Kb)文库 作图找到重叠片段,
12、测序2)鸟枪法测序: 对所有克隆进行测序然后通过计算机进行片段重叠连接。cDNA文库测序: ESTs(expressed sequence tags).提交序列到数据库BankIt: submit to GenBank by WebSequin: local PC program GenBankEmail: gbsubncbi.nlm.nih.govGenBankGenBank是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照
13、生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心(NCBI)建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放分类检索:用accession number,作者姓名,物种,基因/蛋白名字,
14、还有许多其他的文本术语来查询。同源性(homology):定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。相似性(similariy)::定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。相似性检索:用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。用FTP下载整个的GenBank和更新数据。序列格式GenBank flatfile (GBFF) 是GenBank数据库的基本信息单位. GBFF可以分成三个部分,头部包含关于整个记录的信息(描
15、述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。蛋白质信息蛋白质序列和结构分为3个层次:氨基酸序列-一级数据库,基序(motif)-二级数据库, 结构域(domain)-结构数据库。二级和三级数据库为Derived Databases。蛋白质数据库先于核苷酸数据库。在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册” 。这一蛋白质数据库后来成为PIR(Protein Information Resource).一级数据库记录了实验结果,以及一些初步的解释。在DNA序列记录中的一种常见的注释是编码序列(CDS).大多数蛋白质序
16、列都不是直接由实验确定的,而是通过DNA序列得到的。蛋白质一级数据库主要包括:PIR, MIPS, SWISS-PROT, TrEMBL, NRDB, OWL, MIPSX等。二级数据库(Secondary DB或Pattern DB): 包括PROSITE, PRINTS, Pfam, BLOCKS, IDENITIFY等。三级数据库: 包括SCOP,CATH,PDBsum等。分子数据挖掘工具大量的序列和文献数据必须经过人工或计算机的处理分析才能提取出有用的信息,因而近年来数据挖掘技术的应用在基因表达分析等领域得到了广泛的开展。数据挖掘不同于传统的数据库查询语言,数据库的数据须经过调整以利于
17、进行知识挖掘,提取的结果不是数据库中的元数据,因此,数据挖掘采用多种算法去完成一定的任务,可以对隐藏信息进行预测性的或描述性的模型匹配。数据挖掘的基本技术包括分类(classification), 回归(regression), 时序分析(time series analysis), 预测(prediciton), 聚类(clustering), 概括(summarization), 关联(association), 顺序发现(sequence discovery)等。序列相似性查询软件Global similar algorithms which optimize overall align
18、ment between two sequences (dynamic programming)Local similar algorithms which see only relatively conserved pieces of sequence (FASTA, BLAST)BLAST: Basic Local Alignment Search ToolBLASTN, BLASTP, BLASTX, tBLASTN, tBLASTPblastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。blastx:核酸序列对蛋白
19、库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。4 DNA序列分析基因结构与DNA序列分析EST分析cDNA文库EST数据库EST聚类分析电子克隆全长cDNA序列比对分析全局和局部排列CLUSTAL软件基因结构与DNA序列分析电子克隆cDNA全长序列Virtual cloning: 利用重叠EST序列通过计算机EST数据库搜索进行拼接获得全长cDNA. 通常
20、使用BLAST进行检索,然后进行重叠片段拼接。Sequence alignment序列比对是比较两个(pair-wise alignment)或多个序列(multiple sequence alignment)找出单一字符或字符模式在序列中处于相同的顺序。 将两序列排成两行,相同字符按列对齐,错配字符亦可按列或以空格对齐。很容易对齐的序列认为是相似的(similiar).全局比对(global alignment): 用于比较十分相似且长度几乎相等的序列,比对大部分碱基.局部比对(local aligment):比较序列中的最高密度配对字符,获得一个或多个亚比对顺序(subalignment)
21、, 用于比较有部分相似的序列,其他部分不相似、长度不同、或具有保守区段或结构域的序列。序列比对的重要性序列比对用于发现生物序列的功能、结构和进化的信息,获得最佳比对(optimal alignment)才能做到. 很相似的序列往往可能具有相同的功能,如DNA分子的调控作用,蛋白质分子的相似生化功能或三维结构。来自不同生物相似的两个序列可能具有相同的祖先序列,或称为同源的。新的基因进化认为是通过基因复制(gene duplication)产生前后两个拷贝并发生突变,极少的机会其中的一个拷贝的新突变功能上可能更有利,然后沿不同途径进化,形成的两个基因家族仍是相关的且很相似因为具有共同的祖先,由于基
22、因重排(gene rearrangement)会引起蛋白质结构域进行重新配对而导致形成更复杂的蛋白质其进化关系可能难以辨认。Orthologs(垂直进化直系同源): 具有共同祖先及功能的同源基因但找不到基因如何复制的证据(有复制证据而同源基因来自一个具有相同功能的拷贝时亦称Orthologs);Paralogs(平行进化并系同源): 复制产生的两个拷贝及其各自进化的后裔;Analogous(类似): 不具有相同祖先但通过独立进化途径而聚合了相同的功能称为聚合进化(convergent evolution), 如chymotrypsin和subtilisin的空间结构和折叠完全不同但其活性部位具
23、有相似的结构特征;Xenologous(外源的异同源): 通过基因水平转移(共生、病毒转导)而产生的相似序列。Dot Matrix序列比对点阵比对方法应作为序列比对的首选,因为它可以很快反映序列的插入/缺失和正向/反向重复。但多数程序(DOTTER, DNA Strider, DOTPLOT, COMPARE)不能很好确切的表示比对。比对采用对角线来比对两个序列,用滑动窗口来过滤随机的配对,窗口大小可以改变。Dynamic Programming许多计算机科学的问题都可以简化为通过图表寻求最优路径,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和. 假定相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 生物 信息学 学生 复习资料
限制150内