《生物信息学》学生复习资料教学文案.doc
《《生物信息学》学生复习资料教学文案.doc》由会员分享,可在线阅读,更多相关《《生物信息学》学生复习资料教学文案.doc(39页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Good is good, but better carries it.精益求精,善益求善。生物信息学学生复习资料-生物信息学复习资料陈芳宋东光教材:生物信息学简明教程(钟扬编)1绪论分子生物学与计算机、信息科学的结合生物信息学(Bioinformatics);Bioinformaticsisthescienceofstoring,extracting,organizing,analyzing,interpreting,andutilizinginformationfrombiologicalsequencesandmolecules.生物信息学及其分支学科分子生物信息学(moleculari
2、nformatics)即狭义的生物信息学,指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据;生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;计算分子生物学(computationalmolecularbiology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题,侧重于发展理论模型和有效算法;分子计算(molecularcomputing)将DNA作为一
3、种信息储存器,应用PCR技术和生物芯片等来进行计算。生物信息学的主要目的不是分子发展最精致的算法,其目的是发现生物体以怎样的方式生存。生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型,到实现数据分析的新算法,以及开发数据库和访问数据库的Web工具。生物信息学的功能是表示、存储和分布数据。开发从数据中发现知识的分析工具处于第二位。生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析;基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战:1)互操作
4、的生物信息系统及相关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学基本方法与前沿技术基本方法1)建立生物数据库2)数据库检索3)序列分析4)统计模型5)算法前沿技术1)数据管理技术2)数据仓库、数据挖掘与数据库中的知识发现技术3)图像处理与可视化技术生物信息学的应用生物信息的经济价值与生物信息学市场基因组分析
5、基因芯片药物开发其他应用领域生物信息学的主要研究领域及其应用前景生物信息学(bioinformatics)广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科,对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释;生物信息学是广义的计算生物学的分支,在为生物学系统建模中应用了量化分析技术;生物信息学发展阶段与研究方向前基因组时代数据库建立、检索工具的开发和蛋白质序列分析;基因组时代基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等;后基因组时代大规模基因组分析、蛋白质组分析、各种数据的比较和整合。面临的主要挑战:1)互操作的生物信息系统及相
6、关数据挖掘技术;2)发展揭示大规模数据集合不同组分间关系的统计分析方法和优化算法;3)开发数据转换工具,建立预测模型;4)开发微阵列和基因芯片等新技术的数据分析工具。我国生物信息学研究的发展方向建立国家生物医学数据库与服务系统人类基因组的信息结构分析功能基因组相关信息分析研究遗传密码起源与生物进化(尤其是分子进化)的过程与机制生物信息学的应用前景生物信息的经济价值与生物信息学市场基因组分析基因芯片药物开发其他应用领域2生物信息学的计算机基础数据管理与数据库技术数据库是以一种能够保存持久并可以被操作的方式来保存的数据集合。包括文本文件、电子数据表格和图象。数据库系统由一个数据库和周围的环境,包括
7、软件、操作系统、硬件和使用它的用户所组成。计算机网络与Internet计算机网络是为了资源共享和信息交流的目的而互相连接起来的计算机的集合。互联网络(Internetwork)是指通过中间设备连接的多个网络的集合,形成覆盖范围更广的计算机网络。网络分类根据距离分类:局域网(LAN,LocalAreaNetwork)连接小范围内的计算机,一般系统覆盖半径为几百米到几公里,是随着PC机的发展而发展起来的;广域网(WAN,WideAreaNetwork)可以连接地理位置比较分散的计算机,Internet是最大的WAN,连接了不同大洲的数百万个网络.介于二者的是城域网(MAN,Metropolitan
8、AreaNetwork).Internet提供的服务Telnet:主机远程登录;FTP:文件传输;Email:电子邮件;Usenet:新闻组;WWW:万维网.数据仓库和数据挖掘Datawarehouse:面向主题的、集成的、持久的、历史的数据集合。从各种数据资源中获得原始数据按辅助决策的主题要求形成当前基本数据层按综合决策要求形成综合数据层由时间机制转为历史数据层;KDD:knowledgediscoveryindatabase,从数据中发现有用信息和模式的过程,包括数据选择预处理转换数据挖掘解释或评价knowledge;Datamining:利用算法对KDD过程获得的信息和模式进行提取,对隐
9、藏信息进行预测性的或描述性的模型匹配.数据挖掘的基本技术包括分类(classification),回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等.3生物信息学资源与数据挖掘生物信息学资源基因组信息蛋白质信息整合生物学信息分子数据挖掘工具序列相似性查询软件BLAST序列查询和模式识别数据挖掘工具生物信息学资源查找科学文献几乎每种主要的期刊都有自己的Web站点,网上也有很多文献数据库,如NC
10、BI的Medline数据库(PubMed)等。PubMed介绍PubMed系统是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE、Pre-MEDLINE数据库的网上检索系统(www.ncbi.nlm.nih.gov/entrez)。MEDLINE是美国国立医学图书馆(U.S.NationalLibraryofMedicine)最重要的书目文摘数据库,内容涉及医学、护理学、牙科学、兽医学、卫生保健和基础医学。收录了全世界70多个国家和地区的4000余种生物医学期刊,现有书目文摘条目1000万余条,时间起自1966年。虽然是世界范围的,但是大多数记录是从英语资料(87%)或有英文
11、摘要(72%)的文献中获得的。PubMed使用以关键词为基础的搜索策略,允许逻辑运算符AND/OR/NOT,用户可以使用Mesh(MedicalSubjectHeading)查找。Mesh是一个标准词库,可用来帮助查找用不同名称代表同一概念的文献。可用Mesh浏览器查询相关的Mesh词。基因组信息DNA测序双脱氧测序(ddNTPs)(Sanger1977)自动测序(荧光标记引物)毛细管测序:提高100倍(2005)基因组测序1)YAC,BAC(100Kb)文库作图找到重叠片段,测序2)鸟枪法测序:对所有克隆进行测序然后通过计算机进行片段重叠连接。cDNA文库测序:ESTs(expresseds
12、equencetags).提交序列到数据库BankIt:submittoGenBankbyWebSequin:localPCprogramGenBankEmail:gbsubncbi.nlm.nih.govGenBankGenBank是美国国立卫生研究院(NIH)维护的基因序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列。每个记录代表了一个单独的、连续的、带有注释的DNA或RNA片段。这些文件按类别分为几组:有些按照系统发生学划分,另外一些则按照生成这些序列数据的技术方法划分。目前GenBank中所有的记录均来自于最初作者向DNA序列数据库的直接提交。这些作者将序列数据作为论文的一部分来发
13、表,或将数据直接公开。GenBank由位于马里兰州Bethesda的美国国立卫生研究院下属国立生物技术信息中心(NCBI)建立,与日本DNA数据库(DDBJ)以及欧洲生物信息研究院的欧洲分子生物学实验室核苷酸数据库(EMBL)一起,都是国际核苷酸序列数据库合作的成员。所有这三个中心都可以独立地接受数据提交,而三个中心之间则逐日交换信息,并制作相同的充分详细的数据库向公众开放分类检索:用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。同源性(homology):定性。同源序列指从某一共同祖先经趋异进化而形成得不同序列。相似性(similariy)::
14、定量。通过序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基序列所占比例的高低。相似性检索:用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。用FTP下载整个的GenBank和更新数据。序列格式GenBankflatfile(GBFF)是GenBank数据库的基本信息单位.GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符)。第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身。蛋白质信息蛋白质序列和结构分为3个层次:氨基酸序列-一级数据库,基序(motif)-二级
15、数据库,结构域(domain)-结构数据库。二级和三级数据库为DerivedDatabases。蛋白质数据库先于核苷酸数据库。在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”。这一蛋白质数据库后来成为PIR(ProteinInformationResource).一级数据库记录了实验结果,以及一些初步的解释。在DNA序列记录中的一种常见的注释是编码序列(CDS).大多数蛋白质序列都不是直接由实验确定的,而是通过DNA序列得到的。蛋白质一级数据库主要包括:PIR,MIPS,SWISS-PROT,TrEMBL,NRDB,OWL,MIPSX等。二
16、级数据库(SecondaryDB或PatternDB):包括PROSITE,PRINTS,Pfam,BLOCKS,IDENITIFY等。三级数据库:包括SCOP,CATH,PDBsum等。分子数据挖掘工具大量的序列和文献数据必须经过人工或计算机的处理分析才能提取出有用的信息,因而近年来数据挖掘技术的应用在基因表达分析等领域得到了广泛的开展。数据挖掘不同于传统的数据库查询语言,数据库的数据须经过调整以利于进行知识挖掘,提取的结果不是数据库中的元数据,因此,数据挖掘采用多种算法去完成一定的任务,可以对隐藏信息进行预测性的或描述性的模型匹配。数据挖掘的基本技术包括分类(classification)
17、,回归(regression),时序分析(timeseriesanalysis),预测(prediciton),聚类(clustering),概括(summarization),关联(association),顺序发现(sequencediscovery)等。序列相似性查询软件Globalsimilaralgorithmswhichoptimizeoverallalignmentbetweentwosequences(dynamicprogramming)Localsimilaralgorithmswhichseeonlyrelativelyconservedpiecesofsequence(
18、FASTA,BLAST)BLAST:BasicLocalAlignmentSearchToolBLASTN,BLASTP,BLASTX,tBLASTN,tBLASTPblastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列
19、进行比对。4DNA序列分析基因结构与DNA序列分析EST分析cDNA文库EST数据库EST聚类分析电子克隆全长cDNA序列比对分析全局和局部排列CLUSTAL软件基因结构与DNA序列分析电子克隆cDNA全长序列Virtualcloning:利用重叠EST序列通过计算机EST数据库搜索进行拼接获得全长cDNA.通常使用BLAST进行检索,然后进行重叠片段拼接。Sequencealignment序列比对是比较两个(pair-wisealignment)或多个序列(multiplesequencealignment)找出单一字符或字符模式在序列中处于相同的顺序。将两序列排成两行,相同字符按列对齐,错
20、配字符亦可按列或以空格对齐。很容易对齐的序列认为是相似的(similiar).全局比对(globalalignment):用于比较十分相似且长度几乎相等的序列,比对大部分碱基.局部比对(localaligment):比较序列中的最高密度配对字符,获得一个或多个亚比对顺序(subalignment),用于比较有部分相似的序列,其他部分不相似、长度不同、或具有保守区段或结构域的序列。序列比对的重要性序列比对用于发现生物序列的功能、结构和进化的信息,获得最佳比对(optimalalignment)才能做到.很相似的序列往往可能具有相同的功能,如DNA分子的调控作用,蛋白质分子的相似生化功能或三维结构
21、。来自不同生物相似的两个序列可能具有相同的祖先序列,或称为同源的。新的基因进化认为是通过基因复制(geneduplication)产生前后两个拷贝并发生突变,极少的机会其中的一个拷贝的新突变功能上可能更有利,然后沿不同途径进化,形成的两个基因家族仍是相关的且很相似因为具有共同的祖先,由于基因重排(generearrangement)会引起蛋白质结构域进行重新配对而导致形成更复杂的蛋白质其进化关系可能难以辨认。Orthologs(垂直进化直系同源):具有共同祖先及功能的同源基因但找不到基因如何复制的证据(有复制证据而同源基因来自一个具有相同功能的拷贝时亦称Orthologs);Paralogs(
22、平行进化并系同源):复制产生的两个拷贝及其各自进化的后裔;Analogous(类似):不具有相同祖先但通过独立进化途径而聚合了相同的功能称为聚合进化(convergentevolution),如chymotrypsin和subtilisin的空间结构和折叠完全不同但其活性部位具有相似的结构特征;Xenologous(外源的异同源):通过基因水平转移(共生、病毒转导)而产生的相似序列。DotMatrix序列比对点阵比对方法应作为序列比对的首选,因为它可以很快反映序列的插入/缺失和正向/反向重复。但多数程序(DOTTER,DNAStrider,DOTPLOT,COMPARE)不能很好确切的表示比对
23、。比对采用对角线来比对两个序列,用滑动窗口来过滤随机的配对,窗口大小可以改变。DynamicProgramming许多计算机科学的问题都可以简化为通过图表寻求最优路径,对每一种路径都有必要对其进行某种意义上的打分,通常是对沿这一途径的每一步的增量进行加和.假定相同残基加正分,有插入或缺失的残基就加负分(扣分)根据这一定义,最合适的比对方法会得到最高分,也就是我们寻找的最佳路径。动态规划的思想是这样的,如果一条路径终止于最佳路径上的一点,那么这条路径本身就是起点到这个中间点的最佳路径,即任何一个终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身.这样,最佳路径就可以通过把各个最佳
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学 生物 信息学 学生 复习资料 教学 文案
限制150内