最新多序列比对与Clustal的使用以及各类常见的序列分析工具介绍PPT课件.ppt
-
资源ID:25236970
资源大小:1.38MB
全文页数:64页
- 资源格式: PPT
下载积分:20金币
快捷下载
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
最新多序列比对与Clustal的使用以及各类常见的序列分析工具介绍PPT课件.ppt
多序列比对与多序列比对与Clustal的使用以的使用以及各类常见的序列分析工具介及各类常见的序列分析工具介绍绍内容提要第一部分:多序列比对第一部分:多序列比对 意义、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw第二部分:常见的序列分析软第二部分:常见的序列分析软件分类简介件分类简介自动多序列比对的算法2.步进法步进法 最常见的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具相似序列通常具有进化相关性有进化相关性的这一假设。 Clustal的渐进比对过程 在比对过程中,先对所有的序列进行两两比对并计算它们相似性分值,然后根据相似性分值将它们分成若干组,并在每组之间进行比对,计算相似性分值。根据相似性分值继续分组比对,直到得到最终比对结果。在比对过程中,相似性程度较高的序列先进行比对而距离较远的序列添加在后面。多序列比对工具多序列比对工具clustal Clustal是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。Clustal简介简介 CLUSTAL是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。Clustalx的工作界面(多序列比对模式多序列比对模式)Clustalx的工作界面(剖面剖面(profile)比对模式比对模式)Clustal的工作原理Clustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。距离,获得一个距离矩阵。邻接法邻接法(NJ)构建一个树(引导树)构建一个树(引导树)根据引导树,渐进比对多个序列。根据引导树,渐进比对多个序列。Clustal的应用1.输入输出格式。输入输出格式。输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。2.两种工作模式。两种工作模式。 a.多序列比对模式。多序列比对模式。 b.剖面剖面(profile)比对模式。比对模式。3.一个实际的例子。一个实际的例子。Clustal的应用多序列比对实例输入文件的格式(fasta):KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN HYKVGRRIGEGSFGVIFEGTNLLNN第一步:输入序列文件。第二步:设定比对的一些参数。参数设定窗口。第三步:开始序列比对。第四步:比对完成,选择保存结果文件的格式Clustalw的使用(一) Clustalw还提供了命令调用形式的使用方式,方便于批处理过程,下面是一个典型的执行多序列比对的clustalw命令:$ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gcg -alignClustalw的使用(二)在线的clustalw分析EBI提供的在线提供的在线clustalw服务服务http:/www.ebi.ac.uk/clustalw/http:/www.ebi.ac.uk/clustalw/EBI提供提供的在线的在线Clustalw服务服务更为详细的教程可以在这里得到更多关于可以在这里得到更多关于clustal的帮助:的帮助:http:/www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.htmligbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html 实际操作实际操作(练习练习) 使用clustalx程序,对给定的多序列,选择合适的参数,进行多序列比对,输出结果文件维phylip格式。 相同的文件,使用ebi和我们提供的在线服务,进行多序列比对。 对上述计算机程序比对的结果进行手工改动(bioedit,seaview),使得多序列比对结果跟符合要求。SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVCTIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVCWIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTLLNRRKWSREGPMIMVQCzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVLCIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL练习序列第二部分:第二部分:常见的序列分析软件分类简介常见的序列分析软件分类简介 GCG EMBOSS(免费) Vector NTI DNAstar Bioedit(免费) 其他1.综合序列分析软件包GCG(商业软件)GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。GCG 软件包包括了超过软件包包括了超过130个独立的序列个独立的序列分析程序分析程序,大,大致上可以分成以下致上可以分成以下12个类别:个类别: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation 除了分析程序以外,除了分析程序以外, GCG 同时也提供多种生物同时也提供多种生物学学数据库数据库。核酸相关的:GenBank(http:/www.ncbi.nlm.nih.gov/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白质相关的: SWISS-PROT (http:/www.expasy.ch/sprot/) PIR (http:/www-nbrf.georgetown.edu/pir/) SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。 GCG的工作方式(S-C) 安装在基于Unix系统的服务器上,目前可以安装的平台(platform)有SGI 的IRIX 操作系统,SUN 的Solaris操作系统,及Compaq 的Tru64操作系统,用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。1.传统的命令行形式,这种情况要求用户熟悉程序的命令。2.借助SeqLab的用户窗口界面,通过各类表单的操作来实现分析任务。以上两个执行GCG的方法都是通过telnet来实现的。3. 借助于WWW服务的SeqWeb,是最为简单和方便的使用方式。 虽然命令行的操作需要一些操作,但是对于熟悉GCG的用户来说,却是最为快捷和有效的方法,此外这种方法还可以扩展到批处理中。执行GCG程序的方法EMBOSS(免费软件) EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商业软件GCG的扩展),由于版权等原因,EGCG不再发行,开发人员在此基础上开发出来公开源代码的EMBOSS软件包。http:/www.sanger.ac.uk/Software/EMBOSS Vector NTI由Informax公司(现在已经归入Invitrogen公司旗下)开发的一种高度集成、功能齐全的分子生物学应用软件,可以对DNA、蛋白质分子进行大量分析和操作。主要功能:1.DNA序列的ORF、Motif、功能区搜索,限制酶图谱,蛋白质翻译。2.PCR引物、测序引物、杂交探针的设计和评价。3.DNA测序片断的拼接4.同源比较和系统发育树构建5.蛋白质结构预测:三维结构、化学键、翻译后修饰位点、结构域等6.模拟电泳:琼脂糖、PAGEDNAstar DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PC Windows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。主要功能:1. Editseq,可以从键盘、数据库或数字序列输入和编辑。2. PrimerSelect,PCR引物和探针设计。3. MapDraw,限制性位点分析和图谱绘制。 4. MegAlign,多个和成对蛋白或DNA序列比对。5. GeneMan,生物数据库和数据库检索。 6. Protean,蛋白结构分析。7. SeqMan,序列装配和毗连(序列)群管理。Bioedit是一个性能优良的免费的分子生物学应用软件,可以对核酸序列和蛋白质序列进行常规的分析操作,并提供了很多网络程序的分析界面和接口。 http:/www.mbio.ncsu.edu/BioEdit/bioedit.html2.快速同源性数据库搜索工具 Blast Fasta HMMerHMMER HMMer 是一个采用隐马可夫模型 HMMs(Hidden Markov Models)来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。http:/hmmer.wustl.edu/ 3.多序列比对工具 Clustal基于渐进算法的多序列比对优化算法,由Higgins D.G. 等开发。Clustlw,clustalx等。 其他:T_coffee PHYLIP PAUP* 其他:Mega2,MrBayes,tree-puzzle PAML,treeview4.分子进化分析工具PHYLIPPhylip是一个免费的系统发生(phylogenetics)分析软件包。 由华盛顿大学遗传学系开发,1980年首次公布,目前的版本是3.6。包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。http:/evolution.genetics,washington.edu/phylip.htmlPAUP*最早是在苹果机上开发的具有菜单界面的进化分析软件,早先版本只有MP法,后续版本已经包括距离法和ML法,现今有mac,win,linux等多种版本,该软件不是免费软件,使用者需要向开发者购买。5.其他工具 模式识别:Meme,signalscan, domainFinder等 测序分析与序列拼接:Chromas,Phred+Phrap+cross_match+consed, contigExpress等 引物设计:Oligo,Primer3,Primer Premier5.0等 三维分子:PDBviewer,CN3D,RASMOL等序列分析工具的网络资源生物软件网http:/www.bio-NCBIhttp:/www.ncbi.nlm.nih.govExpasyhttp:/www.expasy.org/expasy.org/ 生物软件网 由华北制药集团的谈杰创建,是一个具有丰富生物信息学资源的站点,提供了大量的生物信息学分析软件下载。http:/www.bio-NCBI 美国国立生物技术信息中心(NCBI) 成立于1988年11月4日。是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。 主要资源包括:数据库和软件,以及相关的教育和培训资源http:/www.ncbi.nlm.nih.govExpasy 由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白质数据库之一 ,也是 GCG 最主要的蛋白质序列来源。 Expasy的主 要 有蛋白质序列、结构、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多个数据库 ,还有大量的蛋白质序列与结构分析工具以及FTP资源等。 蛋白质分析工具主要有蛋白质的功能预测,序列搜索与比对,二级、三级和四级结构的预测等等。 http:/www.expasy.org/ 操作系统 Unix(Linux),Windows, Macintosh 编程语言:perl,C,php,VB算法:动态规划,启发式,各类模型数据结构:表,栈,树,图 数据库Mysql,Oracle,SQL server,Sybase 网络局域网构架与管理,并行化,网络应用(http,ftp,telnet)计算机相关知识Linux:是一个免费的可以在PC机上运行的UNIX系统Linux系统具有最新UNIX的全部功能,包括真正的多任务,虚拟存储,共享库函数,即时负载,优越的存储管理和TCP/IP,UUCP网络工具。Linux由于其系统软件的免费获取,硬件费用低廉的特点,近年来发展迅猛。 常见的Linux发行版有RedHat,Debian,Mandrake,SuSe等 Perl强大的正则表达式(regular expression)以及字符串操作使这个工作变得简单而没有其它语言能相比。Perl 非常擅长于切割,扭转,绞,弄平,总结,以及其它的操作文字文件。生物资料大部分是以文字文件存在的,如物种名称,种属关系,基因或序列的注解,评住,目录查阅, 就连DNA和蛋白质序列本身也是以文字形式出现的。正是因为这样,在生物资料处理的时候最多涉及的也是字符操作问题。各种不同格式的生物信息资料之间的相互转换是一个很难解决的问题,而perl由于具有方便和强大的字符操作功能,使得它在这方面具有特殊的用途。MySQL是一个免费的、多用户、多线程的小型SQL数据库,是一个客户机/服务器结构的应用,可以运行在多种平台上,它由一个服务器守护程序mysqld和很多不同的客户程序和库组成。MySQL具有快速、多线程、多用户和稳定等特点,对于中、小型应用系统是非常理想的数据库服务平台。 动态规划(dynamic programming ) 动态规划的实质是分治思想和解决冗余,将问题的实例分解为更小的、相似的子问题。动态规划的思想在于,如果各个子问题不是独立的,不同的子问题的个数只是多项式量级,如果我们能够保存已经解决的子问题的答案,而在需要的时候再找出已求得的答案,这样就可以避免大量的重复计算。由此而来的基本思路是,用一个表记录所有已解决的子问题的答案,不管该问题以后是否被用到,只要它被计算过,就将其结果填入表中。 动态规划算法在生物序列分析中是一个比较常见也是比较有用的算法。网络应用:HTTP(超文本传输协议):应用层网络协议之一,主要用于传输www网页。FTP(文件传输协议):应用层网络传输协议之一,主要用于文件传输。其他应用协议:Telnet本章结束,如有问题,请联系yuansen_