最新BioPerl使用手册.docx
《最新BioPerl使用手册.docx》由会员分享,可在线阅读,更多相关《最新BioPerl使用手册.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-dateBioPerl使用手册BioPerl使用手册BioPerl使用手册 第一弹Bio:SeqIO篇注:本手册假设你已经拥有了一定的Perl编程经验,对个中术语(terms)不再进行赘述。1. 让我们开始吧为了让第一次使用本手册的同志们在刚开始就有成功的喜悦,这里给出一个例子,大家准备好自己手中的fasta文件吧!请在文本编辑器中写入如下程序,并在终端运行:#! /usr/
2、bin/perl wuse strict;use Bio:SeqIO;my $file = “*”; # Please use your path to replace the startsmy $seqio_object = Bio:SeqIO - new(-file = $file);my $seq_obj = $seqio_object - next_seq;printf “$seq_objn”;如果你成功键入了以上程序并且没有报错发生,那么屏幕上面就会正常显示出你的fasta序列。那么恭喜你,你已经成功调用了BioPerl的模块,并且完成了一个面对对象的程序。下面我们就来看一下我们第一
3、个认识的BioPrel的模块Bio:SeqIO。2. 关于Bio:SeqIO的那些事儿在介绍Bio:SeqIO之前,先来说一下为什么会产生BioPerl这个东西。在生物信息学起步之初Prel语言强悍的字符串处理能力以及执行效率,毫无疑问的被各位从计算机和数学行业转行过来的“生物学家”选为工具语言(在生物信息数据处理方面放眼望去毫无疑问是Perl语言的天下,近来对大规模数据的处理方面R语言亦有崛起之势)。但是,对于这海量的数据,同样丰富多彩的数据格式以及花样繁多的数据分析;每次处理数据都要重新自己编写正则表达式未免效率过于低下。于是,在Perl一次重大的更新之后(引入面对对象编程,后面都将使用O
4、OP代替面对对象编程),几个不太勤快的学生物的程序员看到了通用编程的可能,于是就有了我们现在广泛应用的BioPerl。那我们就来说说这个Bio:SeqIO以及它的姊妹模块Bio:Seq。我们为什么要使用Bio:SeqIO和Bio:Seq模块呢?其原因非常简单,就是因为这两个模块其实就是一个非常非常智能的文件句柄。Bio:SeqIO可以根据你的输入文件类型抽取出所需要的信息,而Bio:Seq则可以按照格式要求储存数据信息。就拿GenBank的flat file文件来讲,其中的feature等信息都是分门别类的进行储存。在这里说也不容易理解,下面我们直接上程序来说明。3. Bio:SeqIO支持的
5、文件格式Bio:SeqIO几乎涵盖所有常见的生物学数据库的通用文档格式,并且可以很好的对格式进行转换,有如此方便的功能,全仰仗于Perl语言本身所具有的强悍的字符串处理能力。下表所展示的就是截止于1.6版本Bio:SeqIO所支持的格式:NameDescriptionFile extensionModuleabiABI tracefileabi1Bio:SeqIO:abiaceAce databaseaceBio:SeqIO:aceagaveAGAVE XMLBio:SeqIO:agavealfALF tracefilealfBio:SeqIO:alfasciitreewrite-only,
6、to visualize featuresBio:SeqIO:asciitreebsmlBSML, using XML:DOMbsmlBio:SeqIO:bsmlbsml_saxBSML, using XML:SAXBio:SeqIO:bsml_saxchadoxmlCHADO sequence formatBio:SeqIO:chadoxmlchaosCHAOS sequence formatBio:SeqIO:chaoschaosxmlChaos XMLBio:SeqIO:chaosxmlctfCTF tracefilectfBio:SeqIO:ctfemblEMBL databaseeb
7、l|emb|datBio:SeqIO:emblentrezgeneEntrez Gene ASN1Bio:SeqIO:entrezgeneexcelExcelBio:SeqIO:excelexpStaden EXP formatexpBio:SeqIO:expfastaFASTAfast|seq|fa|fsa|nt|aaBio:SeqIO:fastafastqquality score data in FASTA-like formatfastqBio:SeqIO:fastqflybase_chadoxmlvariant of Chado XMLBio:SeqIO:flybase_chadox
8、mlgameGAME XMLBio:SeqIO:gamegcgGCGgcgBio:SeqIO:gcggenbankGenBankgbank|genbankBio:SeqIO:genbankinterproInterProScan XMLBio:SeqIO:interprokeggKEGGBio:SeqIO:kegglargefastaLarge files, fasta formatBio:SeqIO:largefastalasergeneLasergene formatBio:SeqIO:lasergenelocuslinkLocusLink LL_tmplBio:SeqIO:locusli
9、nkmetafastaBio:SeqIO:metafastaphdPhredphredBio:SeqIO:phdpirPIR databasepirBio:SeqIO:pirplnPLN tracefileplnBio:SeqIO:plnqualPhredBio:SeqIO:qualrawplain texttxtBio:SeqIO:rawscfStandard Chromatogram FormatscfBio:SeqIO:scfseqxmlSeqXML sequence format using XML:LibXML and XML:WriterxmlBio:SeqIO:seqxmlstr
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 BioPerl 使用手册
限制150内