《生物信息学软件及使用技巧教案.ppt》由会员分享,可在线阅读,更多相关《生物信息学软件及使用技巧教案.ppt(41页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学软件及使用技巧 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望生物信息学软件分类单机分析软件:如如winplaswinplas在线分析软件:如如webcutterwebcutter生物学数据库:如如NCBI,DDBJ,EBINCBI,DDBJ,EBI生物信息学软件的意义1.分析和处理实验数据和公共数据,加快研究进度,缩短科研时间。2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验。3.用计算机管理实验数据。Bioinforma
2、tics BasicsBioinformatics Basics生物学软件常用功能(核酸类)DNA DNA 序列片断拼接序列片断拼接-Contig Express-Contig Express分析分析mRNAmRNA开放读框开放读框限制性酶切位点分析限制性酶切位点分析DNA DNA 模拟电泳模拟电泳PCR PCR 引物设计引物设计RNARNA二级结构分析二级结构分析Bioinformatics BasicsBioinformatics Basics生物学软件常用功能(蛋白类)蛋白一级结构分析(氨基酸分析)蛋白二级结构分析(结构域分析)蛋白三级结构分析(空间结构分析)Bioinformatics
3、 BasicsBioinformatics Basics生物学软件常用功能(共同类)DNA、蛋白质序列同源分析进化树构建Bioinformatics BasicsBioinformatics Basics生物学软件常用功能(其它类)生物学软件常用功能(其它类)质粒绘图类质粒绘图类图象处理软件图象处理软件一、DNA 序列片断拼接(电子基因克隆)获得感兴趣的获得感兴趣的ESTEST,在,在dbESTdbESTdbESTdbEST数据库中找出数据库中找出ESTEST的最有的最有途径是寻找同源序列,标准:长度途径是寻找同源序列,标准:长度100bp100bp,同源性,同源性50%50%以上、以上、85
4、%85%以下。以下。然后将检出序列组装为重叠群然后将检出序列组装为重叠群(contigcontig),以此重,以此重叠群为被检序列,重复进行叠群为被检序列,重复进行BLASTBLAST检索与序列组装,检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的延伸重叠样系列,重复以上过程,直到没有更多的重叠重叠ESTEST检出或者说重叠群序列不能继续延伸,有时检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。可获得全长的基因编码序列。再与再与GeneBankGeneBank核酸数据库进行相似性检测,假如有核酸数据库进行相似性检测,假如有精确匹配基因,将精确匹配基因,将ESTEST
5、序列数据据序列数据据ESTEST六种阅读框翻六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分译成蛋白质,接着与蛋白质序列数据库进行比较分析。析。Vector NTI 5.2-contig Express二、分析mRNA开放读框(一(一)5)5-UTR-UTR结构结构1 1、mRNA5mRNA5 端端m7Gm7G帽有增强翻译水平的作用帽有增强翻译水平的作用2 2、“上游上游AUGAUG密码子密码子”(位于起始位于起始AUGAUG上游的其他上游的其他AUGAUG密码子密码子)的存在往往抑制下游开放读框的翻译效率的存在往往抑制下游开放读框的翻译效率3 3、起始、起始AUGAUG旁侧序列对翻译
6、效率的影响旁侧序列对翻译效率的影响 KozakKozak序列:序列:GCCAUGGGCCAUGG(二二)3)3-UTR-UTR结构结构1 1poly(A)poly(A)尾增加翻译效率尾增加翻译效率2 2富含富含UAUA序列抑制翻译。序列抑制翻译。二、分析mRNA开放读框获得尽量长的获得尽量长的mRNAmRNA序列。序列。分析可能的读框(六种)。分析可能的读框(六种)。软件:软件:Vector NTIVector NTI,Omiga Omiga 等。等。在线在线:(http:/au.expasy.org/tools/dna.htmlhttp:/au.expasy.org/tools/dna.ht
7、ml)选取最可能的一种。看是否符合各种条选取最可能的一种。看是否符合各种条件。件。分析步骤:分析步骤:目前应用的蛋白质结构预测的算法1.1.同源预测同源预测(一级结构决定高级结构一级结构决定高级结构)2.2.结构与结构相对比(结构与结构相对比(DALIDALI算法)算法)3.3.当前最先进的结构预测方法:当前最先进的结构预测方法:结构类识别(结构类识别(fold recognitionfold recognition)先建立一个已知的结构类数据库(先建立一个已知的结构类数据库(fold fold library)library),将待测序列,将待测序列“穿过穿过”该数据库构成的座该数据库构成的
8、座标,并根据事先确定的物理限制,逐个位置移动标,并根据事先确定的物理限制,逐个位置移动(threadingthreading,sequence-structure alignment)sequence-structure alignment),并,并一个函数(一个函数(sequence-structure fitness alignment)sequence-structure fitness alignment)判断序列与结构类的符合程度,找出未知序列在判断序列与结构类的符合程度,找出未知序列在目标结构上的能量最优和构象最稳固的比对位置。目标结构上的能量最优和构象最稳固的比对位置。对计算机要
9、求很高。对计算机要求很高。Cn3D 2.5 显示 1EQF A链三维结构十一、质粒绘图winplasPlasmid processorDMUP betaVector NTIWinplas 2.6 质粒构建七、DNA与蛋白质序列同源分析(进化树构建)个体与数据库比较。两个或两个以上个体比较。不同情况:不同情况:internetinternet网络。如,网络。如,NCBINCBI的的BLASTBLAST;ExPASy ExPASy的的AlignmentAlignment.软件。如,软件。如,Vecotr NTIVecotr NTI分析方法:分析方法:Vector NTI Suit AlignX 同
10、源比较主窗口Vector NTI Suit 同源比较进化树八、蛋白质一级结构分析氨基酸组成。氨基酸组成。PI PI MWMW亚细胞定位亚细胞定位包括:包括:internetinternet网络。如,网络。如,ExPASyExPASy的的primary structure primary structure analysisanalysis topology predictiontopology prediction.软件。如,软件。如,Vecotr NTI,AntheprotVecotr NTI,Antheprot分析方法:分析方法:Omiga 2.0 ORF Map三、限制性酶切位点分析 一
11、种能识别特殊,短核苷酸序列,并在一种能识别特殊,短核苷酸序列,并在DNADNA的某些位点上切割的蛋白质。细菌包含了的某些位点上切割的蛋白质。细菌包含了400400种种这样的酶,能识别和切割这样的酶,能识别和切割100100种以上不同的种以上不同的DNADNA序序列。列。如:如:EcoREcoRI I 识别序列识别序列定义:定义:GAATTCGTTAAC三、限制性酶切位点分析找到待分析的核酸序列。找到待分析的核酸序列。利用利用Vector NTIVector NTI软件分析。软件分析。利用利用webcutter 2.0webcutter 2.0在线分析。在线分析。(http:/ NTIVecto
12、r NTI或其他软件分析。或其他软件分析。分析步骤:分析步骤:DNADNA模拟电泳具有一定实验预示功能。模拟电泳具有一定实验预示功能。模拟电泳不能作为实验结果或依据。模拟电泳不能作为实验结果或依据。注注 意:意:Vector NTI Suit 5.5 模拟电模拟电泳泳Gene Construction Kit 2.0 模模拟电泳拟电泳五、PCR 引物设计(杂交探针设计)引物设计的原则1.1.引物要跟模板紧密结合;2.2.引物与引物之间不能有稳定的二聚体或发夹结构存在;3.3.引物不能在别的非目的位点引起高效DNA聚合反应(即错配)。如:如:引物长度(引物长度(primer lengthprim
13、er length),),产物长度(产物长度(product lengthproduct length),),序列序列TmTm值值(melting temperature)(melting temperature),GG值值(internal stability)(internal stability),引物二聚体及发夹结构(引物二聚体及发夹结构(duplex formation duplex formation and hairpinand hairpin),),错误引发位点(错误引发位点(false priming sitefalse priming site),),引物及产物引物及产物G
14、CGC含量(含量(compositioncomposition),有时),有时还要对引物进行修饰,如增加限制酶切点,引还要对引物进行修饰,如增加限制酶切点,引进突变等。进突变等。引物设计引物设计需要考虑的因素引物设计要点一般引物的长度为一般引物的长度为16-23bp16-23bp,常用的长度为,常用的长度为18-18-21bp21bp,过长或过短都不合适。,过长或过短都不合适。引物引物3 3端的碱基一般不用端的碱基一般不用A A,因为,因为A A在错误引发在错误引发位点的引发效率相对比较高,而其它三种碱基位点的引发效率相对比较高,而其它三种碱基的错误引发效率相对小一些。的错误引发效率相对小一些
15、。引物的引物的GCGC含量一般为含量一般为45-55%45-55%,过高或过低都,过高或过低都不利于引发反应。上下游引物的不利于引发反应。上下游引物的GCGC含量不能相含量不能相差太大。差太大。引物所对应模板序列的引物所对应模板序列的TmTm值最好在值最好在7272左右,左右,当然由于模板序列本身的组成决定其当然由于模板序列本身的组成决定其TmTm值可值可能偏低或偏高,可根据具体情况灵活运用。能偏低或偏高,可根据具体情况灵活运用。引物设计要点GG值反映了引物与模板结合的强弱程度,也是一个值反映了引物与模板结合的强弱程度,也是一个重要的引物评价指标。重要的引物评价指标。一般情况下,在一般情况下,
16、在Oligo 5.0Oligo 5.0软件的软件的GG值窗口中,引物值窗口中,引物的的GG值最好呈正弦曲线形状,即值最好呈正弦曲线形状,即5 5端和中间部分端和中间部分GG值较高,而值较高,而3 3端端GG值相对较低,且不要超过值相对较低,且不要超过9 9(GG值为负值,这里取绝对值),如此则有利于值为负值,这里取绝对值),如此则有利于正确引发反应而可防止错误引发。正确引发反应而可防止错误引发。其原理,引物与模板应具有较高的结合能量,这样其原理,引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此有利于引物与模板序列的整合,因此5 5端与中间段端与中间段的的GG值应较高,而值应
17、较高,而3 3端端GG值影响值影响DNADNA聚合酶对模板聚合酶对模板DNADNA的解链,过高则不利于这一步骤。的解链,过高则不利于这一步骤。引物设计要点可能的错误引发位点决定于引物序列组成与模可能的错误引发位点决定于引物序列组成与模板序列组成的相似性,相似性高则错误引发率板序列组成的相似性,相似性高则错误引发率高,错误引发的引发率一般不要高过高,错误引发的引发率一般不要高过100100,最好,最好没有错误引发位点,如此可以保证不出非目的没有错误引发位点,如此可以保证不出非目的产物的假带。产物的假带。引物二聚体及发夹结构的能量一般不要超过引物二聚体及发夹结构的能量一般不要超过4.54.5,否则
18、容易产生引物二聚体带,且会降低引物,否则容易产生引物二聚体带,且会降低引物浓度从而导致浓度从而导致PCRPCR正常反应不能进行。正常反应不能进行。对引物的修饰一般是增加酶切位点,应参考载对引物的修饰一般是增加酶切位点,应参考载体的限制酶识别序列确定,常常对上下游引物体的限制酶识别序列确定,常常对上下游引物修饰的序列选用不同限制酶的识别序列,以有修饰的序列选用不同限制酶的识别序列,以有利于以后的工作。利于以后的工作。关于引物的自动搜索和评价分析推荐使用自动搜索软件:Primer Premier 5.0 Primer Premier 5.0 推荐使用引物评价软件:Oligo 5/6Oligo 5/
19、6OLIGO 5.0 PCR 引物设计六、RNA二级结构预测主要软件:DNAsis,RNAstructure,RNA drawDNAsis,RNAstructure,RNA draw Vienna RNA Package RDFolderVienna RNA Package RDFolder是是RNARNA二二级级结结构构预测预测WebWeb服服务务器器 (北京大学生物信息学中心北京大学生物信息学中心)意意 义:义:分析分析RNA结构稳定性,为可能(酶、核酸)作用位结构稳定性,为可能(酶、核酸)作用位点分析等提供依据。点分析等提供依据。DNASIS 2.5 RNA 二级结构预测DNASIS 2
20、.5 tRNA 二级结构预测RNAStructure 3.5 RNA 二结构预测Antheprot 5.0 预测蛋白跨膜区域Antheprot 5.0 预测信号肽断裂点九、蛋白质二级结构分析Helix,Helix,Sheet,Sheet,Turn,Turn,Coil Coil包括:包括:internetinternet网络。网络。如,如,ExPASyExPASy的的secondary structure analysissecondary structure analysis 软件。如,软件。如,DNAsis,DNAstar,Vecotr NTIDNAsis,DNAstar,Vecotr NT
21、I分析方法:分析方法:DNASIS 2.5 蛋白二级结构预测DnaStar 之 Protean 对dif14蛋白二级结构预测Bioinformatics BasicsBioinformatics Basics十、蛋白质空间结构分析该项技术算法十分复杂,尚未成熟。该项技术算法十分复杂,尚未成熟。PDBPDB及及MMDBMMDB数据库目前仍然禁止收录软件预测出来数据库目前仍然禁止收录软件预测出来的蛋白高级结构模型。的蛋白高级结构模型。X X射线晶体学技术和多维核磁共振技术是当前射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构的主要手段,但两种技人们认识蛋白高级结构的主要手段,但两种技术都有不足之处。前者要求必需得到高标准的术都有不足之处。前者要求必需得到高标准的蛋白晶体,后者对分子量大于蛋白晶体,后者对分子量大于3 3万的大蛋白不万的大蛋白不能测定。因此理论模拟和结构预测显得十分重能测定。因此理论模拟和结构预测显得十分重要。要。序列与结构关系的根源在于序列与结构关系的根源在于“蛋白质折叠的问蛋白质折叠的问题题”,这是近期研究关注的焦点。,这是近期研究关注的焦点。
限制150内