分析转录因子结合位点.ppt
第六章第六章 基因预测和基因结构分析基因预测和基因结构分析(I)生物信息学http:/基因组测序策略基因组测序策略Genomesequencing:QUICKER,SMALLER,CHEAPER Nature Biotechnology 26,1135-1145(2008)13years$3billion1day$1000http:/Nature Biotechnology 26,1135-1145(2008)identifyingnewgeneslookingatchromosomeorganizationandstructurefindinggeneregulatorysequencescomparativegenomicsApplications of sequencingWherearetheGenesintheGenome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCTGCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAGGATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGACAGAAAGTGGAAGAAGAGGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCAACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCCCACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCATCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGGGAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGTTGTTGACACCTTGAAGCAGAGGAAAATGGAAGAGCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAGCTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAAGGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCAGAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAAGCAGCAACAAGAACAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCCAGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGCTGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTTCAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGCAGTTATATGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGGCAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAAAGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCACATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGTCCCAGCAGCGTTAGCTAGTCCTTCAGCCAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTCACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGAAGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAGTCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAATCTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAATTTATAGGGAATCCCGAGGGCGTGGTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAAGATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCTATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGTACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCATTGGTGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCACAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTCACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTACGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTATGATGAGTACGACGAGGAAGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAGGene aGenes(i.e.,protein coding)But.only 2%of the human genome encodes proteinsOther than protein coding genes,what is there?genes for noncoding RNAs(rRNA,tRNA,miRNAs,etc.)structural sequences(scaffold attachment regions)regulatory sequences non-functional“junk”?Its still uncertain/controversial how much of the genome is composed of any of these classesThe answers will come from experimentation and bioinformatics.Complexity of genomePublishedbyAAASScience 306,636-640(2004)The ENCODE Project:ENCyclopedia Of DNA Elementshttp:/ENCODE/Proteincodinggenes.InlongopenreadingframesORFsinterruptedbyintronsineukaryotesTakeupmostofthegenomeinprokaryotes,butonlyasmallportionoftheeukaryoticgenomeRNA-onlygenesTransferRNA,ribosomalRNA,snoRNAs(guideribosomalandtransferRNAmaturation),intronsplicing,guidingmRNAstothemembranefortranslation,generegulationthisisagrowinglistGenecontrolsequencesPromotersRegulatoryelementsTransposableelements,bothactiveanddefectiveDNAtransposonsandretrotransposonsManytypesandsizesRepeatedsequences.CentromeresandtelomeresManywithunknown(orno)functionUniquesequencesthathavenoobviousfunctionAsageneralrule,eachpartofagenomicsequencehasonlyonefunction:protein-codinggene,RNAgene,controlsignal,transposableelement,repeatsequence,maybenofunctionalatall.But,mostsequenceelementsoverlaponlyslightlyifatall.Whats in a genome?protein-coding genes,nonprotein-coding geneseasier to find than other functional elementswhy?genes are transcribedwhich means that we can identify them by looking at RNAtraditionally this has been done by cDNA or EST sequencing,more recently by microarray,SAGE,MPSS,etc.protein-codinggeneshaverecognizablefeatures1.openreadingframes(ORFs)2.codonbias3.knowntranscriptionandtranslationalstartandstopmotifs(promoters,3poly-Asites)4.spliceconsensussequencesatintron-exonboundariesFinding protein-coding genesbegingeneregionstarttranslationdonorsplicesiteacceptorsplicesitestoptranslationendgeneregionsingleexonexonfinalexoninitialexon5UTR3UTRintronA,T,G,CFinding nonprotein-coding genese.g.,tRNA,rRNA,snoRNA,miRNA,various other ncRNAsHarder to find than protein-coding genesWhy?often not poly-A taileddont end up in cDNA librariesno ORFconstraint on sequence divergence at nucleotide not protein level,so homology is harder to detectSo,how do we find these?secondary structurehomology,especially alignment of related speciesexperimentallyisolation through non-polyA dependent cloning methodsmicroarraysFinding nonprotein-coding genesv包括多种包括多种RNA结构预测及基因鉴别软件结构预测及基因鉴别软件v假阳性是最大的问题假阳性是最大的问题非编码非编码RNA基因预测基因预测ApracticalguidetotheartofRNAgeneprediction第六章第六章 基因预测和基因结构分析基因预测和基因结构分析(II)生物信息学基因预测和基因结构分析基因预测和基因结构分析u生物信息学中的重要内容之一生物信息学中的重要内容之一u预测编码蛋白质的基因预测编码蛋白质的基因u排除重复序列排除重复序列u确定开放阅读框(确定开放阅读框(open reading frame,ORF)u确定基因的调控区启动子确定基因的调控区启动子 (一)(一)基因预测的基本分析内容基因预测的基本分析内容(二)(二)基因预测的基本方法基因预测的基本方法 1.序列相似性搜索序列相似性搜索(Extrinsic Approaches)基因组基因组DNA序列序列A.在在6个阅读框中进行翻译并与蛋白质数据库中的序个阅读框中进行翻译并与蛋白质数据库中的序列进行比较分析(如列进行比较分析(如Blastx)B.对对EST数据库中同一生物的数据库中同一生物的cDNA序列进行比较分序列进行比较分析(如析(如Blastn)确定基因数目和对应的确定基因数目和对应的ORFSimilarity-based Gene Prediction:for sequences that encode a known protein or a protein with a known homologu分析举例:水稻分析举例:水稻Xa21基因序列(基因序列(U37133)vCDS:1-2677 bp处和处和3521-3921 bp处处vBlastx分析结果分析结果(检索蛋白质数据库):与(检索蛋白质数据库):与水稻蛋白质序列比较水稻蛋白质序列比较vBlastn分析结果分析结果(检索(检索est other数据库):与数据库):与水稻水稻cDNA序列比较序列比较取决于数据库中取决于数据库中EST数据的数量和长度数据的数量和长度通过通过“Distance tree of results”查看与查看与U37133序列同源的其它序列同源的其它EST序列序列有些蛋白质序列是推测获得的有些蛋白质序列是推测获得的2.根据模式序列预测基因根据模式序列预测基因(Ab Initio Approaches)u各种基因预测软件各种基因预测软件u取决于人们对已知基因结构特征的认识取决于人们对已知基因结构特征的认识u采用统计学方法采用统计学方法v基于一个或多个已知序列模式对未知序基于一个或多个已知序列模式对未知序列进行分类列进行分类v密码子偏爱性密码子偏爱性v对发现的模式进行统计检验对发现的模式进行统计检验启动子结构启动子结构外显子、内含子外显子、内含子u原核生物(原核生物(E.coli)v与与RNA聚合酶互作位点(聚合酶互作位点(-10、-35区)区)vLexA repressor的结合位点(启动子区段)的结合位点(启动子区段)CTGNNNNNNNNNNCAGv核糖体结合位点(转录起始位点后)核糖体结合位点(转录起始位点后)GGAGGu真核生物真核生物v基因结构复杂基因结构复杂v已知外显子、内含子外显子边界、启动子序已知外显子、内含子外显子边界、启动子序列特征列特征u目前还没有一个基因预测工具可以完全正确地预测目前还没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因(一个基因组中的所有基因(Mathe et al.2002)u不同的基因预测软件分析结果有差异不同的基因预测软件分析结果有差异u综合多个基因预测软件的分析结果综合多个基因预测软件的分析结果人类基因数目人类基因数目1000005000025000根据模式序列预测基因根据模式序列预测基因u一种分析工具可选择分析基因的不同结构一种分析工具可选择分析基因的不同结构vexon,poly-A,promoterv重复序列重复序列u某些分析工具可选择物种模式某些分析工具可选择物种模式(matrix)作为作为参照比较对象参照比较对象u某些分析工具可用不同的方式呈现分析结果某些分析工具可用不同的方式呈现分析结果(文字或图形)(文字或图形)根据模式序列预测基因根据模式序列预测基因分析举例(分析举例(1)Gene FindinguSoftberry()的的Gene Finding工具,分三大类工具,分三大类vGene Finding in EukaryotavOperon and Gene Finding in BacteriavGene Finding in Virusesv每一大类包括多个分析软件每一大类包括多个分析软件在在Softberry主页主页选择选择“Gene Finding in Eukaryota”类中的类中的“FGENESH”在在FGENESH网页网页输入输入D63710序列(序列(fasta格式)、选择物格式)、选择物种(种(human)作为参照)作为参照分析结果(分析结果(文字文字和和图像图像)uGenScan(http:/g)用三个)用三个物种模式作为参照物种模式作为参照vVertebratevArabidopsisvMaize在在GenScan主页主页输入输入D63710序列、选择物种序列、选择物种(Vertebrate)作为参照)作为参照分析结果(分析结果(文字文字和和图像图像)分析举例(分析举例(2)GenScan分析举例(分析举例(3)GeneMarkuGeneMark(http:/)v用于真核、原核和病毒等基因的预测用于真核、原核和病毒等基因的预测v多种物种参照多种物种参照在在GeneMark的的分析主页分析主页选择选择“GeneMark-E”在在“GeneMark-E”网页输入网页输入D63710序列、选择物序列、选择物种种“H.sapiens”,选择输出格式,选择输出格式分析结果分析结果Combine extrinsic and ab initio Approaches/combineextrinsicandab initioapproachesbymappingproteinandESTdatatothegenometovalidateab initiopredictions.increasetheaccuracyofthegeneprediction 3.利用比较基因组预测基因利用比较基因组预测基因(Comparative Genomics Approaches)u依赖于全基因组测序结果依赖于全基因组测序结果u亲缘关系相近生物的基因序列具有保守性亲缘关系相近生物的基因序列具有保守性分析举例分析举例N-SCAN/Twinscan(http:/mblab.wustl.edu/nscan/)选择选择N-SCAN在线分析(需免费注册)在线分析(需免费注册)输入待分析序列,选择输入待分析序列,选择masking,clade,species和和informant分析结果分析结果基因预测存在主要问题基因预测存在主要问题v假阳性(假阳性(False Positive):多预测了假的编码区,即):多预测了假的编码区,即在非编码区预测出基因在非编码区预测出基因v假阴性(假阴性(False Negative):漏掉了真实的编码区,):漏掉了真实的编码区,即将基因预测为非编码区即将基因预测为非编码区v过界预测(过界预测(Over Prediction):由于基因边界很难准):由于基因边界很难准确定位,预测经常会超过实际边界确定位,预测经常会超过实际边界v片段化(片段化(Fragmentation):内含子太大的基因,在预):内含子太大的基因,在预测时容易断裂成两个或多个基因测时容易断裂成两个或多个基因v融合化(融合化(Fusion):距离过近的两个或多个基因,在):距离过近的两个或多个基因,在预测时容易被融合成一个很大的基因预测时容易被融合成一个很大的基因v包括多种基因预测软件包括多种基因预测软件vNNPP分析启动子位点分析启动子位点在在BCM的的分析主页分析主页选择选择“Gene Feature Searches”在在“Gene Feature Searches”网页粘贴网页粘贴D63710序列、选择序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction”分析结果分析结果BCMhttp:/(三)基因精细结构分析(三)基因精细结构分析Promoter2.0predictstranscriptionstartsitesofvertebratePolIIpromotersinDNAsequences.分析启动子位点分析启动子位点Promoter 2.0 Prediction Serverhttp:/services/Promoter/在在“Promoter 2.0”网页粘贴网页粘贴D63710序列序列分析结果分析结果分析转录因子结合位点分析转录因子结合位点Cis-actingelement(顺式元件)和trans-actingelement(反式元件)的互作分析举例分析举例 PROSCAN在在Proscan网页网页粘贴序列(粘贴序列(FASTA格式)格式)分析结果分析结果http:/www-/分析结果分析结果分析举例分析举例PLACE(ADatabaseofPlantCis-actingRegulatoryDNAElement)http:/在在PLACE主页点击主页点击“Signal Scan Search”在在“PLACE Web Signal Scan”网页网页粘贴序列(粘贴序列(FASTA)三种结果呈现方式:三种结果呈现方式:grouped by signal mapped to sequence scan by sequence order点击点击相关链接相关链接查看什么类型的转录因子结合在相关查看什么类型的转录因子结合在相关cis-element上上植物植物第六章第六章 基因预测和基因结构分析基因预测和基因结构分析(上机操作)(上机操作)生物信息学Gene-finding software and resources SoftwareTutorialsBooksAbeginnersguidetoeukaryoticgenomeannotation练习练习1.从从核核苷苷酸酸数数据据库库中中选选择择DNA序序列列(AF319968),试试用用不不同同的的分分析析工工具具分分析析其其基基因因结结构构,并并将将分分析析结结果果与与核核苷苷酸数据库中的结果相比较。酸数据库中的结果相比较。2.预预测测上上述述序序列列是是否否含含有有启启动动子子区区域域,分析其转录因子结合位点。分析其转录因子结合位点。FGENESH预测结果预测结果FGENESH预测结果预测结果GENSCAN预测结果预测结果GeneMark预测结果预测结果转录起点预测转录起点预测