《真核生物基因结构的预测分析精选PPT.ppt》由会员分享,可在线阅读,更多相关《真核生物基因结构的预测分析精选PPT.ppt(37页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于真核生物基因结构的预测分析第1页,讲稿共37张,创作于星期二2基因组序列基因组序列基因组序列基因组序列cDNAcDNA序列序列序列序列编码区预测编码区预测Codon biasGC Content限制性酶切位点限制性酶切位点基因结构分析基因结构分析选择性剪切选择性剪切转录调控因子转录调控因子序列比对序列比对功能注释功能注释KEGGGO系统发育树系统发育树蛋白质序列蛋白质序列翻译翻译蛋白质理化性质蛋白质理化性质二级结构预测二级结构预测结构域分析结构域分析重要信号位点分析重要信号位点分析三级结构预测三级结构预测基因组功能分析基因组功能分析第2页,讲稿共37张,创作于星期二3真核生物基因的主要结构
2、真核生物基因的主要结构第3页,讲稿共37张,创作于星期二4基因结构分析基因结构分析开放读码框开放读码框GENSCANCpG岛岛CpGPlot转录终止信号转录终止信号POLYAH启动子启动子/转录起始位点转录起始位点PromoterScan密码子偏好分析密码子偏好分析CodonWmRNA剪切位点剪切位点NETGENE2Spidey选择性剪切选择性剪切ASTD基因结构分析常用软件基因结构分析常用软件第4页,讲稿共37张,创作于星期二5开放读码框的识别开放读码框的识别开放读码框(open reading frame,ORF)是一段起始密码子和终止密码子之间的碱基序列ORF 是潜在的蛋白质编码区第5页
3、,讲稿共37张,创作于星期二6基因开放阅读框基因开放阅读框/基因结构分析识别工具基因结构分析识别工具ORF Finder http:/www.ncbi.nlm.nih.gov/gorf/gorf.html NCBI通用BestORFhttp:/ Finderhttp:/rulai.cshl.org/tools/genefinder/Zhang lab人、小鼠、拟南芥、酵母FGENESHhttp:/ Maryland原核Fgeneshttp:/ http:/compbio.ornl.gov/generation/ORNL原核FGENESBhttp:/ http:/genes.mit.edu/ge
4、nomescan.html MIT脊椎、拟南芥、玉米GeneWise2http:/www.ebi.ac.uk/Wise2/EBI人GRAILhttp:/grail.lsd.ornl.gov/grailexp/ORNL人、小鼠、拟南芥、果蝇第6页,讲稿共37张,创作于星期二7ORF识别识别:GENSCANhttp:/genes.mit.edu/GENSCAN.html结果返回到邮箱(可选)结果返回到邮箱(可选)提交序列提交序列提交序列文件提交序列文件运行运行GENSCAN显示氨基酸或显示氨基酸或CDS序列序列序列名称(可选)序列名称(可选)是否显示非最优外显子是否显示非最优外显子选择物种类型选择
5、物种类型第7页,讲稿共37张,创作于星期二8第8页,讲稿共37张,创作于星期二99GENSCAN输出结果:文本输出结果:文本中间外显子中间外显子起始外显子起始外显子终止外显子终止外显子加尾信号加尾信号启动子启动子中间外显子中间外显子权重权重第9页,讲稿共37张,创作于星期二10第10页,讲稿共37张,创作于星期二11转录调控序列分析转录调控序列分析 CpG岛、启动子区域和转录终止信号的预测第11页,讲稿共37张,创作于星期二12CpG岛的预测CpG岛常位于真核生物基因转录起始位点,GC含50%,长度200bp的一段DNA序列。第12页,讲稿共37张,创作于星期二13CpG Island 分析常
6、用软件分析常用软件CpG Island http:/ finderhttp:/ 预测结果起始为532bp 终止于51783bp观测值与期望观测值与期望值的比值值的比值GC含量的比值含量的比值预测得到的预测得到的CpG预测得到的预测得到的CpG第16页,讲稿共37张,创作于星期二17转录终止信号转录终止信号上游作用元件:AAUAAA下游作用元件:GC rich二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA53AAUAAACAAAAAAAAAAAAA成熟mRNA53AAUAAACAGUmRNA前体53第17页,讲稿共37张,创作于星期二18转
7、录终止信号预测:POLYAHhttp:/ 提交序列文件提交序列文件提交序列提交序列第18页,讲稿共37张,创作于星期二19polyA位置GENESCAN预测结果PolyA位点52490bpPOLYAH输出结果对预测起佐证对预测起佐证的作用的作用权重权重吻合吻合第19页,讲稿共37张,创作于星期二20启动子区结构启动子区结构启动子(Promoter)位于结构基因5端上游,能活化RNA聚合酶,使之与模板DNA结合并具有转录起始的特异性。转录起始位点(Transcription start site,TSS)PYCAPY(嘧啶)核心启动子元件(Core promoter element)TATA b
8、ox,Pribnow box(TATAA)上游启动子元件(Upstream promoter element,UPE)CAAT box,GC box,SP1,Otc增强子(Enhancer)第20页,讲稿共37张,创作于星期二21原核和真核生物基因转录起始位点上游区结原核和真核生物基因转录起始位点上游区结构构原核生物原核生物真核生物真核生物TTGACATATAATAmRNA11035PyAPyTATAATGC区 CAAT区mRNA14025110增强子增强子上游启动子元件,上游启动子元件,UPE核心启动子元件核心启动子元件转录起始位转录起始位点点第21页,讲稿共37张,创作于星期二22Prom
9、oterScanhttp:/bimas.dcrt.nih.gov:80/molbio/proscan/WebPromoserhttp:/biowulf.bu.edu/zlab/PromoSer/WebNeural Network Promoter Predictionhttp:/www.fruitfly.org/seq_tools/promoter.htmlWebSoftberry:BPROM,TSSP,TSSG,TSSWhttp:/ 启动子结合位点分析常用软件启动子结合位点分析常用软件第22页,讲稿共37张,创作于星期二23启动子预测:PromoterScanhttp:/www-bimas.
10、cit.nih.gov/molbio/proscan/提交序列提交序列去掉该选项去掉该选项第23页,讲稿共37张,创作于星期二24PromoterScan输出结果找到的TATA box和转录起始位点预测可能的转录因子预测可能的转录因子转录因子在提交序列中的位置转录因子在提交序列中的位置第24页,讲稿共37张,创作于星期二25基因密码子偏好性基因密码子偏好性1.研究研究蛋白质结构蛋白质结构功能功能中的作用中的作用2.在在表达外源基因表达外源基因方面的作用方面的作用3.在在生物信息学生物信息学研研究中的作用究中的作用第25页,讲稿共37张,创作于星期二26基因密码子偏好性基因密码子偏好性:Codo
11、nW粘帖目的序列粘帖目的序列密码子表的选择密码子表的选择http:/mobyle.pasteur.fr/cgi-bin/portal.py?form=codonw#forms:codonw是否计算所有参数,一般选择是否计算所有参数,一般选择物种选择,与表达物种有关,物种选择,与表达物种有关,可以自行输入。可以自行输入。第26页,讲稿共37张,创作于星期二27CAI(Codon Adaptation Index)密码子适应指数密码子适应指数目标基因与高表达基因的密码子偏好性的相似程度。(1完全相同,0完全不相同,本例为0.173)CBI(Condon Bias Index)密码子偏好指标密码子偏
12、好指标目标基因与随机序列的最优密码子的差异程度(1完全偏好,0随机情况,可能为负值,本例为-0.049)Fop(Frequency of optimal codon)最优密码子频率最优密码子频率目标基因的最优密码子数与全部同义密码子数的比值(1完全偏好,0完全无偏好,本例为0.380)多多个个密密码码子子编编码码同同一一个个氨氨基基酸酸,同同义义密密码码子子。有有些些物物种种偏偏好好某某些些(12种种)同同义义密密码码子子,这这12种种同同义义密密码码子子即即为为高高表表达达密密码码子子。该该现现象象叫叫密密码码子偏好性。子偏好性。第27页,讲稿共37张,创作于星期二28各项指数输出结果各项指
13、数输出结果密码子使用频率密码子使用频率CodonW结果界面有效密码有效密码子数子数GC含量含量同义密码同义密码子总数子总数有效密码子有效密码子总数总数外源表达蛋白的外源表达蛋白的物理性质(亲疏物理性质(亲疏水性)水性)外源表达蛋外源表达蛋白芳香性白芳香性第28页,讲稿共37张,创作于星期二29内含子内含子/外显子剪切位点识别外显子剪切位点识别如何分析核酸序列中的外显子组成?通过对特征序列(GT-AG)的分析进行直接的预测基因预测软件(NetGene2)与相应的基因组序列比对,分析比对片段的分布位置(Spidey)第29页,讲稿共37张,创作于星期二30第30页,讲稿共37张,创作于星期二31剪
14、切位点识别:剪切位点识别:NetGene2http:/www.cbs.dtu.dk/services/NetGene2/提交序列提交序列选择物种选择物种点击点击第31页,讲稿共37张,创作于星期二32NetGene2输出结果输出结果供体位点供体位点受体位点受体位点可信度可信度 相位相位第32页,讲稿共37张,创作于星期二33mRNA剪切位点识别:剪切位点识别:SpideyNCBI开发的在线预测程序用于mRNA序列同基因组序列比对分析 http:/www.ncbi.nih.gov/spidey第33页,讲稿共37张,创作于星期二34Spidey同源序列的获得同源序列的获得:序列比对序列比对通过B
15、LAST进行序列比对,找到可能同源的相似性好的一系列mRNA序列。BLAST比对到的三条mRNA序列第34页,讲稿共37张,创作于星期二35输入基因组序列或序列数据库号输入基因组序列或序列数据库号输入相似性序列输入相似性序列判断用于分析的序列间的判断用于分析的序列间的差异,并调整比对参数差异,并调整比对参数不受默认内含子长度限制,不受默认内含子长度限制,默认长度:内部内含子默认长度:内部内含子为为35kb,35kb,末端内含子为末端内含子为100kb100kb比对阈值比对阈值选择物种选择物种输出格式选择输出格式选择最小最小mRNAmRNA长度长度第35页,讲稿共37张,创作于星期二36Spidey输出结果第一条蓝色序列第一条蓝色序列为基因组序列,为基因组序列,橘黄色为外显子橘黄色为外显子外显子对应于外显子对应于基因组上的基因组上的起始起始/结束位置结束位置外显子对应于外显子对应于mRNA/cDNAmRNA/cDNA上的上的起始起始/结束位置结束位置供体、受体位点供体、受体位点外显子外显子长度长度一致性一致性百分比百分比错配和错配和gapgap外显子外显子序号序号序列联配结果序列联配结果第36页,讲稿共37张,创作于星期二感谢大家观看第37页,讲稿共37张,创作于星期二
限制150内