生物物理学习PPT教案.pptx
《生物物理学习PPT教案.pptx》由会员分享,可在线阅读,更多相关《生物物理学习PPT教案.pptx(61页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 Gene Prediction Ideal caseReal worldWhat is a gene?Wilhelm Johannsens definition of a gene :The word gene was first used by Wilhelm Johannsen in 1909, based on the concept developed by Gregor Mondel in 1866. “The special conditions, foundations and determiners which are present in the gametes (配子)
2、in unique, separate and thereby independent ways by which many characteristics of the organism are specified.” Johannsen, W. (1909) Biol. Philos. 4: 303-329.What is a gene? A gene is the basic physical and functional unit of heredity. Genes, which are made up of DNA, act as instructions to make mole
3、cules called proteins. Old concept: A gene is a locus (or region) of DNA that encodes a functional protein or RNA product, and is the molecular unit of heredity.New definition: Gene PredictionGene prediction: To identify all genes in a genomeatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgc
4、atgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggct
5、atgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatg
6、caagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgcta
7、atgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgac
8、tatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcat
9、gcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcat
10、gcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggcta
11、tgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctGeneGene prediction is the basic for functional studiesFinding all genes in a genome could be hardFinding all the genes is hard- Mammalian genomes are lar
12、ge 8000 km of 10 bp type- Only about 1% coding proteins- Non-coding RNAs are more difficult to be predictedThe structure of prokaryotic (原核生物的) genesPromoter structure of prokaryotic (原核生物的) genesThe structure of eukaryotic (真核生物的) genesThe structure of eukaryotic (真核生物的) genesOpen Reading Frames (O
13、RFs)Protein coding gene prediction is to detect potential coding regions by looking for ORFsSignals defining ORFs in eukaryotic genes:- Start codon: ATG- Stop codons: TAG, TGA, TAA- Splicing donor sites: usually GT- Splicing acceptor sites: usually AGUTRs are usually defined according to expression
14、evidenceTypes of exonsSix Frames in a DNA SequenceDNA replication occurs in the 5 -to-3 direction Six Frames in a DNA SequenceSix Frames in a DNA SequenceCodon usage selection in translationCodon usage selection in translationCodon usage in mouse genomeUneven usage of codons may characterize a real
15、gene! Eukaryotic ORF prediction Signals defining ORFs in eukaryotic genes:- Start codon: ATG- Stop codons: TAG, TGA, TAA- Splicing donor sites: usually GT- Splicing acceptor sites: usually AG- Coding frame- Codon usageGene syntax rulesThe common gene syntax rules for forward-strand genes:Conceptual
16、gene finding frameworkConceptual gene finding frameworkMethods for Eukaryotic Gene Prediction1. Ab initio method: - Only use genomic sequences as input - GENSCAN (Burge 1997; Burge and Karlin 1997) - Fgenesh (Solovyev and Salamov 1997) - Capable to predict novel genes 2. Transcript-alignment-based m
17、ethod: - Use cDNA, mRNA or protein similarity as major clues - ENSEMBL (Birney et al. 2004) - High accuracy - Can only find genes with transcription evidence 3. Hybrid method: - Integrate EST, cDNA, mRNA or protein alignments into ab initio method - Fgenesh+ (Solovyev and Salamov 1997) - AUFUSRUS+ (
18、Stanke, Schoffmann et al. 2006)Methods for Eukaryotic Gene Prediction4. Comparative-genomics-based method: - Assume coding regions are more conserved Genome 1Genome 2Methods for Eukaryotic Gene Prediction4. Comparative-genomics-based method: - Assume coding regions are more conserved - Capable to pr
19、edict novel genes and non-protein coding genes - Can use transcript data to improve prediction accuracy - TWINCAN and N-SCAN (do not use transcript similarity) - TWINCAN-EST and N-SCAN-EST (use transcript similarity)Problems: - Performance depends on the evolutionary distance between the compared se
20、quences- Exon/intron boundaries may not be conservedAbout the ab initio gene prediction methodsDifficult to handle the following cases:- Nested/overlapped genes- Polycistronic genes- Alternative splicing- Frame-shift errors- Split start codons- Non-ATG triplet as the start codon- Extremely short exo
21、ns- Extremely long introns- Non-canonical introns- UTR intronsHidden Markov Model is a commonly used algorithm for gene predictionHidden Markov Model (HMM) Markov Property Markov Chain Markov Model Hidden Markov ModelMarkov PropertyMarkov Property is simply that given the present state, future state
22、s are independent of the past Stochastic processes are generally considered as the collections of random variables, thus have Markov PropertyMarkov ChainMarkov Chain is a system that we can use to predict the future given the presentIn the Markov Chain, the present state only depends on two things:
23、- Previous state - Probability of moving from previous state to present stateMarkov ChainTo estimate the status of studentsMarkov ChainSuppose graduate students have two types of moods: - Happy - Depressed about researchEach type of students has its own Markov chainFinally, there are three locations
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 物理 学习 PPT 教案
限制150内