原核基因组基因序列相似分析及其对基因预测结果的影响.pdf
《原核基因组基因序列相似分析及其对基因预测结果的影响.pdf》由会员分享,可在线阅读,更多相关《原核基因组基因序列相似分析及其对基因预测结果的影响.pdf(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 山东师范大学硕士学位论文目 录摘 要 IAbstractIII第一章绪论 IV1.1研究背景11.2国内外研究进展21.3研究内容和创新点41.4论文框架5第二章数据集和研究方法72.1 数据集构建72.2 研究方法7第三章原核基因组蛋白编码基因序列相似性分析123.1基于序列特征的相似性基因数目分析123.2 多拷贝基因的功能分析 133.3 基于密码子偏好的多拷贝基因特征分析203.4 本章小结 22第四章相似性基因序列去冗余对基因注释结果的影响244.1过注释基因预测数目的比较分析244.2 基因注释准确性比较分析 254.3 基因注释结果可靠性验证比较分析 284.4 本章小结 32
2、第五章总结与展望 32参考文献 34攻读硕士期间发表的论文46致谢47山东师范大学硕士学位论文I原核基因组基因序列相似性分析及其对基因预测结果的影响摘 要随着高通量测序技术的发展,发现基因组中普遍存在重复基因现象。基因重复在导致基因数量增大的同时,也为基因突变和正向选择提供原材料,进而为生物体进化提供可能。所以,了解重复基因的生物学意义和进化机制显得尤为重要。目前,对真核基因组中的重复基因研究较多,而对原核基因组中的重复基因、尤其是对多拷贝基因研究鲜有报道。因此,本课题首先对原核生物基因组中重复基因进行了深入统计分析。在此基础上,首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,为今后原
3、核生物进化研究及基因组分析提供可靠的数据和理论基础。另外,基因注释是基因组研究的重要课题,在许多基因注释算法中都采用了蛋白质编码基因序列作为训练集。而许多算法中没有考虑由于重复基因和多拷贝基因的存在导致蛋白质编码基因序列相似性冗余问题。数据集冗余是机器学习中影响预测效率的关键因素之一,序列相似性去冗余已被广泛应用于蛋白质序列相关预测问题中。因此,在对原核生物基因组中重复基因和多拷贝基因研究基础上,本文以两种具有广泛应用的基因重注释算法为例,进一步分析了相似性蛋白质编码基因序列对基因重注释结果的影响,为今后原核生物基因组蛋白质编码基因注释提供可靠的理论基础。论文主要工作包括:1. 首先构建了由R
4、efSeq数据库中下载的98个具有不同G+C含量原核生物基因组组成的数据集,运用CD-HIT软件对各基因组中重复程度80%的基因序列进行了相似性分析和去冗余,然后对各基因组中序列相似性等于100%的多拷贝基因进行了统计分析,结果表明在原核生物基因组中重复基因和多拷贝基因普遍存在,重复基因所占比例016.49%,多拷贝基因在各基因组中所占比例015.93%。对功能已知的多拷贝基因的COG分析表明,近87%的多拷贝基因的COG分类属于“L”,具体的功能分析发现有71.4%的多拷贝基因与编码转座酶相关,说明原核生物中的多拷贝基因的生物功能与环境适应相关。2. 为了研究相似性基因序列对基因注释结果的影
5、响,以Z-curve算法和山东师范大学硕士学位论文IIRPGM算法为例对相似性序列去冗余前、后的预测准确性、过注释基因预测个数和预测结果可靠性进行了深入对比分析。结果表明,去冗余前、后预测准确性和预测个数及其可靠性具有差别。为了研究序列去冗余程度与基因注释结果之间的关系,对两种算法中各基因组中蛋白质编码序列冗余程度与去冗余前后预测效率评价参数的变化程度进行了相关性分析,结果发现两者之间呈现不同程度负相关。因此,本文的分析结果表明蛋白质编码基因序列冗余对基因注释问题的影响是不可忽视的。关键词:原核生物基因组;重复基因;多拷贝基因;序列冗余;基因预测分类号:Q937山东师范大学硕士学位论文IIIS
6、imilarity analysis of protein coding genes and its impact on geneannotation in prokaryotic genomesAbstractWith the development of high-throughput sequencing technologies, theduplicated genes were found to be universal in genomes. Gene duplication can notonly increase the number of gene, but also pro
7、vide materials for gene mutation andpositive selection. At the same time, it can provide possibility for biological evolution.Therefore, understanding the significance of the biological and evolution mechanismof duplicated genes is particularly important. At present, the research of duplicatedgenes
8、in prokaryotic genomes is less than in eukaryotics genome, especially rarely formulti-copied genes. In this dissertation, duplicated genes in prokaryotic genomes werefurther analyzed firstly. On this basis, the multi-copied genes and its function has beensystemly researched for the first time, and a
9、im to provide reliable data and theoreticalbasis for prokaryote evolution research in the future. In addition, gene annotation is animportant topic of the genome research. Protein-coding gene sequences are regardedas the training set in many gene annotation algorithms. However, many algorithmsdidnt
10、consider the similarity redundancy problem due to duplicated genes andmulti-copied genes in protein-coding genes sequence. The redundancy of datacollection is one of key influence factors in machine learning. The cuting offredundancy of sequence similarity has been widely applied in predicting prote
11、insequences. Therefore, in this paper, we analyse the influence of sequence similarity tothe results of gene annotation and aim to provide a reliable theoretical basis for genepredicted. Detailed contributions of this work can be summarized as follows.I. The 98 different GC content prokaryotic genom
12、es were downloaded fromRefSeq database constructed data sets. CD-hit program was used to determine thesimilarity sequence with the threshold of 80% and to cut-off redundant sequences.Then, the multi-copied genes were analysised in all genomes. The statistical resultsshow that the ratio of duplicated
13、 genes is 0%16.49%, the ratio of multi-copied山东师范大学硕士学位论文IVgenes is 015.93%. Thefore, the results show that duplicated genes and multi-copiedgenes are widespread in prokaryotic genomes. The COG classification ofmulti-copied genes analysis shows that about 87% of multi-copied genes belongs toL. The f
14、unction of multi-copied genes analysis shows that about 71.4% ofmulti-copied genes related to coding enzymes. It shows that multi-copied genes arerelated to environmental adaptation.II. In order to study the influence of similarity gene sequences to gene prediction,we contrast genes prediction accur
15、acy, the numbers of reannotation genes, thereliability of prediction genes results before and after redundant with Z-curvealgorithm and RPGM algorithm. The statistical results show that the three aspects areall distinct before and after redundancy. In addition, the correlation analysis ofsequence re
16、dundancy degree and disparity of the various evaluation parameters beforeand after redundancy shows that the two factors have a different degree of negativecorrelation. Therefore, the analysis results show that the influences of protein-codinggene sequences redundancy to gene annotation problem cant
17、 be ignored.Key words: Prokaryotic genomes; Duplicated genes; Multi-copied genes; Sequencesredundancy; Gene prediction.Classification: Q937山东师范大学硕士学位论文1第一章 绪论1.1研究背景“人类基因组计划”1的完成促进了测序技术的迅速发展,大型生物数据库中的生物学数据呈指数形式增长。面对海量的基因组数据,如何挖掘其背后的生物学意义,揭示各种生命现象的奥秘已经成为生物学领域的前沿课题,它需要多学科的融合去共同解决,由此产生了一门新兴的交叉学科生物信息学2。
18、生物信息学是以生物数据为研究对象,以计算机数据库和计算机算法分析为主要研究手段,对大规模的原始数据进行一系列复杂过程的处理,从而获得重要的生物学信息。因此,生物信息学被誉为“解读生命天书的慧眼”3。目前,已有58000多个物种基因组序列被公布5,其中原核生物基因组占78%左右。基因组分析作为生物信息学研究的主要研究领域之一,为解读生命奥秘提供了坚实基础。其中,重复序列和重复基因的研究是基因组分析的重要研究内容。重复序列与重复基因是两个不同的概念。重复序列是没有遗传信息的“垃圾DNA序列” (junk DNA)7,但是,重复序列作为生物基因组中重要的组成部分,在基因组中也发挥着重要的功能。而重复
19、基因是基因,是指能够直接编码蛋白质或对蛋白质编码起间接调控作用的DNA序列,是由基因重复而产生的。基因重复(Gene Duplication)指含有基因的DNA 片段发生重复,产生1个或多个与原基因相似的基因或碱基序列11。这些重复基因中序列结构完全相同的基因成为多拷贝基因。由于这些重复基因和多拷贝基因存在,导致了基因组中相似性基因序列的存在。基因重复对生物体发挥着重要的作用。基因重复导致基因组中基因数量的增加,同时也是新基因产生的基础,这将为基因进化过程中的基因突变和进化选择提供遗传材料,是生物体进化的推动力量15。所以,对重复基因的研究尤为重要。目前,在真核基因组中对重复基因的研究报道很多
20、,尤其在高等被子植物中基因重复现象更为明显12。在一些模式生物中,如拟南芥13、水稻14、果蝇等生物中也都存在着基因重复现象。而对原核基因组中重复基因尤其是多拷贝基因的研究还很少。已有的研究表明,原核生物基因组中重复基因与环境适应相关16,这说明原核基因组中重复基因的存在对生物体发挥着重要的作用。另一方面,基因重复是造成蛋白质编码基因序列冗余的重要原因,在蛋白质预测相关问题山东师范大学硕士学位论文2中,大都考虑了蛋白质序列冗余对预测结果的影响,一般会对训练集中蛋白质序列进行去冗余。而许多蛋白质编码基因注释算法中并没有考虑数据集冗余问题17,18,19。在此背景下,本文首先对原核基因组中重复基因
21、进行统计研究,并首次开展了对原核生物基因组中多拷贝基因的系统分析,进而以目前常用的两种过注释基因预测算法为例,深入研究了由于重复基因导致的相似性蛋白质编码基因序列对基因注释结果的影响。因此,本文为今后原核生物基因组进化研究和蛋白质编码基因预测提供了新思路。1.2国内外研究进展1.2.1重复基因和多拷贝基因研究现状重复基因是生物进化的源泉和重要推动力,长期以来备受人们关注。对基因重复现象的发现最早可以追溯到19世纪90年代末,美国生物学和遗传学教授摩尔根(Thomas Hunt Morgan)教授就已经发现有多倍体的出现,但由于当时认识上的局限性,并未在学术界扩大影响。到20世纪初,Kuwada
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基因组 基因 序列 相似 分析 及其 预测 结果 影响
限制150内