《整合生物信息学.docx》由会员分享,可在线阅读,更多相关《整合生物信息学.docx(11页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、整合生物信息学 自人类基因组安排实施以来,生物信息学得到了长足的发展和应用。从序列分析、结构预料、功能分析到应用,生物信息学成为了生命科学发展必不行少的学科。目前,除了接着从事序列分析、数据库建设、数据库整合和数据挖掘、结构分析与功能预料、大规模功能表达谱的分析、代谢网络建模分析、程序开发以及商业化等领域的探讨外,整合生物信息学的理念被起先重视。 一、整合生物信息学的探讨领域 尽管目前一般意义上的生物信息学还局限在分子生物学层次,但广义上的生物信息学是可以探讨生物学的任何方面的。生命现象是在信息限制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统
2、等。这些层次的系统生物学探讨将成为后基因组时代的生物信息学探讨和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本探讨规律的深化,生命科学正处在用统一的理论框架和先进的试验方法来探讨数据间的困难关系,向定量生命科学发展的重要阶段。采纳物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合探讨,在分子水平上揭示生物信息及其传递的机理与过程,描述和说明生命活动规律,已成生命科学中的前沿科学问题,为整合生物信息学的发展供应了数据资源和技术支撑。 当前,由各种Omics组学技术,如基因组学,转录组学,蛋白质组学,代谢组学等技术,积
3、累了大量的试验数据。约有800多个公共数据库系统和很多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依靠于计算机科学的方法和概念,最终由生物学家来系统解决详细的生物问题。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便担当了这一任务。 图1简洁描述了生物信息学、系统生物学与信息学、生物学以及基因组安排各个探讨领域的相关性。可以看出基因组安排将生物学与信息学前所未有地结合到了一起,而生物信息学的兴起是与人类基因组的测序安排分不开的,生物信息学自始至终供应了所需的技术与方法,系统生物学强
4、调了生物信息学的生物反应模型和机理探讨,也是多学科高度交叉,促使理论生物学、生物信息学、计算生物学与生物学走得更近,也使我们探讨基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的探讨领域,它包括了基因组安排的序列、结构、功能、应用的整合,也涵盖了生物信息学、系统生物学技术与方法的有机整合。 整合生物信息学的最大特点就是整合,不仅整合了生物信息学的探讨方法和技术,也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学,以及工程学等各学科。其生物数据整合从微观到宏观,应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行
5、初步的介绍和探讨。 二、生物数据挖掘与整合 生物系统的不同性质的组分数据,从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自试验室和公共数据资源。但这些数据存在许多不利于处理分析的因素,如数据的类型差异,数据库中存在大量数据冗余以及数据错误;存储信息的数据结构也存在很大的差异,包括文本文件、关系数据库、面对对象数据库等;缺乏统一的数据描述标准,信息查询方面大相径庭;很多数据信息是描述性的信息,而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获得正确数据模式和关系是数据挖掘与整合的主要任务。 数据挖掘是学问发觉的一个过程,其他各个环节,如数据库的选择和取样,数据的
6、预处理和去冗余,错误和冲突,数据形式的转换,挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式,即模式识别。如DNA序列的特征核苷碱基,蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说,模式识别可以被看作是依据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是:特征选择,度量,处理,特征提取,分类和标识。现有的数据挖掘技术常用的有:聚类、概念描述、连接分析、关联分析、偏差检测和预料模型等。生物信息学中用得比较多的数据挖掘的技术方法有:机器学习,文本挖掘,网络挖掘等。 机器学习通常用于数据挖掘中有关模式匹配和模式发觉。机器学习包含了一系列用于统计、
7、生物模拟、适应限制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序,遗传算法,神经网络,统计方法,贝叶斯方法,决策树和隐马尔可夫模型等。值得一提的是,大多数数据挖掘产品运用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法,所不同的是算法的实现和对性能的优化。当然也有一些人采纳的是自己研发的未公开的算法,效果可能也不错。 大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列试验数据和分子三维结构数据等,而大量的生物学数据更是以非结构化的形式被记载在各种文本中,其中大量文献以电子出版物形式存在,如PubMed Central中收集了大量的生物
8、医学文献摘要。 文本挖掘就是利用数据挖掘技术在大量的文本集合中发觉隐含的学问的过程。其任务包括在大量文本中进行信息抽取、语词识别、发觉学问间的关联等,以及利用文本挖掘技术提高数据分析的效率。近年来,文本挖掘技术在生物学领域中的应用多是通过挖掘文本发觉生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取学问,并非易事。目前较为有效的方法是利用自然语言处理技术NLP,该技术包括一系列计算方法,从简洁的关键词提取到语义学分析。最简洁的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。困难些的NL
9、P系统则利用统计方法来识别不仅仅相关的关键词,以及它们在文本中的分布状况,从而可以进行上下文的推断。其结果是获得相关文档簇,可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的,主要是通过分析句子中的字、词和句段及其相关性来断定其含义。 生物信息学离不开Internet网络,大量的生物学数据都储存到了网络的各个角落。网络挖掘指运用数据挖掘技术在网络数据中发觉潜在的、有用的模式或信息。网络挖掘探讨覆盖了多个探讨领域,包括数据库技术、信息获得技术、统计学、人工智能中的机器学习和神经网络等。依据对网络数据的感爱好程度不同,网络挖掘一般还可以分为三类:网络内容挖掘、网络结构挖掘、网络
10、用法挖掘。网络内容挖掘指从网络内容/数据/文档中发觉有用信息,网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接,即对网络文档的结构进行挖掘,发觉他们之间连接状况的有用信息。在网络结构挖掘领域最闻名的算法是HITS算法和PageRank算法。网络用法挖掘通过挖掘相关的网络日志记录,来发觉用户访问网络页面的模式,通过分析日志记录中的规律。通常来讲,经典的数据挖掘算法都可以干脆用到网络用法挖掘上来,但为了提高挖掘质量,探讨人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发觉算法等。 网络数据挖掘比单个数据仓库的挖掘要困难得多,
11、是一项困难的技术,一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很简单地结合在一起,因而使搜寻多个异质数据库成为可能,从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式,目前主要的生物信息学数据库都已经供应了支持XML的技术,面对网络的数据挖掘将会变得特别轻松。如运用XQuery 标准查询工具,完全可以将 Internet看作是一个大型的分布式XML数据库进行数据阅读获得、结构化操作等。 此外,数据挖掘还要考虑到的问题有:实时数据挖掘、人为因素的参加、硬件设施的支持、数据库的误差问题等。 一般的数据整
12、合的方法有:联合数据库系统, 多数据库系统和数据仓库。这些方法因为在整合的程度,实体化,查询语言,应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时,指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是供应长期的试验数据存储和简便的数据访问,重在数据管理,而系统生物学的数据库则同时对这些试验数据进行分析,供应预料信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证、多种挖掘技术、高度智能化等。 三、生命科学与生物信息学技术的整合 生物信息学的探讨当前还主要集中在分子水平,如基因组学/蛋白质组学
13、的分析,在亚细胞、细胞、生物组织、器官、生物体及生态上的探讨才刚刚起先。从事这些新领域的探讨,理解从基因型到表型的生命机理,整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来探讨生命现象。另外,由其发展出的新方法、新技术,其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。 目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等试验技术,可以从多方面,多角度来分析探讨某一生命现象,从而针对单一的试验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析,都有了大量的生物信息学技术,如
14、序列分析、motif找寻、基因预料、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预料和分子模拟、比较基因组学探讨、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法,通过整合生物数据,整合信息技术来推动生命科学干试验室与湿试验室的组合探讨。其实践应用涉及到生物数据库的整合、功能基因的发觉、单核苷酸多态性/单体型的了解、代谢疾病的机理探讨、药物设计与对接、软件工具以及其他应用。 在整合过程中,还应当留意以下几方面内容:整合数据和文本数据挖掘方法,数据仓库的设计管理,生物数据库的错误与冲突,生物本体学
15、及其质量限制,整合模型和模拟框架,生物技术的计算设施,生物信息学技术流程优化管理,以及工程应用所涉及的范围。 四、学科、人才的整合 整合生物信息学也是学科、教化、人才的整合。对于综合性高等院校,计算机科学/信息学、生物学等学科为生物信息学的发展供应了学科基础和保障。如何充分利用高校雄厚的学科资源,合理搭建生物信息学专业结构,培育一流的生物信息学人才,是我们的任务和目标。 计算机科学/信息学是利用传统的计算机科学,数学,物理学等计算、数学方法,如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理,模拟预料等。生物信息学的快速发展给计算机科学也带来了巨大的挑战
16、和机遇,如高通量的数据处理、储存、检索、查询,高效率的算法探讨,人工智能的全新应用,困难系统的有效模拟和预料。整合生物信息学的课程设计可以供应以下课程:Windows/Unix/Linux操作系统、C+/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘,机器学习、可视化技术、软件工程、计算机与网络平安、计算机硬件、嵌入式系统、限制论、计算智能,微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。 生物学是探讨生命现象、过程及其规律的科学,主要包括植物学等十几个一级分支学科。整合生物信息
17、学的课程设计可以供应以下课程:一般生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、爱护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。 作为独立学科的生物信息学,其基本的新算法,新技术,新模型,新应用的探讨是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与学问发觉、计算生物学、药物设计、生物网络分析等。另外,整合生物信息学的
18、工程应用,也须要了解以下学科,如生物工程、生物技术、医学影像、信号处理、生化反应限制、生物医学工程、数学模型、试验设计、农业系统与生产等。 此外,整合生物信息学的人才培育具有很大的国际竞争压力,培育优秀的专业人才,必需使其具备优良的生物信息科学素养,具有国际视野,学问实力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向,整合学科优势和强化师资力气,促进国际沟通。 五、总结及展望 二十一世纪是生命科学的世纪,也是生物信息学快速不断整合发展的时代,整合生物学的探讨和应用将对人类正确相识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的探讨,整合生物信息学供应了从基因序列
19、,蛋白结构到代谢功能各方面的生物数据,也供应了从序列分析,蛋白质拓扑到系统生物学建模等方面的信息技术,从多层次、多水平、多途径进行科学探讨。 整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的探讨。它依靠于生物学,计算机学,生物信息学/系统生物学的探讨成果,但同时也给这些学科供应了更广袤的探讨和应用空间,并推动整个人类科学的进程。 我国的生物信息学教化在近几年已经有了长足的进步和发展。将来整合生物信息学人才的培育还须要加强各学科有效交叉,尤其是计算机科学,要更紧密地与生命科学结合起来,共同发展,让我们的生命科学、计算机科学和生物信息学的教化和科研走得更高更前沿。 作者简介: 陈铭,德国Bielefeld高校生物信息学博士,浙江高校生命科学学院副教授,生物信息学系副主任,探讨方向:生物信息学,系统生物学。 “本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文” 第11页 共11页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页第 11 页 共 11 页
限制150内