生物信息学Bioinformatics第讲生物信息学研究内容.ppt
《生物信息学Bioinformatics第讲生物信息学研究内容.ppt》由会员分享,可在线阅读,更多相关《生物信息学Bioinformatics第讲生物信息学研究内容.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生物信息学Bioinformatics第讲生物信息学研究内容 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望生 物 信 息 学主要介绍的内容:主要介绍的内容:什么是生物信息学?什么是生物信息学?国内外生物信息学的研究历史和现状。国内外生物信息学的研究历史和现状。生物信息学的研究内容和科学目标。生物信息学的研究内容和科学目标。分分别别解解读读生生物物分分子子的的三三大大核核心心数数据据库库:GenBank核核酸酸序序列列数数据据库库、SWISS-PORT蛋白质序列数
2、据库、蛋白质序列数据库、PDF生生物物大大分分子子结结构构数数据据库。库。介绍国内外有关生物信息学的网站和网址。介绍国内外有关生物信息学的网站和网址。生物信息学生物信息学在上找有关生物信息学的网站或网页BiologyProteinPhenotypeDNA(Genotype)基因结构基因结构The4basescNNCCCCCCCCCNNNNNHooHHHHHHHHAdenineThyminecNNCCCCCCCCNNNNHoHHoNNHHHHHGuanineCytosineNote:this is flat!Uracil replaces Tin RNAPurine ringPyrimidine
3、 ring三三 研究内容研究内容生生物物信信息息学学与与计计算算生生物物学学或或生生物物计计算算有有着密切的关系,但又不尽相同着密切的关系,但又不尽相同.目目前前归归入入生生物物信信息息学学研研究究领领域域的的大大致致有有以下七个方面:以下七个方面:BioinfomaticsBioinfomatics七个方面研究内容七个方面研究内容1.1.建立和管理各种生物数据库建立和管理各种生物数据库2.生物信息数据库生物信息数据库使用使用3.生物信息学中的数学模式和算法生物信息学中的数学模式和算法研究研究4.4.数据库接口和检索工具的研制数据库接口和检索工具的研制5.5.HGPHGP的实施,对信息采集和处
4、理提出的要求的实施,对信息采集和处理提出的要求6.6.生生物物信信息息学学最最重重要要的的任任务务,是是从从大大量量数数据据中中提取新知识提取新知识7.7.DNADNA芯片和微阵列的发展芯片和微阵列的发展1 1 建立和管理各种生物数据库建立和管理各种生物数据库各各种种生生物物数数据据库库的的建建立立和和管管理理。如如核核酸酸序序列列数数据据库库、蛋蛋白白质质数数据据库库、各各种种专专业业的数据库等。的数据库等。这这是是一一切切生生物物信信息息学学工工作作的的基基础础,通通常常要要有有计计算算机机科科学学背背景景的的专专业业人人员员与与生生物物学家密切合作。学家密切合作。2、生物信息数据库、生物
5、信息数据库使用使用近近些些年年来来随随着着快快速速序序列列测测定定、基基因因重重组组、多多维维核核磁磁共共振振等等技技术术的的应应用用,基基因因组组与与蛋蛋白白质质的的实实验数据呈爆炸性趋势增长验数据呈爆炸性趋势增长;建建立立数数据据库库再再结结合合有有关关的的分分析析软软件件使使大大规规模模数数据据的的贮贮存存、处处理理和和分分析析成成为为可可能能,并并已已发发展展成成为为包包括括基基因因组组信信息息与与蛋蛋白白质质结结构构模模拟拟在在内内的的生生物物信息学研究的重要基础。信息学研究的重要基础。核酸序列数据库核酸序列数据库GenbankGenbank,美国国家生物技术信息中心的数,美国国家生
6、物技术信息中心的数据库(据库(http:/ncbi.nhm.nlm.govhttp:/ncbi.nhm.nlm.gov)。)。EMBLEMBL,建立在欧洲分子生物实验室的数据库,建立在欧洲分子生物实验室的数据库 (http:/www.embl-heidelberg.de)http:/www.embl-heidelberg.de)。DDBJDDBJ,是是DNA Data Bank of JapanDNA Data Bank of Japan的简称,又的简称,又叫叫日本的日本的DNADNA数据库银行(数据库银行(available at available at http:/www.nig.ac.
7、jp http:/www.nig.ac.jp)。GenbankGenbank美国国家生物技术信息中心的数据库原中山医科大学的网页有链接:http:/ 线线 人人 类类 孟孟 德德 尔尔 遗遗 传传 数数 据据 库库(Online MendelianInheritanceinMan,OMIM)http:/www3.ncbi.nlm.nih.gov/omim/其他重要生物数据库其他重要生物数据库鱼类的鱼类的斑马鱼斑马鱼http:/zfin.org/昆虫类的果蝇昆虫类的果蝇(Drosophila melanogaster,fruitfly)http:/www.fruitfly.org/脊椎动物如小鼠
8、脊椎动物如小鼠(Mus musculus)http:/www.ncbi.nih.gov/genome/guide/mouse/细菌如大肠杆菌细菌如大肠杆菌(http:/www.genetics.wisc.edu/pub/sequence/)原生动物如人类一种寄生性的原虫原生动物如人类一种寄生性的原虫(Plasmodiumfalciparum):http:/PlasmoDB.org/三维结构数据库三维结构数据库PDB(ProteinDataBank,http:/ motif of protein binding to DNA结结 合合 DNA的的 蛋蛋 白白 质质 螺螺 旋旋 结结 构构 基基
9、序序Motif数据库数据库-PROSITEPROSITE(http:/www.expasy.org/prosite/)蛋白质结构数据蛋白质结构数据生物信息数据库生物信息数据库的主要服务的主要服务借借助助特特定定的的算算法法模模型型提提供供同同源源性性分分析析是是目目前前各各种种生生物物信信息息数数据据库库的的最最重重要要内内容容之之一。一。分子生物学的中心法则分子生物学的中心法则DNAmRNA结构结构翻译翻译转录转录复制复制蛋白质蛋白质/酶酶cDNADNA功能功能反转录反转录相互作用相互作用折叠折叠3、生物信息学中的数学模式和重要算法研究迄迄今今已已有有相相当当多多的的数数学学方方法法应应用用
10、于于生生物物信信息息学学的的研研究究。而而且且一一种种算算法法本本身身就就是是一一门门学学问问,例例如:如:机器学习法机器学习法人工神经网络人工神经网络分形理论分形理论密码学密码学全息论全息论高维分布的统计方法高维分布的统计方法生物信息学中的生物信息学中的重要算法重要算法-聚类分析聚类分析生物信息学问题许多可归为聚类问题。生物信息学问题许多可归为聚类问题。聚聚类类分分析析:聚聚类类是是宏宏观观与与微微观观生生物物学学研研究究中中最最常常用用的的一一种种数数学学方方法法,它它的的基基本本目目的的是是将将n个个样样本本划划分分为为m个个类类,从从而而使使同同类类样样本本较较为为相相似似而而不不同同
11、类类间间样样本本差差异较大。异较大。其中支撑矢量机算法可从网上学习:其中支撑矢量机算法可从网上学习:http:/www.kernel-machine.org/寻找转录因子的结合位点寻找转录因子的结合位点生物信息学中的生物信息学中的重要算法重要算法遗遗传传算算法法:遗遗传传算算法法的的提提出出,本本身身就就是是借借鉴鉴生生物物界界中中的的适适者者生生存存、优优胜胜劣劣汰汰的的遗遗传传机机制制所所提提出出来来的的随随机机化化搜搜索索方方法法,其其最最主主要要的的特特点点就就是是面面向向结结构构对对象象、不不受受求求导导和和函函数数连连续续性性的的限限定定、具具有有内内在在的隐并行性和良好的全局寻优
12、能力。的隐并行性和良好的全局寻优能力。生生 物物 信信 息息 学学 中中 的的 重重 要要 算算 法法-遗传算法遗传算法过过去去20多多年年的的发发展展,已已使使得得遗遗传传算算法法成成为为现现代代智智能能计计算算中中的的关关键键技技术术之之一一,并并已已应用于生物信息学的研究:应用于生物信息学的研究:基于蛋白质主链结构的侧链构象计算基于蛋白质主链结构的侧链构象计算蛋白质折叠的算法模型与模拟蛋白质折叠的算法模型与模拟图像匹配中的遗传算法图像匹配中的遗传算法结构图的同态研究结构图的同态研究目前较流行的数学方法和算法(目前较流行的数学方法和算法(1)神经网络(神经网络(NeuralNetworks
13、)1982年年,神神经经网网络络首首次次被被应应用用到到生生物物学学的的研研究究中中来来,接接着着Stormo等等人人应应用用类类似似的的算算法法在在预预测测大大肠肠杆杆菌菌体体内内的的一一些些蛋蛋白白质质翻翻译译的的起起始始部部位位取取得了成功。得了成功。1988年年,随随着着QianandSejnowski发发表表的的一一篇篇关关于于蛋蛋白白质质二二级级结结构构预预测测的的文文章章,神神经经网网络络的的算算法已成为蛋白质二级结构分析预测的主流算法。法已成为蛋白质二级结构分析预测的主流算法。另另外外,神神经经网网络络在在预预测测信信号号肽肽,研研究究遗遗传传密密码码的的结构和起源等方面也有较
14、多应用。结构和起源等方面也有较多应用。目目前前较较流流行行的的数数学学方方法法和和算算法法(2)Threading方法方法Threading方法或称折叠类型的识别方法。方法或称折叠类型的识别方法。基基本本思思想想是是:预预测测的的蛋蛋白白的的折折叠叠类类型型与与某某一一已已知知结结构构的的蛋蛋白白的的折折叠叠类类型型相相同同,这这样样蛋蛋白白质质结结构构预预测测问问题题就就转转变变为为在在已已知知空空间间结结构构的的蛋蛋白白质质中中,选选取取一一种种最最有有可可能能的的折折叠叠类类型型,从从而而大大大大减减小小预预测测蛋蛋白白质结构的难度。质结构的难度。4 4 数据库接口和检索工具的研制数据库
15、接口和检索工具的研制数数据据库库的的内内容容来来自自万万千千生生物物学学者者的的日日积积月月累累,最最终终又又为为生生物物学学者者们们所所用用。但但不不能能要要求求一一般般生生物物学学工工作作者者具具有有高高深深的的计计算算机机和和网网络络知知识识,因因此此,必必须须发发展展查查询询数数据据库库和和向向库库里里提提供供数数据据的的方方便便接接口口。这这是是专专业业人人员员才才能能胜胜任任的的工工作作,通通常常在在生物信息中心里进行。生物信息中心里进行。5 5 HGPHGP的的实实施施,对对信信息息采采集集和和处处理提出的要求理提出的要求人人类类基基因因组组计计划划(HGP)(HGP)的的实实施
16、施,配配合合大大规规模模的的DNADNA自自动动测测序序,对对信信息息的的采采集集和和处处理理提提出出了了空空前前的的要要求求。从从各各种种图图谱谱的的分分析析,大大量量序序列列片片段段的的拼拼接接组组装装,寻寻找找基基因因和和预预测测结结构构与与功功能能,到到数数据据和和研研究究结结果果的的视像化,无不需要高效率的算法和程序。视像化,无不需要高效率的算法和程序。因因此此,研研究究新新算算法法、发发展展方方便便适适用用的的程程序,是生物信息学的日常任务。序,是生物信息学的日常任务。与与HGPHGP相关研究的几个方面表现:相关研究的几个方面表现:由由于于当当前前生生物物信信息息学学发发展展的的主
17、主要要推推动动力力来来自自HGPHGP,所所以以生生物物信信息息学学与与HGPHGP的的关关系系就就显显得得更更为为密密切切,其其与与HGPHGP相相关关的的研研究究主主要表现在如下几个方面:要表现在如下几个方面:1 1)高高度度自自动动化化的的实实验验数数据据的的获获得得、加加工工和整理和整理如如何何将将实实验验室室中中得得到到的的生生物物学学信信息息转转化化为为计计算算机机能能够够处处理理的的数数字字信信息息,是是生生物物学的一个重要课题。学的一个重要课题。体体现现在在各各种种自自动动化化分分子子生生物物学学仪仪器器应应用用上上,如如DNADNA测测序序仪仪,PCRPCR仪仪等等。这这类类
18、仪仪器器将将实实验验所所得得的的物物理理化化学学信信号号转转化化为为数数字字信信息息,并并对对其其作作简简单单分分析析,再再将将分分析析结结果果用用于于实实验验条条件件的的控控制制,完完成成高高度度自自动动化的实验过程。化的实验过程。2 2)序列片段的拼接)序列片段的拼接目目前前DNADNA自自动测序序仪每每个个反反应只只能能测序序500bp500bp左左右右。如如何何将将这些些序序列列片片段段拼拼接接成成完完整整的的DNADNA顺序序就就成成为接下来接下来 的一个重要工作。的一个重要工作。传统的的测序序技技术通通常常将将克克隆隆进行行亚克克隆隆并并对亚克克隆隆进行排序。行排序。这些工作需要大
19、量的人力物力。些工作需要大量的人力物力。现在在生生物物信信息息学学提提供供了了自自动而而高高速速地地拼拼接接序序列列的的算算法法,不不仅避避免免了了亚克克隆隆排排序序所所需需的的大大量量繁繁琐的的工工作作,还能能使使序序列列具具有有一一定定的的冗冗余余性性(redundancyredundancy,即即一一定数量的重复)以保定数量的重复)以保证序列中每个碱基的准确性。序列中每个碱基的准确性。3 3)基因区域的预测)基因区域的预测在在完完成成序序列列的的拼拼接接后后,我我们们得得到到的的是是很很长长的的DNADNA序序列列,甚甚至至可可能能是是整整个个基基因因组组的的序序列列。这这些些序序列列中
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 Bioinformatics 研究 内容
限制150内