生物信息学Bioinformatics第讲生物信息学研究内容市公开课一等奖百校联赛特等奖课件.pptx
《生物信息学Bioinformatics第讲生物信息学研究内容市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《生物信息学Bioinformatics第讲生物信息学研究内容市公开课一等奖百校联赛特等奖课件.pptx(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生生物物信信息息学学Bioinformatics第第2讲讲 生物信息学研究内容生物信息学研究内容主讲教师:主讲教师:刘刘吉吉平平年年3月月第1页生 物 信 息 学主要介绍内容:主要介绍内容:什么是生物信息学?什么是生物信息学?国内外生物信息学研究历史和现实状况。国内外生物信息学研究历史和现实状况。生物信息学研究内容和科学目标。生物信息学研究内容和科学目标。分分别别解解读读生生物物分分子子三三大大关关键键数数据据库库:GenBank核核酸酸序序列列数数据据库库、SWISS-PORT蛋白质序列数据库、蛋白质序列数据库、PDF生生物物大大分分子子结结构构数数据据库。库。介绍国内外相关生物信息学网站和
2、网址。介绍国内外相关生物信息学网站和网址。第2页生物信息学生物信息学在上找相关生物信息学网站或网页第3页BiologyProteinPhenotypeDNA(Genotype)第4页基因结构基因结构第5页The4basescNNCCCCCCCCCNNNNNHooHHHHHHHHAdenineThyminecNNCCCCCCCCNNNNHoHHoNNHHHHHGuanineCytosineNote:this is flat!Uracil replaces Tin RNAPurine ringPyrimidine ring第6页三三 研究内容研究内容生生物物信信息息学学与与计计算算生生物物学学或或
3、生生物物计计算算有有着亲密关系,但又不尽相同着亲密关系,但又不尽相同.当当前前归归入入生生物物信信息息学学研研究究领领域域大大致致有有以以下七个方面:下七个方面:第7页BioinfomaticsBioinfomatics七个方面研究内容七个方面研究内容1.1.建立和管理各种生物数据库建立和管理各种生物数据库2.生物信息数据库使用生物信息数据库使用3.生物信息学中数学模式和算法研究生物信息学中数学模式和算法研究4.4.数据库接口和检索工具研制数据库接口和检索工具研制5.5.HGPHGP实施,对信息采集和处理提出要求实施,对信息采集和处理提出要求6.6.生生物物信信息息学学最最主主要要任任务务,是
4、是从从大大量量数数据据中中提提取新知识取新知识7.7.DNADNA芯片和微阵列发展芯片和微阵列发展第8页1 1 建立和管理各种生物数据库建立和管理各种生物数据库各各种种生生物物数数据据库库建建立立和和管管理理。如如核核酸酸序序列列数数据据库库、蛋蛋白白质质数数据据库库、各各种种专专业业数数据库等。据库等。这这是是一一切切生生物物信信息息学学工工作作基基础础,通通常常要要有有计计算算机机科科学学背背景景专专业业人人员员与与生生物物学学家家亲密合作。亲密合作。第9页2、生物信息数据库使用、生物信息数据库使用近近些些年年来来伴伴随随快快速速序序列列测测定定、基基因因重重组组、多多维维核核磁磁共共振振
5、等等技技术术应应用用,基基因因组组与与蛋蛋白白质质试试验验数数据呈爆炸性趋势增加据呈爆炸性趋势增加;建建立立数数据据库库再再结结合合相相关关分分析析软软件件使使大大规规模模数数据据贮贮存存、处处理理和和分分析析成成为为可可能能,并并已已发发展展成成为为包包含含基基因因组组信信息息与与蛋蛋白白质质结结构构模模拟拟在在内内生生物物信信息息学学研究主要基础。研究主要基础。第10页核酸序列数据库核酸序列数据库GenbankGenbank,美国国家生物技术信息中心数据,美国国家生物技术信息中心数据库(库(http:/ncbi.nhm.nlm.govhttp:/ncbi.nhm.nlm.gov)。)。EM
6、BLEMBL,建立在欧洲分子生物试验室数据库,建立在欧洲分子生物试验室数据库 (http:/www.embl-heidelberg.de)(http:/www.embl-heidelberg.de)。DDBJDDBJ,是是DNA Data Bank of JapanDNA Data Bank of Japan简称,又叫简称,又叫日本日本DNADNA数据库银行(数据库银行(available at available at http:/www.nig.ac.jp)http:/www.nig.ac.jp)。第11页GenbankGenbank美国国家生物技术信息中心数据库原中山医科大学网页有链接:
7、http:/ 线线 人人 类类 孟孟 德德 尔尔 遗遗 传传 数数 据据 库库(Online MendelianInheritanceinMan,OMIM)http:/www3.ncbi.nlm.nih.gov/omim/第13页其它主要生物数据库其它主要生物数据库鱼类鱼类斑马鱼斑马鱼http:/zfin.org/昆虫类果蝇昆虫类果蝇(Drosophila melanogaster,fruitfly)http:/www.fruitfly.org/脊椎动物如小鼠脊椎动物如小鼠(Mus musculus)http:/www.ncbi.nih.gov/genome/guide/mouse/细菌如大肠
8、杆菌细菌如大肠杆菌(http:/www.genetics.wisc.edu/pub/sequence/)原生动物如人类一个寄生性原虫原生动物如人类一个寄生性原虫(Plasmodiumfalciparum):http:/PlasmoDB.org/第14页三维结构数据库三维结构数据库PDB(ProteinDataBank,http:/ motif of protein binding to DNA结结 合合 DNA蛋蛋 白白 质质 螺螺 旋旋 结结 构构 基基 序序Motif数据库数据库-PROSITEPROSITE(http:/www.expasy.org/prosite/)第17页蛋白质结构数
9、据蛋白质结构数据第18页生物信息数据库主要服务生物信息数据库主要服务借借助助特特定定算算法法模模型型提提供供同同源源性性分分析析是是当当前前各种生物信息数据库最主要内容之一。各种生物信息数据库最主要内容之一。第19页分子生物学中心法则分子生物学中心法则DNAmRNA结构结构翻译翻译转录转录复制复制蛋白质蛋白质/酶酶cDNADNA功效功效反转录反转录相互作用相互作用折叠折叠第20页3、生物信息学中数学模式和主要算法研究迄迄今今已已经经有有相相当当多多数数学学方方法法应应用用于于生生物物信信息息学学研究。而且一个算法本身就是一门学问,比如:研究。而且一个算法本身就是一门学问,比如:机器学习法机器学
10、习法人工神经网络人工神经网络分形理论分形理论密码学密码学全息论全息论高维分布统计方法高维分布统计方法第21页生物信息学中主要算法生物信息学中主要算法-聚类分析聚类分析生物信息学问题许多可归为聚类问题。生物信息学问题许多可归为聚类问题。聚聚类类分分析析:聚聚类类是是宏宏观观与与微微观观生生物物学学研研究究中中最最惯惯用用一一个个数数学学方方法法,它它基基本本目目标标是是将将n个个样样本本划划分分为为m个个类类,从从而而使使同同类类样样本本较较为为相相同同而而不不一一样样类类间间样样本本差差异异较大。较大。其中支撑矢量机算法可从网上学习:其中支撑矢量机算法可从网上学习:http:/www.kern
11、el-machine.org/寻找转录因子结合位点寻找转录因子结合位点第22页生物信息学中主要算法生物信息学中主要算法遗遗传传算算法法:遗遗传传算算法法提提出出,本本身身就就是是借借鉴鉴生生物物界界中中适适者者生生存存、优优胜胜劣劣汰汰遗遗传传机机制制所所提提出出来来随随机机化化搜搜索索方方法法,其其最最主主要要特特点点就就是是面面向向结结构构对对象象、不不受受求求导导和和函函数数连连续续性性限限定定、含含有有内内在在隐隐并并行行性性和和良良好全局寻优能力。好全局寻优能力。第23页生生 物物 信信 息息 学学 中中 主主 要要 算算 法法-遗传算法遗传算法过过去去20多多年年发发展展,已已使使
12、得得遗遗传传算算法法成成为为当当代代智智能能计计算算中中关关键键技技术术之之一一,并并已已应应用用于生物信息学研究:于生物信息学研究:基于蛋白质主链结构侧链构象计算基于蛋白质主链结构侧链构象计算蛋白质折叠算法模型与模拟蛋白质折叠算法模型与模拟图像匹配中遗传算法图像匹配中遗传算法结构图同态研究结构图同态研究第24页当前较流行数学方法和算法(当前较流行数学方法和算法(1)神经网络(神经网络(NeuralNetworks)1982年年,神神经经网网络络首首次次被被应应用用到到生生物物学学研研究究中中来来,接接着着Stormo等等人人应应用用类类似似算算法法在在预预测测大大肠肠杆菌体内一些蛋白质翻译起
13、始部位取得了成功。杆菌体内一些蛋白质翻译起始部位取得了成功。1988年年,伴伴随随QianandSejnowski发发表表一一篇篇关关于于蛋蛋白白质质二二级级结结构构预预测测文文章章,神神经经网网络络算算法法已已成成为蛋白质二级结构分析预测主流算法。为蛋白质二级结构分析预测主流算法。另另外外,神神经经网网络络在在预预测测信信号号肽肽,研研究究遗遗传传密密码码结结构和起源等方面也有较多应用。构和起源等方面也有较多应用。第25页当当前前较较流流行行数数学学方方法法和和算算法法(2)Threading方法方法Threading方法或称折叠类型识别方法。方法或称折叠类型识别方法。基基本本思思想想是是:
14、预预测测蛋蛋白白折折叠叠类类型型与与某某一一已已知知结结构构蛋蛋白白折折叠叠类类型型相相同同,这这么么蛋蛋白白质质结结构构预预测测问问题题就就转转变变为为在在已已知知空空间间结结构构蛋蛋白白质质中中,选选取取一一个个最最有有可可能能折折叠叠类类型型,从而大大减小预测蛋白质结构难度。从而大大减小预测蛋白质结构难度。第26页4 4 数据库接口和检索工具研制数据库接口和检索工具研制数数据据库库内内容容来来自自万万千千生生物物学学者者日日积积月月累累,最最终终又又为为生生物物学学者者们们所所用用。但但不不能能要要求求普普通通生生物物学学工工作作者者含含有有高高深深计计算算机机和和网网络络知知识识,所所
15、以以,必必须须发发展展查查询询数数据据库库和和向向库库里里提提供供数数据据方方便便接接口口。这这是是专专业业人人员员才才能能胜胜任任工工作作,通通常常在在生生物物信信息息中中心心里进行。里进行。第27页5 5 HGPHGP实实施施,对对信信息息采采集集和和处处理理提出要求提出要求人人类类基基因因组组计计划划(HGP)(HGP)实实施施,配配合合大大规规模模DNADNA自自动动测测序序,对对信信息息采采集集和和处处理理提提出出了了空空前前要要求求。从从各各种种图图谱谱分分析析,大大量量序序列列片片段段拼拼接接组组装装,寻寻找找基基因因和和预预测测结结构构与与功功效效,到到数数据据和和研研究究结结
16、果果视视像像化化,无无不不需要高效率算法和程序。需要高效率算法和程序。所所以以,研研究究新新算算法法、发发展展方方便便适适用用程程序序,是生物信息学日常任务。是生物信息学日常任务。第28页与与HGPHGP相关研究几个方面表现:相关研究几个方面表现:因因为为当当前前生生物物信信息息学学发发展展主主要要推推进进力力来来自自HGPHGP,所所以以生生物物信信息息学学与与HGPHGP关关系系就就显显得得更更为为亲亲密密,其其与与HGPHGP相相关关研研究究主主要要表表现现在以下几个方面:在以下几个方面:第29页1 1)高高度度自自动动化化试试验验数数据据取取得得、加加工工和和整整理理怎怎样样将将试试验
17、验室室中中得得到到生生物物学学信信息息转转化化为为计计算算机机能能够够处处理理数数字字信信息息,是是生生物物学学一一个主要课题。个主要课题。表表达达在在各各种种自自动动化化分分子子生生物物学学仪仪器器应应用用上上,如如DNADNA测测序序仪仪,PCRPCR仪仪等等。这这类类仪仪器器将将试试验验所所得得物物理理化化学学信信号号转转化化为为数数字字信信息息,并并对对其其作作简简单单分分析析,再再将将分分析析结结果果用用于于试试验验条条件件控控制制,完完成成高高度度自自动动化化试试验过程。验过程。第30页2 2)序列片段拼接)序列片段拼接当当前前DNADNA自自动测序序仪每每个个反反应只只能能测序序
18、500bp500bp左左右右。怎怎样将将这些些序序列列片片段段拼拼接接成成完完整整DNADNA次次序序就就成成为接接下来下来 一个主要工作。一个主要工作。传统测序序技技术通通常常将将克克隆隆进行行亚克克隆隆并并对亚克克隆隆进行排序。行排序。这些工作需要大量人力物力。些工作需要大量人力物力。现在在生生物物信信息息学学提提供供了了自自动而而高高速速地地拼拼接接序序列列算算法法,不不但但防防止止了了亚克克隆隆排排序序所所需需大大量量繁繁琐工工作作,还能能使使序序列列含含有有一一定定冗冗余余性性(redundancyredundancy,即即一一定定数数量量重重复)以确保序列中每个碱基准确性。复)以确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 Bioinformatics 研究 内容 公开 一等奖 联赛 特等奖 课件
链接地址:https://www.taowenge.com/p-97767981.html
限制150内