生物信息学及其软件平台幻灯片.ppt
生物信息学及其软件平台第1页,共54页,编辑于2022年,星期一第一部分:生物信息学研究需要什么?第2页,共54页,编辑于2022年,星期一需要什么?a.数据库(DNA、蛋白质序列)b.各种算法(Blast,Genscan)c.这样就行了吗?用户(生物学研究人员)如何能更好的使用a和b第3页,共54页,编辑于2022年,星期一Bioinformatics a Definition-Oxford English Dictionaryn(Molecular)bio informatics:bioinformatics is conceptualising biology in terms of molecules(in the sense of Physical chemistry)and applying“informatics techniques”(derived from disciplines such as applied maths,computer science and statistics)to understand and organise the information associated with these molecules,on a large scale.In short,bioinformatics is a management information system for molecular biology and has many practical applications.第4页,共54页,编辑于2022年,星期一Bioinformatics:科技界一颗科技界一颗耀眼的新星耀眼的新星 n在BIOINFORMATICS没有诞生之前,一个新药的问世需要十年时间,数亿美元的R&D,而BIOINFORMATICS已将这个过程减少三分之二,R&D的费用也相应大大减少。许多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潜在的商机,纷纷投资BIOINFORMATICS研究项目。第5页,共54页,编辑于2022年,星期一美国电脑执照-高薪阶层n“BIOINFORMATICSCERTIFICATION”,这是目前最新的一门生物化学工程与电脑技术相结合的课程。包括“CBS”证书和“CBM”证书。nVisualBasic-$1195nVisualC+-$1295nBioInformatics-CBS,CBM$2500nMIT:Course:20.01sDate:June24-28,2002Tuition:$2,500第6页,共54页,编辑于2022年,星期一后基因组时代后基因组时代的挑战:1.蛋白组学:序列-结构-功能 2.研究生物的生长代谢的过程和疾病的机制 3.基因组药物生物信息学离不开高性能计算机。并需要信息学家的参与。急需有自主知识产权的生物信息处理软件平台和大量高效的快速的新算法的开发及改进。第7页,共54页,编辑于2022年,星期一pic2第8页,共54页,编辑于2022年,星期一pic3第9页,共54页,编辑于2022年,星期一Pic4第10页,共54页,编辑于2022年,星期一Pic5第11页,共54页,编辑于2022年,星期一Pic6第12页,共54页,编辑于2022年,星期一Pic7第13页,共54页,编辑于2022年,星期一MajorApplicationI:DesigningDrugsnUnderstandingHowStructuresBindOtherMolecules(Function)nDesigningInhibitorsnDocking,StructureModeling第14页,共54页,编辑于2022年,星期一MajorApplicationII:FindingHomologs第15页,共54页,编辑于2022年,星期一MajorApplicationIII:OverallGenomeCharacterizationnOverallOccurrenceofaCertainFeatureintheGenomene.g.howmanykinasesinYeastnCompareOrganismsandTissuesnExpressionlevelsinCancerousvsNormalTissuesnDatabases,Statistics第16页,共54页,编辑于2022年,星期一proteomics data第17页,共54页,编辑于2022年,星期一Proteomics toolsnIdentificationandcharacterizationnDNA-ProteinnSimilaritysearchesnPatternandprofilesearchesnPost-translationalmodificationpredictionnPrimarystructureanalysisnSecondarystructurepredictionnTertiarystructurenTransmembraneregionsdetectionnAlignment第18页,共54页,编辑于2022年,星期一CIF:生物信息学构架:生物信息学构架nCorporate Information Factory(CIF)是一个支援企业级的信息系统构架结构。生物信息学是在生物研究中信息系统的应用。CIF正是一个从不同的源头来集成生物信息学数据,数据库中管理这些信息,并将这些信息递交专家系统进行处理的一个完整的体系,数据集成、数据标准化、数据完整准确性是CIF的特点。当这些运作起来之后,CIF提供了一个企业级管理生物信息数据的方法。第19页,共54页,编辑于2022年,星期一生物信息学构架生物信息学构架(2)n数据结构、信息提取过程的不统一、数据集成和标准化工作的不力是目前生物信息学的一个问题,这个问题妨碍了信息的交互,这一点在基因组和蛋白组学研究中很突出。孤立的基因组和蛋白组数据只能揭示很少的在活体细胞内的基因/蛋白的功能信息,而一个集成的,以系统学方法管理的生物信息学数据将为研究者带来更广阔的视野。第20页,共54页,编辑于2022年,星期一服务器服务器-客户式结构客户式结构client-servern生物信息网络中的数据库服务广泛采用服务器-客户式结构,这些服务器包括为数众多的数据库搜索和序列对比服务器以及各专业领域的服务器.第21页,共54页,编辑于2022年,星期一生物信息数据库种类生物信息数据库种类n生物信息数据库是种类繁多。n近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个数据库第22页,共54页,编辑于2022年,星期一Bioinformatics and XMLnXML因其将数据信息本身的存储与关联与表现形式相分离,强大的可扩展性,本身层次清晰的树形结构特性以及跨平台、跨语言的特性而成为良好网际语言,并在各种数据和存取工作中大显神通。生物信息学的发展同样引入了XML技术。第23页,共54页,编辑于2022年,星期一JAVAnJava是一种跨平台的编程语言n在基于JAVA语言开发的网上序列查询和类比排列系统上,科学家们可通过视图方式对已知DNA、蛋白质结构、基因结构及科学家们提交的序列进行比较,分析出有意义的信息,包括新基因的发现,重复序列的测定,调控基因的确定,完整基因的分析等等。第24页,共54页,编辑于2022年,星期一Java(2)nJava迫使你更加系统化,必须进行程序构架规划。而且它还能帮助你避免通常的编码错误。”n有人说,Java很慢.真的吗?第25页,共54页,编辑于2022年,星期一第二部分:我国生物信息学第26页,共54页,编辑于2022年,星期一现状及问题1.我国已有强大的DNA测序中心:华大,北方,南方,.但我们需要运算速度远比现在计算速度快的机器或方法.2.生物信息学处理系统处于初级规模.有一些Genbank,EMBL,GCG的镜象.(1).没有自己的完善的系统 (2).没有大量新算法的开发3.后基因组:科研单位及制药工业并未完全吸收利用生物信息学的工具.第27页,共54页,编辑于2022年,星期一现有各种生物信息学网站(公共免费的,如NCBI,EMBL)特点:数据多、全,并且具有权威性缺点:1)用户太多(全世界),国内的网慢,比如有时递交较长的序列做Blast会很长时间得不到结果2)数据库太大太多,使用不易付费的,如:eB,doubletwist,com,虽然使用方便,帮助用户在网站上保留数据,服务性好,软件也好用但是需付费,学术力量不强第28页,共54页,编辑于2022年,星期一第三部分:建立自主知识产权的生物信息学处理软件平台第29页,共54页,编辑于2022年,星期一时期时期 生物信息学的作用生物信息学的作用 我我们能做的能做的序列基因组 收集、存储、分析和共享信息资源 能功能基因组 识别基因及功能,图谱 能蛋白质组 鉴别和分类能治疗/研究疾病基因预测/基因芯片能?药物设计研制新药/产业化能?我们能做什么第30页,共54页,编辑于2022年,星期一GenbankHTGHTG 是GenBank、DDJB及EMBL为使生物学家更好地进行同源性对比搜寻高通量基因组序列而作的特殊分类。占所有DNA序列的70%以上。HTG部分包括那些通过高通量测序中心测序产生的尚未完成的DNA序列,有或没有注释。第31页,共54页,编辑于2022年,星期一项目目标(生物信息学处理软件平台)n开发一个可以使用Genscan,Blast,Blocks等分析GeneBank的基因组数据并可以通过Web界面进行查询的原型系统n不断完善,添加算法和更新数据,最终可以通过提供数据和服务来获取社会效益和经济效益第32页,共54页,编辑于2022年,星期一各种序列各种序列:DNA,Protein生物信息学处理软件平台BlastGenscanBlocks生物学家计算生物学模型/算法软件并行软件并行软件:Blast,Phrap,SW市场化市场化各种算法串行后基因组学数据并行第33页,共54页,编辑于2022年,星期一项目功能描述(一)n从从Genbank中提取原始数据,经过机群系中提取原始数据,经过机群系统的处理(运行各种目前流行的算法,如统的处理(运行各种目前流行的算法,如Blast、GenScan、Blast等对提取的数据等对提取的数据进行分析),生成进行分析),生成raw data,最后经过文,最后经过文本处理程序(本处理程序(perl)的处理,得到)的处理,得到xml格格式的数据。式的数据。第34页,共54页,编辑于2022年,星期一项目功能描述(二)n用户通过网页提交检索,检索经过预处理用户通过网页提交检索,检索经过预处理的核酸、蛋白质序列数据库,将结果以图的核酸、蛋白质序列数据库,将结果以图形、图像的形式,通过网页返回给用户查形、图像的形式,通过网页返回给用户查看,检索后的数据应具备较高的可用性看,检索后的数据应具备较高的可用性(以图形化的方式将相应的算法处理结果(以图形化的方式将相应的算法处理结果表达出来)表达出来)第35页,共54页,编辑于2022年,星期一竞争优势n强大的计算资源n高性能计算机n高性能算法的支持n并行Blast解决了Blast在单节点上的瓶颈问题n我们对生物信息领域深刻的理解nGenebankHTGDivisionn生物学家与计算机开发人员的紧密配合第36页,共54页,编辑于2022年,星期一社会效益和经济效益社会效益社会效益具有我国自主知识产权的生物信息处理软件平台1、提供个人数据和服务2、为客户的特殊要求度身定做数据或处理系统3、新算法的开发第37页,共54页,编辑于2022年,星期一生物信息学处理软件平台版本1。01。目前只注释人类的Genome数据库 a.预测基因结构 b.预测蛋白编码基因2。目前数据库最重要来源是GenBank序列。未完成注释的HTG序列70%,已部分完成注释的PRI序列30%.我们的平台包括:a.通过一个庞大的算法流水线(pipeline)来 加工,和注释未完成(或已完成)的基因组的DNA序列.b.数据库格式化:XML 技术.c.通过搜索引擎在网络上实现可用性。d.数据图视化 及 用户服务。第38页,共54页,编辑于2022年,星期一流程图数据处理,数据库管理,XML,。搜索引擎第39页,共54页,编辑于2022年,星期一xPBS命令GUI第40页,共54页,编辑于2022年,星期一xPBSMON节点监控第41页,共54页,编辑于2022年,星期一图视化图视化HTG 没有Genbank注释 第42页,共54页,编辑于2022年,星期一图视化图视化PRI(有Genbank注释)第43页,共54页,编辑于2022年,星期一未来的图视化第44页,共54页,编辑于2022年,星期一第四部分:基因组分析的算法的现状和发展问题第45页,共54页,编辑于2022年,星期一Algorithms已有算法(1)我们的分析使用算法:我们的分析使用算法:(已完成的)a.GENSCAN-预测exons(外显子),introns(内显子)和Promotor(起动子).预测可用作替换拼接形式的基因 b.BLOCKS-预测出蛋白质的结构:motifs(模式)和domains(域)。c.BLASTx-预测蛋白质的功能和相似性的家族。第46页,共54页,编辑于2022年,星期一blocks-算法(2)BLOCKS PR00678 1/10 blocks:PI3 KINASE P85 REGULATORY SUBUNIT SIGNATURE Block Frame Location(aa)Block E-value PR00678D 0 416-434 1.6|-157 amino acids-|PR00678 AAA:BB:CCCC:DDDEEEE:FFFGGGG7UP1_DROME:DDD 第47页,共54页,编辑于2022年,星期一Blastx-算法(3)第48页,共54页,编辑于2022年,星期一算法(4)a.REPEAT_MASKER-RepeatMasker是一程序.它能掩盖散布在哺乳动物的基因组中的重复片段及 低复杂DNA序列。它把DNA序列中的重复片段用Ns代替.平均一个人有40%50%以上的DNA可被RepeatMasker程序掩盖.b.Sim4-sim4把从数据库搜索结果与信息的其它来源结合起来获得确定结论.它是连接ESTs(Unigene)的主要工具。第49页,共54页,编辑于2022年,星期一算法(5)(未来:平台 2.0 以上).Genie,GeneWise,fGene,.预测基因.COGnitor-蛋白质组的种系的分类 .SCOP,NRL-3D-三维折叠.SNP-疾病基因。Glimmer-预测微生物基因.。第50页,共54页,编辑于2022年,星期一新算法的开发n1.二级数据库的开发.n2.并行BLAST算法n3.实现Phrap的DSM化。n功能蛋白组学:?n基因组药物设计:?第51页,共54页,编辑于2022年,星期一第52页,共54页,编辑于2022年,星期一3.前景要做的课题(算法)1)专门数据库Cluster 算法2)蛋白质结构预测 (现有算法速度太慢,准确性不高,只有70%)3)需要自主知识产权的生物信息学软件,类似Genscan,Grail4)需要各生物研究单位的合作,提出课题进行合作第53页,共54页,编辑于2022年,星期一谢谢大家,请提问题第54页,共54页,编辑于2022年,星期一