生物信息学ppt课件.ppt
《生物信息学ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学ppt课件.ppt(76页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27生物信息学最重要的任务是从海量数据中提取新知识有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,
2、以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27生物信息学数据存在的问题生物信息学数据存在的问题 信息源分布在世界各地不同的站点上信息源分布在世界各地不同的站点上 涉及多个数据源的全局问题无法立刻得到答案涉及多个数据源的全局问题无法立刻得到答案 Painfully collecting unstructured information around the sites Manually putting pieces together Hopefully getting the right picture. 总之,信息源的特点是:总之,信息源的特点是: 自治
3、的自治的 (autonomous) 分布式的分布式的 (distributed) 异构的异构的 (heterogeneous)数据集成数据集成Data Integration有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27一、一、 生物信息学数据库生物信息学数据库生物信息学数据库的种类生物信息学数据库的种类v分子生物信息数据库种类繁多。归纳起来,分子生物信息数据库种类繁多。归纳起来,大体可以分为大体可以分为4 4个大类:个大类:基因组基因组数据库数据库核酸和蛋白质核酸和蛋白质一级结构
4、一级结构数据库数据库生物大分子生物大分子( (主要是蛋白质主要是蛋白质) )三维空间结构三维空间结构数数据库据库由上述由上述3 3类数据库和文献资料为基础构建的类数据库和文献资料为基础构建的二级数据库二级数据库有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27v生物信息数据库的分类生物信息数据库的分类一级数据库一级数据库v数据库中的数据直接来源于实验获得的原始数据,只经过简数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释单的归类整理和注释v 一级核酸数据库:一级核
5、酸数据库:EMBL database,GenBank database,DDBJ databasev 一级蛋白质序列数据库:一级蛋白质序列数据库:SWISS-PORT database , PIR database v 一级蛋白质结构数据库:一级蛋白质结构数据库: PDB database二级数据库二级数据库v对原始生物分子数据进行整理、分类的结果,是在一级数据对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建库、实验数据和理论分析的基础上针对特定的应用目标而建立立v 人类基因组图谱库人类基因组图谱库GDBv 蛋白质结构分类数据库蛋白质结构
6、分类数据库SCOP,CATH v 蛋白质序列功能位点数据库蛋白质序列功能位点数据库Prosite有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27核酸序列数据库有利于学习
7、和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-272022-7-27有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27二、核酸数据库二、核酸数据库1 1 、国际三大核酸数据库、国际三大核酸数据库 数据库数据库 (Database) (Database) 网址网址 (Address)(Address)nGenBank www.ncbi.nlm.nih.gov/genbank GenBank
8、 www.ncbi.nlm.nih.gov/genbank nEMBL www.ebi.ac.uk/embl EMBL www.ebi.ac.uk/embl nDDBJ www.ddbj.nig.ac.jp/index-e.html DDBJ www.ddbj.nig.ac.jp/index-e.html 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27GenBankGenBank:由美国国家生物技术信息中心由美国国家生物技术信息中心(National (National Cente
9、r for Biotechnology Information, NCBI)Center for Biotechnology Information, NCBI)建立。该建立。该中心隶属于美国国家医学图书馆,位于美国国家卫生中心隶属于美国国家医学图书馆,位于美国国家卫生研究院研究院(NIH)(NIH)内。内。EMBLEMBL:欧洲分子生物学实验室欧洲分子生物学实验室(European Molecular (European Molecular Biology Laboratory, Biology Laboratory, 其下有其下有European Bioinformatics Europe
10、an Bioinformatics Centre)Centre),主要位于英国剑桥,主要位于英国剑桥CambridgeCambridge和德国汉堡和德国汉堡HamburgHamburg。DDBJDDBJ:日本日本DNADNA数据库数据库(DNA Data Bank of Japan(DNA Data Bank of Japan), , 由由the National Institute of Genetics, NIGthe National Institute of Genetics, NIG主管。主管。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为
11、中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27这这3 3个大型数据库于个大型数据库于19881988年达成协议年达成协议,组成合作联合体。,组成合作联合体。它们每天交换信息,并对数据库它们每天交换信息,并对数据库DNADNA序列记录的统一序列记录的统一标准达成一致。每个机构负责收集来自不同地理分布标准达成一致。每个机构负责收集来自不同地理分布的数据(的数据(EMBLEMBL负责欧洲,负责欧洲,GenBankGenBank负责美洲,负责美洲,DDBJDDBJ负负责亚洲等),然后来自各地的所有信息汇总在一起,责亚洲等),然后来自各地的所有信息汇总在一起,3 3个数据库的数据
12、共享并向世界开放,故这个数据库的数据共享并向世界开放,故这3 3个数据库又个数据库又被称为公共序列数据库(被称为公共序列数据库(Public Sequence DatabasePublic Sequence Database)。)。所以从理论上说,这所以从理论上说,这3 3个数据库所拥有的个数据库所拥有的DNADNA序列数据序列数据是完全相同的。你可以从中选择一个你喜欢的数据库;是完全相同的。你可以从中选择一个你喜欢的数据库;但是如果你的研究需要实时但是如果你的研究需要实时(24(24小时以内小时以内) )的,则要注意的,则要注意这些数据库间的记录是会有差异的。这些数据库间的记录是会有差异的。
13、 有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27北京大学生物信息学中心北京大学生物信息学中心(Centre of Bioinformatics, (Centre of Bioinformatics, Peking University):Peking University):北京华大基因研究中心北京华大基因研究中心( (中国科学院北京基因组研究所中国科学院北京基因组研究所) ):http:/ :2 2、我国主要生物信息学机构、我国主要生物信息学机构有利于学习和创新的组织管理机制,创
14、造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27三、基因组数据库三、基因组数据库如:大肠杆菌基因组如:大肠杆菌基因组ECDCECDC、酵母菌基因组、酵母菌基因组CYGDCYGD、线虫基因组、线虫基因组AceDBAceDB、果蝇基因组、果蝇基因组FlyBaseFlyBase、老鼠基因组、老鼠基因组MGDMGD、人类基因组、人类基因组GDBGDB、拟南芥、拟南芥 TAIR(AtDB)TAIR(AtDB)数据库和水稻基数据库和水稻基因组因组RGPRGP等。等。部分生物基因组计划网址如下:部分生物基因组计划网址如下:有利于学
15、习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27大肠杆菌大肠杆菌E ColiE Coli ECDC ECDC数据库数据库http:/www.uni-giessen.de/gx1052/ECDC/ecdc.htmhttp:/www.uni-giessen.de/gx1052/ECDC/ecdc.htm酵母菌酵母菌Yeast Yeast CYGDCYGD数据库数据库 http:/mips.gsf.de/genre/proj/yeast/index.jsphttp:/mips.gsf.de/gen
16、re/proj/yeast/index.jsp线虫线虫 Caenorhabditis elegansCaenorhabditis elegans AceDBAceDB数据库数据库http:/www.acedb.orghttp:/www.acedb.orghttp:/elegans.swmed.edu/genome.shtmlhttp:/elegans.swmed.edu/genome.shtmlhttp:/www.wormbase.orghttp:/www.wormbase.org果蝇果蝇 DrosophilaDrosophila FlyBaseFlyBase数据库数据库http:/flyba
17、se.bio.indiana.edu/http:/flybase.bio.indiana.edu/http:/morgan.harvard.edu http:/morgan.harvard.edu 老鼠老鼠 Mouse Mouse MGDMGD数据库数据库http:/www.informatics.jax.orghttp:/www.informatics.jax.orghttp:/www.ncbi.nlm.nih.gov/genome/guide/mousehttp:/www.ncbi.nlm.nih.gov/genome/guide/mouse有利于学习和创新的组织管理机制,创造充满活力的创
18、新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27目前完成全基因组测序工作的物种有很多,并目前完成全基因组测序工作的物种有很多,并在随时更新(在随时更新(updateupdate). .可以进入可以进入ncbincbi的基因组的基因组计划二次数据库计划二次数据库查看,其网址:查看,其网址:http:/www.ncbi.nlm.nih.gov/Genomeshttp:/www.ncbi.nlm.nih.gov/Genomes有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依
19、赖既开放又相互信任的合作环境。2022-7-27四、四、 数据库格式数据库格式 历史原因:历史原因:没有完全统一没有完全统一的数据库格式的数据库格式 了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成: 文字注释文字注释 序列序列有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27FASTA FASTA 序列格式包括三个部分:序列格式包括三个部分:v(1 1)在注释行的第一行用)在注释行的第一行用字符字符“”标识标识,后面,后面是序列的名字和来源是序
20、列的名字和来源v(2 2)标准的)标准的单字符单字符表示序列表示序列v(3 3)可选的)可选的“* *”表示序列的结束,它可能出现也表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取可能不出现,但它是许多序列分析程序正确读取序列所必须的。序列所必须的。FASTAFASTA格式是序列格式是序列分析软件最常用的格式分析软件最常用的格式。这种。这种格式提供了从一个窗口到另一个窗口非常方便的格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为拷贝途径,因为序列中没有数字或其他非字符序列中没有数字或其他非字符。FASTAFASTA序列格式和蛋白质信息资源序列格式和蛋白质信息资源N
21、BRFNBRF格式很相格式很相似。似。1 1、FASTAFASTA序列格式序列格式(Person(Person格式格式 ) )有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27说明说明3 3点:点: 序列文件的第一行是由大于符号()打序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号号或氨基酸单字母符号。通常核苷酸符号大小写
22、均可,而氨基酸一般用大写字母。大小写均可,而氨基酸一般用大写字母。文件中和每一行都不要超过文件中和每一行都不要超过8080个字符(通个字符(通常常6060个字符)。个字符)。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27核酸序列核酸序列氨基酸序列氨基酸序列有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27 组成序列信息字符串的符号必须为标准的组成序列信息字符串的符号必须为标
23、准的国国际生物化学联合会际生物化学联合会 (IUB)/国际纯粹与应国际纯粹与应用化学联合会用化学联合会 (IUPAC) 氨基酸或核苷酸的符号符号的大小写同义,氨基酸或核苷酸的符号符号的大小写同义,单个单个“连字符连字符”表示一个空位表示一个空位 不清楚的核苷酸残基用不清楚的核苷酸残基用N表示,不确定的氨表示,不确定的氨基酸残基用基酸残基用X表示表示 标题行的名称是用户自定义的,可以是汉字,标题行的名称是用户自定义的,可以是汉字,也可以是英文也可以是英文注意注意有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作
24、环境。2022-7-272. 序列详细注释的序列详细注释的GenBank格式格式 GBFF(GenBank flatfile,GenBank 平面文平面文件件)格式格式 GenBank数据库的基本信息单位,是最为数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。广泛使用的生物信息学序列格式之一。有利于学习和创新的组织管理机制,创造充满活力的创新激励机制,以市场为导向,以顾客价值追求为中心的企业文化氛围,依赖既开放又相互信任的合作环境。2022-7-27GenBank格式格式GenBank格式:格式:每个条目都是一份每个条目都是一份纯文本文件纯文本文件。每行左端或为空格或为识别字,。
25、每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。识别字均为完整英文字,不用缩写。 GenBank条目,使用一大批与条目,使用一大批与EMBL和和DDBJ数据库统一的关键数据库统一的关键字。字。格式可以分成格式可以分成3个部分:个部分:1)头部包含关于整个序列的信息(描述字符),从头部包含关于整个序列的信息(描述字符),从 LOCUS行到行到ORIGIN行行;2)注释这一序列的特性()注释这一序列的特性(Feature Table ),为注释的核心部分;),为注释的核心部分;3)序列本身)序列本身(Sequence)。注:所有的核苷酸数据库记录(注:所有的核苷酸数据库记录(EMBL/
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 ppt 课件
限制150内