生物信息学复习总结.docx
《生物信息学复习总结.docx》由会员分享,可在线阅读,更多相关《生物信息学复习总结.docx(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精品名师归纳总结生物信息期末总结1. 生物信息学 Bioinformatics 定义 : 第一章 生物信息学是一门交叉科学, 它包含了生物信息的猎取、加工、储备、安排、 分析、说明等在内的全部方面, 它综合运用数学、 运算机科学和生物学的各种工具来阐明和懂得大量数据所包含的生物学意义。 或: 生物信息学是运用运算机技术和信息技术开发新的算法和统计方法,对生物试验数据进行分析, 确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的猎取和治理的学科。 NSFC 2. 科研机构及网络资源中心:NCBI :美国国立卫生讨论院 NIH 下属国立生物技术信息中心。EMB net : 欧洲分子
2、生物学网络。EMBL-EBI :欧洲分子生物学试验室下属欧洲生物信息学讨论所。ExPASy: 瑞士生物信息讨论所SIB 下属的蛋白质分析专家系统。Expert Protein Analysis SystemBioinformatics Links Directory。PDB Protein Data Bank。UniProt 数据库3. 生物信息学的主要应用:1. 生物信息学数据库。2序列分析。 3比较基因组学。 4表达分析。5蛋 白质结构猜测。 6系统生物学。 7运算进化生物学与生物多样性。4. 什么是数据库 :1、 定义: 数据库是储备与治理数据的运算机文档、结构化记录形式的数据集合。 记
3、录 record 、字段 field、值 value 2、 生物信息数据库应满意5 个方面的主要需求 :1 时间性。 2 注释。 3 支撑数据 。4 数据质量 。5 集成性。3、生物学数据库的类型 : 一级数据库和二级数据库。 国际闻名的一级核酸数据库有Genbank 数据库、 EMBL 核酸库和 DDBJ 库等;蛋白质序列数据库有 SWISS-PROT等。蛋白质结构库有 PDB 等。可编辑资料 - - - 欢迎下载精品名师归纳总结4、 一级数据库与二级数据库的区分:1) 一级数据库:包括: a 基因组数据库来自基因组作图。b. 核酸和蛋白质一级结构序列数据库。c. 生物大分子 ( 主要是蛋白
4、质 ) 的三维空间结构数据库, ( 来自 X-衍射 和核磁共振结构测定 )。2) 二级数据库:是对原始生物分子数据进行整理、分类的结果,是在一级数据库、试验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的运算机服务器、大容量的磁盘空间和特的的数据库治理系统支撑。二次数据库的容量就小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用便利,特殊适用于运算机使用体会不太丰富的生物学家。5、一个数据库记录 ( entry )一般由两部分组成: 1) 原始序列数据
5、 ( sequenee data 。2) 描述这些数据生物学信息的注释 ( annotation ):注释中包含的信息与相应的序列数据同样重要和有应用价值。6 数据的完整性和注释工作量: 1)序列数据广,序列注释不够完整。2)库数据面窄,序列注释全面 .7、数据库的动态更新: 1)不断增加。 2)不断修正 .5、几个大型数据库简介:NCBI 、EBI 、SIB(共点:拥有巨大的一级数椐库、大量工具软件和广泛的外联。) 1、NCBI (www.nebi.nlm.nih.gov):NCBI 是指美国国家生物技术信息中心( Natio nal Cen ter for Biotech no logy
6、In formation ,NCBI ),成立于 1988 年,其主要工作是开发以Ge nBank 为代表的 数据库,进行运算生物学讨论,开发用于分析基因组数据的软件工具,发布生物 医学信息。可编辑资料 - - - 欢迎下载精品名师归纳总结1) Entrez (集成化的数据库)( http:/www.ncbi.nlm.nih.gov/gquery/)Entrez 是 NCBI 闻名的用于提取序列信息的工具,它将科学文献、DNA 和蛋白质序列数据库、蛋白质三维结构数据、种群讨论数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI 的 SRS (见下文),是一个查询、提取和显示系统。 T
7、he original version(原始版本) ( 1991 ) of Entrez had just 3 nods可编辑资料 - - - 欢迎下载精品名师归纳总结2) 可查 Protein 、PubMed (生物医学文献数据库)Pathway 等相关信息。、Nucleotide 、Genome Gene可编辑资料 - - - 欢迎下载精品名师归纳总结可编辑资料 - - - 欢迎下载精品名师归纳总结RmhiMwi Books乂I|* 吠Entrez 娄殳抑:丿车可编辑资料 - - - 欢迎下载精品名师归纳总结可编辑资料 - - - 欢迎下载精品名师归纳总结GenomeTe xoinomyD
8、onisins 30OMIMOenBank, EMBL h DDBJ J 何. * 虽 PD Bvv HSJ5-PFIOT.P|R p IFllF”户匚曰充俨肿 w miylL MU 巳尹和 J 般料 :勺/ 仁啊 f 牝 wirviom : 或; 骏傳列曲三三谁创构ODD: 11UJU-AIfl。 MMDe I I I 白勺 . 麻 。 ftt: iti I i 丿 J氏可编辑资料 - - - 欢迎下载精品名师归纳总结EZF 1Uni STSRopS. tLJ niQ t=mn=. 啟 l 羽越 I# I is* t- J SKtW 。人 I hE 做切。岳 3:凶 旳 1伽严 钠 泌rr
9、Man if- : .-V i: i ff - E 七舟村可编辑资料 - - - 欢迎下载精品名师归纳总结2、EMBL-EBIwww.ebi.ac.uk EMBL Nucleotide Sequenee Data Librarynow known as EMBL-Bank为世界上第一个核酸序列数据库( 1980 )。欧洲分子生物学试验室下属欧洲生物信息学讨论所(European Bioi nformaticsInstitute, EBI,1992 , 英国) EMBL-EBI 核酸数据库供应了序列搜寻的服务。通过它的序列提取系统一 SRS6 (搜寻引擎),我们可以用十几种不同的方法(如用关键字
10、。搜寻我们想要的序列。 EBI 仍资助了 Ensembl 项目, Ensembl 是一个 用于对各类物种基因组进行生物信息学分析的特别完备的网站。欧洲分子生物学 试验室 EMBL The European Molecular Biology Laboratory 。Services UniProt 、ArrayExpress 、Ensembl 、InterPro 、PDBe 等界面。3、SIB us.expasy.org 瑞士生物信息讨论所 Swiss Institue of Bioinformatics,SIB ,30 March 1998 。 用于猎取蛋白质序列和相关数据的最有用的资源之一
11、就SIB 供应的蛋白质专家分析系统: SWISS-PROT ,ExPASy Expert Protein Analysis System瑞士日内瓦 高校专家蛋白质分析系统 http:/www.expasy.ch/o可编辑资料 - - - 欢迎下载精品名师归纳总结6、核酸序列数据库 :1、国际上权威的核酸序列数据库:(1) 欧洲分子生物学试验室的EMBL ;(2) 美国生物技术信息中心的GenBank 。(3) 日本遗传讨论所的 DDBJ , http:/www.ddbj.nig.ac.jp/ 。这三个数据库是综合性的DNA 和 RNA 序列数据库,每条记录代表一个单独、连续、附有注释的 DNA
12、 或 RNA 片段。三个数据库中的数据基本一样,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。2、INSDC 国际核酸序列数据库协会:1998 年, GenBank 、EMBL 和 DDBJ 共同成立了国际核酸序列数据库协会 International Nucleotide Sequenee Database CollaboratioHNSDC ,三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。 http:/www.insdc.org/ 7、蛋白质序列数据库:1) PIR Protein Information Res
13、ource。 http:/pir.georgetown.edu/2) SWISS-PROT 。 http:/www.expasy.ch/sprot/sprot-top.htm3) TrEMBL 。 http:/www.ebi.ac.uk/trembl/index.html是与 SWISS-PROT相 关的一个数据库。包含从 EMBL 核酸数据库中依据编码序列 CDS 翻译 而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT 数据库中。4) NCBI 美国国家生物技术信息中心 Natio nal Cen ter for Biotech no logy In formation , N
14、CBI 。5) UniProt 。通用蛋白质数据库 http:/www.uniprot.org/ 包括: Swiss-Prot 、TrEMBL 、PIR 用户可以通过文本查询数据库,可以利用 BLAST 程序搜寻数据库,也可以直接通过 FTP 下载数据。&生物大分子结构数据库:1) PDB Protein Data Bank。 http:/www.rcsb.org/ 2) MMDBMolecular Modeling Database。 www.nebi.nlm.nih.gov/Structure/可编辑资料 - - - 欢迎下载精品名师归纳总结9、其它生物分子数据库:1 单碱基多态性数据库
15、dbSNP 。 2 基因组数据库 GDB 。 3 人类基 因组数据库 Ensembl 。 4)表达序列标记数据库 dbEST 。 5)序列标记位点数据 库 dbSTS; 6)面对基因聚类数据库 UniGene 。 7)蛋白质结构分类数据库 SCOP; 8 )蛋白质二级结构数据库 DSSP 。 9)蛋白质同源序列比对数据库HSSP 。 10) OMIM (Online Mendelian Inheritance in Man) ,是关于人类基因和遗传疾病的分类数据库。 Nucleic Acid Research附: 1、NCBI 和 EBI 使用的搜寻引擎分别是什么?答: NCBI 使用的是 E
16、ntrez ,EBI 使用的是 SRS 。2、FASTA 格式有哪些部分组成,以什么字符开头?答:包含 gi number .Database identifiers Accession numbe, Locus name 等部分,以 字符开头 。3、NCBI 的 WEB 和离线序列提交软件是什么? 答: WEB 提交工具: Bankit ; 离线提交: Sequin4、 系统生物学: 答:确定、分析和整合生物系统在遗传或环境扰动下全部内部元件间相互作用关系的一门学科。10 、序列数据的文件格式:(其次章 )格式主要有三种 :DNA/RNA/ 氨基酸代码的标识( B、 Z); GenBank
17、数据格式。FASTA 数据格式。一、 GBFF (GenBank flatfile) GenBank 平面文件格式:GenBank 、 EMBL 、 DDBJ 每天都相互同步更新各自的数据库,那么它们是怎样交换数据的了?这里引入 GBFF ( GenBank flatfile 即 GenBank 平面文件)格式。GBFF 是 GenBank 数据库的基本信息单位,是最为广泛使用的生物信息学序 列格式之一。 GBFF 文件分为三部分: a.头部包含整个记录的信息(描述符)。 b.其次部分包含了注释这一记录的特性。 c.第三部分是核苷酸序列本身。可编辑资料 - - - 欢迎下载精品名师归纳总结注:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学复习总结 生物 信息学 复习 总结
限制150内