第六章常用生物信息学数据库简介.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第六章常用生物信息学数据库简介.ppt》由会员分享,可在线阅读,更多相关《第六章常用生物信息学数据库简介.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章常用生物信息学数据第六章常用生物信息学数据库简介介一、引一、引 言言二、生物信息学数据库的简介二、生物信息学数据库的简介主要内容三、生物信息学数据库的检索三、生物信息学数据库的检索生物分子数据生物分子数据 高速增长高速增长一、引 言1.生物信息学数据库产生生物信息学数据库产生生物分子数据高速增长 分子生物学及相关领域研究人员 迅速获得最新实验数据 建立生物分子数据库 2.生物分子数据库分类生物分子数据库分类(1)一级数据库)一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。(2)二级数据库)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级数据
2、库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。一级数据库一级数据库基因组数据库基因组数据来自基因组作图核酸或蛋白质序列数据库测序结构数据库X射线衍射和核磁共振 这些数据库是分子生物学的基本数据资源,通常称为基本数据库、初始数据库,也称一次数据库。国际上著名的一级核酸数据库有Genbank、EMBL和DDBJ;蛋白质序列数据库有UniPROT和PIR等;蛋白质结构库有PDB等。二级数据库二级数据库 它是根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊 生 物 学 意 义 和 专 门 用 途 的 数
3、据 库。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。生生物物信信息息学学 工工具具 染色体染色体核酸核酸蛋白质蛋白质基因组图谱基因组图谱DNA序列序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构基因组基因组数据库数据库核酸序列核酸序列数据库数据库 蛋白质序列蛋白质序列数据库数据库 蛋白质结构蛋白质结构数据库数据库二二级级数数据据库库基因组作图基因组作图序列测定序列测定结构测定结构测定一级数据库一级数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理
4、系统支撑。二级数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。(1)数据库的更新速度快,数据量呈指数增长;(2)数据库使用频率增长快;(3)数据库的复杂程度不断增加;(4)数据库网络化;(5)面向应用;(6)先进的软硬件配置。3.生物信息数据库生物信息数据库6个明显的特征个明显的特征二、生物信息学数据库简介国际上权威的核酸序列数据库:国际上权威的核酸序列数据库:(1)GenBank (2)EMBL (3)DDBJ (一)核酸序列数据库p三个数据库都是综合性的
5、DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。p三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。GenBankDDBJEMBLGenBank数据库数据库简介简介GenBank数据库是由美国生物技术信息中心(National Center for Biotechnology Information,NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。美国马里兰州的贝塞斯达美国马里兰州的贝塞斯达
6、 美国国家生物技术信息中心美国国家生物技术信息中心 NCBI是美国国家医学图书馆(NLM)的一部分。建立于1988年。NCBI保管GenBank的的 基基 因因 测测 序序 数数 据据 和Medline的的生生物物医医学学研研究究论论文文索索引引。所有的这些数据库都可以通过Entrez搜索引擎在线访问。核酸序列数据库检索界面:核酸序列数据库检索界面:特征栏提供辅助检索功能LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-12 MG1655 complete genome.ACCES
7、SION U00096KEYWORDS .SOURCE Escherichia coli.ORGANISM Escherichia coli Bacteria;Proteobacteria;gamma subdivision;Enterobacteriaceae;Escherichia.REFERENCE 1 (bases 1 to 4639221)AUTHORS Blattner,F.R.,Plunkett,G.III,Bloch,C.A.,Perna,N.T.,Burland,V.,TITLE The complete genome sequence of Escherichia coli
8、 K-12 JOURNAL Science 277(5331),1453-1474(1997)MEDLINE 97426617COMMENT This sequence was determined by the E.coli Genome Project at the University of Wisconsin-Madison(Frederick R.Blattner,director).Supported by NIH grants HG00301 and HG01428(from Human Genome Project and NCHGR).The entire sequence
9、was independently determined from E.coli K-12 strain MG1655.Predicted open reading frames were determined using GeneMark software,kindly supplied by 实例:E.coli k-12全基因组序列文件FEATURES Location/Qualifiers source 1.4639221 /organism=Escherichia coli /strain=K-12“/sub_strain=MG1655 /db_xref=taxon:562 promo
10、ter 71.99 /note=factor Sigma70;predicted+1 start at 106 promoter 104.132 /note=factor Sigma70;predicted+1 start at 139 promoter 188.212 /note=factor Sigma32;predicted+1 start at 219 gene 190.255 /note=b0001 /gene=thrL CDS 190.255 /gene=thrL /function=leader;Amino acid biosynthesis:Threonine /note=o2
11、1;100 pct identical to LPT_ECOLI SW:P03059 /codon_start=1 /transl_table=11 /product=thr operon leader peptide /db_xref=PID:g1786182 /translation=MKRISTTITTTITITTGNGAG“BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 tORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgata
12、gcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg cagtgcggg 301 cttttttttt cgaccaaagg taac
13、gaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caaca
14、acgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/EMBL是最早的DNA序列数据库,于1982年建立。EMBL的数据来源主要有两条途径:一是由序列发现者直接提交。几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。EMBL数据库简介数据库简介德
15、国海德堡德国海德堡欧洲分子生物学实验室欧洲分子生物学实验室EMBL(European Molecular Biology Laboratory)创建于1974年,是一所非营利性的分子生物学研究机构,由27个欧洲会员国及澳大利亚(准会员国)资助。该实验室在欧洲共有5处分站:位于德国海德堡的主实验室、设在英国Hinxton的欧洲生物信息学研究所(EBI)、以 及 位 于 法 国 格 勒 诺 布 尔(Grenoble)、德国汉堡(Hamburg)、以 及 意 大 利 蒙 特 罗 顿 多(Monterotondo)的分站。EBI维护并发布EMBL核酸序列数据库欧洲的主要核酸序列数据资源。英国辛克斯顿英
16、国辛克斯顿 ID U00096 standard;circular genomic DNA;CON;4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003(Rel.76,Last updated,Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria;Proteobacteria;Gammaproteobacteria;Enterobacteriales;OC Enterobacteriaceae;Escherichia
17、;Escherichia coli.RN 1RP 1-4639221RX MEDLINE;97426617.RX PUBMED;9278503.RA Blattner F.R.,Plunkett G.III,Bloch C.A.,Perna N.T.,Burland V.,RT The complete genome sequence of Escherichia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA;O32528.DR REMTREMBL;AAC74436;AAC74436.DR SPTREMBL;O32530;O3253
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 常用 生物 信息学 数据库 简介
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内