ncbi数据库检索解读课件.ppt
《ncbi数据库检索解读课件.ppt》由会员分享,可在线阅读,更多相关《ncbi数据库检索解读课件.ppt(75页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章数据库检索数据库检索2.1 2.1 综合性数据库综合性数据库 NCBINCBI 美国参议员美国参议员Claude Pepper率先意识到信息计算机化过程率先意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在方法对指导生物医学研究的重要性,发起了在1988年年11月月4日日建立国立生物技术信息中心的立法建立国立生物技术信息中心的立法.(National Center for Biotechnology Information,NCBI).NCBI隶属于国立医学图书馆(隶属于国立医学图书馆(National Library of Medicing,NLM)。NLM在创立和维护生物
2、医学数据库方面有丰在创立和维护生物医学数据库方面有丰富的经验。富的经验。http:/www.ncbi.nlm.nih.gov/2.1.1 NCBI简介简介 NCBI的任务的任务 开发新的信息技术开发新的信息技术,来帮助理解控制健康和疾病来帮助理解控制健康和疾病的基本分子和遗传过程的基本分子和遗传过程1 建立自动化系统用于储存和分析分子生物学建立自动化系统用于储存和分析分子生物学,生物化学和遗传学方面的知识生物化学和遗传学方面的知识2 为研究人员和医学团体使用这些数据库和软为研究人员和医学团体使用这些数据库和软件提供便利件提供便利3 在国家和国际范围内搜集先进的生物技术信在国家和国际范围内搜集先
3、进的生物技术信息息,为分析生物重要分子的结构和功能提供先进为分析生物重要分子的结构和功能提供先进的基于计算机的信息分析处理方案的基于计算机的信息分析处理方案2.1.2 NCBI数据库介绍数据库介绍1 全核苷酸数据库全核苷酸数据库2 蛋白质数据库蛋白质数据库3 基因组数据库基因组数据库4 结构数据库结构数据库Expression sequence tag,EST,genome survey sequence,GSS,orenucleotide翻译翻译DNA所得所得PIR,SWISS-PROT PDB已测序物种的基因组视图已测序物种的基因组视图,染色体完整序列图染色体完整序列图,遗传图和物理图遗传
4、图和物理图又称为分子模型数据库又称为分子模型数据库MMDB,包含从晶体结构和核磁共包含从晶体结构和核磁共振实验中确定下来的蛋白质等大分子结构信息振实验中确定下来的蛋白质等大分子结构信息,主要来源主要来源于于PDB,使用软件浏览结构使用软件浏览结构5 5 三维结构域数据库三维结构域数据库6 6 保守域数据库保守域数据库7 7 uniSTSuniSTS数据库数据库8 8 基因数据库基因数据库包含来自包含来自Entrez结构数据库的蛋白质结构域结构数据库的蛋白质结构域蛋白质结构域数据库蛋白质结构域数据库,从从Pfam,SMART,COG数据数据库中获得数据库中获得数据.是一个整合的是一个整合的,非冗
5、余的非冗余的STS数据库数据库可通过基因名称可通过基因名称,同义词同义词,编号编号,出版物出版物,染色体号等属性染色体号等属性寻找基因寻找基因9 9 UniGeneUniGene数据库数据库GenBank 中基因序列的集合中基因序列的集合10 SNP10 SNP数据库数据库11 11 PopSetPopSet 用于存储包括单核苷酸替换用于存储包括单核苷酸替换,一两个碱基的插入一两个碱基的插入或缺失等多态性信息或缺失等多态性信息包含用于群体进化或变异研究的比对序列包含用于群体进化或变异研究的比对序列12 GEO12 GEO数据库数据库准确的基因表达谱数据和大规模的分子实验数据准确的基因表达谱数据
6、和大规模的分子实验数据13 13 PubMedPubMed Central Central数据库数据库14 14 MesHMesH 数据库数据库15 Bookshelf 15 Bookshelf 数据库数据库公众医学信息中心公众医学信息中心,是是NLM在生命科学领域在生命科学领域期刊文献的数字存档期刊文献的数字存档医学主题词数据库医学主题词数据库生物医学方面的书箱生物医学方面的书箱16 OMIM 16 OMIM 数据库数据库主要着眼于可遗传或遗传性的基因疾病主要着眼于可遗传或遗传性的基因疾病,包括文献包括文献,序列记录序列记录,染色体定位图谱及相关的数据库的链接染色体定位图谱及相关的数据库的链
7、接2.1.3 Entrez 简介简介 是一个全局的生物医学搜索引擎是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括它可以检查的数据库主要包括3类类:文献数据库文献数据库:PubMed,PubMedCentral,Journals,Books,OMIM,OMIA.序列数据库序列数据库:Nucleotide,Protein,Genome,Structure,SNP 其它数据库其它数据库:Taxonomy,Gene,UniGene,HomoloGene,Conserved Domains,3D Domains,UniSTS,PopSet,GEO Profiles,GEO Datasets,P
8、ubChem BioAssay,PubChem Compound,PubChem Substance,Cancer Chromosomes,Probe,MeSH,Journals,NLM Catalog2.1.4 Entrez 检索实例检索实例 已知菜豆斑驳病毒已知菜豆斑驳病毒(bean pod mottle virus,BPMV)的的名字名字,查询查询BPMV的基因组信息的基因组信息,核酸序列信息核酸序列信息,蛋白序列信蛋白序列信息和结构信息息和结构信息BPMV1 Genome数据库查询结果数据库查询结果2核酸数据库查询结果核酸数据库查询结果3蛋白质数据库查询结果蛋白质数据库查询结果4 结构
9、数据库查询结果结构数据库查询结果5序列的下载序列的下载2.2 2.2 综合性数据库综合性数据库EMBL-EBIEMBL-EBI 2.2.1 EBI简介简介 EBI(欧洲生物信息学中心欧洲生物信息学中心)全称是全称是European Bioinformatics Institute,是一个非盈利性的学术机构,是一个非盈利性的学术机构,是欧洲分子生物学实验室(是欧洲分子生物学实验室(EMBL,全称是,全称是European Molecular Biology Laboratory)的一部分。它的主要任)的一部分。它的主要任务是建立、维护和提供生物学数据库以及信息学服务,从务是建立、维护和提供生物学
10、数据库以及信息学服务,从而支持生物学数据的存放和进一步挖掘而支持生物学数据的存放和进一步挖掘,位于德国海德尔位于德国海德尔堡堡,是世界上著名的生命科学研究机构。是世界上著名的生命科学研究机构。提供免费数据和生物信息学服务提供免费数据和生物信息学服务生物信息学研究生物信息学研究提供生物信息学培训提供生物信息学培训将技术应用于产业将技术应用于产业 2.2.2 EBI数据库简介数据库简介1 1 核酸序列数据库核酸序列数据库2 2 UniProtUniProt Knowledgebase Knowledgebase3 3 大分子结构数据库大分子结构数据库与与GenBank DDBJ同步同步通用蛋白质资
11、源数据库通用蛋白质资源数据库,最全面的储最全面的储存蛋白质信息的数据库存蛋白质信息的数据库收集并储存大分子结构信息收集并储存大分子结构信息,部分来源于部分来源于PDB4 4 EnsemblEnsembl提供并及时更新后生生物的全基因组序列以及最为精确的注释提供并及时更新后生生物的全基因组序列以及最为精确的注释.5 5 UniProtKBSwiss-protUniProtKBSwiss-prot是一个蛋白质信息最为准确的蛋白质数据库是一个蛋白质信息最为准确的蛋白质数据库,它所提供的蛋白质信息有着最详尽的注释和它所提供的蛋白质信息有着最详尽的注释和最少的冗余最少的冗余.2.2.4 SRS 检索实例
12、检索实例 已知已知BPMV的名字的名字,查询其基因组的信息查询其基因组的信息,核酸序核酸序列信息列信息,蛋白质序列信息和结构信息蛋白质序列信息和结构信息SRS系统每次只能查询一个数据库系统每次只能查询一个数据库 Genome数据库查询结果数据库查询结果 数据库格式简介数据库格式简介 历史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库格式;了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成:文字注释文字注释 内容(序列,内容(序列,)EMBL和和GenBank数据库的主要内容和格式数据库的主要内容和格式 序列名称、长度、日期序列名称、长度、日
13、期序列说明、编号、版本号序列说明、编号、版本号物种来源、学名、分类学位置物种来源、学名、分类学位置相关文献作者、题目、刊物、日期相关文献作者、题目、刊物、日期序列特征表序列特征表碱基组成碱基组成序列(每行序列(每行60个碱基)个碱基)GenBankGenBank采用采用采用采用GBFFGBFF格式格式格式格式 实例:实例:实例:实例:E.coliE.coli k-12 k-12全基因组序列文件全基因组序列文件全基因组序列文件全基因组序列文件例子:例子:例子:例子:EMBLEMBL和和和和GenBankGenBank数据库的格式数据库的格式数据库的格式数据库的格式描述符描述符长度长度生物分子类型
14、生物分子类型形状形状分类码分类码数据第一次被公开的日期数据第一次被公开的日期简单的描述简单的描述检索号检索号版本号,序列改变,版本加版本号,序列改变,版本加1Geninfo identifier 基因信息号基因信息号序列来源的生物名称序列来源的生物名称参考文献参考文献作者及参考文献题目作者及参考文献题目期刊,及发表年份,卷及期、页码期刊,及发表年份,卷及期、页码评注评注特征表特征表关键字关键字BASE COUNT?A?C?G?TORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatag
15、cagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taac
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- ncbi 数据库 检索 解读 课件
限制150内