NCBI数据库及其资源的获取.docx
《NCBI数据库及其资源的获取.docx》由会员分享,可在线阅读,更多相关《NCBI数据库及其资源的获取.docx(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、NCBI数据库及其资源的获取 【摘 要】NCBI是美国的一个大型生物信息学系统,它主要通过 NCBI网站为全世界的科学家服务,它拥有多种数据库查询工具,以及多种数据库分析资源,对于我们查询文献、人类基因组信息、基因表达、蛋白质结构、肿瘤遗传信息,以及不同种属遗传信息等等有特别大的帮助,是一个特别重要的生物医学资源。 【关键词】NCBI;数据库;检索 目前,有一些大型生物学数据库包含了众多的生物学资源,我们可以便利地从国际互联网上查询,不仅便利了思想和资料的沟通,削减了很多重复性的工作,也供应了一种新的工作方式和思维方式,其中最常用的是美国的National Center forBiotechn
2、ology Information1。美国国家生物技术信息中心是美国国立卫生探讨院的国立医学图书馆的一个分支。NLM于11018年11月4日建立国家生物技术信息中心,简称NCBI。除了维护GenBank数据库外,它还供应基于Gen-Bank和多种生物学数据库的检索和分析服务2。 1 NCBI的主要任务 NCBI为储存和分析分子生物学、生物化学、遗传学学问创建自动化系统;从事探讨基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;促进生物学探讨人员和医护人员应用数据库和软件; 努力协作以获得世界范围内的生物技术信息。 2 NCBI的安排 NCBI有一个多学科的探讨
3、小组包括计算机科学家,分子生物学家,数学家,生物化学家,试验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的探讨。这些探讨者不仅仅在基础科学上做出重要贡献,而且往往成为应用探讨活动产生新方法的源泉。他们一起用数学和计算的方法探讨在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预料。目前探讨安排的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜寻中的序列错误影响的分析,开发新的数据库搜寻和多重序列对齐算法,建立非冗余序列数据库,序列相像性的统计显著性评估的数学模型和
4、文本检索的矢量模型。另外,NCBI探讨者还坚持推动与NIH内部其他探讨所及很多科学院和政府的探讨试验室的合作。 3 NCBI供应检索的服务 NCBI数据库的检索方法很简洁,在检索框中输入检索词,检索词间默认逻辑关系为AND,通过下拉菜单选择记录的显示格式,通常选择GenBank Report格式或FASTA Report格式。当选择GenBank Report格式后,屏幕显示较完整的基因记录,其内容包括:基因位点、基因定义、基因存取号、核酸编号、关键词、 来源、组织分类、参考文献、 著者、题目、期刊Journal)、Medline存取号、序列特征、基因、CDS、等位基因 对等的肽、计算碱基数、
5、原序列。而FASTA Report格式仅包括检出序列的简要特征描述。 3.1 GenBank Gen bank由NCBI建立和维护。该数据库包含了全部已知的核苷酸序列和蛋白质序列,以及相关的文献著作和生物学注释。数据涉及7万多个物种,其中56%是人类的基因组序列。数据来源于测序工作者提交的序列、测序中心提交的大量EST序列和其它测序数据。每条Gen bank数据记录都包含了对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含对序列生物学特征注释,如:编码区、转录单元、重复区域、突变位点或修饰位点等。全部数据记录被划分在若干个文件里,如细菌类、病毒类、灵长
6、类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。 GenBank是由NCBI受过分子生物学高级训练的工作人员通过来自各个试验室递交的序列和同国际核酸序列数据库交换数据建立起数据库的。它同日本和欧洲分子生物学试验室的DNA数据库共同构成了国际核酸序列数据库合作。这三个组织每天交换数据。其中的数据以指数形式增长,核酸碱基数目也许每14个月就翻一个倍。最近,GenBank拥有来自47,000个物种的30亿个碱基。 GenBank的宗旨是激励科研团体对DNA序列的获得,从而促进数据库中DNA序列的丰富和更新,所以NCBI对GenBank
7、的数据运用与发送没有任何限制。用户可从GenBank主页上下载Banklt、Sequin以及VecScreen等便于提交和更新探讨成果的应用软件。其页面上的简洁检索界面供应19种相关检索选项,分别是:PubMed、Protein、Nucleotide、Structure、Genome、PMC、LocusLink、PopSet、OMIM、Taxonomy、Books、ProbeSet、3D Domains、UniSTS、Domains、SNP、Journals、UniGene、NCBI Web Site。 GenBank可以与DNA Star软件结合运用,进行基因序列分析和比对。大型数据库分成若
8、干子库,有很多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组安排快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜寻时“有的放矢”。GenBank将这些数据按高通量基因组序列、表达序列标记、序列标记位点和基因组概览序列单独分类。尽管这些数据尚未加以注释,它们依旧是GenBank的重要组成部分。 完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是依据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以C
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NCBI 数据库 及其 资源 获取
限制150内