《生物信息学作业一.doc》由会员分享,可在线阅读,更多相关《生物信息学作业一.doc(14页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流生物信息学作业一.精品文档.生物信息学实验作业 一1、 了解NCBI、DDBJ、EMBL上网的方法自学各网站相关介绍。答:(1)、NCBI: (National Center of Biotechnology Information,简称NCBI)美国国立生物技术信息中心。其主页为:www.ncbi.nlm.nih.gov。NCBI是在NIH的国立医学图书馆(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。NCBI的任务是发展新的信息学技术来帮助对那些控制
2、健康和疾病的基本分子和遗传过程的理解。NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预测。在1992年10月,NCBI承担起对GenBank DNA序列数据库的责任。NCBI受过分子生物学高级训练的工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起数据库。同美国专利和商标局的安排使得专利的序列信息也被整合。BLAST是一个NCBI开发的序
3、列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从WWW或FTP来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。主要任务:(1)建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统(2)实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究(3)加速生物技术研究者和医药治疗人
4、员对数据库和软件的使用。(4)全世界范围内的生物技术信息收集的合作努力。教育和训练:NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH内部的部分研究项目,也提供博士后工作位置。(2)、DDBJ: (DNA Data Bank of Japan,简称DDBJ)日本DNA数据库。其主页www.ddbj.nig.ac.jp/。其于1984年建立,是世界三大DNA 数据库之一。DDBJ开发了SQmateh工具,用来搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了简便且易操作的SOAP(s
5、imple object aeeess protoco1)服务器。它的数据主要通过Sakura和MST工具来完成。与NCBI,EBM共同构成DNA三大数据库,这三大数据中心各自收集序列数据,并通过网络每天进行数据交换。近来三大数据库合作的项目主要包括TPA(tird pannotation)、CON(struct)或CON(tig)和XML数据交换格式的建立。TPA是一种基于已有数据库中的核酸序列产生的注释数据,它的格式与传统的GenBank一样,只是包含了“TPA”标签。CON(struct)或CON(tig)用于存储一些片段的拼接信息,这些片段是序列长度大于350 000 bp的核酸被分割
6、而产生的,但这种长度限制在2004年6月就被取消。DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列,数据库通过WWW环球网,匿名FTP,e-mail或Gopher方式为广大研究人员服务。(3)、EMBL: (The European Molecular Biology Laboratory,简称EMBL)欧洲分子生物学实验室。其主页为: www.embl.org。EMBL于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,现在由欧洲30个成员国政府支持组成,目的在于促进欧洲国家之间的合作来发展分子生物学的基础研究和改进仪器设
7、备、教育工作等。分7个部分:结构、分化、物理仪器、生化仪器、生物仪器、计算机和应用数学。包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。EMBL的研究主要集中在以下几个方面: 1. 生化实验技术质谱分析(MassSpectrometry)等。2细胞生物学(CellBiology),研究细胞膜上蛋白和脂肪的分布,包括膜运输、微管网络、细胞核及细胞周期,焦点是Rab蛋白。3细胞生物物理(CellBiophysics),重点是理论创新和实际应用的研究,尤其是光学显微镜的完善使用。4分化(Differentiation
8、),集中研究果蝇的早期发育。5基因表达(GeneExpression),研究基因到蛋白质信息传递的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用。6结构生物学(StructureBiology),在过去9年中建立了cDNA测序技术、生物计算、蛋白工程、晶体学、电子显微镜(EM)及核磁共振(VMR),研究肌肉巨型蛋白分子Titin。7Grenoble研究分部,主要研究蛋白质合成过程,尤其揭示了G-蛋白-鸟苷酸交换因子偶联物的结构。8Hamburg研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测量系统、晶体学、X-线吸收光谱及小角散射。9Hinxton研究分部E
9、BI(EuropeanBioinformaticsInstitute,欧洲生物信息学研究所),重点是与世界上其他分子生物学数据库进行合作研究,最主要的有EMBL核酸序列数据库,于1980年开始建立,随后参予了与日内瓦大学共同进行的SWISS-PROT的建设。在SWISS-PROT与EMBL核苷酸序列库之间的数据转移的基础上,产生了新的数据库TREMBL(TranslationfromEMBL),即使核苷酸序列库的核苷酸序列自动翻译成SWISS-PROT蛋白序列库中的蛋白序列。10放射性杂交数据库(RadiationHybridDatabase)。11Monterotondo研究中心组,EMBL
10、和欧洲其他研究组一起,加入到哺乳类生物学和生物医学的研究行列,中心位于意大利罗马北部的Monterotondo。EMBL着重于鼠遗传学研究。2、了解北大生物信息学中心等几大中文生物信息学网站。答:北大生物信息中心,简称CBI。CBI的主页为北大生物信息中心成立于1997年,是欧洲分子生物学网络组织EMBnet的中国国家节点。几年来,已经与多个国家的生物信息中心建立了合作关系,其中包括:欧洲生物信息学研究所(EBI)、国际蛋白质数据库和分析中心(ExPASy) 、国际遗传工程和生物技术研究所、德国生物工程研究所、英国基因组资源中心、英国基因组研究中心(Sanger Centre)、荷兰生物信息中
11、心、澳大利亚基因组信息中心、新加坡生物信息中心等等。目前是国内数据库种类最多,数据量最大的生物信息站点, 为国内外用户提供了多项生物信息服务。上海生物信息技术研究中心:成立于2002年8月,上海市科学技术委员会依托中国科学院上海生命科学研究院、国家人类基因组南方研究中心、复旦大学、上海交通大学、上海第二医科大学、上海医药工业研究院和中国科学院上海有机化学研究所等单位,整合上海生物信息学主要研究力量,投入1140万元资金,正式组建了上海生物信息技术研究中心。上海生物信息技术研究中心是国内第一个以推动我国生物信息学数据共享为目的,完全从事生命科学数据库建设、生物信息学软件开发的地方政府支持的、自收
12、自支的独立事业法人单位。上海生物信息技术研究中心旨在开展和促进生物信息技术领域的原始性创新研究,建立具有广泛应用前景和国际先进水平的生物信息分析、数据挖掘和知识发现的技术体系,促进上海乃至全国生命科学、生物技术和生物医药产业的发展。3、了解一些生物论坛中有关生物信息学的部分。如:Biooo和Bioon。答:生物谷:生物谷创建于2001年,生物谷是目前国内最大的生物医药类门户网站。生物谷开创了生物行业新闻发布标准,开创了生物专业信息的多级分类的先河,生物医药类详细的信息分类几乎全部起源于生物谷,后被大量网站效仿,一举成为行业分类的标准。生物谷信息内容注重丰富性、科学性、专业性和权威性,及时、全面
13、、快速的把生物医药最新资讯与动态整理并发布于生物谷上,内容包括基础生物学、生物技术产业、生物医药产业、趋势、人物与企业等核心版块,每一版块又有针对当前热点领域进行细分栏目,这一分类模式以及生命科学领域新闻信息的发布标准,均被国内同行广泛采用和接受。同时,通过综合服务发展模式,面向终端客户提供完善的服务体系。中国生物技术信息网:生物通:生物信息学论坛:4、利用NCBI的查询系统检索1-3条核酸或蛋白质序列(自选),并对照所学复习各字段的含义。答:Mouse的蛋白质序列分析: Comment Features SequenceLOCUS 3UNH_B 261 aa linear ROD 28-MA
14、R-2012DEFINITION Chain B, Mouse 20s Immunoproteasome.ACCESSION 3UNH_BVERSION 3UNH_B GI:378792444DBSOURCE pdb: molecule 3UNH, chain 66, release Mar 28, 2012; deposition: Nov 15, 2011; class: Hydrolase; source: Mol_id: 1; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090
15、; Mol_id: 2; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 3; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 4; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 5; Organism
16、_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 6; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 7; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 8; Organism_scientific: Mus Musc
17、ulus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 9; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 10; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 11; Organism_scientific: Mus Musculus; Organism_comm
18、on: Mouse; Organism_taxid: 10090; Mol_id: 12; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 13; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organism_taxid: 10090; Mol_id: 14; Organism_scientific: Mus Musculus; Organism_common: Mouse; Organis
19、m_taxid: 10090; Exp. method: X-Ray Diffraction.KEYWORDS .SOURCE Mus musculus (house mouse) ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; Muroidea; Muridae; Murinae; Mus; Mus.REFERENCE 1 (r
20、esidues 1 to 261) AUTHORS Huber,E.M., Basler,M., Schwab,R., Heinemeyer,W., Kirk,C.J., Groettrup,M. and Groll,M. TITLE Immuno- and constitutive proteasome crystal structures reveal differences in substrate and inhibitor specificity JOURNAL Cell 148 (4), 727-738 (2012) PUBMED 22341445REFERENCE 2 (resi
21、dues 1 to 261) AUTHORS Huber,E., Basler,M., Schwab,R., Heinemeyer,W., Kirk,C., Groettrup,M. and M,M. TITLE Direct Submission JOURNAL Submitted (15-NOV-2011)COMMENT 2 Proteasome Subunit Alpha Type-4.FEATURES Location/Qualifiers source 1.261 /organism=Mus musculus /db_xref=taxon:10090 Region 1.237 /re
22、gion_name=PTZ00246 /note=proteasome subunit alpha; Provisional /db_xref=CDD:173491 Region 3.216 /region_name=proteasome_alpha_type_4 /note=proteasome_alpha_type_4. The 20S proteasome, multisubunit proteolytic complex, is the central enzyme of nonlysosomal protein degradation in both the cytosol and
23、nucleus. It is composed of 28 subunits arranged as four homoheptameric rings that stack on.; cd03752 /db_xref=CDD:48450 Site order(7.10,12.13,15.16,20,23,26.27,30,38,53,55.56, 80.82,84.85,116,119,122.123,126.130,148,153.154,156, 158.159,161) /site_type=other /note=alpha subunit interaction site poly
24、peptide binding /db_xref=CDD:48450 SecStr 19.30 /sec_str_type=helix /note=helix 7 Site order(32,48,50,64,166) /site_type=active /db_xref=CDD:48450 SecStr 32.40 /sec_str_type=sheet /note=strand 11 SecStr 41.49 /sec_str_type=sheet /note=strand 12 SecStr 64.68 /sec_str_type=sheet /note=strand 13 SecStr
25、 71.79 /sec_str_type=sheet /note=strand 14 SecStr 80.100 /sec_str_type=helix /note=helix 8 SecStr 107.123 /sec_str_type=helix /note=helix 9 SecStr 131.141 /sec_str_type=sheet /note=strand 15 SecStr 142.145 /sec_str_type=sheet /note=strand 16 SecStr 146.152 /sec_str_type=sheet /note=strand 17 SecStr
26、154.159 /sec_str_type=sheet /note=strand 18 SecStr 160.166 /sec_str_type=sheet /note=strand 19 SecStr 169.178 /sec_str_type=helix /note=helix 10 SecStr 186.200 /sec_str_type=helix /note=helix 11 SecStr 210.220 /sec_str_type=sheet /note=strand 20 SecStr 221.228 /sec_str_type=sheet /note=strand 21 Sec
27、Str 230.246 /sec_str_type=helix /note=helix 12ORIGIN 1 msrrydsrtt ifspegrlyq veyameaigh agtclgilan dgvllaaerr nihklldevf 61 fsekiyklne dmacsvagit sdanvltnel rliaqryllq yqepipceql vtalcdikqa 121 ytqfggkrpf gvsllyigwd khygfqlyqs dpsgnyggwk atcignnsaa avsmlkqdyk 181 egemtlksal alavkvlnkt mdvsklsaek vei
28、atltres gktvirvlkq keveqlikkh 241 eeeeakaere kkekeqrekd kMouse的核苷酸序列分析:LOCUS JN596232 679 bp DNA linear MAM 02-MAY-2012DEFINITION Rhinopoma hardwickii taste receptor type 1 member 1 (Tas1r1) pseudogene, partial sequence.ACCESSION JN596232VERSION JN596232.1 GI:358680483KEYWORDS .SOURCE Rhinopoma hard
29、wickii (Lesser mouse-tailed bat) ORGANISM Rhinopoma hardwickii Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Chiroptera; Microchiroptera; Rhinopomatidae; Rhinopoma.REFERENCE 1 (bases 1 to 679) AUTHORS Zhao,H., Xu,D., Zhang,S. and Zhang,J. TITLE
30、 Genomic and genetic evidence for the loss of umami taste in bats JOURNAL Genome Biol Evol 4 (1), 73-79 (2012) PUBMED 22117084REFERENCE 2 (bases 1 to 679) AUTHORS Zhao,H. TITLE Direct Submission JOURNAL Submitted (18-AUG-2011) Ecology and Evolutionary Biology, University of Michigan, 830 North Unive
31、rsity, Ann Arbor, mi 48109, USAFEATURES Location/Qualifiers source 1.679 /organism=Rhinopoma hardwickii /mol_type=genomic DNA /specimen_voucher=RH-112 /db_xref=taxon:124756 /country=United Kingdom /collection_date=10-Apr-2007 /collected_by=Huabin Zhao gene 679 /gene=Tas1r1 /note=taste receptor type
32、1 member 1; umami taste receptor /pseudoORIGIN 1 acccctgtgg tgaggtcggc tgggggcagg ctttgcttcc tcatgctggt ctcccaggca 61 gtgggcagct gcagcctcta tggctttttt gggaaaccca cgctgcccat gtgcttgctg 121 tgccaaggcc tcttggccct cggttttgtt atcttcctgt cctacctgac aatccactcc 181 tcccaactgg tcttcatctt caagttttct gccaaggta
33、t ccaccttcta ccatgcctgg 241 gtccaaaaac acggggctag cctctttgta gggatcagct cagtggccca gctatttatc 301 tgtctaactt ggcttgcggt gtggacccca atgcccatta gagaatacca tccctttcct 361 cagctggtgg cgcttgactg cacagaggct aactcactgg gcctcacgct gccttttgcc 421 tacaaacgtc tcctctccgt cagcgcctct gcctgcaggt acgtggacaa ggacctgcca 481 gagaactaca aggccttatg tgtcaccttc aacctgctcc tcaactttgt gtcctgggtc 541 gccttcttca tcactgccgg ctgccaacgt gttggccatg ctgagcagcc ttagtggctg 601 cttcagcggt tttttcctcc ccaagtgcta tgtgatccgg tacggctcag atctcaacag 661 cacggagcac ttccgggcc
限制150内