生物信息学实验指导(共16页).docx
《生物信息学实验指导(共16页).docx》由会员分享,可在线阅读,更多相关《生物信息学实验指导(共16页).docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上生物信息学实验指导广东药学院生命科学与生物制药学院二一一年三月目 录实验1. 生物信息学数据库与软件搜索1实验2. 核酸序列的检索2实验3. 核酸序列分析3实验4. 多重序列比对及系统发生树的构建5实验5. PCR 引物设计及评价7实验6. 蛋白质序列分析和结构预测9实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库有GenBank, EMBL, DDB等,蛋白质序列数据库有SWISS-PROT
2、, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence R
3、etrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。2、搜索生物信息学软件生物信息学软件的主要功能有:分析和处理实验数据和公共数据,加快研究进度,缩短科研时间;提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能;蛋白高级结构预测。如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物
4、设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。【作业】1、搜索生物信息学数据库或者软件。搜索出的数据库包括网址、该数据库的介绍、数据库网页截屏。如果搜索的是软件则包括该软件的用途、使用方法、软件图标。(以上搜索的数据库或软件至少完成8个以上)2、对生物信息学这门课的建议或感想。注:实验报告要求以电子版的形式完成以上作业,注明专业、学号、姓名后发送到邮箱。实验二 核酸序列的检索【实验目的】1、掌握核酸序列检索的操作方法;2、熟悉GenBank数据库序列格式及其主要字段的含义;3、了解EMBL数据库序列格式及其主要字段的含义;4、熟
5、悉GenBank数据库序列格式的FASTA序列格式显示与保存;【实验内容】1、使用Entrez信息查询系统检索核酸序列BC和NM_,连接提取该序列内容,阅读序列格式的解释,理解其含义;2、GenBank数据库序列格式的FASTA序列格式显示与保存;3、使用SRS信息查询系统检索核酸序列BC,连接提取该序列内容,阅读序列格式的解释,理解其含义;【作业】1、 在GenBank数据库中查询核酸序列NM_、下载(以两种格式保存:GenBank与Fasta)、写出GenBank格式主要字段含义。2、在EMBL数据库中查询核酸序列BC、下载(以两种格式保存:complete entries与Fasta)、
6、写出complete entries格式主要字段含义。实验三 核酸序列分析【实验目的】1、 掌握已知或未知序列接受号的核酸序列检索的基本步骤;2、 掌握使用BioEdit软件进行核酸序列的基本分析;2、 熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);3、 了解基因的电子表达谱分析。【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个已知的蛋白质或
7、其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列则不适用。
8、1. 重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 2. 数据库搜索 把未知核酸序列作为查询序列,在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是,由相似性分析作出的结论可能导致错误的流传;有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言,序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析 统计获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密
9、码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性,即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括:双密码子计数(统计连续两个密码子的出现频率);核苷酸周期性分析(分析同一个核苷酸在3,6,9,.位置上周期性出现的规律);均一/复杂性分析(长同聚物的统计计数);开放可读框架分析等。 4. 启动子分析 启动子是基因表达所必需的重要序列信号,识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都
10、比较严重。总的来说,启动子仍是值得继续研究探索的难题。 5. 内含子 / 外显子剪接位点 剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 6. 翻译起始位点 对于真核生物,如果已知转录起始点,并且没有内含子打断5非翻译区的话,“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程,但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在,启动子定位不象在真核生物中起关键作用。对
11、于原核生物,关键是核糖体结合点的定位,可以由多个程序提供解决方案。 7. 翻译终止信号 PolyA和翻译终止信号不象起始信号那么重要,但也可以辅助划分基因的范围。 8. 其它综合基因预测工具 除了上面提到的程序之外,还有许多用于基因预测的工具,它们大多把各个方面的分析综合起来,对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性,但也有一些局限:物种适用范围的局限;对多基因或部分基因,有的预测出的基因结构不可靠;预测的精度对许多新发现基因比较低;对序列中的错误很敏感;对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。 9. tRNA 基因识别 tRNA基因识别比编码蛋白质的基
12、因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。 【实验内容】1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5调控区 (promoter) 等核酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义;2、使用BioEdit软件对上述核酸序列进行碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析,并从BioEdit软件的“
13、help”栏了解该软件的其它功能;3、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析;4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析;5、使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析。【实验方法】1、进入NCBI主页:,或者直接在地址栏输入Entrez网址:;2、在输入栏输入homo sapiens leptin;3、在选择栏中选择nucleotide进行搜索;4、在显示序列结果中查找人Homo sapiens leptin (LEP), mRNA序列(提示:NM_),
14、点击序列接受号后显示序列详细信息; 5、将序列转为FASTA格式保存。(sequence1)6、根据从NM_了解的基因定位信息查找人瘦素的基因组DNA (Contig) 的序列识别号,点击序列识别号显示序列详细信息;(提示:在NM_序列信息中查找geneID,点击3952进入leptin的基因信息页面)7、查询人瘦素 (leptin) 基因组的序列分析和5调控区序列信息;(提示:在NM_序列信息中查找HGNC,点击6553,进入HUGO Gene Nomenclature Committee (HGNC)页面,点击GENATLASLEP可显示leptin基因信息及物理图谱。进一步点击10 Kb
15、 5 upstream gene genomic sequence study可获得5调控区序列)8、查询人瘦素 (leptin) 基因的电子表达谱分析;(提示:在UniGene中查询NM_)9、查找人瘦素外显子序列(exon),将序列转为FASTA格式保存。(sequence2)10、按上述步骤用SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5调控区等核酸序列;11、人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析:回到NCBI主页点击右边栏目BLAST 打开BLAST页面后点击Align将人瘦素 (leptin) mRNA和外显子的
16、FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素 (leptin) mRNA和基因组序列的版本号或GI号输入sequence2和sequence1的分析框点击BLAST后显示两序列比对的详细信息查找mRNA序列上各外显子的位置。12、将上述核酸序列输入BioEdit软件进行序列基本分析;打开BioEdit软件,点击“help”栏,阅读“contents”;将人瘦素 (leptin) 的mRNA序列载入BioEdit软件进行合算序列分析:打开BioEdit软件将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框点击选中左侧序列说明框中的序列号点击se
17、quence栏选择nucleic acid点击需要分析的项目【如Nucleotide Composition(核苷酸组成)、Complement(互补)、Translate(翻译)、Find Next ORF(寻找下一个开放读码框架ORF)、Restriction Map(限制性内切酶图谱)等】【作业】1、归纳对人瘦素 (leptin) 的核酸序列分析的结果,列出主要的分析结果;2、总结核酸序列分析的基本步骤,相互对比结果,指出应注意的事项。实验四 多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识;
18、2、掌握使用Clustalx进行序列多重比对的操作方法;3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤: 要对所分析的多序列目标进行比对(alignment)。 要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance met
19、hods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(
20、Neighbor-joining)。 对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法
21、计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。CLUSTALX和PHYLIP软件能够实现上述的建
22、树步骤。CLUSTALX是Windows界面下的多重序列比对软件。PHYLIP是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软件。vi,绘制和修改进化树的软件。【实验内容】1、使用CLUSTALX软件对已知八条DNA序列(如下)进行多重序列比对;M._mulatta AAGCTTTTCT GGCGCAACC
23、A TCCTCATGAT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pong
24、o AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT2、使用PHYLIP 软件包构建上述DNA分子系统发生树。【实验方法】一、用CLUSTALX软件对已知DNA序列做多序列比对。操作步骤:1、以FASTA格式准备8个DNA序列test.seq(或txt)文件。2、双击进入CL
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 实验 指导 16
限制150内