生物信息学实验指导.docx

资源ID：15020608 资源大小：37.80KB 全文页数：16页
资源格式： DOCX 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

生物信息学实验指导.docx

精选优质文档-倾情为你奉上生物信息学实验指导广东药学院生命科学与生物制药学院二一一年三月目录实验1. 生物信息学数据库与软件搜索1实验2. 核酸序列的检索2实验3. 核酸序列分析3实验4. 多重序列比对及系统发生树的构建5实验5. PCR 引物设计及评价7实验6. 蛋白质序列分析和结构预测9实验一生物信息学数据库和软件的搜索【实验目的】熟练掌握上网搜索生物信息学数据库和软件的方法及技能。【实验内容】1、搜索生物信息学数据库或者软件数据库是生物信息学的主要内容，各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库有GenBank, EMBL, DDB等，蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等，蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等，三维结构数据库有PDB, NDB, BioMagResBank, CCSD等，与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等，与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等，文献数据库有Medline, Uncover等。另外一些公司还开发了商业数据库,如MDL等。生物信息学数据库覆盖面广，分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务，如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库，三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具，用户可以进行多个数据库的多种查询。2、搜索生物信息学软件生物信息学软件的主要功能有：分析和处理实验数据和公共数据，加快研究进度，缩短科研时间；提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验；寻找、预测新基因及预测其结构、功能；蛋白高级结构预测。如：核酸序列分析软件BioEdit、DNAClub等；序列相似性搜索BLAST；多重系列比对软件Clustalx；系统进化树的构建软件Phylip、MEGA等；PCR 引物设计软件Primer premier6.0、oligo6.0等；蛋白质二级、三级结构预测及三维分子浏览工具等等。【作业】1、搜索生物信息学数据库或者软件。搜索出的数据库包括网址、该数据库的介绍、数据库网页截屏。如果搜索的是软件则包括该软件的用途、使用方法、软件图标。（以上搜索的数据库或软件至少完成8个以上）2、对生物信息学这门课的建议或感想。注：实验报告要求以电子版的形式完成以上作业，注明专业、学号、姓名后发送到邮箱。实验二核酸序列的检索【实验目的】1、掌握核酸序列检索的操作方法；2、熟悉GenBank数据库序列格式及其主要字段的含义；3、了解EMBL数据库序列格式及其主要字段的含义；4、熟悉GenBank数据库序列格式的FASTA序列格式显示与保存；【实验内容】1、使用Entrez信息查询系统检索核酸序列BC和NM_，连接提取该序列内容，阅读序列格式的解释，理解其含义；2、GenBank数据库序列格式的FASTA序列格式显示与保存；3、使用SRS信息查询系统检索核酸序列BC，连接提取该序列内容，阅读序列格式的解释，理解其含义；【作业】1、在GenBank数据库中查询核酸序列NM_、下载（以两种格式保存：GenBank与Fasta）、写出GenBank格式主要字段含义。2、在EMBL数据库中查询核酸序列BC、下载（以两种格式保存：complete entries与Fasta）、写出complete entries格式主要字段含义。实验三核酸序列分析【实验目的】1、掌握已知或未知序列接受号的核酸序列检索的基本步骤；2、掌握使用BioEdit软件进行核酸序列的基本分析；2、熟悉基于核酸序列比对分析的真核基因结构分析（内含子/外显子分析）；3、了解基因的电子表达谱分析。【实验原理】针对核酸序列的分析就是在核酸序列中寻找基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。在此过程中，确认一段DNA序列是一个基因需要有多个证据的支持。一般而言，在重复片段频繁出现的区域里，基因编码区和调控区不太可能出现；如果某段DNA片段的假想产物与某个已知的蛋白质或其它基因的产物具有较高序列相似性的话，那么这个DNA片段就非常可能属于外显子片段；在一段DNA序列上出现统计上的规律性，即所谓的“密码子偏好性”，也是说明这段DNA是蛋白质编码区的有力证据；其它的证据包括与“模板”序列的模式相匹配、简单序列模式如TATA Box等相匹配等。一般而言，确定基因的位置和结构需要多个方法综合运用，而且需要遵循一定的规则：对于真核生物序列，在进行预测之前先要进行重复序列分析，把重复序列标记出来并除去；选用预测程序时要注意程序的物种特异性；要弄清程序适用的是基因组序列还是cDNA序列；很多程序对序列长度也有要求，有的程序只适用于长序列，而对EST这类残缺的序列则不适用。1. 重复序列分析对于真核生物的核酸序列而言，在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去，因为很多情况下重复序列会对预测程序产生很大的扰乱，尤其是涉及数据库搜索的程序。 2. 数据库搜索把未知核酸序列作为查询序列，在数据库里搜索与之相似的已有序列是序列分析预测的有效手段。在理论课中已经专门介绍了序列比对和搜索的原理和技术。但值得注意的是，由相似性分析作出的结论可能导致错误的流传；有一定比例的序列很难在数据库里找到合适的同源伙伴。对于EST序列而言，序列搜索将是非常有效的预测手段。 3. 编码区统计特性分析统计获得的经验说明，DNA中密码子的使用频率不是平均分布的，某些密码子会以较高的频率使用而另一些则较少出现。这样就使得编码区的序列呈现出可察觉的统计特异性，即所谓的“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。这一类技术包括：双密码子计数(统计连续两个密码子的出现频率)；核苷酸周期性分析(分析同一个核苷酸在3,6,9,.位置上周期性出现的规律)；均一/复杂性分析(长同聚物的统计计数)；开放可读框架分析等。 4. 启动子分析启动子是基因表达所必需的重要序列信号，识别出启动子对于基因辨识十分重要。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征，并依次作为启动子预测的依据，但实际的效果并不十分理想，遗漏和假阳性都比较严重。总的来说，启动子仍是值得继续研究探索的难题。 5. 内含子 / 外显子剪接位点剪接位点一般具有较明显的序列特征，但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整，因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 6. 翻译起始位点对于真核生物，如果已知转录起始点，并且没有内含子打断5'非翻译区的话，“Kozak规则”可以在大多数情况下定位起始密码子。原核生物一般没有剪接过程，但在开放阅读框中找正确的起始密码子仍很困难。这时由于多顺反操纵子的存在，启动子定位不象在真核生物中起关键作用。对于原核生物，关键是核糖体结合点的定位，可以由多个程序提供解决方案。 7. 翻译终止信号 PolyA和翻译终止信号不象起始信号那么重要，但也可以辅助划分基因的范围。 8. 其它综合基因预测工具除了上面提到的程序之外，还有许多用于基因预测的工具，它们大多把各个方面的分析综合起来，对基因进行整体的分析和预测。多种信息的综合分析有助于提高预测的可靠性，但也有一些局限：物种适用范围的局限；对多基因或部分基因，有的预测出的基因结构不可靠；预测的精度对许多新发现基因比较低；对序列中的错误很敏感；对可变剪接、重叠基因和启动子等复杂基因语法效果不佳。 9. tRNA 基因识别 tRNA基因识别比编码蛋白质的基因识别简单，目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序，通过分析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程，据称能识别99%的真tRNA基因。【实验内容】1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5调控区 (promoter) 等核酸序列，连接提取该序列内容，阅读序列格式的解释，理解其含义；2、使用BioEdit软件对上述核酸序列进行碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析，并从BioEdit软件的“help”栏了解该软件的其它功能；3、使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进行可读框架分析；4、使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析；5、使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析。【实验方法】1、进入NCBI主页：，或者直接在地址栏输入Entrez网址：；2、在输入栏输入homo sapiens leptin；3、在选择栏中选择nucleotide进行搜索；4、在显示序列结果中查找人Homo sapiens leptin (LEP), mRNA序列（提示：NM_），点击序列接受号后显示序列详细信息； 5、将序列转为FASTA格式保存。（sequence1）6、根据从NM_了解的基因定位信息查找人瘦素的基因组DNA (Contig) 的序列识别号，点击序列识别号显示序列详细信息；（提示：在NM_序列信息中查找geneID，点击3952进入leptin的基因信息页面）7、查询人瘦素 (leptin) 基因组的序列分析和5调控区序列信息；（提示：在NM_序列信息中查找HGNC，点击6553，进入HUGO Gene Nomenclature Committee (HGNC)页面，点击GENATLASLEP可显示leptin基因信息及物理图谱。进一步点击10 Kb 5' upstream gene genomic sequence study可获得5调控区序列）8、查询人瘦素 (leptin) 基因的电子表达谱分析；（提示：在UniGene中查询NM_）9、查找人瘦素外显子序列（exon），将序列转为FASTA格式保存。（sequence2）10、按上述步骤用SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5调控区等核酸序列；11、人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析：回到NCBI主页点击右边栏目BLAST 打开BLAST页面后点击Align将人瘦素 (leptin) mRNA和外显子的FASTA格式序列分别输入sequence2和sequence1分析框或将人瘦素 (leptin) mRNA和基因组序列的版本号或GI号输入sequence2和sequence1的分析框点击BLAST后显示两序列比对的详细信息查找mRNA序列上各外显子的位置。12、将上述核酸序列输入BioEdit软件进行序列基本分析；打开BioEdit软件，点击“help”栏，阅读“contents”；将人瘦素 (leptin) 的mRNA序列载入BioEdit软件进行合算序列分析：打开BioEdit软件将人瘦素 (leptin) mRNA的FASTA格式序列输入分析框点击选中左侧序列说明框中的序列号点击sequence栏选择nucleic acid点击需要分析的项目【如Nucleotide Composition（核苷酸组成）、Complement（互补）、Translate（翻译）、Find Next ORF（寻找下一个开放读码框架ORF）、Restriction Map（限制性内切酶图谱）等】【作业】1、归纳对人瘦素 (leptin) 的核酸序列分析的结果，列出主要的分析结果；2、总结核酸序列分析的基本步骤，相互对比结果，指出应注意的事项。实验四多重序列比对及系统发生树的构建【实验目的】1、熟悉构建分子系统发生树的基本过程，获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识；2、掌握使用Clustalx进行序列多重比对的操作方法；3、掌握使用Phylip软件构建系统发生树的操作方法。【实验原理】在现代分子进化研究中，根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断，将揭示出有关生物进化过程的顺序，有助于我们了解生物进化的历史和进化机制。对于一个完整的进化树分析需要以下几个步骤：要对所分析的多序列目标进行比对（alignment）。要构建一个进化树（phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。对进化树进行评估，主要采用Bootstraping法。进化树的构建是一个统计学问题，我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确，现在已经很少使用。邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows界面下的多重序列比对软件。PHYLIP是多个软件的压缩包，功能极其强大，主要包括五个方面的功能软件：i，DNA和蛋白质序列数据的分析软件。ii，序列数据转变成距离数据后，对距离数据分析的软件。 iii，对基因频率和连续的元素分析的软件。iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。v，按照DOLLO简约性算法对序列进行分析的软件。vi，绘制和修改进化树的软件。【实验内容】1、使用CLUSTALX软件对已知八条DNA序列（如下）进行多重序列比对；M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT2、使用PHYLIP 软件包构建上述DNA分子系统发生树。【实验方法】一、用CLUSTALX软件对已知DNA序列做多序列比对。操作步骤：1、以FASTA格式准备8个DNA序列test.seq（或txt）文件。2、双击进入CLUSTALX程序，点FILE进入LOAD SEQUENCE，打开test.seq（或txt）文件。3、点ALIGNMENT，在默认alignment parameters下，点击Do complete Alignment 。在新出现的窗口中点击ALIGN进行比对，这时输出两个文件（默认输出文件格式为Clustal格式）：比对文件test.aln和向导树文件test.dnd。4、点FILE进入Save sequence as,在format 框中选PHYLIP，文件在PHYLIP软件目录下以test.phy存在，点击OK。5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。用计事本方式打开的test.phy文件的部分序列如下：图中的8和50分别表示8个序列和每个序列有50个碱基。二、用PHYLIP软件推导进化树。1、进入EXE文件夹，点击SEQBOOT程序输入test.phy文件名，回车。图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同，这里不再介绍。R选项让使用者输入replicate的数目。所谓replicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的replicate，此处选200，输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数（比如3）。当我们设置好条件后按回车，程序开始运行，并在EXE文件夹中产生一个文件outfile，Outfile用记事本打开如下：这个文件包括了200个replicate。2、文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置的replicate的数目，输入D选择data sets，输入200。设置好条件后，输入Y确认参数。程序开始运行，并在EXE文件夹中产生outfile，部分内容如下：将outfile文件名改为infile，为避免与原先infile文件重复，将原先文件名改为infile1。3、EXE文件夹中选择通过距离矩阵推测进化树的算法，点击NEIGHBOR程序。输入M更改参数，输入D选择data sets。输入200。输入奇数种子3。输Y确认参数。程序开始运行，并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一个树文件，可以用treeview等软件打开。outfile是一个分析结果的输出报告，包括了树和其他一些分析报告，可以用记事本直接打开。部分内容如下：4、将EXE文件夹中原有的outfile改为其他名，新生成的的outfile和outtree文件名改为infile、intree。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开，内容如下：5、将EXE文件夹中原有的outfile和outtree改为其他名，新生成的outfile和outtree改为infile和intree。点击DRAWTREE程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。6、点击DRAWGRAM程序，输入font1文件名，作为参数。输Y确认参数。程序开始运行，并出现Tree Preview图。【作业】1、采用以上例子给出的DNA序列进行系统发育树的构建结果。（包括序列比对结果及最终生成的树）2、以下给出的是蛋白质序列，使用以上方法构建系统发育树。（包括序列比对结果及最终生成的树）>RATMEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNNPKGMIPLKGSTLTSPCQDFGKRMFVLKITTTKQQDHFFQAAYLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGI>HUMAN MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI>CANFA MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGI>MOUSE MEPKRIREGYLVKKGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVLKITTTKQQDHFFQAAFLEERDAWVRDIKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDPEKGI>Canis MEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDSWVRDTKKAIKCIEGGQKFARKSTRRSIRLPETVDLGALYLSMKDIEKGI>Gallus gallusMEREPMRIREGYLVKKGSMFNTWKPMWVVLLEDGIEFYKRKSDNSPKGMIPLKGSTINSPCQDFGKRMFVFKLTAAKQQDHFFQASYLEERDAWVRDIKKAIQCIDGGQRFARKSTRKSIRLPETINLSALYLSMKDPEK>Danio rerioMEPTTIREGYLVKKGTVLNSWKAVWVVLKDDAIEFFKKKTDRNAKGMIPLKGATLTSPCQDFSKRALVFKVSTAKNQDHYFQATHLEEREHWVKDIRRAITCLQGGKKFARKSTRRSIRLPESVNLSELYVCMKDPDRGV>chimpanzeeMEPKRIREGYLVKRGSVFNTWKPMWVVLLEDGIEFYKKKSDNSPKGMIPLKGSTLTSPCQDFGKRMFVFKITTTKQQDHFFQAAFLEERDAWVRDMKKAIKCIEGGQKFARKSTRRSIRLPETIDLGALYLSMKDTEKGI3、以上构建系统进化树的方法为N-J法，请总结采用蛋白质序列构建系统进化树与采用DNA序列构建系统进化树所选用的程序的区别。实验五 PCR引物设计及评价【实验目的】1、掌握引物设计的基本要求，并熟悉使用Primer premier5.0软件进行引物搜索。2、掌握使用软件oligo6.0对设计的引物进行评价分析。【实验原理】一、引物设计原则聚合梅链式反应（polymerase chain reaction）即PCR技术，是一种在体外快速扩增特定基因或DNA 序列的方法，故又称基因的体外扩增法。PCR技术已成为分子生物学研究中使用最多，最广泛的手段之一，而引物设计是PCR技术中至关重要的一环，使用不合适的PCR引物容易导致实验失败：表现为扩增出目的带之外的多条带（如形成引物二聚体带），不出带或出带很弱，等等。现在PCR引物设计大都通过计算机软件进行，可以直接提交模板序列到特定网页，得到设计好的引物，也可以在本地计算机上运行引物设计专业软件。引物设计原则如下：1、引物应在序列的保守区域设计并具有特异性。引物序列应位于基因组DNA的高度保守区，且与非扩增区无同源序列。这样可以减少引物与基因组的非特异结合，提高反应的特异性；2、引物的长度一般为15-30 bp。常用的是18-27 bp，但不应大于38，因为过长会导致其延伸温度大于74，不适于Taq DNA聚合酶进行反应；3、引物不应形成二级结构。引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带，并且降低引物有效浓度而使PCR反应不能正常进行；4、引物序列的GC含量一般为40-60%。过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大；5、引物所对应模板位置序列的Tm值在72左右可使复性条件最佳。Tm值的计算有多种方法，如按公式Tm=4(G+C)+2(A+T)；6、引物5'端序列对PCR影响不太大，因此常用来引进修饰位点或标记物。可根据下一步实验中要插入PCR产物的载体的相应序列而确定。7、引物3端不可修饰。引物3'端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率，末位碱基为A的错配效率明显高于其他3个碱基，因此应当避免在引物的3'端使用碱基A。8、引物序列自身或者引物之间不能在出现3个以上的连续碱基，如GGG或CCC，也会使错误引发机率增加；9、G值是指DNA双链形成所需的自由能，该值反映了双链结构内部碱基对的相对稳定性。应当选用3'端 G值较低（绝对值不超过9），而5端和中间 G值相对较高的引物。引物的3端的 G值过高，容易在错配位点形成双链结构并引发DNA聚合反应；值得一提的是，各种模板的引物设计难度不一。有的模板本身条件比较困难，例如GC含量偏高或偏低，导致找不到各种指标都十分合适的引物；在用作克隆目的的PCR因为产物序列相对固定，引物设计的选择自由度较低，在这种情况只能退而求其次，尽量去满足条件。二、引物设计软件Primer premier5.0及oligo6.0“Premier”的主要功能分四大块，其中有三种功能比较常用，即引物设计、限制性内切酶位点分析和DNA 基元(motif)查找。“Premier”还具有同源性分析功能，但并非其特长，在此略过。此外，该软件还有一些特殊功能，其中最重要的是设计简并引物，另外还有序列“朗读”、DNA 与蛋白序列的互换、语音提示键盘输入等等。有时需要根据一段氨基酸序列反推到DNA 来设计引物，由于大多数氨基酸（20 种常见结构氨基酸中的18 种）的遗传密码不只一种，因此，由氨基酸序列反推DNA 序列时，会遇到部分碱基的不确定性。这样设计并合成的引物实际上是多个序列的混和物，它们的序列组成大部分相同，但在某些位点有所变化，称之为简并引物。遗传密码规则因物种或细胞亚结构的不同而异，比如在线粒体内的遗传密码与细胞核是不一样的。“Premier”可以针对模板DNA 的来源以相应的遗传密码规则转换DNA 和氨基酸序列。软件共给出八种生物亚结构的不同遗传密码规则供用户选择，有纤毛虫大核（Ciliate Macronuclear）、无脊椎动物线粒体（Invertebrate Mitochondrion）、支原体（Mycoplasma）、植物线粒体（Plant Mitochondrion）、原生动物线粒体（Protozoan Mitochondrion）、一般标准（Standard）、脊椎动物线粒体（Vertebrate Mito-chondrion）和酵母线粒体（Yeast Mitochondrion）。对引物进行分析评价的的软件中，“oligo” 是最着名的。它的使用并不十分复杂，Oligo 6.0的界面是三个图，Tm图、G图和Frq图。“Oligo”的功能比“Premier”还要单一，就是引物设计。但它的引物分析功能如此强大以至于能风靡全世界。所以引物设计的最佳搭配是“Premier”进行引物搜索“Oligo” 对引物分析评价。【实验内容】1、使用Primer premier5.0软件进行人瘦素 (leptin) mRNA引物的设计。2、使用oligo6.0对引物进行评价分析。?【实验方法】一、引物搜索1、打开Primer premier5.0软件，调入人瘦素 (leptin) 基因序列：点击“file” “open” “ DNA sequence”；或者直接点击 “file” “new” “DNA sequence”，弹出一对话框如下图，然后将序列人瘦素 (leptin) 基因复制在空白框。2、序列文件显示如图，点击“Primer”；3、进一步点击“search” 按钮，出现“search criteria”窗口，有多种参数可以调整。搜索目的（Seach For）有三种选项，PCR引物（PCR Primers），测序引物（Sequencing Primers），杂交探针（Hybridization Probes）。搜索类型(Search Type)可选择分别或同时查找上、下游引物（Sense/Anti-sense Primer，或Both），或者成对查找（Pairs），或者分别以适合上、下游引物为主（Compatible with Sense/Anti-sense Primer）。另外还可改变选择区域（Search Ranges），引物长度（Primer Length），选择方式（Search Mode），参数选择（Search Parameters）等等。使用者可根据自己的需要设定各项参数。我们将Product Size设置300350，其他参数使用默认值。然后点击“OK” ，随之出现的Search Progress窗口中显示Search Completed时，再点击“OK”。 4、这时搜索结果以表格的形式出现，有三种显示方式，上游引物（Sense），下游引物(Anti-sense)，成对显示(Pairs)。默认显示为成对方式，并按优劣次序（Rating）排列，满分为100，即各指标基本都能达标（如下图）。5、按照搜寻结果显示，在主窗口中检查该引物对的二级结构情况，逐条分析，依次筛选。下面进行序列筛选：点击其中一对引物，如第21#引物，在“Peimer Premier”主窗口，如图所示：该图分三部分，最上面是图示PCR模板及产物位置，中间是所选的上下游引物的一些性质，最下面是四种重要指标的分析，包括发夹结构（Hairpin），二聚体（Dimer），错误引发情况（False Priming），及上下游引物之间二聚体形成情况（Cross Dimer）。当所分析的引物有这四种结构的形成可能时，按钮由“None” 变成“Found” ，点击该按钮，在左下角的窗口中就会出现该结构的形成情况。一对理想的引物应当不存在任何一种上述结构，因此最好的情况是最下面的分析栏没有“Found”，只有“None” 。值得注意的是中间一栏的末尾给出该引物的最佳退火温度，可参考应用。二、引物分析1、打开oligo的页面如下： 2、单击file菜单再点open或点击“打开”快捷图标或者用快捷键“CTrlO”可弹出一对话框，然后选择序列人瘦素 (leptin) 基因。出现以下窗口。3、点击“window”再点击“Tile”，出现以下窗口，图中显示的三个指标分别为Tm、G和Frq，因为分析要涉及多个指标，起动窗口的cascade排列方式不太方便，可从windows菜单改为tile方式。如果觉得太拥挤，可去掉一个指标。?G值反映了序列与模板的结合强度，最好引物的?G值在5端和中间值比较高，而在3端相对低（如图：）Tm值曲线以选取72附近为佳，5到3的下降形状也有利于引物引发聚合反应。Frq曲线为“Oligo 6”新引进的一个指标，揭示了序列片段存在的重复机率大小。选取引物时，宜选用3端Frq值相对较低的片段。4、在设计时，可依据图上三种指标的信息选取序列，如果觉得合适，可点击Tm图块上左下角的Upper按钮，选好上游引物，此时该按钮变成红色，表示上游引物已选取好。下游引物的选取步骤基本同上，只是按钮变成Lower。5、当上下游引物全选好以后，需要对引物进行评价。可以用“Analyse”菜单分析你的引物：比如有无引物二聚体、发卡结构等等。首先检查引物二聚体尤其是3端二聚体形成的可能性。需要注意的是，引物二聚体有可能是上游或下游引物自身形成，也有可能是在上下游引物之间形成（cross dimer）。二聚体形成的能值越高，越不符合要求。一般的检测（非克隆）性PCR，对引物位置、产物大小要求较低，因而应尽可能选取不形成二聚体或其能值较低的引物。第二项检查是发夹结构（hairpin）；与二聚体相同，发夹结构的能值越低越好。一般来说，这两项结构的能值以不超过4.5为好。当然，在设计克隆目的的PCR引物时，引物两端一般都添加酶切位点，必然存在发夹结构，而且能值不会太低。这种PCR需要

注意事项

本文（生物信息学实验指导.docx）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。