EST-SNP开发软件特性分析及比较.pdf
《EST-SNP开发软件特性分析及比较.pdf》由会员分享,可在线阅读,更多相关《EST-SNP开发软件特性分析及比较.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、生命的化学2011 年 31 卷 6 期CHEMISTRY OF LIFE 2011,31(6)906 Technique and Method文章编号:1000-1336(2011)06-0906-06EST-SNP 开发软件特性分析及比较李 猛1 郭大龙1 刘崇怀2 张国海11河南科技大学林学院,洛阳 4710032中国农业科学院郑州果树研究所,郑州 450009摘要:利用生物信息学软件,对表达序列标签(EST)序列进行单核苷酸多态性(SNP)开发目前已较为普遍,其方法简单实用,且软件数量较多,可分为需要测序峰图的SNP开发软件和不需要测序峰图的SNP开发软件。对有测序峰图的序列进行SNP
2、开发,操作步骤较少且结果较为精确;对无测序峰图的序列进行SNP开发可大批量操作且成本较低。本文针对这两类软件进行分析比较,阐述EST-SNP开发流程,重点分析以公共数据库中EST序列为基础的SNP开发过程,并对其各种使用参数加以说明,旨在为EST-SNP开发提供参考,提高效率。关键词:SNP;软件分析;测序峰图;EST序列中图分类号:Q81收稿日期:2011-04-25国家自然科学基金项目(30800742);国家葡萄产业技术体系(nycytx-30-zy-01);河南省高等学校青年骨干教师资助计划(2010GGJS-072)资助作者简介:李猛(1987-),男,硕士生,E-mail:lime
3、ngak47 ;郭大龙(1978-),男,博士,副教授,通讯作者,E-mail:;刘崇怀(1965-),男,博士,研究员,通讯作者,E-mail:;张国海(1962-),男,博士,教授,E-mail:zgh_单核苷酸多态性(single nucleotide polymorphism,SNP)是指基因组内DNA某一特定核苷酸位置上的转换、颠换、插入、缺失等变化。一般情况下,我们所指的SNP不包括碱基的插入与缺失1。SNP作为近年来出现的第三代遗传标记,目前已广泛应用于遗传连锁图谱构建2、多样性分析3、品种鉴定4和重要性状的基因定位5等相关研究中,具有密度高、遗传稳定性强、易于实现自动化分析等特
4、点,比以简单序列重复(simple sequence repeat,SSR)为代表的第2代分子标记效率更高,更适用于高通量的检测分析。理论上讲,任何用于SNP检测的手段都可以用于SNP的开发,但当前SNP的开发主要通过两种途径:(1)DNA扩增片段的直接测序。这是开发SNP最简单的方法,其原理是根据EST序列或者单拷贝基因组序列进行引物设计,选择有代表性的个体进行扩增,产物测序后进行序列比对。此方法的优点是开发SNP假阳性率低,同时还能鉴定出由SNP组成的单体型(haplotype);缺点是工作量大,花费高,非一般的实验室能独立完成。因而此方法只用于特定SNP的开发和验证6;(2)利用生物信息
5、学的方法。该方法是利用生物信息学软件从核酸数据库中开发SNP,通过软件自动识别序列中的多态性位点,从而得到候选SNP,是一种成本较低且简单有效的SNP开发策略。近年来,随着表达序列标签(expressed sequence tag,EST)计划在不同物种间的开展和研究内容的深入,来源于不同物种、不同组织、不同细胞类型和不同发育阶段的基因表达序列的数目在公共数据库中急剧上升。截止到2011年3月,美国国家生物技术信息中心(NCBI)的dbEST数据库已收录了6900多万条EST序列,这些表达序列都为SNP的开发提供了良好的基础。由于EST序列来自转录区,保守性较高,因此,基于EST序列信息开发出
6、的SNP可能与表达基因紧密相关或直接位于基因的编码区内,这就为今后的基因组比较及基因定位和克隆研究奠定了基础7。目前开发EST-SNP的软件众多,如何选取软件以及如何设置参数都是影响试验结果的关键因素,本文针对这一问题,阐述EST-SNP的开发流程,重点分析比较EST-SNP开发软件的特性及其参数设置,为EST-SNP的开发提供参考。生命的化学2011 年 31 卷 6 期 907 技术与方法CHEMISTRY OF LIFE 2011,31(6)1.EST-SNP 开发流程利用生物信息学软件对EST序列进行SNP开发的方法大致可分为两类:(1)根据测序峰图开发SNP;(2)基于公共数据库中的
7、EST序列开发SNP(图1)。这两种方法都需要提前对数据进行处理,测序峰图需要进行判读,识别出碱基质量,序列峰图及碱基序列的信息,而公共数据库中的EST序列则需要去除影响SNP开发的干扰因素,如poly A尾巴、载体序列等。2.SNP 开发软件的比较分析2.1 需要测序峰图的 EST-SNP 开发软件利用测序峰图进行EST-SNP的开发目前较为普遍。如Stickney等8根据斑马鱼的测序峰图通过Poly-Phred软件开发验证了1313个SNP,并利用SNP绘制了斑马鱼突变图谱;Singh等5利用PolyPhred对水稻的测序峰图进行SNP的开发,通过分析非同义替换的SNP,阐述水稻不同品种间
8、芳香性的差异。根据测序峰图开发EST-SNP的软件的方法操作步骤少,结果较为精确,假阳性率较低,但工作量大,需要人工进行结果的核对,成本较高。利用此方法开发SNP较具代表性的软件有:Nickerson等9开发的PolyPhred、Zhang等10开发的SNPdetector、Weckx等11开发的novoSNP以及Li等12开发的SOAPsnp。PolyPhred和SNPdetector均需要第三方软件对序列峰图以及开发结果进行判读与处理,且PolyPhred只能预测某一核苷酸位点上单个碱基的替换,不能对插入与缺失(in-del)进行预测,但其研发时间较早,使用率最高。novoSNP可在Win
9、dows操作系统下使用,具有用户图形界面,适合于不熟悉Linux系统的用户使用。SOAPsnp图1EST-SNP开发流程生命的化学2011 年 31 卷 6 期CHEMISTRY OF LIFE 2011,31(6)908 Technique and Method则是基于新一代测序技术分析基因组SNP的软件,需要基因组参考序列,目前应用较为广泛(表1)。这四款软件所采用的算法标准并不统一,因此搜索到SNP位点的准确性也不尽相同。研究表明:SN-Pdetector的假阳性率和假阴性率均为最低,PolyPhred的假阳性率较低,但其假阴性率却较高,novoSNP的假阳性率则明显偏高9-11。假阳性
10、率高则产生错误SNP位点的几率会增加,假阴性率高则真实的SNP位点被忽略的几率会增加。Li等12通过SOAPsnp分析人类SNP表明:利用SOAPsnp开发的候选SNP具有高达99%的正确率,但该结果的前提是存在参考序列,这也同样是SNPdetector具有较高正确率的原因,因此,在具有可靠的参考序列时,SNPdetector与SOAPsnp应是较为理想的开发SNP的软件。所以在应用此类软件时,用户需要根据自己的需求选择合适的软件或是将同一数据导入不同的软件中进行分析比较,提高结果的可靠度,同时也可提高后期试验效率。利用测序峰图进行SNP开发的常用软件还有:PolyBayes13、ssahaS
11、NP14、InSNP15、SNP-PHAGE16,以及基于新一代测序技术分析基因组SNP的软件MAQ17,Atlas-SNP218等。此类软件预测SNP的准确性与测序结果的质量和用户自定义的软件质量阈值有直接关系,测序结果的质量越高,用户自定义的质量阈值越高,则开发的SNP位点越准确。但是随着用户自定义的软件质量阈值的增加,也许会过滤掉一些低质量区域真实的SNP位点,因此在使用过程中,需要选择一个相对平衡的质量阈值19。2.2 不需要测序峰图的 EST-SNP 开发软件近年来,利用公共数据库中的EST序列进行SNP开发,已得到广泛应用。如Batley等20利用AutoSNP从102,551条玉
12、米EST序列中开发了14,832个候选SNP,并通过测序的方法进行了验证;Jiang等4利用Quali-tySNP对55,296条甜橙EST序列和2,575条温州蜜柑EST序列进行SNP开发,得到3,348个候选SNP,并在30个柑橘属的品种中通过CAPS和重新测序法鉴定候选SNP,并利用SNP对柑橘进行品种鉴定和多态性分析。通过EST序列进行SNP开发的方法节省时间,节约成本,但其开发的多态性位点仅仅是通过比对数据库中的EST序列得到,无法有效地对结果进行核对,因此假阳性率比利用测序峰图开发的SNP要高。目前也有一些软件可以执行这项工作,如:Barker等21开发的AutoSNP,Savag
13、e等22开发的SNPServer,Tang等23,24开发的QualitySNP和HaploSNPer,及Phrap程序包中的cross_match(表1)。其中,AutoSNP是Perl语言的脚本,QualitySNP是基于C语言的程序,SNPServer和HaploSNPer分别是AutoSNP和QualitySNP的网页版,具有用户图形界面,操作简便,cross_match则是Phrap程序包中用于去除EST载体序列的软件,也可 用 来 进 行 S N P 位 点 的 搜 索,运 行 时 只 需 输入-alignments和-discrep lists两个口令即可,由于不是专业的SNP开
14、发软件,所以其结果的可靠度也较低。Tang等22利用人类基因对AutoSNP和QualitySNP进行比较显示:AutoSNP预言的候选SNP数量近似是QualitySNP的2倍,但其正确率却不到QualitySNP的1/4,且QualitySNP的运行速度要快很多,因此Quali-tySNP应该是一款较为理想的通过无测序峰图的EST序列进行SNP开发的软件。尽管QualitySNP开发SNP的正确率要比AutoSNP高很多,但也仅为35.5%,剩余65.5%的SNP均为假阳性。由此也反映出,单纯通过数据库中的EST序列进行SNP开发,其结果的假阳性率较高,这对后期的试验会造成干扰。为提高SN
15、P开发的准确性,研究者需要提前对公共数据库中的EST序列进行预处理,在处理过程中,对不同的步骤设置不同的参数,均会对SNP的开发结果产生较大影响。目前常用的参数为:聚类相似值为80%(D2cluster),拼接相似值为95%,拼接的最小重叠碱基数为100 bp(cap3),且拼接后合格的重叠群(contig)至少要由4条EST序列组成。当然,并不是重叠群所含有的EST序列越多越好,若过多很有可能是由于软件本身计算错误造成的。笔者通过以上参数,利用AutoSNP和QualitySNP对26,173条葡萄EST序列进行分析,结果显示:虽然AutoSNP预言的候选SNP位点很多,但通过人工筛选原则进
16、行随机检测,其合格率却不容乐观,相反,QualitySNP预言的候选SNP位点虽然较少,但其合格率却很高。这也证实,QualitySNP的性价比较高,适用于公共数据库中的EST-SNP开发。综上,用户用此类软件进行SNP开发时,需要根据自己的需求进行软件的选择和各种参数的设置。为提高结果的可靠度,用户可使用不同的软件运行同一数据,通过分析比较,选择可靠度评分较高的且在不同软件中均能得到认证的候选SNP位点进行试验验证,这也是提高效率的一种有效方法。生命的化学2011 年 31 卷 6 期 909 技术与方法CHEMISTRY OF LIFE 2011,31(6)表1EST-SNP开发软件特性比
17、较 软件名 运行环境 程序类型 辅助软件 引用次数 用户图 特点 地址 形界面PolyPhred Linux 本地 Phred/Phrap/Consed 734 无 不能识别INDELS,能考虑双峰 http:/droog.gs.wash-(Nickerson等,1997)情况,对杂合子预测有优越性 ington.edu/polyphred/SNPdetector Linux 本地 Phred/ptrfinder/47无 比较精确,可用于检测INDELS,ftp:/ftp1.nci.nih.gov/(Zhang等,2005)Consed 用SIM拼接,需要引物序列和模 pub/SNPdetec
18、tor 板序列,操作复杂 novoSNP Windows/本地 SCF格式用Phred 86 有 可在Windows下使用,可检测 http:/www.molgen.(Weckx等,2005)Linux INDELS,操作相对简单 ua.ac.be/bioinfo/novosnp/SOAPsnp Linux 本地 Phred 47 无 基于新一代测序技术,需要参 http:/soap.genomics.(Li等,2009)考序列,准确性高 Linux 本地 Phred/Phrap/Consed 331 无 需要测序峰图,能处理较多数 http:/bioinformatics.(Marth等,1
19、999)据,可判断INDELS bc.edu/marthlab/SoftwaressahaSNP Linux 本地 Phrap 388 无 需要测序峰图,可判断INDELS http:/www.sanger.(Ning等,2001)ac.uk/resources/software/ssaha/InSNP Windows 本地 无 25 有 需要测序峰图,正反引物序列,http:/www.mucosa.(Manaster等,2005)参考序列 de/insnp/SNP-PHAGE Linux 本地 Perl/Phred/25 无 需要测序峰图,结果为Web界面,http:/bfgl.anri.b
20、arc.(Matukumalli等,2006)Phrap/Consed 可查找STS usda.gov/ML/snp-phage/index.shtmlMAQ Linux 本地 Phred 610 无 基于新一代测序技术,需要参考 http:/maq.source-(Li等,2008)序列,准确性高 Linux 本地 BLAT/cross_match 13 无 基于新一代测序技术 http:/www.hgsc.bcm.(Shen等,2010)tmc.edu/cascade-tech-software-ti.hgscAutoSNP Linux 本地 Perl/d2cluster/cap3 100
21、 无 脚本文件,体积小,无需太多运 http:/www.cerealsdb.(Barker等,2003)行口令,结果为HTML格式 Windows/在线 无 31 有 无需下载,操作简便 http:/hornbill.cspp.(Savage 等,2005)Linux latrobe.edu.au/snpdiscovery.htmlQualitySNP Linux 本地 C+/Perl/cross_match/35 无 比较精确,可分析非同义SNP,http:/www.bioinfor-(Tang等,2006)cap3/FASTY(非必要)运行口令多,结果含单体型信息 matics.nl/to
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- EST SNP 开发软件 特性 分析 比较
限制150内