基于生物质谱数据鉴定单核苷酸变异的生物信息学方法,生物化学论文.docx
《基于生物质谱数据鉴定单核苷酸变异的生物信息学方法,生物化学论文.docx》由会员分享,可在线阅读,更多相关《基于生物质谱数据鉴定单核苷酸变异的生物信息学方法,生物化学论文.docx(25页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、基于生物质谱数据鉴定单核苷酸变异的生物信息学方法,生物化学论文单核苷酸变异(single nucleotide variations, SNVs)是由 DNA 序列上单个碱基变异产生的, 包括碱基的缺失、插入、转换及颠换等. SNVs 是基因组序列变异的主要形式1, 同时也是生物体生理和病理变异的遗传基础2. 从遗传学的角度看, SNVs 既能够存在于具有遗传性的生殖细胞中, 可以以存在于不具有遗传性的体细胞中. 华而不实, 只要位于基因编码区的SNVs 能够影响蛋白的编码. 位于编码区的 SNVs 能够分为 3 类: () 同义 SNVs, 不改变相应的氨基酸种类; () 无义 SNVs,
2、突变成为终止密码子, 提早结束编码; () 非同义 SNVs(nonsynonymous SNVs,nsSNVs), 改变氨基酸的种类. nsSNVs 能够改变蛋白的构造、功能、表示出以及亚细胞定位等3, 进而对多种遗传性的特征、疾病以及癌症等产生影响49, 如人类耳垢的类型6、腋窝的气味7、癌症与肿瘤的发生8、阿尔茨海默病9以及镰刀形红细胞贫血症10等. 因而, 对 SNVs 展开研究能够揭示出基因与表型多样性和基因与疾病间的关系, 并且有可能研发出治疗疾病的新方式方法. 当前, 全基因组关联研究(genome-wide association studies, GWAS)11固然在基因变异
3、与表型多样性的研究中产出了很多能够用来解释特异性疾病分子途径的结果, 但是仍然难以对绝大部分具有复杂特征的分子机制以及SNVs与复杂疾病表型间的关系进行解释12. 在这种情况下, 对突变蛋白的研究提供了另一种了解基因型与表型间关联的方式方法13. 由 SNVs 引起的单个氨基酸的变异称为单氨基酸变异(single amino acid variations, SAVs), 因而SAVs 是 SNVs 在蛋白水平上的表现. 对 SAVs 的研究, 有助于了解基因型与表型间的关系, 进而从本质上了解基因是如何在蛋白水平上影响生物体的生命经过的14. 当前, 基于串联质谱的鸟枪法蛋白质组学(shot
4、gun proteomics)技术由于其自动化、高通量、高灵敏度和高分辨率等特点, 已成为大规模蛋白质研究的主要方式方法. 序列数据库搜索算法由于具有较高的可靠性以及灵敏度而成为当今鸟枪法蛋白质组学中蛋白鉴定的主要生物信息学方式方法. 然而, 通常蛋白质数据库在构建时为了减小数据库的冗余程度, 往往有意压缩对 SAVs 信息的收录(如 Swiss-Prot 数据库15,16, IPI 数据库17等), 进而使得常用的数据库搜索策略不能有效地鉴定出样本中的氨基酸突变信息. 为此, 研究人员提出了一系列鉴定突变蛋白的方式方法,如构建包含有突变信息的蛋白质数据库、构建类似性图谱库等.在基于串联质谱进
5、行 SAVs 鉴定时, 能够采用与蛋白质翻译后修饰(post-translational modifications,PTMs)鉴定18一样的方式方法, 这是由于肽段的突变和修饰在质谱图中的表现都是质量迁移, 如甲硫氨酸(Met)氧化与丙氨酸(Ala)突变为丝氨酸(Ser)在质量上都是增加 16 Da19, 所以鉴定 PTMs 的算法和流程通常也能够鉴定 SAVs(如 Bonanza 算法20). 固然 PTMs和 SAVs 的质谱鉴定方式方法非常类似, 但由于其来源上的差异不同, 在实际的鉴定策略中有所不同. () PTMs的种类远比 SAVs 要多, 鉴定 PTMs 所需的搜索空间一般会比
6、鉴定 SAVs 所需的大, 在质量控制方面具有更大的挑战; () 蛋白水平的 SAVs 大部分是从基因组或转录组延续过来的, 充分利用 SNVs 的数据能大大降低搜索空间, 进而得到更可靠的结果. 因而在计算方式方法与策略方面, SAVs 和 PTMs 的鉴定具有一定的类似性, 也有其独有的特点. 本文从序列数据库搜索算法、序列标签搜索算法以及图谱库搜索算法 3 个大方面, 具体地介绍了当前基于生物质谱数据鉴定SAVs的各种生物信息学方式方法,并分析了各种突变鉴定方式方法的缺乏之处, 最后介绍了基于生物质谱的 SAVs 鉴定研究现在状况及其发展方向. 1 氨基酸突变鉴定的算法 当下基于生物质谱
7、的 SAVs 鉴定算法都是由常规鉴定算法改良而来的, 因而根据常规串联质谱鉴定算法中对数据库的依靠程度以及使用的数据库种类, 能够将基于生物质谱的 SAVs 鉴定算法分为 3 大类(表 1): () 完全依靠序列数据库的搜索算法, 即基于序列数据库搜索的氨基酸突变鉴定算法. 此算法利用前体离子质量从序列数据库中挑选出候选肽段, 然后将候选肽段的理论图谱与目的图谱进行比对, 进而鉴定出样品中的突变肽段; () 将从头测序算法(de novo)与序列比对结合的算法, 即基于序列标签的氨基酸突变鉴定算法. 此算法首先通过 de novo测序算法推导出目的图谱中的肽序列标签(peptidesequen
8、ce tags, PSTs), 然后利用 PSTs 过滤数据库挑选出候选肽段, 最后结合 PSTs 对理论谱图与目的图谱进行比拟打分, 进而鉴定出样品中的突变肽段; ()依靠于图谱库的搜索算法, 即基于图谱库的氨基酸突变鉴定算法. 此算法将实验图谱与图谱库中的一致性图谱进行比对, 进而鉴定出样品中的突变肽段.这 3 类方式方法和策略在施行经过中各有其优劣(表 1),互相之间暂无法替代, 因而在不同的目的下各有其适用性. 1.1 基于序列数据库搜索的氨基酸突变鉴定算法 基于序列数据库搜索的氨基酸突变鉴定算法,根据不同的数据库构建方式方法能够细分为 3 类: () 基于穷举法的氨基酸突变鉴定算法,
9、 即通过枚举数据库中氨基酸残基的所有可能突变种类进行突变肽段的鉴定; () 结合已经知道氨基酸突变信息对突变肽段进行鉴定, 即结合当下变异数据库(如 dbSNP 数据库21、COSMIC 数据库22等, 表 2 列举了常用的氨基酸与基因突变数据库)中的变异信息构建数据库进行突变肽段的鉴定; () 基于样本特异性的数据库鉴定突变肽段, 即结合样本数据中可能存在的突变肽段信息构建数据库进行突变肽段的鉴定. 下面将对这 3 种方式进行逐一具体地讲明. (1) 基于穷举法的氨基酸突变鉴定算法. 在序列数据库搜索中, 最早对突变肽段进行鉴定的自动化方式方法是穷举法, 此方式方法不仅原理简单而且理论上能够
10、鉴定出样品中所有可能的突变肽段. 这类算法的大体步骤是: 通过穷举法罗列出所有可能的突变肽段序列, 然后用常规鉴定方式方法进行比对打分挑选出最有可能的突变肽段序列. 此类算法的代表有SEQUEST-SNP 算法27和 Sipros v2.0 算法18等.Gatlin 等人27在2000年, 利用改良的 SEQUEST算法(SEQUEST-SNP)率先实现了利用自动化的数据库搜索对突变肽段进行鉴定. 此方式方法特点在于动态生成所有可能的核苷酸突变序列, 将其翻译成肽段并构建成一个数据库用于对突变肽段的鉴定. 此后, 通过穷举蛋白序列中所有可能的氨基酸突变进行肽段突变鉴定的方式方法在 Mascot
11、28和 X!Tandem29相继采用.2020 年, Hyatt 和 Pan18提出了不受数据库约束的穷举法突变肽段鉴定算法 Sipros v2.0, 此算法通过肽段产生模块和肽段打分模块实现对 CPU 和内存效率的优化以应对穷举法产生的大数据库. 理论上, 穷举法能够鉴定出样品中所有的突变肽段, 但肽段中的每一个氨基酸残基都有 18 种可能的突变, 因而利用此方式方法会大大增加搜索空间18,24, 延长搜索时间, 并且会增加假阳性风险进而降低结果的灵敏度. (2) 结合已经知道氨基酸突变信息对突变氨基酸进行鉴定. 为了避免穷举法引起搜索空间过大的问题,一些团队提出结合已经知道的编码SNVs信
12、息或是与疾病等有关的突变信息构建蛋白质数据库, 以减小突变肽段的搜索范围. 此类数据库的代表有 MSIPI17和MS-CanProVar24等. 2007 年, Schandorff 等人17将一些来自 dbSNP 数据库21的编码 SNP(single nucleotidepolymorphism) 以 及 与 IPI(the international proteinindex)数据库中数据有冲突的序列等整合到 IPI 数据库30中构建了质谱友好型的变异数据库 MSIPI. 其质谱友好型具体表现出在, 在保存原始 IPI 条目完好性的基础上, 将后加的肽段序列附加到原有序列中, 用不代表任
13、何氨基酸的字母 J 将原始条目与附加肽段区分开来, 并且将在原始条目的表头信息中参加附加肽段信息. 同年, Bunger等人31也利用dbSNP数据库中人类基因变异信息构建变异蛋白质数据库 K-SNPdb,并构建相应的常规数据库. 然后对分开搜库结果进行比对打分, 挑选出高可信的变异肽段. Li 等人24在2018 年基于人类癌症蛋白质变异数据库 CanProVar32构建了一个 MS-CanProVar 数据库, 此数据库中不仅包含了 dbSNP 数据库中的编码的 SNP 信息, 还包括了 COSMIC22和 OMIM23等数据库中与癌症相关的体细胞变异信息. 除了自定义构建突变数据库以外,
14、 氨基酸突变信息也被一些在线平台收录、整合, 如 Swiss-Var33,SysPIMP34和 RAId_DbS35等. Swiss-Var 网站搜集的是 Swiss-Prot 数据库36中突变肽段的信息, 主要为用户提供Swiss-Prot数据库中的突变肽段信息及其与疾病间的关系. SysPIMP 主要用于鉴定与人类疾病有关的突变肽段序列, 它的数据主要来源于 OMIM 数据库中等位基因突变信息、蛋白质突变数据库(proteinmutation database, PMD)37以及 Swiss-Prot 数据库中与 人 类 疾 病 和 多 态 性 有 关 的 序 列 信 息 . 而 在RAI
15、d_DbS 数据库中不仅整合了 SAVs 与疾病的信息,同时也收录了 PTMs 与疾病有关的信息. 2020 年, Mathivanan 等人25提出的 iMASp 策略即是利用现有的突变信息对突变肽段进行鉴定. 这种策略利用了分步搜索的方式方法, 即是第一次通过常规搜索鉴定出样本中的常规蛋白, 第二次利用突变数据库对第一次没有鉴定出的质谱图进行搜索鉴定样品中的突变肽段. 相比穷举法, 结合已经知道氨基酸突变信息对突变氨基酸进行鉴定的方式方法固然在一定程度上缩小了搜索空间, 但在数据库中添加的上万条突变肽段序列绝大部分不会在样品数据集中出现.因而, 这种方式方法并没有特别有效地躲避假阳性升高以
16、及鉴定结果灵敏性降低的缺点14. (3) 基于样本特异性的数据库鉴定突变肽段 .除了直接利用公共数据库中的突变数据外, 利用DNA/RNA 等信息提供的样本特异性突变构建的数据库能更好地贴合实际样本数据, 提高鉴定效率. 当前利用样本特异性鉴定突变肽段的方式方法有2种: 两次搜索数据库的方式方法以及利用转录组数据构建数据库的方式方法. 两次搜索数据库的方式方法与 iMASp 策略中所使用的分步搜索以及 Mascot 和 X!Tandem 中的容错搜索类似, 不同的地方在于两次搜索数据库中所使用的突变数据库依靠于样本特异性的 DAN/RAN 信息, 而 iMASp 策略中的突变数据库是整合所有已
17、经知道的蛋白突变信息, 不具有样本特异性; Mascot 和X!Tandem 则是对第一次搜索所得的蛋白序列进行穷举进而鉴定出突变或修饰肽段. Chernobrovkin 等人38提出的二次迭代法以及 Su 等人39构建样本特异性突变数据库的策略都是样本特异性的两次搜索方式方法的代表. 另一种方式方法是利用转录组数据构建样本特异性数据库用于突变肽段的鉴定. 相对于利用公共的突变数据库, 利用转录组数据构建蛋白质数据库能够由样品转录组数据直接推导样本中可能存在的蛋白及其突变序列并由其构建数据库40. 用此方式方法构建的数据库所包含的蛋白质信息愈加接近样品中真实信息, 因而这种无偏性的数据库能高效
18、地鉴定出样品中存在的突变序列16,41. 由于转录组数据特别庞大, 在现有的计算能力下要想利用转录组数据构建数据库就必需要对转录组数据进行压缩. 2007 年,Edwards16提出了一个压缩表示出序列标签(expressedsequence tags, ESTs)数据的策略, 实现了利用 EST 数据库进行常规化的肽段序列和变异位点的鉴定. 此压缩策略的特点在于选用某种方式方法来表示肽段, 确保绝大多数的重复肽段序列被消除, 并且不影响肽段序列的鉴定. 随着下一代测序(next generationsequencing, NGS) 技术的出现 , RNA 测序 (RNA-sequecing,
19、 RNA-Seq)的成本越来越低14, 并且克制了 EST 测序存在的克隆偏性和高花费等缺点42, 因而利用 RNA-Seq 数据构建样本特异性数据库逐步遭到人们的重视. Wang 等人41在 2020 年提出了一个利用 RNA-Seq 数据构建样本特异性数据库的策略, 此策略通过两步来实现: () 利用一个经历体验性的RPKM (reads per kilo bases per million reads)值排除不表示出或低表示出基因以减小数据库中的条目; ()将由 RNA-Seq 数据鉴定得来的高可靠性 SNVs 的相应肽段添加到数据库中, 以寻找变异肽段. 此后,Wang 和 Zhang
20、43为生成自定义RNA-Seq数据库编写了 R程序包 customProDB, 能够生成含有突变、插入、缺失等变异肽段的 RNA-Seq 数据库. 2020 年,Sheynkman 等人14实践了 Wang 和 Zhang43的方式方法,利用 Jurkat 细胞系的 RNA-Seq 数据构建一个自定义的变异蛋白质数据库, 并成功地应用在 Jurkat 细胞系的质谱数据突变鉴定中. 同年, Woo 等人44在尽量不影响鉴定结果灵敏性的基础上, 将秀丽隐杆线虫(Caenorhabditis elegans)的 RNA-Seq 数据压缩了近1000 倍, 并利用此数据库成功地鉴定到了新型蛋白. 由于
21、并不是所有的样本都同时拥有蛋白质数据和RNA-Seq 数据, 因而, Wang 和 Zhang43利用 64 个大肠癌的 RNA-Seq 数据构建了一致性蛋白质数据库,并成功地将此数据库应用在蛋白鉴定中. 样本特异性的数据库, 十分是利用 RNA-Seq 数据构建的样本数据库不仅能够有效地缩减搜索空间, 而且能够鉴定出样品中所有已经知道类型的蛋白种类以及新型的变异肽段序列. 随着计算方式方法的不断改良, 通过RNA-Seq 数据对样本进行突变肽段的鉴定方式方法有望成为常规的突变鉴定方式方法. (4) 基于序列数据库搜索的氨基酸突变鉴定算法的缺点. 在鉴定突变肽段的方式方法中, 固然通过构建含有
22、突变信息的序列数据库鉴定突变肽段的方式方法是当前被最广泛采用的方式方法, 但它的缺点也是不容忽视的. () 除了利用穷举法构建的突变数据库以外, 利用其他方式方法构建的突变数据库对突变信息包含得都不够全面, 如公共数据库通常会有意忽略对变异数据的收录, 而样本特异性数据库为了减小搜索空间通常也会去除低表示出的蛋白质; () 序列数据搜索中, 当图谱中的碎裂信息不够完好、信噪比拟低时, 搜索引擎就不能将候选肽段正确地区分开45,因此会增加假阳性的概率. 为了避免序列数据库的上述缺点, 提出了其他鉴定突变肽段的方式方法, 如序列标签算法、图谱库搜索算法等. 1.2 基于序列标签的氨基酸突变鉴定算法
23、 相比序列数据库搜索算法利用肽段母离子质量从数据库中挑选候选肽段, 序列标签算法利用 denovo 测序算法推导的 PSTs 能够更有效地过滤数据库,减少候选肽段的数目以缩小搜索空间, 使得更复杂和计算更密集的方式方法能够应用到对候选肽段的突变打分算法中45, 进而提高了突变鉴定结果的灵敏性并且减少了结果中的假阳性率. 下面从序列标签搜索算法与 de novo 测序算法之间的关系以及当下结合PSTs 进行氨基酸突变鉴定的主流工具两个方面对序列标签算法鉴定突变氨基酸进行介绍. (1) 序列标签搜索算法与 de novo 测序算法. 相比序列数据库搜索算法, de novo 算法在对质谱图进行氨基
24、酸序列推导时不依靠蛋白质数据库, 因而它在鉴定氨基酸突变方面有独特的优势4547. 当下使用 de novo 测序算法的代表性工具有 SHERENGA48,PEAKS4951以及 PepNovo52等. 这些工具所使用的算法都是通过生成前缀残基质量图谱(prefix residuemass spectra)重构整个图谱进行肽段序列推导的, 因而这些算法对质谱图的质量具有较高的要求45. 但通过诱导碰撞解离(collision-induced dissociation, CID)产生的串联图谱中不可避免地含有不完好的碎裂离子系列、噪音离子和精度较差的碎裂离子质量, 这使得 de novo 算法经
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 农业相关
限制150内