预测lncRNA和疾病关联关系的相关方法综述,医学遗传学论文.docx
《预测lncRNA和疾病关联关系的相关方法综述,医学遗传学论文.docx》由会员分享,可在线阅读,更多相关《预测lncRNA和疾病关联关系的相关方法综述,医学遗传学论文.docx(23页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、预测lncRNA和疾病关联关系的相关方法综述,医学遗传学论文摘 要: lncRNAs (long noncoding RNAs) 是一类长度超过200个核苷酸的非编码RNAs, 越来越多的证据表示清楚lncRNAs在很多生物经过中起关键作用。lncRNAs也与多种疾病的发生和发展有密切的联络。近年来, 很多研究人员关注于预测lncRNA与疾病的关联预测的计算模型, 这能够有效地减少生物实验的时间和成本。本文总结了近年来有关lncRNA与疾病关联预测的一些数据资源和有代表性的计算方式方法, 并对当下存在的问题进行了分析, 讨论了将来的挑战和发展方向。 本文关键词语: lncRNAs; 疾病; l
2、ncRNA-疾病关联; 计算方式方法; Abstract: lncRNAs ( long noncoding RNAs) are the kind of noncoding RNAs with more than 200 nt nucleotides in length. There are increasing evidences showing that lncRNAs play key roles in many biological processes. In recent years, many researchers have focused on computation mode
3、ls for predicting lncRNA-disease association, which can effectively reduce the time and cost of biological experiments. The paper summarizes some data resources and representative computation methods related to the prediction of lncRNA-disease association in recent years. It also analyzes the existi
4、ng problems and discusses future challenges and directions. Keyword: lncRNAs; diseases; lncRNA-disease association; computation methods; 0、 引言 随着人类基因组计划的完成, 蛋白质编码基因仅占整个基因组的约1.5%, 这意味着超过98%的人类基因组还不是编码蛋白质序列, 这些基因组区域通常转录为非编码RNA (ncRNA) 1。在很长一段时间里, 非编码RNA在生物学上被认定是转录噪声2。然而, 越来越多的研究表示清楚, 非编码RNA在很多生物经过中发挥着
5、关键作用。华而不实, lncRNAs (long noncoding RNAs) 就是一类长度超过200个核苷酸的非编码RNAs。近年来, lncRNAs引起了研究人员的高度关注, 由于已有证据指出lncRNA在多种生物机制中扮演重要角色, 如表观遗传调控、染色质重构、基因转录、蛋白质转运、细胞分化、细胞运输等3。除此之外, lncRNAs的突变和失调与肺癌、乳腺癌、卵巢癌、肾病、心血管疾病、本身免疫疾病等多种疾病的发生和发展有密切的关系4。尽管已经获得了一定的研究成果, 但对于生物学家和遗传学家来讲, 确定那些未知的关联关系仍可堪称是一个重大的挑战。传统的生物实验和临床方式方法会消耗损费大量
6、的时间和精神, 因而时下的诸多研究者正致力于开发有效的计算方式方法来解决这一问题。近年来, 研究人员提出了一些计算模型和方式方法来预测lncRNA与疾病的关联关系。 本文综述了近年来涌现的一些预测疾病相关的候选lncRNA的算法和工具, 阐述了lncRNA-疾病关联关系预测的研究进展。预测方式方法主要分为2类:基于生物网络的方式方法和基于机器学习的方式方法, 本文重点讨论了华而不实一些方式方法。最后, 则总结了当下的关键问题和将来的研究方向。 1 、相关数据资源 随着生物数据的快速增长, 研究人员建立了一些特定的数据库来存储和管理数据。本节拟集中推介一些和lncRNA、疾病相关的公共数据资源,
7、 详情可见如下。 1.1 、lncRNA数据资源 NONCODE () 5是一个包含几乎所有非编码RNA的综合知识库。华而不实涵盖16种 (人类、小鼠、牛、大鼠、黑猩猩、大猩猩、猩猩、酵母、果蝇、拟南芥等) 和527 336个lncRNA转录本。 LNCipedia () 6是一个人类lncRNA的综合数据库, 通过整合不同的数据, 当下版本包含了120 353个人类lncRNA转录物。而且, 也研发提供了预测蛋白质编码能力的实用工具。 lncRNAdb () 7是一种知识资源, 旨在提供真核生物非编码RNA的全面注释。在该数据库中, 每个条目包含lncRNA的序列、构造、基因组语境、基因表示
8、出、亚细胞定位、保守性和功能信息。用户能够搜索和下载lncRNA信息并提交新条目。 LncRBase () 8是人类和小鼠lncRNA的存储库, 总共包含216 562个lncRNA转录物条目。在该数据库中, 已广泛收集了基本的lncRNA转录特征、基因组位置、重叠小非编码RNA、相关重复元件、相关印记基因和lncRNA启动子信息。 1.2、 疾病数据资源 Disease Ontology () 9是马里兰大学医学院基因组科学研究所主办的与人类疾病相关的生物医学数据整合的开放数据库。设计上包含了8 043个遗传, 发育和获得性人类疾病, 旨在通过疾病概念连接不同的数据集。 Medical Su
9、bject Headings () 是用于索引生命科学文章的综合受控词汇表词库。有27 883个描绘叙述符和87 000个根据层次构造树排列的条目。 OMIM () 10是由约翰霍普金思大学医学院McKusick-Nathans遗传医学研究所维护的人类基因和遗传疾病在线知识库。截至2021年5月26日, 共有24 065个条目。 1.3 、lncRNA-疾病关联关系相关数据资源 LncRNADisease () 11是手动收集的经过实验验证的lncRNA-疾病关联关系数据库。当下版本包含大约3000个lncRNA-疾病对和475个lncRNA互相作用对, 华而不实牵涉大约2 000个出版文献中
10、的914个lncRNA和329种疾病。 Lnc2Cancer () 12是一个癌症相关lncRNAs资源, 搜集包含了666个人类lncRNA和97个人类癌症之间的1 488条关联条目。与此同时, 还提供了lncRNA表示出形式、实验技术、扼要功能描绘叙述、原始参考和附加注释信息。除此之外, 也允许用户搜索、阅读和下载数据以及向数据库提交新数据等操作。 MNDR () 13是哺乳动物非编码RNA-疾病关系在线知识库, 当下版本包含了807个lncRNA相关、229个mi RNA相关、13个pi RNA相关和100个snoRNA相关的数据条目。 2、 穿插验证 为了评估算法的效果, 对于lncR
11、NA-疾病关联关系预测, 通常对研究提出的模型进行留一穿插验证 (LOOCV) 或5-折穿插验证。华而不实, LOOCV在已经知道的、经过实验验证的lncRNA-疾病关联关系上设计发生, 关联关系中的每一对作为测试样本, 而剩余的用于训练模型。假如测试样本的排名高于特定阈值, 就能够以为正确预测了这个lncRNA-疾病关联关系对。有2种类型的LOOCV, 分别为:全局LOOCV和局部LOOCV。对于全局LOOCV, 测试样本的排名被列入所有调查疾病的全部未知候选微生物-疾病关联对中。对于局部LOOCV, 测试样本仅在给定疾病的其它未知的疾病相关lnc RNA中进行排名。即2种LOOCV的主要区
12、别在于能否考虑了所有被调查的疾病。而-5折穿插验证将所有已经知道的、经过验证的lnc RNA-疾病关联对随机分为5组。不是选择一个lnc RNA-疾病关联对作为测试样本, 而是将这5组中的每一组轮流作为测试集, 而其它4组作为训练集。为了直观地评估性能, 研究者一般选择接受者操作特征曲线 (ROC) , 这是评估二元分类模型的常用方式方法。研究中, 敏感度 (sensitivity) 和特异度 (specificity) 是ROC曲线中使用的2个关键指标。对于lnc RNA-疾病关联关系的预测, 敏感度表示出一个测试被正确辨别的比例, 而特异度表示出一个测试被错误地以为有关联关系的比例。利用这
13、种方式, 通过不断改变阈值, 使用真阳性率 (敏感度) 与假阳性率 (1-特异度) 绘制ROC曲线来做出比拟。ROC曲线下的面积也通常用于测试性能。一般地, AUC=0.5表示效果是随机的, AUC=1表示效果完美。 3 、计算方式方法 越来越多的证据表示清楚, lncRNA的突变和失调与多种人类疾病密切相关, lncRNA功能及其与人类疾病的关系引起了更多研究者的兴趣与重视。计算模型可能是辨别潜在lncRNA功能和lncRNA-疾病关联关系的有效方式方法。本节阐述了一些用于辨别lncRNA-疾病关联的计算方式方法, 详情可见如下。 3.1 、基于生物网络的方式方法 具有类似功能lncRNA可
14、能与表型类似的疾病相关, 根据这个假设, 一些研究人员提出了数种基于生物网络的方式方法来预测疾病相关的lncRNA, 对此可做阐释解析如下。 Sun等人14基于lncRNA功能类似网络提出了一种基于全局网络的计算方式方法RWRlncD。研究中, 在相继构建了lncRNA-疾病关联网络、疾病类似性网络和lncRNA功能类似网络后, RWRlncD通过在lncRNA功能类似网络上进行随机游走重启 (RWR) 来预测潜在的lncRNA-疾病关系。基于已验证的lncRNA-疾病关联关系, RWRlncD在LOOCV下获得0.822的AUC。然而此方式方法不能应用于没有任何已经知道相关lncRNA的疾病
15、。当将来有更多lncRNA-疾病关联和更准确的lncRNA功能类似性度量时, RWRlncD的预测性能将会改善。 此后, 研究立足于有更多共同的mi RNA互相作用的lncRNA倾向于与类似的疾病相关联的假设, Zhou等人15又提出了RWRHLD模型预测潜在的lncRNA-疾病关联关系。RWRHLD将3个网络 (mi RNA相关联的lncRNA-lncRNA串扰网络、疾病类似性网络和已经知道的lncRNA疾病关联网络) 整合为一个网络, 并在其上进行随机游走。基于已经知道实验验证的lncRNA-疾病关联, RWRHLD在LOOCV下获得0.871的AUC值。然而, RWRHLD仅适用于具有已
16、经知道的lncRNA-mi RNA互相作用的lncRNA, 除此之外lncRNA串扰网络和lncRNA-疾病关联网络的不完全覆盖可能会降低模型预测性。 Yang等人16基于已经知道疾病基因和lncRNA-疾病关联构建了编码-非编码基因-疾病二分网络, 并进一步实现了该二分网络上的传播算法, 以揣测潜在的lncRNA-疾病关联。该方式方法在LOOCV下获得了0.788 1的AUC。然而, 非编码基因、蛋白质编码基因和lncRNA功能注释之间互相作用的缺失却影响了方式方法的性能。 除了单层的网络, 一些研究人员尝试构建了lncRNA-疾病的多级网络, 并据此基于多级网络来研究辨别新的疾病相关lnc
17、RNA。 Yao等人17提出了基于多层复合网络来预测疾病相关lncRNA的算法LncPriCNet。研究通过将表型-表型互相作用、lncRNA-lncRNA互相作用以及基因-基因互相作用与疾病-ncRNA关系相结合来构建复合网络, 而后再使用随机游走重启算法 (RWR) 来预测候选的疾病相关lncRNA。当已经知道疾病的lncRNAs信息缺乏时, LncPriCNet仍然表现良好。原因可能是多层复合网络能够支持更多的信息交互。 Zhang等人18基于多种生物信息提出了LncRDNetFlow算法。该算法整合了多个网络, 包括lncRNA类似性网络、蛋白质互相作用网络、疾病类似性网络以及互相之间
18、的关联网络, 并在异构网络上利用流传播算法来预测lncRNA-疾病关联, 最终在LOOCV下到达0.841的AUC。此方式方法能够在没有已经知道关联的情况下预测新的关联关系。究其原因就在于其整合了蛋白质的信息及其与lncRNAs和疾病的关联。 3.2、 基于机器学习的方式方法 机器学习对于预测疾病候选lncRNA有着重要作用, 可根据已经知道疾病相关的lncRNA和未知的lncRNA特征来训练分类器, 同时根据各项集之间的生物学特征差异来对候选lncRNA进行排名。 Chen等人19开发了LRLSLDA (Laplacian Regularized Least Squares for LncR
19、NA Disease Association) 计算模型, 该模型是基于半监督学习框架的预测潜在疾病相关lncRNA模型。模型基于一个假设 类似的疾病倾向于与功能类似的lncRNA相关联。LRLSLDA结合了已经知道的疾病-lncRNA关联关系和lncRNA表示出谱, 在留一穿插验证 (LOOCV) 下获得0.776的AUC, 同时也不需要负样本的信息, 而负样本往往难以获得。但LRLSLDA仍有一些限制, 例如, 模型中出现很多参数, 怎样选择参数并未得到根本性的解决。除此之外, 对同一个lncRNA-疾病关联对会分别从lncRNA和疾病空间得到2个不同的分数, 怎样高效地结合2个分数也已成
20、为时下的研究课题。 Zhao等人20使用已经知道的癌症相关lncRNA, 基于多元数据、基因组、调节物组和转录组的整合, 开发了一种基于朴素贝叶斯分类器的模型, 以辨别新的癌症相关lncRNA。该模型基于可公开获得的多个癌症类型的外显子数据和小鼠的直系同源lncRNA knockdown数据, 采用10折穿插验证进行评估。测试后表示清楚该模型显示出良好的效果, 并成功鉴定707种潜在的癌症相关lncRNA。文献中使用的监督分类器, 如支持向量机 (SVM) 和朴素贝叶斯分类器的关键限制是需要负样本的信息, 而这在当下的研究中是无法获得的。因而, 总是随机选择未被标记的lncRNA-疾病关联对作
21、为负样本, 这就严重影响了预测性能。 基于功能类似的lncRNA总是与类似的疾病相关联, Chen等人1通过计算与lncRNA相关的疾病组之间的语义类似性开发了2个新的模型LNCSIM1和LNCSIM2。这2个模型之间的差异不同就在基于疾病有向无环图的疾病语义类似度的计算上, 而这对怎样有效表示不同疾病之间的关系是至关重要的。当疾病语义类似性和lncRNA功能类似性 (由LNCSIM计算) 与之前的LRLSLDA相结合时, 得到新的lncRNA-疾病关联预测模型LRLSLDA-LNCSIM, 能够在更大程度上提升LRLSLDA的预测性能。 Biswas等人21提出了基于矩阵分解的lncRNA-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文化交流
限制150内