当前位置:首页 > 百家杂文 > 学术论文 > 当前位置:学术论文

预测lncRNA和疾病关联关系的相关方法综述

时间:2019-07-01 20:09  点击: 次  来源:网络  作者:佚名  评论:- 小 + 大

  摘    要: lncRNAs (long noncoding RNAs) 是一类长度超过200个核苷酸的非编码RNAs, 越来越多的证据表明lncRNAs在许多生物过程中起关键作用。lncRNAs也与多种疾病的发生和发展有密切的联系。近年来, 很多研究人员关注于预测lncRNA与疾病的关联预测的计算模型, 这可以有效地减少生物实验的时间和成本。本文总结了近年来有关lncRNA与疾病关联预测的一些数据资源和有代表性的计算方法, 并对当前存在的问题进行了分析, 讨论了未来的挑战和发展方向。

  关键词: lncRNAs; 疾病; lncRNA-疾病关联; 计算方法;

  Abstract: lncRNAs ( long noncoding RNAs) are the kind of noncoding RNAs with more than 200 nt nucleotides in length. There are increasing evidences showing that lncRNAs play key roles in many biological processes. In recent years, many researchers have focused on computation models for predicting lncRNA-disease association, which can effectively reduce the time and cost of biological experiments. The paper summarizes some data resources and representative computation methods related to the prediction of lncRNA-disease association in recent years. It also analyzes the existing problems and discusses future challenges and directions.

  Keyword: lncRNAs; diseases; lncRNA-disease association; computation methods;

  0、 引言

  随着人类基因组计划的完成, 蛋白质编码基因仅占整个基因组的约1.5%, 这意味着超过98%的人类基因组还不是编码蛋白质序列, 这些基因组区域通常转录为非编码RNA (ncRNA) [1]。在很长一段时间里, 非编码RNA在生物学上被认定是转录噪声[2]。然而, 越来越多的研究表明, 非编码RNA在许多生物过程中发挥着关键作用。其中, lncRNAs (long noncoding RNAs) 就是一类长度超过200个核苷酸的非编码RNAs。近年来, lncRNAs引起了研究人员的高度关注, 因为已有证据指出lncRNA在多种生物机制中扮演重要角色, 如表观遗传调控、染色质重构、基因转录、蛋白质转运、细胞分化、细胞运输等[3]。此外, lncRNAs的突变和失调与肺癌、乳腺癌、卵巢癌、肾病、心血管疾病、自身免疫疾病等多种疾病的发生和发展有密切的关系[4]。尽管已经取得了一定的研究成果, 但对于生物学家和遗传学家来说, 确定那些未知的关联关系仍可堪称是一个重大的挑战。传统的生物实验和临床方法会耗费大量的时间和精力, 因此时下的众多研究者正致力于开发有效的计算方法来解决这一问题。近年来, 研究人员提出了一些计算模型和方法来预测lncRNA与疾病的关联关系。

预测lncRNA和疾病关联关系的相关方法综述

  本文综述了近年来涌现的一些预测疾病相关的候选lncRNA的算法和工具, 阐述了lncRNA-疾病关联关系预测的研究进展。预测方法主要分为2类:基于生物网络的方法和基于机器学习的方法, 本文重点探讨了其中一些方法。最后, 则总结了当前的关键问题和未来的研究方向。

  1 、相关数据资源

  随着生物数据的快速增长, 研究人员建立了一些特定的数据库来存储和管理数据。本节拟集中推介一些和lncRNA、疾病相关的公共数据资源, 详情可见如下。

  1.1 、lncRNA数据资源

  NONCODE () [5]是一个包含几乎所有非编码RNA的综合知识库。其中涵盖16种 (人类、小鼠、牛、大鼠、黑猩猩、大猩猩、猩猩、酵母、果蝇、拟南芥等) 和527 336个lncRNA转录本。

  LNCipedia () [6]是一个人类lncRNA的综合数据库, 通过整合不同的数据, 当前版本包含了120 353个人类lncRNA转录物。而且, 也研发提供了预测蛋白质编码能力的实用工具。

  lncRNAdb () [7]是一种知识资源, 旨在提供真核生物非编码RNA的全面注释。在该数据库中, 每个条目包含lncRNA的序列、结构、基因组语境、基因表达、亚细胞定位、保守性和功能信息。用户可以搜索和下载lncRNA信息并提交新条目。

  LncRBase () [8]是人类和小鼠lncRNA的存储库, 总共包含216 562个lncRNA转录物条目。在该数据库中, 已广泛收集了基本的lncRNA转录特征、基因组位置、重叠小非编码RNA、相关重复元件、相关印记基因和lncRNA启动子信息。

  1.2、 疾病数据资源

  Disease Ontology () [9]是马里兰大学医学院基因组科学研究所主办的与人类疾病相关的生物医学数据整合的开放数据库。设计上包含了8 043个遗传, 发育和获得性人类疾病, 旨在通过疾病概念连接不同的数据集。

  Medical Subject Headings (https://www.ncbi.nlm.nih.gov/mesh) 是用于索引生命科学文章的综合受控词汇表词库。有27 883个描述符和87 000个按照层次结构树排列的条目。

  OMIM () [10]是由约翰霍普金思大学医学院McKusick-Nathans遗传医学研究所维护的人类基因和遗传疾病在线知识库。截至2017年5月26日, 共有24 065个条目。

  1.3 、lncRNA-疾病关联关系相关数据资源

  LncRNADisease () [11]是手动收集的经过实验验证的lncRNA-疾病关联关系数据库。当前版本包含大约3000个lncRNA-疾病对和475个lncRNA相互作用对, 其中涉及大约2 000个出版文献中的914个lncRNA和329种疾病。

  Lnc2Cancer () [12]是一个癌症相关lncRNAs资源, 搜集包含了666个人类lncRNA和97个人类癌症之间的1 488条关联条目。与此同时, 还提供了lncRNA表达模式、实验技术、简要功能描述、原始参考和附加注释信息。此外, 也允许用户搜索、浏览和下载数据以及向数据库提交新数据等操作。

  MNDR () [13]是哺乳动物非编码RNA-疾病关系在线知识库, 当前版本包含了807个lncRNA相关、229个mi RNA相关、13个pi RNA相关和100个snoRNA相关的数据条目。

  2、 交叉验证

  为了评估算法的效果, 对于lncRNA-疾病关联关系预测, 通常对研究提出的模型进行留一交叉验证 (LOOCV) 或5-折交叉验证。其中, LOOCV在已知的、经过实验验证的lncRNA-疾病关联关系上设计发生, 关联关系中的每一对作为测试样本, 而剩余的用于训练模型。如果测试样本的排名高于特定阈值, 就可以认为正确预测了这个lncRNA-疾病关联关系对。有2种类型的LOOCV, 分别为:全局LOOCV和局部LOOCV。对于全局LOOCV, 测试样本的排名被列入所有调查疾病的全部未知候选微生物-疾病关联对中。对于局部LOOCV, 测试样本仅在给定疾病的其它未知的疾病相关lnc RNA中进行排名。即2种LOOCV的主要区别在于是否考虑了所有被调查的疾病。而-5折交叉验证将所有已知的、经过验证的lnc RNA-疾病关联对随机分为5组。不是选择一个lnc RNA-疾病关联对作为测试样本, 而是将这5组中的每一组轮流作为测试集, 而其它4组作为训练集。为了直观地评估性能, 研究者一般选择接受者操作特征曲线 (ROC) , 这是评估二元分类模型的常用方法。研究中, 敏感度 (sensitivity) 和特异度 (specificity) 是ROC曲线中使用的2个关键指标。对于lnc RNA-疾病关联关系的预测, 敏感度表示出一个测试被正确识别的比例, 而特异度表示出一个测试被错误地认为有关联关系的比例。利用这种方式, 通过不断改变阈值, 使用真阳性率 (敏感度) 与假阳性率 (1-特异度) 绘制ROC曲线来做出比较。ROC曲线下的面积也通常用于测试性能。一般地, AUC=0.5表示效果是随机的, AUC=1表示效果完美。

  3 、计算方法

  越来越多的证据表明, lncRNA的突变和失调与多种人类疾病密切相关, lncRNA功能及其与人类疾病的关系引起了更多研究者的兴趣与重视。计算模型可能是识别潜在lncRNA功能和lncRNA-疾病关联关系的有效方法。本节论述了一些用于识别lncRNA-疾病关联的计算方法, 详情可见如下。

  3.1 、基于生物网络的方法

  具有相似功能lncRNA可能与表型相似的疾病相关, 根据这个假设, 一些研究人员提出了数种基于生物网络的方法来预测疾病相关的lncRNA, 对此可做阐释解析如下。

  Sun等人[14]基于lncRNA功能相似网络提出了一种基于全局网络的计算方法RWRlncD。研究中, 在相继构建了lncRNA-疾病关联网络、疾病相似性网络和lncRNA功能相似网络后, RWRlncD通过在lncRNA功能相似网络上进行随机游走重启 (RWR) 来预测潜在的lncRNA-疾病关系。基于已验证的lncRNA-疾病关联关系, RWRlncD在LOOCV下获得0.822的AUC。然而此方法不能应用于没有任何已知相关lncRNA的疾病。当未来有更多lncRNA-疾病关联和更准确的lncRNA功能相似性度量时, RWRlncD的预测性能将会改善。

  此后, 研究立足于有更多共同的mi RNA相互作用的lncRNA倾向于与相似的疾病相关联的假设, Zhou等人[15]又提出了RWRHLD模型预测潜在的lncRNA-疾病关联关系。RWRHLD将3个网络 (mi RNA相关联的lncRNA-lncRNA串扰网络、疾病相似性网络和已知的lncRNA疾病关联网络) 整合为一个网络, 并在其上进行随机游走。基于已知实验验证的lncRNA-疾病关联, RWRHLD在LOOCV下获得0.871的AUC值。然而, RWRHLD仅适用于具有已知的lncRNA-mi RNA相互作用的lncRNA, 此外lncRNA串扰网络和lncRNA-疾病关联网络的不完全覆盖可能会降低模型预测性。

扫一扫手机打开当前页
二维码
关键词:lncRNAs 疾病 lncRNA-疾病关联 计算方法 

上一篇:血流感染病原微生物的检测技术探析

下一篇:欧盟布鲁塞尔体系下违反协议的损害赔偿救济

会员注册 | 网站简介 | 服务协议 | 广告服务 | 官方微博 | 在线投稿 | 客服中心
编辑QQ:109532255  E-mail:109532255@qq.com  微信公众号:好文学  QQ群:198926868
Copyright ©2013- 好文学网 All Rights Reserved.  蜀ICP备18002533号  Powered by haowenxue.net