《长链非编码RNA研究进展 优先出版.doc》由会员分享,可在线阅读,更多相关《长链非编码RNA研究进展 优先出版.doc(13页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、HEREDITAS (Beijing) 2014 年 5 月 , 36(5): 456 468 综 述 长链 非编码 RNA 研究 进展 杨峰 , 易凡 , 曹慧青 , 梁子 才 , 杜 权 北京大学分子医学研究所 , 北京 100871 摘要 : 基 因组 计划研 究表 明 , 在组成 人类 基因 组的 30 亿 个碱 基对 中 , 仅 有 1.5%的核酸 序列 用于 蛋白质 编码 , 其余 98.5%的 基因组 为非 蛋白质 编码 序列。这 些序 列曾 被认为 是在 进化过 程中累 积的 垃圾 序列 而 未予 以关 注 , 但在随 后启 动的 ENCODE 研 究计 划中却 发现 , 7
2、5%的基因 组序 列能够 被转录 成 RNA, 其 中近 74%的转 录产 物为 非编码 RNA(Non-coding RNA, nc RNA)。在非 编码 RNA 中 , 绝 大多 数转录 本的 长度大 于 200 个碱 基 , 这 些 长 链非编 码 RNA(Long non-coding RNA, lncRNA) 能 够在转 录及 转录 后水平 上调 节蛋白 编码 基因的 表达 , 从 而广 泛地参 与包 括细 胞分化 、个 体发 育在内 的重 要生命 过程 , 其异 常表 达还与 多种 人类重 大疾 病的发 生密 切相 关。 文章综 述了 长链 非编码 RNA 的发 现、 分类、 表达
3、 、作用 机制 以及其 在个 体发 育 和人 类疾病 中的 作用。 关键词 : 长 链非 编码 RNA; 转录 调节 ; 基 因表达 The emerging landscape of long non-coding RNAs Feng Yang , Fan Yi, Huiqing Cao, Zicai Liang, Quan Du Institute of Molecular Medicine, Peking University, Beijing 100871, China Abstract: With the completion of Human Genome Project (HGP
4、), it was revealed that among the 3 billion base pairs in human genome, only 1.5% of them encodes proteins. The remaining 98.5% of the sequence does not encode any protein, and was once regarded as accumulated junk sequences during evolution. However, in the subsequently initiated ENCODE project, it
5、 was unexpectedly found that about 75% of the human genome was transcribed into RNAs. Seventy-four percent of them are non-protein-coding RNAs (non-coding RNAs, ncRNAs). In this RNA category, most of the transcripts are longer than 200 nucleotides and thus named as long non-coding RNAs (lncRNAs) . n
6、cRNAs regulate gene expression at the transcriptional and post-transcriptional levels, function in fundamental biological processe s including cell differentiation and organ development, and are closely associated with many human diseases. In this paper, we review the recent progr ess in the discove
7、ry, classification, expression, and function study of lncRNAs, as well as their roles in the pathogenesis of hu- man diseases. Keywords: long non-c oding RNA; transcriptiona l regulation; gene expre ssion 收稿日期 : 20130725; 修回日期 : 20130930 基金项目 : 国家高技术研究发展计划项目 (863 计划项目 )(编号 2007AA02Z165)资助 作者简介 : 杨峰
8、, 博士 , 专业方向:长链非编码 RNA 的功能研究。 Tel: 010-62750683; E-mail: feng_ 通讯作者 : 杜权 , 博士 , 研究员 , 博士生导师 , 研究方向:核酸及多肽技术。 E-mail: DOI: 10.3724/SP.J.1005.2014.0456 网络出版时间 : 2013-11-9 12:59:00 URL: http:/ 第 5 期 杨峰等 : 长链非编码 RNA 研究进展 457 基因组研究计划的成果表明 , 在人类基因组序 对 microRNA 的生理功能和作用机制的深入研究 , 列中仅有 1.5%的核酸序列用于蛋白质编码 , 结合 使
9、得人们逐步认识到非编码 RNA 对基因表达的广 2012年发布的 ENCODE 研究数据 , 人们意外地发现 在占据人类基因组 98.5%的非蛋白编码序列中 , 绝 大多数被转 录成长度大于 200 个碱基的所谓 长链 非编码 RNA(Long non-coding RNA, lncRNA)。近年 来 , 随着 二代测 序技术的 广泛应用 , 长链非 编码 RNA 的神秘面纱才逐渐被揭开 , 积累的研究数据发 现长链非编码 RNA 在多个层面上参与细胞分化和 个体发育等重要生命过程的调控 , 并与人类的重大 疾病密切相关。本文结合国内外长链非编码 RNA 的 研究现状 , 对其发现过程、分类标
10、准和表达、作用机 制以及在个体发育和人类疾病中的作用进行综述。 1 非编码 RNA 的发现 1961 年 Jacob 和 Monod 在 Journal of Biolo- gical Chemistry 杂志上发表了一篇具有里程碑意义 的研究论文 , 首次提出了信使 RNA(mRNA)的概念 以及它们在蛋白质翻译过程中作为遗传信息传递者 的中心作用。在随后的 50 多年中 , 随着 mRNA 研究 的深入和遗传 中心法则 的确立 , 人们对以 mRNA 为代表的基因转录本的认识主要在于其作为蛋白质 翻译模版的信使作用。 这种状况一直延续到 2001 年人类基因组计划 完成前后 , 该研究发现
11、在组成人类基因组的 30 亿个 碱基对中 , 只有大约 1.5%的核酸序列用于蛋白质编 码 , 其余的核酸序列不编码任何蛋白质 。这些不具 有蛋白编码潜能的基因组序列曾被一度认为是基因 组在进化过程中累积的无功能的 垃圾序列 。随着 研究的深入 , 越来越多的证据表明这些曾经的 垃 圾序列 可能具有重要的生物学功能 , 其中一个关 键性的证据是在高等物种中 , 绝大多数这些基因组 序列能够以发育阶段特异性或组织特异性的方式转 录成 RNA, 其中就包括大量的长链非编码 RNA 。 非编码 RNA 是一大类不具有蛋白编码潜能的 RNA 转 录本 , 第一 个 被报 道 的成 员 是丙 氨 酸 t
12、RNA, 由 Holley 等 于 1965 年在面包酵母中发现。 随后 , 越来越多的非编码 RNA 得到鉴定 , 包括核糖 体 RNA、 snoRNA、 Xist、以及在真核生物体中大量 存在的 microRNA 。值得一提的是 , 由于近年来 泛调控作用。 长链非编码 RNA 通常是指长度大于 200 个核苷 酸的非编码 RNA 转录本。该概念是在 2002 年由日 本科学家首次提出 , 他们在小鼠全长 cDNA 文库的 大规模测序中 , 鉴定了大量较长的非编码 RNA 转录 本 。但由于缺少功能注释 , 这些 RNA 转录本在随 后的一段时间里 , 并未得到研究人员的关注。直到 200
13、7 年这种状况才有所改变 , 斯坦福大学的 Rinn 等 报道了一条 2.2 kb 长的功能性长链非编码 RNA 基因 (HOTAIR), 研究发现 HOTAIR RNA 可以与蛋白复合 体 polycomb 相互作用 , 修饰染色质 , 抑制 HOX 基因 的转录 , 并进而调节生物体的生长发育。自此以后 , 越来越多的研究人员开始关注长链非编码 RNA 的 鉴定和功能研究 , 发现了大量具有重要生理病理功 能的长链非编码 RNA 基因 , 使得人们对长链非编码 RNA 的认识出现了质的飞越。目前 , 功能性长链非 编码 RNA 的鉴定、尤其是效应机制研究还处于起步 阶段 , 前景未可限量
14、。 2 长链非编码 RNA 的概述 2.1 非编码 RNA 的分类 由于非编码 RNA 在序列、结构以及生物功能上 的高度异质性 , 目前存在多种分类方法。 (1)根据生 物学功能可将非编码 RNA 分为持家非编码 RNA 和 调控性非编码 RNA :持家非编码 RNA 主要包括 核糖体 RNA(rRNA)、转运 RNA(tRNA)、小核 RNA (snRNA)、小核仁 RNA(snoRNA)、引导 RNA(gRNA) 和端粒酶 RNA ; 调控性非编码 RNA 主要包括小 干扰 RNA(siRNA)、微小 RNA(microRNA)、与 Piwi 蛋 白 相 互 作 用 的 piRNA 和
15、长 链 非 编 码 RNA (lncRNAs)。 (2)根据亚细胞定位可将非编码 RNA 分 为细胞核非编码 RNA 与细胞质非编码 RNA。 (3)根 据是否具有 polyA 尾结构可将非编码 RNA 分为具有 polyA 尾的非编码 RNA(polyA-plus ncRNAs )和不具 有 polyA 尾的非编码 RNA(polyA-minus ncRNAs)。 (4)根据转录本的长度可将非编码 RNA 分为小非编 码 RNA 和长链非编码 RNA。 进一步根据长链非编码 RNA 基因在基因组上 1 2 35 6 7 810 11 458 HEREDITAS (Beijing) 2014
16、第 36 卷 的位置 , 又可将其分为 3 类: (1)位于基因间区的长 链非编码 RNA, 又被称作 lincRNA(Long intergenic RNA); (2)天然反义链长链非编码 RNA; (3)内含子区 长链非编码 RNA 。 2.2 长链非编码 RNA 的表达及序列保守性 长链非编码 RNA 具有广泛的组织表达谱。与编 码蛋白质的 mRNA 相比 , 它们的表达丰度一般较低 , 但却具有更强的组织和细胞表达特异性。 2005 年 , Inagaki 等 在模式物种中首次报道大量 mRNA-like 的长链非编码 RNA 以组织和细胞特异性的方式进 行表达。 2006 年 , T
17、imothy 等 在分析若干来源于小 鼠组织的全长 cDNA 文库 (非编码 RNA 文库 )时也发 现 , 大量长链非编码 RNA 基因呈现组织特异性的表 达。 2008 年 , M ercer 等 利用原位杂交技术 , 在小 鼠脑组织中鉴定了大量长链非编码 RNA 的表达 , 这 些长链非编码 RNA 的表达水平与特定的神经解剖 学位置、细胞类型及亚细胞位置相关 , 例如 Evf2 主 要表达在腹侧前脑。其他组织特异性表达的长链非编 码 RNA 还包括在骨髓中特异性表达的 HOTAIRM1 (HOX antisense intergenic RNA myeloid1) 和仅在 分化 的牙齿
18、 和骨 细胞中 表达 的 Msx1 反义 RNA (Msx1-AS RNA), 该长链非编码 RNA 的表达水平与 Msx1 蛋白的含量呈现负相关关系 。 长链非编码 RNA 可出现在不同的亚细胞结构 中 , 其中定位于细胞核中的长链非编码 RNA 所占的 比例最大 , 例如长链非编码 RNA MEN / 主要位于 细胞核中 , 是细胞核亚结构 paraspeckles 的重要 组成 成分 ; MALAT-1(Metastasis-associated lung adenocar- cinoma transcript 1) 与 Neat1(Nuclear enriched abundant t
19、rans cript 1)主要定位在细胞 核的核斑中 (Nuclear specke), 与前体 mRNA 的剪切有关 。此 外 , Cesana 等 研究发现 linc-MD1 主要表达在分化 的肌肉细胞的细胞质中 , 作为竞争性 RNA(ceRNA) 调节 骨骼肌的分化过程。 2011 年 Rackham 等 在分 析高通量测序数据时 , 首次鉴定了 3 个由线粒体基 因组编码的长链非编码 RNAlncND5、 lncND6 和 lncCytb。由此可知 , 在细胞的多种亚细胞结构中均 可能存在长链非编码 RNA, 特殊的亚细胞定位对长 链非编码 RNA 的生物学功能具有重要的意义。 mi
20、croRNA 和 s noRNA 属于长度较短的非编码 RNA, 在物种进化过程中具有较高的序列保守性 , 在人和小鼠中 microRNA 的序列相似性超过 90%, 大多数 snoRNA 在这两个物种之间的保守性也达到 80%90% 。与此形成鲜明对比的是 , 长链非编码 RNA 的序列保守性较低 , 其序列相似性与蛋白编码 基因的内含子 (intron)区域类似 , 在人和小鼠中低于 70%, 比基因的 5或 3非翻译区还要略低一些 。研 究发现 , 较低的序列的保守性并未影响长链 非编码 RNA 在功能上的保守性 , 以哺乳动物中表达的 Xist 和 Air 为例 , 虽然它们在序列上的
21、保守性不高 , 但在 X 染色体剂量补偿和表观遗传沉默方面的作用却是 相同的 。一种可能的机制是尽管这些长链非编 码 RNA 在序列上缺乏整体同源性 , 但其内部包含若 干较短的高度保守区域 , 这些区域可能会和一些特 异的蛋白因子发生相互作用 , 或者形成某种特定的 二级结构而发挥其共同的生物学功能。另一个有趣 的发现是 , 非编码 RNA 基因的启动子区域通常要比 蛋白编码基因的启动子区域 具有更高的保守性 。 除了基因序列的保守性外 , 基因在染色体上位 置的保守性对基因功能的发挥也非常重要。尽管长 链非编码 RNA 基因的序列保守性不高 , 但其在基因 组中的定位却较为保守 , 这也可
22、能是决定其功能保 守性的一个重要因素 。此外 , 研究也发现了一些 序 列 同 源性 较 高 的 长 链 非编 码 RNA 基因 , 如 MALAT1、 Neat1 等 。有些研究还提示同一个长 链非编码 RNA 基因在不同物种间可能具有不同的 功能。例如 , 长链非编码 RNA Hotair 定位在 HOXC 基因簇之间 , 通过募集蛋白复合体 PRC2(Polycomb repressive complex 2), 调控组蛋白 H3 的第 27 位赖 氨酸进行三甲基化修饰 , 并进而反向调节 HOXD 基 因的表达 。而 Schorderet 等 最近报道的研究发 现 , 小鼠 Hotai
23、r 基因不仅与人类的同源基因在序列 保守性上较低 , 它的缺失对小鼠基因的表达谱和转 录水平也几乎没有任何影响 , 对 HOXD 不同的靶基 因的第 27 位赖氨酸的三甲基化水平也没有 太大影 响。这些研究结果表明 , 长链非编码 RNA 在不同物 种间保守性的差异可能是物种进化的结果 , 这种快 速的进化进一步提示长链非编码 RNA 在高等物种 中的重要调控作用。 16 17 18 19 20 21 22 23 24 25 第 5 期 杨峰等 : 长链非编码 RNA 研究进展 459 2.3 长链非编码 RNA 的作用机制 长链非编码 RNA 是一类普遍存在的具有重要 作用的生物大分子 ,
24、按照效应机制的不同 , 研究人 员将长链非编码 RNA 分为 4 种: (1)信号分子 ; (2) 诱饵分子 ; (3)引导分子 ; (4)支架分子。 2.3.1 信号分子 大多数长非编码基因的表达是由 RNA 聚合酶 II 进行转录的 , 其组织和发育阶段的特异性表达 说明这类基因的转录受到了严格的调控。长链非编 码 RNA 的转录一般发生在生物体发育过程中特定 的时间和特定的 组织中 , 其转录本有可能作为信号 分子 , 进一步调控其他基因的表达。这类基因转录 本中通常包含一些具有调控功能的核酸序列 , 在这 种情况下 , 人们可以根据长链非编码 RNA 的表达情 况来推测染色质的状态。此
25、外 , 以 RNA 作为效应物 可以减缓蛋白质的翻译过程 , 提高调控速度 , 一 个典型的例子是 Xist 在 X 染色体的失活中的作用。 在雌性动物的发育过程中 , Xist 转录本从失活的 X 染 色体上转录出来 , 并包裹在该 X 染色体上 , 导致该 染色体整体水平上的基因表达抑制 。长链非编码 RNA PANDA 是一个受 P53 蛋白诱导转录的 RNA 分 子 , DNA 发生损伤后 , P53 结合到 CDKN1A 基因的启 动子 区域 , 激活 PANDA 基因的 转录 , 所产生 的 PANDA RNA 进一步作用于 NF-YA 蛋白 , 限制凋亡 前体基因的表达 , 使细
26、胞周期停滞 。 2.3.2 诱饵分子 作为诱饵分子来间接调控目标基因的转录 , 是 长链非编码 RNA 的另一种重要的效应方式。某些长 链非编码 RNA 可以通过招募其他 RNA 结合蛋白 , 共同实现对目标基因表达的调控 , 长链非编码 RNA Gas5(Growth arrest-specific 5)就是其中的一个代表。 Gas5 可利用其自身颈环结构的一个 RNA 基序 , 模 拟结合在糖皮质激素效应基因启动子区域的激素效 应元件 , 抑制糖皮质激素受体的功能。 Gas5 可以竞 争性地结合糖皮质激素受体的 DNA 结合区域 , 作为 诱饵分子有效地抑制受体和染色体的相互作用 。 此外
27、 , 长链非编码 RNA 还可以作为 microRNA 的诱 饵发挥生 理作用 , 最近关于 肿 瘤抑制基因 假基因 PTENP1 的研究结果对这一作用机制进行了阐述。 这 个假 基 因 曾 被认 为 是没 有 生 物学 功 能 的 , 而 Poliseno 等 的研究却发现 , 其可能以诱饵的方式 吸附一些特定的 microRNA, 从而调控某些 microRNA 靶基因的表达。这种作用方式被称为 海绵效应 , 具备该作用的长链非编码 RNA 也被称为 ceRNA (Competing endogenous RNA), 即 竞 争 性 内 源 的 RNA 。 2.3.3 引导分子 在这 一作
28、用方 式中 , 长 链非编码 RNA 作为 RNA 结合蛋白的引导者 , 指导包含该蛋白的蛋白复 合体定位到调控位点 , 可以通过顺式方式 (对于位置 临近的基因而言 ), 也可以通过反式方式 (对于位置 较远的基因而言 )调节目标基因的表达。这种调控作 用通常是利用长链非编码 RNA 特定的空间构象 , 而 非特定序列来实现的。这类长链非编码 RNA 在发挥 基因调节作用时 , 靶位点染色质局部结构的变化不 仅与该区域内的改变相关 , 也有可能与染色质远端 结构的改变相关 。例如 , 长链非编码 RNA Ho- tair 或 lincRNA-p21 在远距离调控基因表达时 , 需要 其他相关
29、的 作用因子到达特定的作 用位点 。 COLDAIR 是植物中一个由寒冷诱导产生的长链非 编码 RNA, 对染色质抑制状态的发生和维持具有至 关重要的的作用。该长链非编码 RNA 在指导 PRC2 复合体到达 FLC 基因 (开花抑制基因 )的染色质 位置 起 到 了 关 键 性 作 用 , 进 而 在 春 化 作 用 中 通 过 H3K27(组蛋白 H3 的第 27 位赖氨酸 )的三甲基化调 控基因表达 。 LinRNA-p21 可以在基因组的多个位 点影响染色质的结构和基因表达 。虽然目前尚未 完全解析这一调节过程的作用机制 , 但可以确定的 一点是 , 该长链非编码 RNA 是作为引导者
30、实现该反 式调节过程的。 2.3.4 支架分子 作为支架分子 , 长链非编码 RNA 可以为多个相 关分子成员的装配提供一个中央平台 , 这对许多生 物信号的传递、分子间相互作用、以及对信号本身 的特异性和动态性的精确调控 具有极其重要的意 义 。在多种复合体的形成过程中 , 除了传统观点 上的蛋白质成员外 , 近来的研究发现长链非编码 RNA 也发挥了重要的作用。长链非编码 RNA 之所 以能够作为复合体装配的中心平台 , 是因为其含有 35 36 37 38 39 40 41 460 HEREDITAS (Beijing) 2014 第 36 卷 可结合不同蛋白或其他效应分子的多个结构域
31、, 并 且也可以在同一位置同时结合多个效应元件。长链 非编码 RNA Hotair 可以利用其 5端的 300 个核苷酸 组成的结构域与 PRC2 蛋白复合体相互作用 , 同时 它还可以利用其 3端的 700 个核苷酸 组成的结构域 与另一个包含 LSD1、 CoREST 及 REST 等蛋白因子 的去甲基化蛋白复合体结合 。从而作为 PRC2 和 LSD1/CoREST/REST 复合物的连接支架和桥梁发 挥作用。此外 , 长链非编码 RNA Anril 可以与 PRC1 及 PRC2 复合体的某些成员蛋白发生直接的相互作 用 , 从而对邻近蛋白编码基因表达产生顺式调节作 用 , 如果破坏这
32、些相互作用会直接引起相关基因的 转录抑制 。因此 , 与 Hotair 一样 , Anril 也可以 作为一个分子支架招募 多种染色质修饰复合体 , 实 现对靶基因沉默作用 , 动态地调控基因的转录活性。 3 长链非编码 RNA 与个体发育以及人类疾 病的相关性 3.1 长链非编码 RNA 与细胞分化和个体发育 长链非编码 RNA 的表达不仅具有细胞型和组 织特异性 , 一些长链非编码 RNA 还仅在真核生物发 育过程的特定阶段表达。对线虫和果蝇发育过程中 长链非编码 RNA 的表达研究发现 , 这类 RNA 分子 呈现 出动 态的表 达变 化 , 多 数长 链非编 码 RNA 具有精确的时间
33、和空间表达 模式 , 有的表达模 式还保守地存在不同种的果蝇中 。原位杂交分 析中发现 , 在黑腹果蝇的胚胎发育过程中高表达的 33 个 mRNA-like 长链非编码 RNA, 有 16 个仅在中 枢或者外周神经系统中得到表达 。 单细胞真核生物基因组结构紧凑 , 在有限的序 列空间中包含大量的蛋白编码基因 , 即使在这样的 基因环境下 , 长链非编码 RNA 也发挥了对基因表达 调控的作用。在纤毛虫中 , 长链非编码 RNA 跨越整 个母系体细胞基因组 , 并能够传给子代 , 子代中的 核基因组在 重建时需要来自母系的长链非编码 RNA 作为支架 。 在多细胞生物体内 , 长链非编码 RN
34、A 作为激活 子或抑制子参与细胞分化和个体发育的过程。神经 系统作为高等生物体一个最为复杂的组成部分 , 在 其发育过程中涉及一系列重要的分子事件 , 需要对 基因表达进行精确的时空调节 , 才能最终形成具有 复杂神经元结构的网络体系。大脑中有着丰富的长 链非编码 RNA 的表达 , 在神经系统的发育过程 和功能行使中发挥着重要作用 。大脑中的基因 表达通常与长链非编码 RNA 相关 , 其中包括在 大脑发育过程中起重要作用的 Dlx 家族的基因 。 人的 BNDF 基因位点编码一个重要的神经发育因子 , 该基因的 mRNA 转录本在人脑中会与一个反义非编 码 RNA TUG1 结合 , 形成
35、一个双链 RNA 结构 。 TUG1 在眼睛的发育过程中具有重要作用 , 如果利 用 RNA 干扰抑制其在体内的表达 , 可以引起视网膜 光感受器的缺失或外部畸形 。此外 , 在生殖细胞 的发育过程中 , 长链非编码 RNA 可调控特定基因的 开启或关闭 , 在复杂的表观遗传过程中发挥了关键 的作用 。 早期的芯片研究发现 , 大量长链非编码 RNA 在 小鼠 ES 细胞的分化过程中呈现差异性表达 , 其 中包含很多能与染色质蛋白直接相互作用的长链非 编码 RNA, 对维持 ES 细胞的多能性具有重要作用。 2011 年 Guttman 等 通过功能缺失研究发现 , 如果 干预这些长链非编码
36、RNA 的表达 , 将对 ES 细胞的 整体基因表达谱产生影响。 Yang 等 绘制的长链非 编码 RNA 调控 ES 细胞分化网络中 , 转录因子调节 长链非编码 RNA 的表达 , 长链非编码 RNA 进一步 与染色质蛋白相互作用 , 调控目标基因的表达和 ES 细胞多能性的维持。在小鼠胚胎干细胞 (ESC)向心肌 细胞 (CM)分化的研究中 , Guttman 等 发现一条在 中胚层向心脏的发育过程中起着重要作 用的长链非 编码 RNA 基因 , 该基因通过表观遗传调控 , 维持新 生心肌细胞的正常状态 。 除了胚胎干细胞以外 , 长链非编码 RNA 对于成 体干细胞多能状态的维持也非常
37、重要。在表皮祖细 胞向角质化细胞分化的过程中 , 长链非编码 RNA ANCR 的表达量逐步降低 , 敲除 ANCR 后可以诱导皮 肤特异性分化基因的表达 。在小鼠的红系祖细胞 中 , 抑制长链非编码 RNA LincRNA-EPS 的表达可以 阻滞红细胞分化 。同样 , 降低在神经干细胞中的 长链非编码 RNA 的 表达 , 也可以阻滞其向神经细胞 的分化 。此外 , 长链非编码 RNA 还可影响肌原细 胞向肌细胞的分化过程 , 在肌原细胞分化过程中长 链非编码 RNA Linc-MD1 可以吸附 microRNA-133 12,49 4951 28,52,53 17,54 17 55,56
38、 18,57 5861 19,62 6365 第 5 期 杨峰等 : 长链非编码 RNA 研究进展 461 和 microRNA-135, 从而上调这两个 microRNA 的促 分化靶基因 , 促进分化过程 。 利用二代测序技术 , 麻省理工大学的研究组对 脂肪细胞分化过程中 mRNA 及带 polyA 尾的长链非 编码 RNA 的表达谱进行了系统分析 , 发现 175 个调 控性表达的长链非编码 RNA, 其中许多长链非编码 RNA 在脂肪细胞中高度富集 , 并在脂肪分化过程中 被强烈诱导表达。在这些基因的启动子区域 , 他们 发现了脂肪分化中关键转录因子 PPAR及 CEBP的 结合位点
39、 ; 利用 RNA 干扰技术 , 进一步鉴定了一批 与脂肪分化密切相关的长链非编码 RNA 基因 。 除了在细胞分化过程中发挥作用以外 , Rinn 实验室在 2010 年首次报道了长链非编码 RNA 对细 胞重编程过程的影响 , 他们在人成纤维细胞来源的 iPSCs 细胞 (Induced pluripotent stem cells)中发现了 28 个高表达的长链非编码 RNA, 利用 RNA 干扰技 术 , 他们发现 长链非编码 RNA lincRNA-RoR 在其中 发挥了重要的调控作用 , 抑制其表达可显著降低细 胞重编程的效率。 3.2 长链非编码 RNA 与人类疾病 研究发现 ,
40、 长链非编码 RNA 的表达或功能异常 与人类疾病的发生密切相关 , 其中就包括癌症、退 行性神经疾病在内的多种严重危害人类健康的重大 疾病 , 具体表现为长链非编码 RNA 在序列和空间结 构上的异常、表达水平的异常、与结合蛋白相互作 用的异常等。 阿 尔兹 默 症 是一 种 神 经 系统 退 行 性病 变 。 BACE1 是其病理过程中一个关键酶 , 它的一个反义 非编码 RNA BACE1-AS 可通过调节 BACE1 的表达 水平 , 启动阿尔兹默症相关的病理过程的发生 。 在心血管疾病方面 , GWAS(Genome-wide association studies)研究发现长链非编
41、码 RNA ANRIL 基因所处 的染色质区域与冠心病、颅内动脉瘤、 2 型糖尿病 以及多种肿瘤的易感性显著相关 ; 该基因内部 和临近区域的 SNP 也与上述疾病的易感性具有关联 性 。 作为人类健康的头号杀 手 , 肿瘤在长链非编码 RNA 的研究中也得到了充分的重视 , 有些长链非编 码 RNA 在其中的作用机制已被阐明 , 如印迹基因 H19。 H19 既具有致癌作用 , 也具有抑癌作用 , 在肝 癌、膀胱癌、乳腺癌中呈现高表达。在结肠癌中 , H19 被原癌基因 c-Myc 激活 , 作为 c-Myc 调控下游基因 表达的中介发挥促肿瘤 作用 。 H19 的第一个外显 子可转录出 m
42、ir-675, 进一步下调肿瘤抑制基因 RB1 的表达。在小鼠畸胎瘤模型研究中发现 , 当 H19 缺 失时 , 肿瘤的体积比对照组要大的多 ; 类似的 , 在 小鼠肝癌模型中 , H19 的缺失会使肿瘤发生的时间 提前 。目前对于长链非编码 RNA 的这种双向作 用的产生机制还不甚了解 , 可能是源于其自身的某 些特性 , 也可能是环境因素的共同作用。 ANRIL 可 与 PRC1(Polycomb repressive complex1)的一个 组成 蛋白 CBX7(Pc/Chromobox)发生相互作用 , 它们的表 达水平在前列腺癌中同步上升 , 与 INK4a 表达量的 减少密切相关
43、 。在这一关系中 , ANRIL 可能是肿瘤 形成的一个起始因子 , 引起 INK4b/ARF/INK4a 位点 的沉默。与正常乳腺组织相比 , 长链非编码 RNA Hotair 在原发性和迁移性乳腺癌中的表达水平上调 2 000 倍之多 , 其高水平表达与肿瘤的迁移和存活率 相关 。 MALAT-1 在人类正常组织中广泛表达 , 但 在多种肿瘤如乳腺癌、 前列腺癌、结肠癌、肝癌及 子宫癌等中表达上调 。这些研究结果表明 , 长 链非编码 RNA 的异常表达代表了人类疾病构架的 一个新的层面。 4 结语与展望 ENCODE 研 究 计划 在 人类 基因 组 中 鉴定 了 9 000 余条长链非编码 RNA 基因 , 但其中具有明确生 物学功能的只有不到 100 条 , 产生这种差距 的主要原因包括以下两个方面。一、长链非编码 RNA 的特殊性质对研究的影响。 (1)长链非编码 RNA 的 表达丰度通常要低于临近的 mRNA, 如 在胚胎干细 胞中特异表达的长链非编码 RNAs ; (2)长链非编 码 RNA 的序列保守性差 , 其功能在不同物种间不能 类推。比如 , 人的长非编码基因 Hotair 能够反式调 节 HOXD 基因的表达 , 而在小鼠中则不存在这种调 控作用
限制150内