新一代高通量RNA测序数据的处理与分析.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《新一代高通量RNA测序数据的处理与分析.doc》由会员分享,可在线阅读,更多相关《新一代高通量RNA测序数据的处理与分析.doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Reviews and Monographs 综述与专论 生物化学与生物物理进展 Progress in Biochemistry and Biophysics 2010, 37(8): 834846 新一代高通量 RNA 测序数据的处理与分析 * 1) 王 曦 1) 汪小我 1) 王立坤 1, 2) 冯智星 1) 张学工 1)* ( 生物信息学教育部重点实验室,清华信息科学与技术国家实验室 (筹 )生物信息学研究部,清华大学自动化系,北京 100084; 2) 吉林大学计算机科学与技术学院,长春 130012) 摘要 随 着新一代高 通量 DNA 测序 技术的快速 发展, RNA 测序 (
2、RNA-seq)已 成为基 因表达和 转录组 分析新 的重要 手段 RNA-seq 技术产生的 海量数据为生物信息 学带来了新的机遇和 挑战 有效地对 测序数据进行针对 性的生物信息学 处理和分 析,成为 RNA-seq 技术能否在科学探索中发挥重大作用的关键 以新一 代 Illumina/Solexa 测序平台所产生的数据为例,在扼 要介绍高通量 RNA-seq 测序流程的基础上,对 RNA-seq 数据处理和分析的方法和现有软件做一个较为全面的 综述,并对其 中有待进一步研究的问题进行展望 关键词 高通量 RNA 测序,转录组,基因表达,数据处理与分析,生物信息学 学科分类号 Q5, Q6
3、, Q7 DOI: 10.3724/SP.J.1206.2010.00151 近年来,新一代高通量测序技术得到了突飞猛 进 的 发 展 , 在 此 基 础 上 , 高 通 量 RNA 测 序 即 RNA-seq 也迅 速发 展 与 基因 芯片 技术 相比 , RNA-seq 无需设计探针,能在全基因组范围内以单 碱基分辨率检测和量化转录片段,并能应用于基因 组图谱尚未完成的物种 ,具有信噪比高 、 分辨率 高 、 应用范围广等优势,正成为研究基因表达和转 录组的重要实验手段 RNA-seq 为基因组学的研究带来了高分辨率的 海量数据,如何有效处理和分析这些海量数据成为 这一新技术能否带来新的科
4、学发现的关键,一些生 物信息学方法与软件也应运而生 本文 针对当前 RNA-seq 应用的现实情况,尝试以 Illumina/Solexa 测序平台产生的 mRNA-seq 数据为例,对 RNA 测 序数据的产生过程及数据处理和分析的基本流程 、 关键方法和现有软件进行较全面的介绍,并 讨论 RNA-seq 数据分 析中存在的挑战 1 高通量测序技术简介 诞生于 20 世纪 70 年代的 Sanger 法 是最早被 广泛应用的 DNA 测序技术 7,也是完成人类基因 组计划的基础 但是,由于它测序通量低,费时费 力,科学家们一直在寻求通量更高 、 速度更快 、 价 格更便宜 、 自动化程度更高
5、的测序技术 自 2005 年以来,以 Roche 公司的 454 技术 、 Illumina 公司 的 Solexa 技术和 ABI 公司的 SOLiD 技术为标志的 新一代测序技术相继诞生 8 新一代测序技术又称 作深 度测序技术,主要特点是测序通量高 、 测序时 间和成本显著下降 把这种高通量测序技术应用到由 mRNA 逆转 录 生成 的 cDNA 上 ,从 而 获 得来 自 不 同基 因 的 mRNA 片段在特定样本中的含量,这就是 mRNA 测序或 mRNA-seq 同样原理,各种类型的转录本 都可以用深度测序技术进行高通量定量检测,统称 作 RNA-seq 或 RNA 测序 目前,在
6、已经推出的几 种新一代测序平台中, Illumina/Solexa 测序平台上 的 RNA-seq 应 用 最 广 , 我 们 以 此 为 例 来 综 述 RNA-seq 数据处理和分析的生物信息学问题和方法 . * 国 家 自 然 科 学 基 金 资 助 项 目 (60702002, 60721003, 30873464, 60905013)和东南大学生 物电子学国家 重点实验 室开放研 究基金资 助项目 . * 通讯联系人 . Tel: 010-62794919, E-mail: 收稿日期: 2010-03-25,接受日期: 2010-04-30 15 6 2010; 37 (8) 王曦
7、等:新一代高通量 RNA 测序数据的处理与分析 835 Illumina/Solexa 测序技术的基本原理是边合成 边测序 (sequencing by synthesis, SBS) ,即测序 过程是以 DNA 单链为模板,在生成互补链时,利 用带荧光标记的 dNTP 发出不同颜色的荧光来确定 不同的碱基 新加入 dNTP 的末端被可逆的保护基 团封闭,既保证单次反应只能加入一个碱基,又能 在该碱基读取完毕后,将保护基团除去,使得下一 个反应可继续进行 为了增加荧光强度, 使之更 易被成像系统所采集,该技术在测序之前还需要对 待测片段做桥式 扩增 (bridge amplification)
8、 (http:/ 初 期 的 Illumina/Solexa 测 序 技术只能在较短的测序读长上 (20 30 碱基 )保证较 高的正确率 随着技术的改进,目前的读长已经增 加到 100 碱基以上 同时 ,随着双端测序 (paired- end, PE)技术的成熟,测序长度更可达到单端测序 的 2 倍,测序通量也随之增加 这种测序 技术是 Solexa 公司发展起 来的, 2007 年被 Illumina 公 司 收购,因此现在通常被称为 Illumina/Solexa 测序技 术 近 两年 来, Illumina/Solexa 测 序平 台不 断 升 级 ,相 继推 出了 GA (Geno
9、me Analyzer)、 GA IIx、 HiSeq 2000 等测序仪 更多关于高通量测序平台的 介绍,可以查阅相关文献 9, 14 16 2 RNA-seq 测序文库制备和测序平台数据 输出 本小节针对 Illumina/Solexa 测序平台,对 RNA 测序文库制备标准和平台底层数据产生做一个简单 的介绍 2 1 RNA-seq 测序文库制备 对 于 mRNA-seq 实 验 , 从总 RNA 到 最 终 的 cDNA 文库制备完成主要包括以下步骤 首先,用 Poly(T)寡聚核苷酸从总 RNA 中抽取全部带 Poly(A) 尾的 RNA,其中 的主要部分就是编码基因所转录 的 mR
10、NA 将所得 RNA 随机打断成片段,再用随 机引物和逆转录酶从 RNA 片段合成 cDNA 片段 然后,对 cDNA 片段进行末端修复并连接 测序接 头 (adapter),得到将用于测序的 cDNA 在以上过 程,将 RNA 随机片段化和采用随机引物进行反转 录,都是为了使所得 cDNA 片段较均匀地 取自各 个转录本 为提高测序效率,一般还需要用电泳切 胶法获取长度范围在 200 bp(25 bp)的 cDNA 片段, 再通过 RCR 扩增,得到最终的 cDNA 文库 在上述文库制备过 程中,如果不是只抽 取带 Poly (A) 尾 的 RNA, 而 是 使 用 全 部 的 RNA, 则
11、 RNA-seq 测得的就是细胞中的全部转录本,如果把 带 Poly(A)尾的 RNA 过滤掉,也可以得到非编码的 RNA 转 录本 , 如 果从 总 RNA 中 只 提 取 长 度为 21 23 个碱基左右的 RNA,则得到全部的 miRNA (microRNA)转录本 , 相应的方法也称作 miRNA-seq. 样品制备最终得到 的是双链 cDNA 文库 在 后续测序中,测 得的每个读段 (read)随机地来自双 链 cDNA 的某一条链,从读段序列本身 无法得知 它是与 RNA 方向相同还是倒转互补,在后续的读 段定位时需要两个方向都考虑 在新基因识别等应 用中,转录本的方向对基因注释尤
12、为重要,需要在 文库制备和测序中保留 RNA 的方向信息 最近有 文献报道了保留方向信息的 RNA-seq 样品制备方 法 17 20 2 2 测序平台数据输出 将 RNA-seq 测序文库加入流动槽 (flow cell)中 的各通道 (lane),在桥式 PCR 扩增后,就可以进行 测序了 测序过程中,计算机软件同步地对荧光图 像数据进行处理,通过分析荧光信号来确定被测碱 基,并给出质量评分 按照图像上的位置坐标,计 算机程序将同一位置测得的碱基根据测序顺序连成 读段 (read) 由于荧光图像文件所占有的磁盘空间 很大,通常 GA IIx 平台一次实验就能产生上太字 节 (TB)的图像文
13、件,所以一般情况下不予保留原始 的荧光图像数据,而是只保留程序读出的读段数据 及对应的质量分值,这就是多数实验室委托测序中 心进行 RNA-seq 测序后得到的最原始的数据 为了便于测序数据的发布和共享,高通 量测序 数据以 FASTQ 格式来记录所测的碱基读段和质量 分数 如图 1 所示, FASTQ 格式以测序读段为单 位存储,每条读段占 4 行,其中第 1 行和第 3 行由 文件识别标志和读段名 (ID)组成 (第 1 行以 “”开 头而第 3 行以 “+”开头;第 3 行中 ID 可以省略, 但 “+”不能省略 ),第 2 行为碱基序列,第 4 行为 对应的测序质量分数 关于 FAST
14、Q 格式更多地介 绍可参考文献 21 为方便保存和共享各实验室产 生的高通量测序数据, NCBI、 EBI、 DDBJ 等数据 中 心建 立了 大容 量的 数 据库 SRA (Sequence Read Archive, http:/www.ncbi.nlm.nih.gov/Traces/sra) 来 存 放共享的测序数据 22 23 1012 13 836 生物化学与生物物理进展 Prog. Biochem. Biophys. 2010; 37 (8) 每 4 行标识为 一个测序读段 3 RNA-seq 数据的基本处理 RNA-seq 的基本应用是测量一个样本中的基 图 1 Fig. 1 读
15、段 FASTQ 数据格式示例 FASTQ format examples 读段识别码 碱基序列 +读段识别码 测序质量分数 因表达或转录组 有实验表明,新一代高通量测序 技术重复数据之间的相关度较高 (R 0.96) ,因 此,如果对同一样本在多个通道上 进行了 RNA 测 序的技术重复,我们建议可以把几个通道的数据进 行合并,这样等效地增加了测序深度 本节讨论单 个样本 RNA 测 序数据的基 本处理流 程,如图 2a 所示 (a) 全基因组 序列及基 因注释 基因表达水平 估计 (及新基 因的识别 ) RNA-seq 测序 数据 读段定位 剪接异构体的 表达水平推断 后续处理 可视化及 读
16、段注释 选择性剪接 事件识别 (b) RNA-seq 测序数据 (样本 A) RNA-seq 测序数据 (样本 B) RNA-seq 数据 处理基本流程 RNA-seq 数据 处理基本流程 基因表达 差异分析 剪接异构体 表达差异或 选择性剪接 差异分析 分类分析 其他高层 数据分析 图 2 RNA-seq 数据处理和分析流程图 Fig. 2 The flowchart for RNA-seq data processing and analysis (a)RNA-seq 数据的基本处理 , 其方法介绍见正文第 3 节 . (b)两类样本 RNA-seq 数据比较分析的框架 , 对应于正文的第
17、 4 节 . (b)中虚线框内为(a) 所示的流程 , 虚线箭头表示可选输入 . 3 1 读段定位 获得 RNA-seq 的原始数据后,首先需 要将所 些基本的预处理 例如,过滤掉测序质量较差的读 段 、 对 miRNA 测序读段数据去除接头序列等 有测序读段通过序列映射 (mapping)定位 到参考基 因组上,这是所有后续处理和分析的基础 在读段 定位之前,有时还需要根据测序数据情况对其做某 高通量测序的海量数据对计算机算法的运行时 间提出了很高的要求 针对诸如 Illumina/Solexa 等 测序平台得到的读段一般较短 、 且插入删除错误较 2 12 2010; 37 (8) 王曦等
18、:新一代高通量 RNA 测序数据的处理与分 析 837 少等特点,人们开发了一些短序列定位算法 这 位 种 子 片 段 索 引 法 的 代 表 是 Maq 26 , 而 采 用 些 算 法 主 要 采 用 空 位 种 子 索 引 法 (spaced-seed Burrows-Wheeler 转换的 代表是 Bowtie 总 的 来 indexing)或 Burrows-Wheeler 转换(Burrows-Wheeler Transform, BWT)技术来实现 24 空位种子索引法 首先将读段切分,并选取其中一段或几段作为种子 建立搜索索引,再通过查找索引 、 延展匹配来实现 读 段 定 位
19、 , 通 过 轮 换 种 子 考 虑 允 许 出 现 错 配 (mismatch)的各种可能的位置组合 BWT 方法通过 B-W 转换 将基因组序列按一定规则 压缩并建立索 引,再通过查找和回溯来定位读段,在查找时可通 过碱基替代来实现允许的错配 表 1 列出了目前可 免费下载使用的部分短序列定位软件 其中采用空 说,采用 BWT 的定位算法在时间效率上要优于空 位种子片段索引法 24,28 随着读长的增加,允许读 段序列中存在插入删除 (indel)的定位变得可行而重 要 由于以上两类方法对序列中插入删除的处理较 为困难,近来人 们开发了一些基于 改进的 Smith- Waterman 动
20、态 规划 算 法 29 的 序列 比 对 工具 , 如 BFAST 、 SHRiMP 、Mosaik(http:/bioinformatics. bc.edu/marthlab/Mosaik)等 ,但 算法 速度较 慢, 大 多需采用计算机并行编程技术来解决运行时间的 问题 表 1 Table 1 适用于 Illumina/Solexa 测序平台的读段定位软件 Mappers/aligners for Illumina/Solexa sequencing data 名称 SAM1) 质量 2) 主要采用技术 网址 MAQ 26 27 否 是 空位种子 http:/ 1) Bowtie BWA3
21、2 ZOOM33 ELAND SOAP234 RazerS35 Novoalign SHRiMP31 BFAST30 Mosaik 是 是 否 否 否 否 是 否 是 是 是 是 否 否 否 否 是 是 是 是 2) BWT BWT 空位种子 空位种子 BWT q-grams 过滤 Needleman-Wunsch 算法 空位种子 q-grams 过滤 Smith-Waterman 算法 Smith-Waterman 算法 并行编程 Smith-Waterman 算法 并行编程 http:/bowtie- http:/bio- http:/ http:/ http:/ http:/www.se
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 新一代 通量 RNA 序数 处理 分析
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内