对RNA测序平台Illumina基因分析器的通道影响的统计分析毕业论文.doc
《对RNA测序平台Illumina基因分析器的通道影响的统计分析毕业论文.doc》由会员分享,可在线阅读,更多相关《对RNA测序平台Illumina基因分析器的通道影响的统计分析毕业论文.doc(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、对RNA测序平台Illumina基因分析器的通道影响的统计分析摘要下一代测序技术以它低廉的成本及准确的产出结果,在生物信息界及医学制药界获得突飞猛进的发展。RNA测序技术作为下一代测序技术在转录组分析的应用技术,广泛应用于转录组学分析研究。Illumina Genome Analyzer是提供RNA测序的平台,但测序平台并不是很完美,产生的数据不是绝对精确。本文将分析由于测序机器本身而产生的技术影响,特别是在Illumina测序过程中的通道分组带来的数据产生的影响。进而,可以对测序平台进行改进与完善。关键词:下一代测序技术,RNA测序技术,Illumina测序平台,通道影响 AbstractT
2、he next generation of sequencing technology is emerged and highly developed as its low cost and the accurate output results, in the biological information industry and medical pharmaceutical industry. RNA sequencing technology as the application of next generation of sequencing technology in transcr
3、iptomic analysis, has widely been used in transcriptome research. Illumina Genome Analyzer is a machine which serves as a platform to produce RNA sequencing data, but each sequencing platform is not perfect at all, thus the resulting data is not absolutely accurate. This paper will analyze the data
4、variation, that exists because of the effect from the machine itself during the sequencing progress, especially between lanes when sequencing proceed by Illumina. For what has been done above, then we can develop and perfect the sequencing platform.Keywords: Next-generation sequence, RNA sequence, I
5、llunima Genome Analyzer, Lane effect目 录摘要2Abstract3引言51简介61.1 生物背景61.2下一代测序(Next-generation sequence)61.3 RNA测序(RNA sequence)61.4 Illumina Genome Analyzer72统计模型92.1列联表独立性检验92.2超几何分布模型102.3 Poisson分布模型112.4 Poisson广义线性模型122.4.1线性模型定义122.4.2最小二乘法132.4.3对数线性模型的应用133总结与展望15参考文献16后记与感谢17 引言近年来,下一代测序技术(Ne
6、xt-generation sequencing,NGS),又叫深度测序技术(deep sequencing)或高通量测序技术(High-throughput sequencing),以它低廉的成本及准确的产出结果,在生物信息界及医学制药界获得突飞猛进的发展。而它产生的海量数据使该技术不得不面临信息学难题,有效地处理和分析测序数据变得举足轻重。作为最新发展起来的有巨大市场空间的新兴技术,高通量测序技术无疑面临着机遇和挑战。当然,作为一个新兴技术,高通量测序技术的缺点尚未被人们所了解。产生的数据可供统计学家分析关于技术性的和生物性的可再生能力,错误率和测量偏度等。在这里我们将讨论某些方面的分析和
7、数据处理是必须作为研究新一代测序技术的表达数据的考虑因素。RNA测序(RNA-sequencing ,RNA-seq)作为下一代测序技术在转录组分析的应用技术,广泛应用于转录组学分析研究。它曾被喻为“转录组学中革命性的工具”。相比其它测序技术,如微阵列技术(microarray),RNA-seq技术无需预先针对已知序列设计探针,就能在单个实验中以较短的时间同步测量成千上万的基因表达,同时避免产生背景噪声及交互影响。现今很多公司在测序平台的开发和完善上都有了很大进展,目前,以Illumina/Solexa Genome Analyzer, Helicos Heliscope及SOLiD等平台为主
8、。虽然现在的测序平台已经较为完善,但仍不是很完美。因此,产生的数据有较高的精确度及可靠性外,还是由各因素导致的一定的偏差。本文中,我们感兴趣的是在测序过程中对数据的随机分组是否会对测序结果产生影响。本文将以Illumina测序平台的原理为例。探讨测序过程中对通道进行分类时产生的数据变量间的关系,即基因的表达数据是否是独立不受分组影响。当然,通道的分组不是唯一的。测序过程中还有流动槽之间的分组,和分析通道分组影响一样,我们进一步也可以对流动槽分组带来的影响进行假设检验。但在本文中不就此展开。其中,通道分组影响和流动槽分组影响均是由于机器本身原因产生的变量,它们有一个专有名词,技术变量(techn
9、ical variation)。我们知道,测序过程中在技术因素带来的对数据结果的影响之外,还有分段、转录等过程产生的生物变量(biological variation)。科学家在以往的工作研究中已经发现生物变量带来的影响远远大于技术变量。技术变量虽然十分微小甚至在海量数据下可以忽视,但是对技术变量的研究能使我们在下一步的工作中对测序平台进行进一步完善与改进,从而获得更精确的数据。1简介1.1 生物背景遗传信息是由脱氧核糖核酸(DNA)分子编码的,它决定了在一个有机体从祖先那继承活细胞的功能。一个DNA分子由四种核苷酸(nucleotides , nt)组成,记为A,C,G和T。其中A-T及G-
10、C配对,被称为碱基对(base pairs , bp),是双螺旋结构的DNA的基本元素。我们常说的生物术语“基因表达”指的正是分子生物学中的中心法则(the central dogma),在该过程中,一个基因的DNA序列作为模板产生核糖核酸(RNA)分子,然后在翻译过程中,RNA也为细胞合成蛋白质的模板。当一个特定的基因在这一过程出现,我们称基因被表达。随着测量由蛋白质编码的RNA即信使RNA(mRNA)的高通量机器设备的发展,基因表达的研究有了突破性进展。通过测量从单个细胞或一组细胞内的不同的基因的mRNA数量,生物学家可以观测到细胞正在生成的过程中的基因信号。通过比较不同的细胞样本中的基因
11、信号(如肿瘤样本和正常组织),我们又可以确认基因表达的差异。事实上,一个基因不是单独的整体,为了保证细胞的复杂性功能,许多基因可以编码多个蛋白质结构。这是通过选择性剪接机制而实现的。在剪接时,基因序列连续的部分可以包含或不包含在最终生成的mRNA中。其中包含的部分一般称之为外显子(exons),而不被包含的部分称之为内含子(introns)。不同的外显子子集形成特定的基因,可以连结起来成为一个基因片段(fragment),或称为异构体(isoform)。1.2下一代测序(Next-generation sequence)由于DNA和RNA分子的核苷酸排序不同,决定了遗传信息的不同。因此,近几年
12、,用于测量和确定DNA或RNA核苷酸顺序的测序技术成为了在分子生物学中最具影响力和建设性意义的工具手段之一。下一代测序技术(Next-generation sequencing,NGS),又叫深度测序技术(deep sequencing)或高通量测序技术(High-throughput sequencing),具有高效的产出和低廉成本等优势,在生物信息界及医学制药界扮演着越来越重要的角色,越来越多的生物学家选择它们作为研究的主要工具,包括转录和结构变化等。最近,几个测序平台也迅速已经发展起来,相比传统的Sanger测序技术,它们产生的数据具有高的精确度与可靠性,但其产生的海量数据使该技术不得不
13、面临着数据处理的难题。作为最新发展起来的有巨大市场空间的新兴技术,高通量测序技术无疑面临着机遇和挑战。1.3 RNA测序(RNA sequence)目前,下一代测序系统除了像传统测序方法应用于基因组的测序或重测序外,还用于研究转录组的RNA测序(RNA-seq)。RNA测序(RNA-sequencing ,RNA-seq),又叫做转录组测序。利用下一代高通量测序技术对从mRNA逆转录生成的cDNA进行测序,通过统计相关读段数(reads)计算出不同基因的mRNA片段的表达量,我们称之为mRNA测序(mRNA-Seq)。同样原理,各种类型的转录本都可以由下一代测序技术进行深度测序,统称作RNA-
14、Seq。目前,RNA测序广泛应用于酵母,老鼠甚至人类的转录组学分析研究。它曾被喻为“转录组学中革命性的工具”。转录组(transcriptome)即某一特定组织或细胞在复制阶段下转录出来的所有转录基因的集合,因此它是基因的功能和结构研究的基础,能作为分析特定生物学过程以及疾病发生过程中的分子机理的重要工具。RNA测序技术能在单核苷酸水平下对任意物种的整体转录活动进行检测,同时,发现新的转录本,精确识别剪切位点。首先,RNA分子从特定的细胞中分离,接着被随机打断分成不同长度的片段,然后RNA进行转录过程,逆转录成cDNA,下一个阶段cDNA以特定的长度进行扩张,得到的样本被放入测序仪器进行测序。
15、长期以来被人们熟知的基因表达分析技术是微阵列技术(microarray),而该技术存在的测量转录水平的缺陷,包括由于探针区别上的不足而缺乏绝对的量化,由于饱和度和背景因素而缺乏表达水平的高低分辨率,以及由于需要预先定义的探针序列而缺乏测量转录事件的灵活性。而这些缺点,随着高通量测序技术的发展被轻而易举地避免。RNA-seq技术无需预先针对已知序列设计探针,就能在单个实验中以较短的时间同步测量成千上万的基因表达,提供更精确的数字化信号及更高的测序通量,同时避免产生背景噪声及交互影响。RNA测序技术已广泛应用于生物学研究、医学研究、临床研究和药物研发等。其流程简单如图1所示。1.4 Illumin
16、a Genome Analyzer测序DNA和RNA分子序列的方法已经发展了30多年。目前,涌现了许多新一代高通量测序平台,如Illumina公司的Solexa技术和ABI公司的SOLiD技术等为标志的新一代测序技术。在此,特以Illumina公司的Solexa技术为例。Illumina公司目前大量使用的测序仪是Genome Analyzer(GA),其采用边合成边测序(Sequencing by synthesis,SBS)的原理。该合成在某一基底上进行,一般地称之为流动槽(flow cell)。在流动槽上,大量的合成反应能够同步地被观察。因此,这些方法的应用领域不仅局限在基因组的重排序,还
17、拓展到了检测基因表达(RNA-Seq)等领域。下面我们简单对Illumina Genome Analyzer做一下介绍。首先,DNA双链分解,适配器与片段末端连接,片段材料通过适配器进行PCR(polymersase chain reaction)扩增。接着执行选择长度的步骤,选择大约200nt(nucleotide)的片段。将需要测序片段放置到流动槽(flow cell)上,作为填装的补充物也同时放置到光滑的表面上。一旦单个分子附加到流动槽,桥式扩增将在原位置上代替PCR扩增,在样本链基础上生成高度相似的多个副本,称为聚类(cluster)。随着补充物和DNA聚合酶的添加,测序就开始了。补充
18、物序列是在添加一种溶液和四个碱基上以一次一个单位生成的,每个碱基被标记上不同萤光材料并且包含一个可逆的终端,因此在每次循环中单个模板链只能附加有一个分子。同一聚类的模板副本由聚合酶扩增应该按阶段进行,并且标记上荧光信号的模板序列的聚类可以进行基本的结合,以此可被扫描机器检测到。在第一轮碱基加法和扫描后,可逆的终端从每一个结合的核苷酸中移除,并且这个过程不断重复。在特定的循环次数运行后,基本上保证了所有读段(reads)在最后具有相同的长度。每一次Illumina基因组分析器的运行产生了一个流动槽的数据,并且每个流动槽包括八个区域,称之为通道(lanes),其中一组作为对照组。如下图2所示。例如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 对RNA测序平台Illumina基因分析器的通道影响的统计分析 毕业论文 RNA 平台 Illumina 基因 分析器 通道 影响 统计分析
限制150内