高通量测序数据分析现状与挑战.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《高通量测序数据分析现状与挑战.pdf》由会员分享,可在线阅读,更多相关《高通量测序数据分析现状与挑战.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第1卷 第 3 期2012 年 9 月集 成 技 术JOURNAL OF INTEGRATION TECHNOLOGYVol.1 No.3Sep.2012作者简介:张文力,助理研究员,主要研究方向为高性能计算机体系结构,生物大数据处理,E-mail:。高通量测序数据分析现状与挑战张文力1,21(中国科学院计算技术研究所 北京 100190)2(计算机体系结构国家重点实验室 北京 100190)摘 要基因是遗传的物质基础。生物体的生、长、病、老、死等一切生命现象都与基因有关。基因测序是解读生命的一种途径。随着新一代高通量测序技术的发展,每天会产生TB甚至更多的序列数据。合理诠释这些大规模及复杂高
2、维度的数据成为获取数据后一个更大的难点,是当前生物研究的关键步骤,具有巨大的现实意义。海量高通量测序数据的存储、处理和分析都极大地挑战着当前的计算机系统和计算模式。本文将结合调研情况,尤其是华大基因的实例调研,讨论当前高通量测序数据分析的现状、问题和多方采取的措施。然而,面对高通量测序数据带来的挑战,仍需要多方密切合作和长久深入的研究。关键词基因组;高通量测序;数据分析;云计算;工作流Status and Challenges on Data Analysis of High Throughput SequencingZHANG Wen-li1,21(Institute of Computin
3、g Technology,Chinese Academy of Sciences,Beijing 100190,China)2(State Key Laboratory of Computer Architecture,Beijing 100190,China)Abstract Gene is the genetic material basis.All life phenomena,like disease and death,are related to Gene.Gene sequencing is a way to read life.With the development of n
4、ew generation high-throughput sequencing technology,TB or more sequence data will be generated daily.Its more difficult to interpret these big and complex data than to acquire them.Sequence data interpretation is a critical step in current biological research and has great practical significance.Its
5、 a great challenge for current computer systems and computing models to store,process and analysis massive high throughput sequence data.With survey,especially from BGI(Beijing Genome Institute),the current status,problems and measures taken to process high throughput sequence data will be discussed
6、.However,the challenge is too big to be solved unless more people in different fields work together in depth for a long term.Keywords genome;high throughput sequencing;data analysis;cloud computing;work flow1 高通量测序简介 基因是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。人类大约有几万个基因,储存着
7、生命孕育、生长、凋亡过程的全部信息,通过复制、表达、修复,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程。生物体的生、长、病、老、死等一切生命现象都与基因有关。基因测序1是解读生命的一种途径。高通量测序技术(High-ThroughputSequencing)又称“下一代”测序技术(Next-GenerationSequencingTechnology),是对传统测序一次革命性的改变,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deep3 期张文力:高通量测序数据分析
8、现状与挑战21图1 存储与DNA测序成本对照4Sequencing)。根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing,MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 Pyrosequencing)、Illumina(solexa)Sequencing、ABISOLiDSequencing、离子半导体测序(IonSemiconductorSequencing)、DNA纳米球测序(DNANanoballSequencing)等。第二代测序的读长普遍
9、偏短,在进行数据拼接时会遇到麻烦。为了克服这样的缺点,业界发展出了以单分子实时测序和纳米孔为标志的第三代测序技术。这些平台共同的特点是极高的测序通量,代表平台及数据产量介绍详见表1。表1 高通量测序代表平台及其数据量2测序在生命科学研究中一直发挥着重要作用。人类基因组草图绘制完成后,人类基因组计划依旧是生命科学发展的主线。在此基础上,2002年,旨在研究人类染色体上单核苷酸多态性(SNP)的人类基因组单体型图谱计划(Hapmap)启动;2003年,旨在鉴定人类基因组功能元件的基因组功能元件百科全书(ENCODE)计划启动,旨在绘制人类基因组甲基化可变位点图谱的表观基因组图谱计划启动;2008年
10、,千人基因组计划启动,以对27个不同族群2500人的基因组测序,绘制更为精确的遗传多样性图谱。我国科学家也于2007年完成首个黄种人“炎黄一号”的基因组测序,于2009年首次提出“人类泛基因组学”的概念。随后,千种动植物、宏基因组研究等崭新的方向不断启动。随着测序通量不断提升,测序成本不断降低,目前高通量测序开始广泛应用于寻找疾病的候选基因上。通过对人类基因组图谱的解读,借助全基因组关联分析(GWAS),重点关注人类基因组的SNP位点,科学家已先后发现癌症、糖尿病等70余种疾病的易感基因。除此之外,已经有近40种真核生物和近千种原核生物完成了基因组测序工作。基因组数据呈指数增长,获取开销日渐低
11、廉。高通量数据的累积需求越来越迫切,NCBI在2007年推出了SRA(SequenceReadAchive)数据库3,用于存储、显示、提取和分析高通量测序数据。随着基因研究技术进步,海量的数据源源不断的产生,生物信息数据的存储计算需求每12到18个月就会增长10倍,远远高于Moore定律提供的参考数值,见图1。以至于美国国家生物技术信息中心(NCBI)不得不在2011年2月关闭了SRA数据库,停止接受用户提交的下一代测序数据。然而,据阿岗实验室的RobEdwards预测5,目前已测序的相比于待测序的仅是冰山一角,如图2。图2 RobEdwards在2007年根据已测序情况对待测序历程的预测测序
12、平台技术原理最大读长(bases)Run 时间(天)每 Run 数据量(Gb)第二代Roche/454大规模并行焦磷酸合成测序法平均 3300.350.45Illumina/Solexa合成测序法75 或 1004,918,35ABI/SOLiD基于磁珠的大规模并行克隆连接 DNA 测序法507,1430,50第三代HelicosBioSciences/HeliScope基于全内反射显微镜的单分子测序法平均 32837PacificBioSciences/SMRT大规模并行单分子实时测序法100020Gb/s4000Gb/15min注:-FragmentRun;-MatepairRun集 成
13、技 术2012 年 222 高通量测序数据分析现状 测序技术推进科学研究的发展。传统的对单个基因进行研究的方式已无法满足后基因组时代的要求,要对生命的复杂活动有全面和深入的认识,必然要在整体、动态、网络的水平上进行研究。随着第二代测序技术的迅猛发展,科学界开始越来越多地应用第二代测序技术来解决生物学问题。比如在基因组水平上对还没有参考序列的物种进行重头测序(DeNovoSequencing),获得该物种的参考序列,为后续研究和分子育种奠定基础;对有参考序列的物种,进行全基因组重测序(Resequencing),在全基因组水平上扫描并检测突变位点,发现个体差异的分子基础。在转录组水平上进行全转录
14、组测序(WholeTranscriptomeResequencing),从而开展可变剪接、编码序列单核苷酸多态性(cSNP)等研究;或者进行小分子RNA测序(SmallRNASequencing),通过分离特定大小的RNA分子进行测序,从而发现新的microRNA分子。在转录组水平上,与染色质免疫共沉淀(ChIP)和甲基化DNA免疫共沉淀(MeDIP)技术相结合,从而检测出与特定转录因子结合的DNA区域和基因组上的甲基化位点。跨组学的研究也在不断深入。在得到测序数据后,基本的数据处理和分析涉及:第一步,对测序获取的短序列进行比对拼接。如果是重测序,可以用bowtie6进行参考基因组比对,即匹配
15、测序短片段在参考基因组上的位置;如果是对新物种进行从头(DeNovo)测序,用velvet7进行拼接,即利用测序短片段重构基因组序列。第二步,比对拼接后,进行全基因组基因注释。包括基因组组分分析,SNP分析,编码基因预测,重复序列注释,Non-codingRNA基因注释,MicroRNA基因注释等。如SNP分析可以用MAQ8。第 三 步,对 预 测 的 基 因 进 行 功 能(G e n eO n t o l o g y,P a t h w a y 等)注 释。可 以 用InterproScan9,WEGO10。第四步,比较基因组和分子进化分析。如快速进化(RapidEvolution)分析,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通量 序数 分析 现状 挑战
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内