欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    生物信息学-高通量测序技术及数据分析-陈润生院士.ppt

    • 资源ID:91070600       资源大小:2.14MB        全文页数:45页
    • 资源格式: PPT        下载积分:11.9金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要11.9金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学-高通量测序技术及数据分析-陈润生院士.ppt

    生物信息学陈小伟中国科学院生物物理研究所高通量测序技术及数据分析介绍高通量测序技术及数据分析介绍 背景介绍 第一代测序技术 第二代(高通量)测序技术 基因芯片与高通量测序的比较 高通量测序技术的应用 高通量测序数据分析概览 高通量测序数据质量评估与过滤 基因组测序 RNA-seq ChIP-seq UCSC Genome Bioinformatics背景介绍背景介 绍 第一代测序技术 Sanger 测序法 链终止法 双脱氧终止法 1975 年TranscriptionFrederick Sanger弗雷德里克 桑格1918 年8 月13 日2013 年11 月19 日1958 年 诺贝尔化学奖1980 年 诺贝尔化学奖背景介 绍 第二代测序技术 边合成边测序 2005 年左右 Sequencing by synthesis 代表性测序技术 Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope 参考文献 Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet 11,31-46.IlluminaHiSeq2500背景介 绍 高通量测序文库构建 单末端测序,single-end 首先将DNA 样本进行片段化处理形成200-500bp 的片段,引物序列连接到DNA 片段的一端,然后末端加上接头,将片段固定在flowcell 上生成DNA 簇,上机测序单端读取序列。双末端测序,paired-end 在构建待测DNA 文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。背景介 绍 以Illumina 为例简单介绍测序原理IlluminaHiSeq2500 cBot背景介 绍 高通量测序数据格式 fasta 序列文件的第一行是由大于符号()打头的任意文字说明,主要为标记序列用。从第二行开始是序列本身,标准核苷酸符号,通常核苷酸符号大小写均可 fastq 第一行由 开始,后面跟着序列的描述信息,这点跟fasta 格式是一样的;第二行是序列;第三行由+开始,后面也可以跟着序列的描述信息;第四行是第二行序列的质量评价(qualityvalues),字符数跟第二行的序列是相等的。背景介 绍 高通量测序数据格式 fastqQ=-10log10(p)ORQ=-10log10p/(1-p)(p:碱基错误率)字符的ASCII 值-64=质量值OR 字符的ASCII 值-33=质量值NCBI/Sanger or Illumina 1.8 and later.UsingaPhredscaleencodedusingASCII33to93.ThisisthestandardforfastqformatsexceptfortheearlyIlluminadataformats(thischangedwithversion1.8oftheIlluminaPipeline).Illumina Pipeline 1.2 and earlier.UsingaSolexa/Illuminascale(-5to40)usingASCII59to104.TheWorkbenchautomaticallyconvertsthesequalityscorestothePhredscaleonimportinordertoensureacommonscaleforanalysesacrossdatasetsfromdifferentplatforms(seedetailsontheconversionnexttothesamplebelow).Illumina Pipeline 1.3 and 1.4.UsingaPhredscaleusingASCII64to104.Illumina Pipeline 1.5 to 1.7.UsingaPhredscaleusingASCII64to104.Values0()and1(A)arenotusedanymore.Value2(B)hasspecialmeaningandisusedasatrimclipping.ThismeansthatwhenselectingIlluminaPipeline1.5andlater,thereadsaretrimmedwhenaBisencounteredintheinputfileiftheTrimreadsoptionischecked.363939393939393939393839393636343429312202019191938383836363636363630323535基因芯片与高通量测序的比较芯片与测序比 较 基因芯片 约20 年的历史,技术比较成熟,成本相对较低 原理 探针,互补配对的原则 靶序列用荧光标记 通过荧光强度间接反映靶序列的数量 应用 检测已知基因的表达水平 检测SNP 位点的基因型 检测CNV芯片与测序比 较 高通量测序 约10 年的历史,发展快速,成本逐步减少 原理 边合成边测序 碱基用荧光基团标记 直接测定碱基序列 应用 全基因组测序 转录组测序(small RNA seq,RNA-seq),可以检测已知基因的表达水平,可以发现全新的转录本 ChIP-seq CLIP-seq,芯片与测序比 较 用高通量测序技术和基因芯片技术检测基因表达Malone,J.H.,andOliver,B.(2011).Microarrays,deepsequencingandthetruemeasureofthetranscriptome.BMCBiol9,34.高通量测序技术的应用测序应用 高通量测序数据分析概览测序应用FastQC;fastx_quality_statsfastx_trimmer fastx_clipperfastx_barcode_splitter.plfastx_trimmerfastq_quality_trimmerfastq_quality_filter 高通量测序数据质量评估与过滤 FastQC FASTX-Toolkit测序应用 全基因组de novo 测序 第一期:基因组调研图 整体测序深度不低于20 倍覆盖度。进行初步的数据分析,对基因组大小,GC 含量等做出初步评估,确定框架图梯度文库构建具体策略 第二期:基因组框架图 基因组覆盖度达到90%以上,基因区覆盖度达到95%以上,单碱基的错误率达到1 万分之一以内,整体测序覆盖深度不低于60 倍覆盖度。同时对框架图进行基本基因注释和功能注释,和简单的比较基因组学分析。第三期:基因组精细图 基因组覆盖度达到95%以上,基因区覆盖度达到98%以上,单碱基的错误率达到10 万分之一以内,整体基因组覆盖度不低于100 倍,ScaffoldN50 大小不低于300Kb,对基因组精细图进行详细基因注释,基因功能注释,基因代谢途径注释和比较基因组学分析。全基因组denovo 测序数据拼接组装算法流程DeBruijnGraph(德布鲁因图)Read:A G A T A C Tk-mer A G AG A TA T AT A CA C T测序应用 全基因组重测序(外显子组测序)算法流程 发现遗传变异(SNP,indel 等)测序数据与参考基因组做比对重新校对测序质量打分每一种基因型的先验 概率对基因型做推断计算每一种基因型的概率测序应用测序应用 转录组测序 Small RNA seq 检测small RNA(主要是miRNA)的表达水平 发现新的small RNA RNA-seq Poly(A)检测蛋白质编码基因的可变剪切体及表达水平 Total RNA(except rRNA)检测mRNA 及long noncoding RNA 的表达水平 发现新的long noncoding RNA 数据分析工具 Bowtie()TopHat()Cufflinks()测序应用 RNA-seq 数据分析工具 Bowtie Bowtieisanultrafast,memory-efficientshortreadalignergearedtowardquicklyaligninglargesetsofshortDNAsequences(reads)tolargegenomes.TopHat TopHatisafastsplicejunctionmapperforRNA-Seqreads.Cufflinks Cufflinksassemblestranscripts,estimatestheirabundances,andtestsfordifferentialexpressionandregulationinRNA-Seqsamples.ColeTrapnell:TopHat(2009),Cufflinks(2010)PhD StevenSalzberg,UniversityofMarylandLiorPachter,UniversityofCalifornia,BerkeleyPostdoc JoinRinnslab,TheBroadInstitute测序应用 Overview of TopHat测序应用 SplicingJunctionsExon skippingorcassette exonMutually exclusive exonsAlternative donor siteAlternative acceptor siteIntron retention测序应用 TopHat:Discoveringsplicejunctions TopHatv1.0.7earlier seed-and-extendalignment TopHatv1.0.7andlater SupposeSisareadoflengthlthatcrossesasplicejunction splitsSintonsegments,n=floor(l/k),(k=25bp)mapsthesegmentss1,snwithBowtietothegenome segmentssi,si+1thatbothaligntothegenome,butnotadjacently asegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.测序应用 TopHat:Discoveringsplicejunctions TopHatv1.0.7andlater asegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1andsi+1arealigned.si-1Si+1si1 2 3 4 5 6 7 8 9 1011 12 1314 151617 1819 202122 2324 25simbp k-mbp m=1,24m=12测序应用 OverviewofCufflinks测序应用 转录本拼接算法中涉及到的概念 偏序关系与偏序集合PartialorderandPartiallyorderedset 偏序关系 偏序(亦称半序)关系是定义在集合上的一种序结构,是集合上满足一定条件的二元关系。直观的说,偏序指集合中仅有部分成员之间可以排序。全序关系 在集合A 中,存在偏序关系“”,如果对于任意a A,b A,有ab 或ba,即A 中的每对元素都满足关系“”,则集合A 上的偏序“”是全序的或线性次序的。直观来说,全序指集合中全体成员之间都可以进行比较,可以排出所有元素的顺序。偏序集合 指配备了偏序关系的集合测序应用 转录本拼接算法中涉及到的概念 偏序关系 非严格偏序,自反偏序 给定集合S,“”是S 上的二元关系,若“”满足:自反性:a S,有aa;反对称性:a,bS,ab 且ba,则a=b;传递性:a,b,c S,ab 且bc,则ac;则称“”是S 上的非严格偏序或自反偏序 严格偏序,反自反偏序 给定集合S,“”是S 上的二元关系,若“”满足:反自反性:a S,有a a;非对称性:a,bS,ab b a;传递性:a,b,c S,ab 且bc,则ac;则称“”是S 上的严格偏序或反自反偏序。测序应用 转录本拼接算法中涉及到的概念 偏序集合 链 偏序集合的子集,满足其中任意两个元素可比 反链 偏序集合的子集,满足其中任意两个元素不可比 链划分 将偏序集合拆分成很多子集称作划分。子集全为链的划分叫做链划分 子集全为反链的划分叫反链划分。偏序集合的两个对偶定理 定理1 令(S,)是一个有限偏序集,并令r 是其最大链的大小。则S 可以被划分成r 个但不能再少的反链。定理2(Dilworth 定理)令(S,)是一个有限偏序集,并令m 是反链的最大的大小。则S 可以被划分成m 个但不能再少的链。测序应用 转录本拼接算法中涉及到的概念 二分图 指顶点可以分成两个不相交的集使得在同一个集内的顶点不相邻(没有共同边)的图。设G=(V,E)是一个无向图,如果顶点V 可分割为两个互不相交的子集(U,V),并且图中的每条边(i,j)所关联的两个顶点i 和j 分别属于这两个不同的顶点集(iinU,jinV),则称图G 为一个二分图。测序应用 转录本拼接算法中涉及到的概念 二分图 最大匹配 给定一个二分图G,在G 的一个子图M 中,M 的边集中的任意两条边都不依附于同一个顶点,则称M 是一个匹配.选择这样的边数最大的子集称为图的最大匹配(maximalmatching)最小点覆盖 给定一个二分图G,在G 的一个子图N 中,N 的点集中的点与所有的边都有关联(把所有的边都覆盖),则称N 是一个点覆盖 选择这样的点数最小的子集称为图的最小点覆盖(minimumvertexcover)测序应用 转录本拼接算法中涉及到的概念 二分图 最大匹配 最小点覆盖 Knig 定理:最大匹配数等于最小点覆盖数测序应用 转录本拼接 Definition Transcript primarytranscript genomiclocation Transcriptome transcriptionloci Thegenomiclocationofatranscriptt g Gdoesnotoverlapthegenomiclocationofanytranscriptuwhereu h Gandhg.Transcriptionlocusisnotbiological.测序应用 转录本拼接 Cufflinksisdesignedtoaimforthefollowing:(1)Everyfragmentisconsistentwithatleastoneassembledtranscript.(2)Everytranscriptistiledbyreads.(3)Thenumberoftranscriptsisthesmallestrequiredtosatisfyrequirement(1).测序应用 转录本拼接 Apartialorderonfragmentalignmentsx1andy1arecompatiblex2andy2areincompatibley3isnestedinx3x4isuncertain,becausey4andy5areincompatiblewitheachother.测序应用 转录本拼接 AssemblingaparsimonioussetoftranscriptsAssembleasetoftranscriptsFindaminimumpartitionPintochainsFindamaximumantichainFindamaximummatchinginbipartitegraphFindaminimumvertexcoverKnigs theoremDilworth theoremHopcroft-Karpalgorithm测序应用 转录本表达量的表示方法 RPKM(ReadsPerKilobaseoftranscriptperMillionmappedreads)实例:假设一个物种的基因组上只有两个基因,基因G1 的外显子长8Kb,基因G2 的外显子长2Kb。对该物种的一个样本做RNA-seq,共得到23millions 的read,其中能够比对到G1 的read有16million 个,能够比对到G2 的有4million 个.计算G1 和G2 的RPKM。Totalmappedreads=16million+4million=20millionG1:totalexonreads=16,000,000exonlength=8kbRPKM=16,000,000/(20*8)=100,000G2:totalexonreads=4,000,000exonlength=2kbRPKM=4,000,000/(20*2)=100,000测序应用 ChIP-seq 数据分析 发现转录因子结合位点MACSModel-based Analysis for ChIP-SeqTaoLiuPhD测序应用 UCSC Genome Bioinformatics 快速浏览整个基因组 整合了大量的基因组注释数据 支持数据库检索和序列比对 UCSC Genome Bioinformatics测序应用测序应用 UCSC Genome Bioinformatics 查看特定序列在基因组上的位置Tools-Blat测序应用 UCSC Genome Bioinformatics 查看特定序列在基因组上的位置测序应用 UCSC Genome Bioinformatics 查看特定序列在基因组上的位置Zoom out 3x生物信息学入门的几点建议 学习在线的生物信息学常用工具 了解常用的数据库 学习一门编程语言 学习linux 操作系统谢谢!

    注意事项

    本文(生物信息学-高通量测序技术及数据分析-陈润生院士.ppt)为本站会员(wuy****n92)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开