第十三章-计算表观遗传学课件.ppt
《第十三章-计算表观遗传学课件.ppt》由会员分享,可在线阅读,更多相关《第十三章-计算表观遗传学课件.ppt(117页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第十三章第十三章 计算表观遗传学计算表观遗传学 Computational Epigenetics第一节 引言 一、一、表观遗传学与计算表观遗传学表观遗传学与计算表观遗传学二、二、计算表观遗传学的研究内容计算表观遗传学的研究内容三、三、计算表观遗传学的方法和工具计算表观遗传学的方法和工具四、四、计算表观遗传学的进展计算表观遗传学的进展第二节第二节 基因组的基因组的DNADNA甲基化甲基化 一、一、CpGCpG岛的岛的DNADNA甲基化调控基因的表达甲基化调控基因的表达n n(一)(一)(一)(一)DNADNA甲基化与甲基化与甲基化与甲基化与CpGCpG岛岛岛岛 n n(二)(二)(二)(二)甲
2、基化对转录的调控甲基化对转录的调控甲基化对转录的调控甲基化对转录的调控n n(三)(三)(三)(三)DNADNA甲基化的意义甲基化的意义甲基化的意义甲基化的意义(一)(一)DNADNA甲基化与甲基化与CpGCpG岛岛n nDNADNA甲基化是一种发生在甲基化是一种发生在甲基化是一种发生在甲基化是一种发生在DNADNA序列上的化学修饰,序列上的化学修饰,序列上的化学修饰,序列上的化学修饰,可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。可以在转录及细胞分裂前后被稳定地遗传。DNADNA甲甲甲甲基化是重要的表观遗传代码。基化是重要的
3、表观遗传代码。基化是重要的表观遗传代码。基化是重要的表观遗传代码。DNADNA甲基化甲基化n n在哺乳动物中,大约在哺乳动物中,大约在哺乳动物中,大约在哺乳动物中,大约60%60%90%90%的的的的CpGCpG二核苷酸是甲基化二核苷酸是甲基化二核苷酸是甲基化二核苷酸是甲基化的。的。的。的。CpGCpG中的中的中的中的p p代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核代表连接脱氧胞嘧啶核苷和脱氧鸟嘌呤核苷的磷酸基团。苷的磷酸基团。苷的磷酸基团。苷的磷酸基团。n n在哺乳动物细胞中,在哺乳动物细胞中,在哺乳动物细胞中,在哺乳动物细胞
4、中,DNADNA甲基化主要发生在甲基化主要发生在甲基化主要发生在甲基化主要发生在CpGCpG二核苷酸二核苷酸二核苷酸二核苷酸中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做中胞嘧啶的第五位碳原子上,这样的胞嘧啶也叫做5-5-甲基甲基甲基甲基-胞嘧啶,如图所示。胞嘧啶,如图所示。胞嘧啶,如图所示。胞嘧啶,如图所示。CpGCpG岛与岛与DNADNA甲基化的关系甲基化的关系 n nCpGCpG二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向于聚集成簇,这样的区域称作二核苷酸倾向
5、于聚集成簇,这样的区域称作 CpGCpG岛(岛(岛(岛(CpGCpG islands islands)。)。)。)。n nCpGCpG岛的特点是岛的特点是岛的特点是岛的特点是GCGC的含量及的含量及的含量及的含量及CpGCpG的含量非常高。的含量非常高。的含量非常高。的含量非常高。n nCpGCpG岛主要分布在基因的岛主要分布在基因的岛主要分布在基因的岛主要分布在基因的5 5 非编码区、启动子和第一外显非编码区、启动子和第一外显非编码区、启动子和第一外显非编码区、启动子和第一外显子区域,大约子区域,大约子区域,大约子区域,大约60%60%的基因的启动子含有的基因的启动子含有的基因的启动子含有的
6、基因的启动子含有CpGCpG岛。这些区域岛。这些区域岛。这些区域岛。这些区域的的的的CpGCpG二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至二核苷酸的富集表明它们处于非甲基化状态(至少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化少在生殖细胞中),因此避免甲基化CpGCpG带来高的突变带来高的突变带来高的突变带来高的突变率。率。率。率。(二)(二)甲基化对转录的调控甲基化对转录的调控DNADNADNADNA甲基化影响转录的机制甲基化影响转录的机制甲基化影响转录的机制
7、甲基化影响转录的机制n n1.DNA1.DNA甲基化阻碍转录因子的结合甲基化阻碍转录因子的结合n n2 2DNADNA甲基化识别染色质标记甲基化识别染色质标记 n n3.DNA3.DNA甲基化募集其他蛋白引起染色质沉默甲基化募集其他蛋白引起染色质沉默n n4.DNA4.DNA甲基化影响核小体定位甲基化影响核小体定位(三)(三)DNADNA甲基化的意义甲基化的意义n nCpGCpG二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默二核苷酸的甲基化与重复元件沉默n nCpGCpG二核苷酸的甲基化与染色体的选择性沉默二核苷酸的甲基化与染色体的选择性沉默二核苷酸
8、的甲基化与染色体的选择性沉默二核苷酸的甲基化与染色体的选择性沉默n nDNADNA甲基化与基因的组织特异表达甲基化与基因的组织特异表达甲基化与基因的组织特异表达甲基化与基因的组织特异表达二、通过实验和计算方法识别二、通过实验和计算方法识别CpGCpG岛岛 (一)CpG岛的定义及预测 (二)实验方法寻找CpG岛 (三)CpG岛的定位有助于发现新基因(一)CpG岛的定义及预测n nGardiner-GardenGardiner-Garden和和和和FrommerFrommern n长度最短长度最短长度最短长度最短200bp200bpn nGCGC含量至少含量至少含量至少含量至少50%50%n nC
9、pGCpG O/E O/E最小最小最小最小0.60.6n n许多启动子缺乏严格许多启动子缺乏严格许多启动子缺乏严格许多启动子缺乏严格 定义的定义的定义的定义的CpGCpG岛,但是岛,但是岛,但是岛,但是 有组织特异的甲基化有组织特异的甲基化有组织特异的甲基化有组织特异的甲基化 模式,和转录活性有模式,和转录活性有模式,和转录活性有模式,和转录活性有 密切联系。密切联系。密切联系。密切联系。1.1.最初的最初的CpGCpG岛定义岛定义2.2.改进的改进的CpGCpG岛定义岛定义n nTakaiTakai和和和和JonesJonesn n增加最短长度、增加最短长度、增加最短长度、增加最短长度、Cp
10、GCpG O/E O/E值值值值n nGCGC含量分别到含量分别到含量分别到含量分别到500 bp,0.65%500 bp,0.65%和和和和 55%55%对预测精度的影响。对预测精度的影响。对预测精度的影响。对预测精度的影响。n n通过使阈值更加严格,通过使阈值更加严格,通过使阈值更加严格,通过使阈值更加严格,AluAlu 重复元件得到最大程度的排重复元件得到最大程度的排重复元件得到最大程度的排重复元件得到最大程度的排 除,但此时却排除了原来数除,但此时却排除了原来数除,但此时却排除了原来数除,但此时却排除了原来数 量量量量10%10%的的的的CpGCpG岛,这表明一岛,这表明一岛,这表明一
11、岛,这表明一 些真正的些真正的些真正的些真正的CpGCpG岛可能也被排岛可能也被排岛可能也被排岛可能也被排 除。除。除。除。常见的常见的CpGCpG岛预测算法岛预测算法预测预测预测预测方法方法方法方法长长长长度度度度(bpbpbpbp)GCGCGCGC含量含量含量含量(%)CpGCpGCpGCpG O/E O/E O/E O/E重复元件重复元件重复元件重复元件屏蔽屏蔽屏蔽屏蔽备备备备注注注注ENSEMBLENSEMBLENSEMBLENSEMBL40040040040050%50%50%50%0.60.60.60.6否否否否严严严严格的参数限制格的参数限制格的参数限制格的参数限制NCBINCB
12、INCBINCBI宽宽宽宽松松松松20020020020050%50%50%50%0.60.60.60.6否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目307193307193307193307193NCBINCBINCBINCBI严严严严格格格格50050050050050%50%50%50%0.60.60.60.6否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目24163241632416324163UCSCUCSCUCSCUCSC20020020020050%50%50%50%0.60.60.60.6是是是是总总总总CpGCpGCpGCpG岛岛岛岛数目数
13、目数目数目28226282262822628226EMBOSSEMBOSSEMBOSSEMBOSS指定指定指定指定指定指定指定指定指定指定指定指定否否否否参数可参数可参数可参数可调调调调CpGProDCpGProDCpGProDCpGProD50050050050050%50%50%50%0.60.60.60.6是是是是总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目76793767937679376793CpGclusterCpGclusterCpGclusterCpGcluster无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制无限制否否否否总总总总CpGCpGC
14、pGCpG岛岛岛岛数目数目数目数目197727197727197727197727CpG_MICpG_MICpG_MICpG_MI50505050无限制无限制无限制无限制无限制无限制无限制无限制否否否否总总总总CpGCpGCpGCpG岛岛岛岛数目数目数目数目40926409264092640926差异取决于以下因素:差异取决于以下因素:(1)任意阈值的应用;)任意阈值的应用;(2)没有考虑到)没有考虑到CpG岛的异质性;岛的异质性;(3)基于)基于DNA序列的预测方法忽略了序列的预测方法忽略了DNA甲基化状态。甲基化状态。3.排除重复元件对CpG岛预测算法的干扰n n重复元件重复元件重复元件重
15、复元件(例如例如例如例如“年轻年轻年轻年轻”的的的的AluAlu元件元件元件元件)的碱基组成和的碱基组成和的碱基组成和的碱基组成和CpGCpG岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别岛十分类似,显著地增加了鉴别CpGCpG岛的假阳性率。岛的假阳性率。岛的假阳性率。岛的假阳性率。n n大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过大多数的多拷贝序列可以通过RepbaseRepbase数据库中已知的数据库中已知的数据库中已知的数据库中已知的重复类型得以剔除。重复类型得以剔除。重复类型得以剔除。重复类型得以剔除。n n在在在
16、在TakaiTakai和和和和JonesJones的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除的基础上应用重复元件筛选后剔除18901890个非个非个非个非CpGCpG岛,从而得到更加保守的岛,从而得到更加保守的岛,从而得到更加保守的岛,从而得到更加保守的CpGCpG岛数目的估计岛数目的估计岛数目的估计岛数目的估计即即即即2700027000个。个。个。个。4.基于窗口滑动法的CpG岛预测算法n n首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选首先准备通过实验方法得到的候选CpGCpGCpGCpG岛集合或
17、全基因岛集合或全基因岛集合或全基因岛集合或全基因组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。组序列,然后设定窗口宽度的大小。n n接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足接着考察窗口内的序列片段是否满足CpGCpGCpGCpG岛定义中的长岛定义中的长岛定义中的长岛定义中的长度、度、度、度、GCGCGCGC含量和含量和含量和含量和CpGCpGCpGCpG O/E O/E O/E O/E值中的一个或几个阈值。值中的一个或几个阈值。值中的一个或几个阈值。值中的一个或几个阈值。n n一旦发现窗中
18、的序列片段满足了一旦发现窗中的序列片段满足了一旦发现窗中的序列片段满足了一旦发现窗中的序列片段满足了CpGCpGCpGCpG岛的定义,该片段岛的定义,该片段岛的定义,该片段岛的定义,该片段就被选为候选就被选为候选就被选为候选就被选为候选CpGCpGCpGCpG岛,同时扫描窗右移岛,同时扫描窗右移岛,同时扫描窗右移岛,同时扫描窗右移1bp1bp1bp1bp。n n如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足如果扫描窗中的序列片段不满足CpGCpGCpGCpG岛的定义,扫描窗右岛的定义,扫描窗右岛的定义,扫描窗右岛的定义,扫描窗右移一个窗口的长度。如果扫描得
19、到的移一个窗口的长度。如果扫描得到的移一个窗口的长度。如果扫描得到的移一个窗口的长度。如果扫描得到的CpGCpGCpGCpG岛区域有重叠,岛区域有重叠,岛区域有重叠,岛区域有重叠,则将重叠部分合并。则将重叠部分合并。则将重叠部分合并。则将重叠部分合并。n n这种依赖于长度、这种依赖于长度、这种依赖于长度、这种依赖于长度、GCGCGCGC含量和含量和含量和含量和CpGCpGCpGCpG O/E O/E O/E O/E值的一个或全部阈值值的一个或全部阈值值的一个或全部阈值值的一个或全部阈值的的的的CpGCpGCpGCpG岛识别算法有显而易见的缺陷岛识别算法有显而易见的缺陷岛识别算法有显而易见的缺陷
20、岛识别算法有显而易见的缺陷:(:(:(:(1 1 1 1)由于这三个阈)由于这三个阈)由于这三个阈)由于这三个阈值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(值的使用使得参数空间变得很大;(2 2 2 2)预测的)预测的)预测的)预测的CpGCpGCpGCpG岛的长岛的长岛的长岛的长度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任度和数目取决于窗口的长度和步长的预设值,存在主观任意性;(意性;(意性;(意性;(3 3 3 3)CpGCpGCpG
21、CpG岛的起始点一般不是岛的起始点一般不是岛的起始点一般不是岛的起始点一般不是CpGCpGCpGCpG二核苷酸;(二核苷酸;(二核苷酸;(二核苷酸;(4 4 4 4)预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(预测和筛选过程依赖于相同的参数;(5 5 5 5)方法经常需要)方法经常需要)方法经常需要)方法经常需要针对特定物种进行调整。(针对特定物种进行调整。(针对特定物种进行调整。(针对特定物种进行调整。(6 6 6 6)运行时间长。)运行时间长。)运行时间长。)运行时间长。窗口法Analyze a window.Does it mee
22、t CpG island criteria?If not,slide to the right one nucleotideAnd analyze again.And again.Until it meets the criteria Then jump ahead and check the window adjacent to the island on the 3 side.Repeat as needed,until the new window does not meet the CpG island criteriaThen slide the window back toward
23、 the island.Keep sliding until the window meets CpG island criteria.If it doesnt meet the criteria,try trimming a base pair off each end and analyzing again.削减削减Once it meets CpG island criteria,move on to the next adjacent window and analyze that.5.基于相邻CpG二核苷酸距离的CpG岛预测算法n nCpGclusterCpGcluster是一种独特
24、的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何是一种独特的方法,它并不依赖于任何CpGCpG岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高岛的阈值,并且由于只涉及算术运算,计算速度提高很多。很多。很多。很多。n n工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻工作原理是计算基因组范围的相邻CpGCpG二核苷酸之间二核苷酸之间二核苷酸之间二核苷酸之间的距离。的距离。的距离。的距离。n n该算法利用几何分布估计出该距离
25、的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而该算法利用几何分布估计出该距离的理论分布,从而计算出计算出计算出计算出CpGCpG二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(二核苷酸进行汇聚的统计学阈值(40bp40bp)。)。)。)。n n最终,该算法得到最终,该算法得到最终,该算法得到最终,该算法得到197727197727个个个个CpGCpG岛。这个算法得到的岛。这个算法得到的岛。这个算法得到的岛。这个算法得到的CpGCpG岛的特点是短而多,但其中包含大量的重复元件。岛的特点是短而多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十三 计算 表观 遗传学 课件
限制150内