DNA甲基化数据分析方法和软件应用.pdf
《DNA甲基化数据分析方法和软件应用.pdf》由会员分享,可在线阅读,更多相关《DNA甲基化数据分析方法和软件应用.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、 技术与方法 D NA甲基化数据分析方法和软件应用付利娟1sZs 夏映曦3s 何俊琳1s 刘学庆1s 陈雪梅1s 王应雄1s 丁裕斌1#(重庆医科大学:1.公共卫生学院;Z.中医药学院!4 0 0 0 1 6;3.重庆江陵医院!4 0 0 0 Z 1)!摘!要 目的!分析D NA甲基化芯片实验过程质量控制方法 数据统计分析要点及实验结果的验证和数据的可视化处理D方法!利用文献D NA甲基化实验数据探讨D NA甲基化研究中的方法学D结果!D NA甲基化芯片初筛异常过程应多在步骤质量控制工作中s 包括D NA片段化 免疫共沉淀阳性对照的选择 去除原始扫描噪音信号和数据均一化处理DD NA甲基化芯片
2、的结果可采用常用的甲基化特异性P C R(M S P)和甲基化测序P C R(B S P)s 引物设计软件包括M e t h p r i m e r和M e t h y lP r i m e rE X-p r e s sDD NA甲基化芯片分析数据的可视软件为S i g n a lm a p;B S P结果的可视化可采用W i n d o w s系统下的执行软件CUMA和B I S MAD结论!D NA甲基化研究s 应从多角度控制实验的设计和数据的产生及结果的分析D关键词 D NA甲基化;软件;质量控制;数据分析d o i 1 0.3 9 6 9 .i s s n.1 6 7 1-3 4 .Z
3、 0 1 Z.1 7.0 1 文献标识码 A文章编号 1 6 7 1-3 4 (Z 0 1 Z)1 7-1 7 1 9-0 3D a t aa n a l y s i sa n d i t sa n a l y t i c a l s o f t sa p p l i c a t i o no nD N Am e t h y l a t i o ni nt u m o rr e s e a r c hF ul i j u a n1 Z x i aY i n g O i3 ej u n l i n1 l i ux u e g i n g1 C h e nx u e m e i1 W a n gY
4、 i n g O i o n g1 D i n gY u b i n1#1.S c h o o l o fP u b l i c e a l t h Z.C o l l e g e o fC h i n e s et r a d i t i o n a l e d i c i n e C h o n g g i n g e d i c a lU n i U e r s i t$C h o n g g i n g4 0 0 0 1 6 C h i n a 3.C h o n g g i n gj i a n g l i n g o s P i t a l C h o n g g i n g4 0
5、 0 0 Z 1 C h i n a A b s t r a c t O b j e c t i v e!T oa n a l y z e t h eI u a l i t yc o n t r o lm e t h o d d a t aa n a l y t i ck e yp o i n t s r e s u l t s c o n f i r m a t i o na n dd a t av i s u a l i z a t i o np r o c e s s i n gd u r i n gt h ee X p e r i m e n t a l p r o c e s so
6、fD NAm e t h y l a t i o nc h i p.M e t h o d s!W eu s e dp u b l i s h e dp a p e r a n do u ro r i g i n a l r e s e a r c hd a t at oe X p l o r e t h em e t h o d su s e di nD NA m e t h y l a t i o na n a l y s i s.R e s u l t s!T h eI u a l i t yc o n t r o l i n c l u d e sD NAs e g m e n t a
7、 t i o n p o s i t i v ec o n t r o l s e l e c t i o n n o i s e s i g n a l r e m o v i n ga n dd a t an o r m a l i z a t i o n.M e h t y l a t i o ns p e c i f i cP C R M S P a n db i s u l f i t e s e I u e n c i n gP C R B S P w e r en e e d e d i nv a l i d a t i o no fM e D I P-C h i pa r r
8、a yr e s u l t s.M e t h p r i m e ra n dM e t h y lP r i m e rE X p r e s sw e r eu s e df o rp r i m e rd e s i g n i n g.M e D I P-C h i pa r r a yr e s u l t sw e r ev i s u a l i z e db ys i g n a lm a pa n dB S Pr e s u l tc o u l db ea n a l y z e db yCUMAa n dB I S MA C o n c l u s i o n!I n
9、D NAm e t h y a l t i o nr e s e a r c h m u l t i f a c t o r i a l I u a l i t yc o n t r o l i nM e D I P-c h i p d e s i g na n dd a t aa n a l y s i s i sn e c e s s a r y.K e yw o r d s D NA m e t h y l a t i o n!s o f t w a r e!d a t aa n a l y s i s!I u a l i t yc o n t r o l!D NA甲基化作为一种重要的表
10、观修饰方式 它可在不改变基因序列的情况 调控基因的转录 近年来已成为生命研究的热点之一 1 D NA甲基化一旦发生紊乱 可导致包括肿瘤 胚胎发育 老年化 进程以 及自身免疫性在内的多种疾 病 状态 Z 由于C p G岛甲基化所致的抑癌基因转录失活是一个可逆转的基因修饰过程 且该逆转过程 C p G岛去甲基化 可直接恢复抑癌基因功能 因此 D NA去甲基化调控抑癌基因功能的研究已成为肿瘤基因治疗的新型手段之一 3 D NA甲基化的研究手段多样 其中 D NA甲基化芯片属高通量 高效率的研究手段之一 4 在D NA甲基化研究中应用非常广泛 对研究者的要求亦较高 从D NA甲基化基因芯片设计 芯片数
11、据的质量控制 后期的数据分析 数据的D NA甲基化特异性P C R C O B R A B S P测序等验证方法到数据的可视化显示 需要研究者熟悉诸多软件的使用 本研究将D NA甲基化研究中的质量控制 数据分析过程以及常用的软件使用予以介绍 并探讨这些数据分析过程中应注意的地方 l!材料与方法l.l!材料!D NA甲基化原始芯片数据 甲基化测序P C R b i-s u l f i t es e I u e n c eP C R B S P 数据 分析所需各种在线 本地安装软件 如S i g n a lM a p U C S C G e n o m eB r o w s e r M e t h
12、 y p r i m e r M e t h y lP r i m e rE X p r e s s等 l.2!方法!采用文献学习及软件学习法 分析实验过程中质量控制的必要方法 统计分析各种实验数据 进行引物设计以及研究数据的可视化处理等 2!结!果2.l!芯片的设计与质量控制!目前常用的商业D NA甲基化芯片主要由R o c h e-n i m b l e g e n和A g i l e n t两个公司生产 芯片包括C h i p-o n-C h i p和M e D I P-C h i p芯片 根据实验设计的需要 可选择不同的类型 这两种较常用的甲基化芯片类型包括多种不同分辨率的芯片 芯片杂
13、交的探针既可囊括 基 因 组C p G区和启动子区 亦可专门针对启动子区的D NA甲基化 以M e D I P-C h i p芯片为例 整个D NA甲基化芯片实验应包括如下质控步骤 1 超声打断基因组产生的片段应在Z 0 0!10 0 0b p范围内 Z 甲基免疫共沉淀过程质控应选择明确的甲基化区域 如印记基因X i s t做阳性对照 同时选择如A c t b A p r t等基因作为非甲基化区域的对照 3 通过对基因芯片扫描的原始数据进行分析 校正异常杂交信号 去除噪音信号 并通过对信号点 MA-p l o t 的分布明确信号值的均一性 进一步采用相关分析判断重复实验的再现性和配对样本间的相
14、关性 4 数据分析过程质量控制 首先要进行数据的均一化处理以9171重庆医学Z 0 1 Z年6月第4 1卷第1 7期基金项目 重庆市生殖健康与出生缺陷重点实验室开放课题 0 0 1 重庆市科委项目 C S C T Z 0 0 9 B B 5 Z 7 1 !#!通讯作者 T e l 1 3 Z Z 0 Z 9 3 7 3 9 E-m a i l d i n g y b g m a i l.c o m 万方数据表1!M e t h y P r i m e r设计的A L K B H 3甲基化P C R引物基因A L K B H 3引物序列退火温度 C 片段大小 b p 甲基化引物 M F 5*-A
15、T TAT TC G GAT TGAGGATT G C-3*6 3.01 2 5R 5*-GAAA C CT TAAAAATAAAAC A CC GAC-3*非甲基化引物 U F 5*-G GAT TAT T TG GAT T GAG GAT TG T-3*6 3.21 2 8R 5*-C AAAA CC T TAAAAATAAAA C AC C AA C-3*表2!M e t h y lP r i m e rE X p r e s s设计的A L K B H 3甲基化P C R引物基因A L K B H 3引物序列退火温度 C 片段大小 b p 甲基化引物 M F 5*-T GAT TAG
16、G TT T TT TAG G CG C-3*6 0.3 61 7 3R 5*-T C CG C AAT CTATAATC GAAA C-3非甲基化引物 U F 5*-G G TGATTAGG T TT T TTAGG T GT-3*5 7.5 01 7 3R 5*-T C CA C AAT CTATAATC AAAA CC T-3*判断出不同芯片间的D NA甲基化差异 其次是对明确的区域和整个 基 因 组 的 差 异 甲 基 化 区 域 进 行 判 别 这 一 过 程 在R o c h e-N i m b l e g e n中主要由N i m b l e S c a nv 2.5软件完成 5
17、?.?!甲基化数据分析!D NA甲基化芯片数据结果 除了可进一步进行统计学分析外 差异甲基化基因启动子或C p G岛的可视化 如R o c h e-N i m b l e g e n公司的数据可采用S i g n a lM a p进行阅读 即导入注释数据和G F F格式的P e a k数据和l o g 2 I P i n p u t数据后 可根据N i m b l e S c a n输出的统计结果 查找差异D NA甲基化基因的位置 大小 转录起始与终止区域 T S S点以及L o g 2 I P i n p u t值 图1 6 图1!甲基化数据分析图!深色部分 分别位于6 7 2!9 9 6b
18、 p区域和10 0 1!11 3 1b p区域 图2!M e t h y p r i m e r预测出A L K B H 3基因的两个C p G岛图?.!M S P引物设计?.!基因的外显子区查找!可在U n i v e r s i t yo fC a l i f o r n i a S a n t aC r u z分校的U C S CG e n o m eB r o W s e r数据库 h t t p g e-n o m e.u c s c.e d u c g i-b i n h g G a t e W a y 搜索 7 除了搜索启动子区 研究者 还 可 以 根 据 目 的 基 因 甲 基
19、 化 所 在 位 置 选 择5*-UT R和外显子区 具体搜索的方法及限制 可使用搜索引擎搜索如下关键词 U C S C启动子查找 应注意的是 U C S CG e n o m eB r o W s e r注释数据库有h g 1 6 1 7 1 8和1 9版 在搜索时 应注意选择搜索的数据库版本与D NA甲基化芯片数据的注释 数 据 库 版 本 相 对 应 除 了U C S C数 据 库 外 N C B I的M a p v i e W h t t p WWW.n c b i.n l m.n i h.g o v m a p v i e W i n d e X.h t-m l 亦可以搜索启动子区
20、搜索引擎的选择 通常是根据芯片结果注释时所采用的数据库来决定的 更多的情况下 芯片注释使用的数据库是U C S CG e n o m eB r o W s e r?.?!引物设计软件!甲基化芯片结果验证最常用的方法是甲基化P C R m e t h y l a t i o ns p e c i f i cP C R M S P 和硫化测序P C R b i s f u l f i t es e I u e n c i n gP C R B S P 甲基化引物设计是M S P和B S P中的关键 研究者最常用的甲基化引物设计软件是在线M e t h y p r i m e r h t t p W
21、WW.u r o g e n e.o r g m e t h p r i m e r i n d e X 1.h t m l 8 研究者可将已知的启动子区拷贝到该软件的窗口后 选择C p G岛的大小 限制G C含量等限制条件后 即可自行设 计M S P或B S P引 物 通 常 情 况 下M e t h y p r i m e r会 在C p G岛区域设计引物 但有些基因的引物设计结果却并不在软件预测的C p G岛区 图2 如A l k y l a t i o nR e p a i rH o m o l o g3 A L K B H 3 基因 将该基因启动子区 5*UT R区和C D s区序列
22、后拷贝到M e t h y p r i m e r后 软件预测出了两个C p G岛 分别位于6 7 2!9 9 6区域和10 0 1!11 3 1区域 设计出的5对M S P引物均全部位于3 2 5!5 4 2区域内 而非C p G岛区域 因此 这类基因引物的设计就需要研究者先根据自己的知识经验来限定C p G岛 区 再 依 据 甲 基 化 引 物 设 计 的 要 求 自 行 设 计 D NA甲基化引物设计的原则主要有 1 引物扩增区域最好位于转录起始位点 t r a n s c r i p t i o ns t a r ts i t e T S S 2 5 0b p以内 2 引物至少应包括3
23、个以上 多数情况下4个或更多 C p G 3 预测的退火温度大于5 5 C 9 根据 上 述 要 求 设 计 的A L K B H 3基因引物见表1 令一款由A p p l i e dB i o s y s t e m s公司开发的免费软件M e t h y lP r i m e rE X p r e s s h t t p s p r o d u c t s.a p p l i e d b i o s y s t e m s.c o m a b e n U S a d i r e c t a b c m d=c a t N a v i-g a t e 2g c a t I D=6 0 2 1
24、 2 1g t a b=o v e r v i e W 1 0 可本地安装后使用 该软件进行C p G岛预测后 能够准确地设计出位于C p G岛区域内的引物及其扩增区 图3 引物设计时 软件还会提0271重庆医学2 0 1 2年6月第4 1卷第1 7期万方数据醒使用 者 选 择 哪 个C p G岛 来 设 计 引 物 设 计 出 的 引 物 与M e t h p r i m e r人工设定的区域很接近 这个软件比较简单易用 推荐初学者使用这一软件 熟练者 可将二者结合使用 利用M e t h y lP r i m e rE X p r e s s设计A L K B 3 M S P引物 表1 2
25、 设 计 好 的 甲 基 化 引 物 可 通 过B l a s t h t t p m e d g e n.u g e n t.b e m e t h B L A S T 进一步验证 确保其目标扩增序列的特异性 此外 U g e n t网站h t t p m e d g e n.u g e n t.b e m e t h p r i m-e r d b s e a r c h p r i m e r s.p h p为研究者提供了部分基因甲基化启动子序列 这些序列均是被研究者实验过程所验证的引物 图3!M e t h y lP r i m e rE X p r e s s预测C p G岛和设计的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DNA 甲基化 数据 分析 方法 软件 应用
限制150内