生物信息学讲义——基因芯片数据分析资料课件.ppt
《生物信息学讲义——基因芯片数据分析资料课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学讲义——基因芯片数据分析资料课件.ppt(66页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章第七章 基因芯片数据分析基因芯片数据分析Microarray Data Analysis第一节 引言 IntroductionIntroduction 基因芯片(基因芯片(DNA微阵列)是上世纪微阵列)是上世纪九十年代,随着计算机技术和基因组测九十年代,随着计算机技术和基因组测序技术的发展而发展起来的一种新型的序技术的发展而发展起来的一种新型的生物技术,它能够平行、高通量地监测生物技术,它能够平行、高通量地监测成千上万基因转录本的表达水平,从而成千上万基因转录本的表达水平,从而为系统地监测细胞内为系统地监测细胞内mRNA分子的表达分子的表达状态进而推测细胞的功能状态提供了可状态进而推测细
2、胞的功能状态提供了可能。能。第二节 芯片平台及数据库 General Microarray Platform and Database General Microarray Platform and Database 一、一、cDNA微阵列芯片微阵列芯片 寡寡核核苷苷酸酸芯芯片片类类似似于于 cDNA芯芯片片,但但是是在在探探针针的的设设计计上上优优于于 cDNA芯芯片片,它它的的探探针针并并不不是是来来源源于于 cDNA克克隆隆,而而是是预预先先设设计计并并合合成成的的代代表表每每个个基基因因特特异异片片段段的的约约 50mer左左右右长长度度的的序序列列,然然后后将将其其点点样样到到特特定
3、定的的基基质质上上制制备备成成芯芯片片,从从而而克克服服了了探探针针序序列列太太长长导导致致的的非非特特异异性性交交叉叉杂杂交交和和由由于于探探针针杂杂交交条条件件变变化化巨巨大大导导致致的的数数据据结结果果的的不不可可靠靠。二、寡核苷酸芯片二、寡核苷酸芯片 三、原位合成芯片三、原位合成芯片 四、光纤微珠芯片四、光纤微珠芯片(Bead Array)五、基因表达仓库五、基因表达仓库 Gene Expression OmnibusGene Expression Omnibus,GEOGEO六、斯坦福微阵列数据库六、斯坦福微阵列数据库 The Stanford MicroarrayThe Stanf
4、ord Microarray DatabaseDatabase,SMD SMD 七、其他常用基因表达数据库七、其他常用基因表达数据库 ArrayExpressArrayExpress、CGEDCGED第三节 基因芯片数据预处理General Microarray Data Type and Database General Microarray Data Type and Database 一、基因芯片数据提取一、基因芯片数据提取(一一)cDNA微阵列芯片微阵列芯片(二二)原位合成芯片原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal)定量信息提取:基于探针集
5、汇总后的基因水平的荧光信号强度值 二、对数转换二、对数转换对芯片数据做对数化转换后,数据可近似正态分布 三、数据过滤三、数据过滤 数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。数据或者明显的噪声数据。n过闪耀现象过闪耀现象 n物理因素导致的信号污染物理因素导致的信号污染 n杂交效能低杂交效能低n点样问题点样问题n其他其他四、补缺失值四、补缺失值(一一)数据缺失类型数据缺失类型n非随机缺失非随机缺失 基因表达丰度过高或过低基因表达丰度过高或过低n随机缺失随机缺失 与基因表达丰度无关,数据与基因表达丰度无关,数据 补缺主要针对随机缺失情
6、况补缺主要针对随机缺失情况(二二)数据补缺方法数据补缺方法1.简单补缺法简单补缺法nmissing values=0 expressionnmissing values=1 expression(arbitrary signal)nmissing values=row(gene)averagenmissing values=column(array)average2.k近邻法近邻法n选择与具有缺失值基因的选择与具有缺失值基因的k k个邻居基因个邻居基因n用邻居基因的加权平均估用邻居基因的加权平均估计缺失值计缺失值参数参数:n邻居个数邻居个数n距离函数距离函数3.回归法回归法4.其他方法其他方法
7、五、数据标准化五、数据标准化(一一)为什么要进行数据标准化为什么要进行数据标准化存在不同来源的系统误差存在不同来源的系统误差1.1.染料物理特性差异染料物理特性差异(热光敏感性,半衰期等热光敏感性,半衰期等)2.2.染料的结合效率染料的结合效率3.3.点样针差异点样针差异4.4.数据收集过程中的扫描设施数据收集过程中的扫描设施5.5.不同芯片间的差异不同芯片间的差异6.6.实验条件差异实验条件差异(二二)运用哪些基因进行标准化处理运用哪些基因进行标准化处理n芯片上大部分基因芯片上大部分基因(假设芯片上大部分基因在不同假设芯片上大部分基因在不同条件下表达量相同条件下表达量相同)n不同条件间稳定表
8、达的基因不同条件间稳定表达的基因(如持家基因如持家基因)n控制序列控制序列(spiked control)(spiked control)在不同条件下表达水平相同的合成在不同条件下表达水平相同的合成DNADNA序列或外源序列或外源的的DNADNA序列。序列。1.片内标化片内标化(within-slide normalization)(1)全局标化全局标化(global normalization)(三三)cDNA芯片数据标准化处理芯片数据标准化处理n n假设:R=k*Gn n方法:n nc=log2k:中值或均值 (2)荧光强度依赖的标化荧光强度依赖的标化(intensity dependen
9、t normalization)n n为什么n n方法:scatter-plot smoother lowess拟合n n c(A)为M 对A 的拟合函数n n标化后的数据 (3)点样针依赖的标化点样针依赖的标化(within-print-tip-group normalization)n n为什么为什么 一张芯片的不同区域运用不同的点样针点样,从一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。而引入点样针带来的系统误差。n nmethod(4)尺度调整尺度调整(scale adjustment)n n为什么为什么 调整不同栅格调整不同栅格(grids)(grids)间的
10、数据离散度间的数据离散度 n n方法:计算不同栅格的尺度因子方法:计算不同栅格的尺度因子 2.片间标化片间标化(multiple-slide normalization)n线性标化法线性标化法(linear scaling methods)(linear scaling methods)与芯片内标化的尺度调整与芯片内标化的尺度调整(scale adjustment)(scale adjustment)方方法类似法类似n非线性标化法非线性标化法(non-linear methods)(non-linear methods)n分位数标化法分位数标化法(quantile normalization)
11、(quantile normalization)两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分布于对角线上布于对角线上3.染色互换实验染色互换实验(dye-swap experiment)的标化的标化 实验组实验组 对照组对照组 芯片芯片1 cy5(R)cy3(G1 cy5(R)cy3(G)芯片芯片2 cy3(G)cy5(R2 cy3(G)cy5(R)n n前提假设:前提假设:c cc c n n方法方法:1.提取定性信号提取定性信号(1)(1)对每个探针对计算对每个探针对计算R R R R=(=(PMPM MM MM)/()/(PMPM+MM MM)(2
12、)(2)比较比较R R与定义的阈值与定义的阈值Tau(Tau(小的正值,默小的正值,默认值为认值为0.015).0.015).(3)(3)单侧的单侧的WilcoxonWilcoxons Signed Rank s Signed Rank testtest产生产生p p值,根据值,根据p p值定义定量信号值值定义定量信号值 Present call Present call Marginal call Marginal call Absent call Absent call(四四)芯片数据标准化芯片数据标准化2.提取定量信号提取定量信号(1)分析步骤分析步骤n n获取探针水平数据获取探针水平数
13、据n n背景值效正背景值效正n n标准化处理标准化处理n n探针特异背景值效正探针特异背景值效正n n探针集信号的汇总探针集信号的汇总(2)分析方法分析方法M=log2R-log2GA=(log2R+log2G)/2 前面提及的标准化方法前面提及的标准化方法仅效正了数据分布的中仅效正了数据分布的中心,在不同的栅格间心,在不同的栅格间log-Ratios log-Ratios 的方差也的方差也不同。不同。第四节 差异表达分析Analysis of Differentially Expression Gene Analysis of Differentially Expression Gene 一
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 讲义 基因芯片 数据 分析 资料 课件
限制150内