第七讲差异表达分析PPT讲稿.ppt
《第七讲差异表达分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第七讲差异表达分析PPT讲稿.ppt(63页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七讲差异表达分析第1页,共63页,编辑于2022年,星期二Quantile Normalization使每张芯片/通道的强度值有相同的分布(intensity distribution)第2页,共63页,编辑于2022年,星期二Quantile normalizationBeforeAfterQuantile normalization第3页,共63页,编辑于2022年,星期二第4页,共63页,编辑于2022年,星期二第5页,共63页,编辑于2022年,星期二第6页,共63页,编辑于2022年,星期二R语言和bioconductor第7页,共63页,编辑于2022年,星期二第8页,共63页,
2、编辑于2022年,星期二差异表达基因分析 第9页,共63页,编辑于2022年,星期二单张单张cDNAcDNA芯片差异表达基因芯片差异表达基因第10页,共63页,编辑于2022年,星期二差异表达基因分析基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。通常采用基因在实验组和对照组中信号的比值作为衡量通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异,在双色荧光系统中,基因在两种状态下基因的表达差异,在双色荧光系统中,用用Cy5/Cy3Cy5/Cy3的比值来衡量基因的表达差异,也称表达差异的比值来衡量基因的表达差异,也称表达差异值。在值。在Affymetri
3、xAffymetrix等短的寡核苷酸芯片中,采用单色荧光等短的寡核苷酸芯片中,采用单色荧光标记的方式,实验组和对照组分别用两张芯片进行检测,标记的方式,实验组和对照组分别用两张芯片进行检测,表达差异值即为两张芯片的信号比值。表达差异值即为两张芯片的信号比值。噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。第11页,共63页,编辑于2022年,星期二倍数法第12页,共63页,编辑于2022年,星期二倍数法倍数法是比较常用的一种方法,因为比较简单和直接。但是,这种方法也是有其重大缺陷的。比如
4、,在某个实但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别域值为验中,基因表达水平的变化不大,如果选择判别域值为2 2倍,则有可能找不到几个差异表达的基因,假阴性率倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断域值,又有可能增大假比较高。但如果是主观缩小判断域值,又有可能增大假阳性率。阳性率。这一方法没有考虑到差异表达的统计显著性。这一方法没有考虑到差异表达的统计显著性。第13页,共63页,编辑于2022年,星期二Z值法 在一张在一张cDNAcDNA芯片上一般都点了很多基因,其实这些基因芯片上一般都点了很多基因,其实这些基因
5、中只有很小一部分表达有差异,所以一般都假设表达的中只有很小一部分表达有差异,所以一般都假设表达的比率值满足正态分布。比率值满足正态分布。Z=(X-)/.|Z|=1.96在寡核苷酸芯片中,芯片上的基因在相应实验条件下或在寡核苷酸芯片中,芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表达,可以假定相应组织中也只是有很小一部分基因有表达,可以假定强度满足对数正态分布,同样可以对其作强度满足对数正态分布,同样可以对其作Z Z变换,使其变换,使其具有统计意义。具有统计意义。如果实验体系中没有一条差异表达的基因,Z值法还是会挑选出5的差异表达基因。这是因为在芯片实验中,总有一些由于背景噪
6、声产生的假阳性点。如果实际上实验中有大量的基因发生表达改变,Z值法还是机械的找出5的差异表达基因,丢失了一部分真阳性点。第14页,共63页,编辑于2022年,星期二一般性的方法选择一个统计量给基因排秩来证明表达有差异 为排秩统计量选择一个判别值,在它之上的值将被认为是显著的 前面一个部分更为重要,所以研究的较多,方法也更多,后面那部分的方法稍微简单 第15页,共63页,编辑于2022年,星期二重复芯片(replicates)M值根据比率平均值或 对基因排序。M值为信号强度比值的log2值,是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。
7、例如,可能某一个基因在某一张芯片上M值很大,但在其他芯片上M值很小,其实这条基因并没有差异表达,但由于个别M值的影响,从而显示出一个差异表达的特性,造成假阳性。第16页,共63页,编辑于2022年,星期二T值排序假如一个基因在几张重复芯片的M值都很小,但是这些M值非常接近,所以s值也非常小,这样可能会导致t值很大,从而会把这个本没有差异表达的基因误认为差异表达。第17页,共63页,编辑于2022年,星期二修正的T值修正值由样本方差的均数和标准差估计而得。结果显示:在一个模拟的数据集中,虽然带有一些经验性质,但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。第18页,共63页,编辑
8、于2022年,星期二单通道寡核苷酸芯片差异基因(两个样本直接比较)Affymetrix,illumina芯片由于有探针重复,可以利用统计方法计算出一个统计性的P值或者score值,筛选差异表达基因第19页,共63页,编辑于2022年,星期二不同类样本差异基因识别第20页,共63页,编辑于2022年,星期二评价一组数的统计量 平均值 标准差232.7232.7198.2198.2137.7137.784.384.3218.6218.6181.5181.5216.7216.78787第21页,共63页,编辑于2022年,星期二比较多组数的方法T检验:平均值F检验:方差第22页,共63页,编辑于20
9、22年,星期二第23页,共63页,编辑于2022年,星期二第24页,共63页,编辑于2022年,星期二SAM(significance analysis of microarrays)单通道单通道Oligo芯芯片,尤其是片,尤其是affymetrix芯片芯片数据分析用得较数据分析用得较多多第25页,共63页,编辑于2022年,星期二第26页,共63页,编辑于2022年,星期二双通道双通道cDNA芯片数据分析用得较多芯片数据分析用得较多第27页,共63页,编辑于2022年,星期二False Discovery Rate(FDR)错误发现率是评估检验统计显著性的最有错误发现率是评估检验统计显著性的
10、最有力工具。统计学家都想用更符合统计学的力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者设检验后赋予每个基因统计显著性或者P P值,值,使得每个基因的判别更有统计学上的意义。使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控为了达到这个目的,统计学家们常常用控制错误发现率(制错误发现率(False Discovery RateFalse Discovery Rate)的)的方法来判断差异基因。方法来判断差异基因。第28页,共63页,编辑于2022年,星期二Multiple te
11、st(Pvalue adjustment)第29页,共63页,编辑于2022年,星期二火山图(火山图(volcano plot)Statistical test:PvalueFold change:Ratio第30页,共63页,编辑于2022年,星期二其他方法其他方法B-statistics(Smyth,2004)Bayes T-test(Baldi and Long,2001)SAMROC(Broberg,2002)Zhao-Pan method(Zhao and Pan,2003)第31页,共63页,编辑于2022年,星期二Improved Detection of Differentia
12、lly Expressed GenesTime series microarray datasetTime series microarray dataset第32页,共63页,编辑于2022年,星期二聚类分析聚类分析第33页,共63页,编辑于2022年,星期二基因表达数据矩阵基因表达数据矩阵(Affymetrix GeneChip oligonucleotide arrays)sam/ref第34页,共63页,编辑于2022年,星期二基因表达数据矩阵基因表达数据矩阵(glass slides)第35页,共63页,编辑于2022年,星期二数据矩阵具体形式数据矩阵具体形式第36页,共63页,编辑
13、于2022年,星期二数据形式数据形式数据矩阵数据矩阵,基因数远大于样品数基因数远大于样品数 对任意一个基因来说对任意一个基因来说,样本值是特征值样本值是特征值,数据的维数是数据的维数是M对任意一个样本来说对任意一个样本来说,基因值是特征值基因值是特征值,数据的维数是数据的维数是N聚类时考虑基因之间的相似性,从数学上讲就聚类时考虑基因之间的相似性,从数学上讲就是看对应的是看对应的M维数据之间的相似性维数据之间的相似性第37页,共63页,编辑于2022年,星期二Cluster&TreeviewCluster&Treeview软件软件第38页,共63页,编辑于2022年,星期二Cluster&Tre
14、eviewCluster&Treeview软件软件第39页,共63页,编辑于2022年,星期二Genesis软件第40页,共63页,编辑于2022年,星期二预分析(预分析(Pre-Analysis)重复值合并(重复值合并(replicate handling)数据转换和标准化(数据转换和标准化(data transformation and standardization)缺失数据处理(缺失数据处理(missing value management)基因筛选(基因筛选(pattern selection)第41页,共63页,编辑于2022年,星期二重复值合并重复值合并第42页,共63页,编辑于
15、2022年,星期二基因不同命名基因不同命名第43页,共63页,编辑于2022年,星期二重复值合并重复值合并第44页,共63页,编辑于2022年,星期二Gene ID converter第45页,共63页,编辑于2022年,星期二重复值合并重复值合并在特定条件下把所有的重复值合并成一个数值可能更为在特定条件下把所有的重复值合并成一个数值可能更为在特定条件下把所有的重复值合并成一个数值可能更为在特定条件下把所有的重复值合并成一个数值可能更为方便,而这一个值是给定基因方便,而这一个值是给定基因方便,而这一个值是给定基因方便,而这一个值是给定基因/条件的代表。条件的代表。条件的代表。条件的代表。通常的
16、合并是指计算这些重复值的集中趋势指标,如均通常的合并是指计算这些重复值的集中趋势指标,如均通常的合并是指计算这些重复值的集中趋势指标,如均通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。然而,使用一个集中趋势指标代替数、中位数或众数。然而,使用一个集中趋势指标代替数、中位数或众数。然而,使用一个集中趋势指标代替数、中位数或众数。然而,使用一个集中趋势指标代替一组数值意味着信息的丢失,因此数据的合并应谨慎。一组数值意味着信息的丢失,因此数据的合并应谨慎。一组数值意味着信息的丢失,因此数据的合并应谨慎。一组数值意味着信息的丢失,因此数据的合并应谨慎。去除奇异值。可以通过计算原始数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第七 差异 表达 分析 PPT 讲稿
限制150内