保序统计细胞周期数据讲稿.ppt
保序统计细胞周期数据第一页,讲稿共三十一页哦课题背景及意义背景:近年来,越来越多的课题中出现了约束条件下的循环数据,细胞周期数据就 是最基本的一种。针对此类数据,研究者提出了保序回归的统计推断方法。目前,将保序回归方法用于对细胞周期数据进行处理成为许多学者研究讨论的热点话题。意义:由于某些基因在细胞周期过程中的表达呈现出周期性,而这些周期表达基因在细胞周期过程中扮演了重要的角色。细胞周期数据的保序统计推断方法,对于开发生物信息学软件和系统具有重要意义。第二页,讲稿共三十一页哦主要研究内容一、细胞周期数据处理的基本理论和方法二、保序统计推断算法三、保序统计推断算法的软件实现四、实验研究第三页,讲稿共三十一页哦一、细胞周期数据简介一、细胞周期数据简介第四页,讲稿共三十一页哦1、细胞周期模式图第五页,讲稿共三十一页哦2、细胞周期数据定义细胞的分裂过程是周而复始的,因此细胞周期的四个阶段可以简单地表示成右图所示的形式。第六页,讲稿共三十一页哦参与细胞分裂周期的神经基因被称为细胞周期基因。细胞周期基因的表达可以被映射到单位圆上,其峰值对应的角度被认为是基因的相位角,这些角度数据即为细胞周期数据。第七页,讲稿共三十一页哦3、细胞周期数据简要分析假设一组细胞周期数据为 ,这些角度是以逆时针的顺序存在于一个单位圆上,它们之间满足某种约束条件,这组简单的圆形角参数之间的顺序可以表示如下:第八页,讲稿共三十一页哦二、保序回归算法二、保序回归算法第九页,讲稿共三十一页哦1、保序回归定义保序回归是约束条件下的统计推断的一种最基本的形式,保序属于约束条件的一种,它是指所估计的参数满足某种特定的顺序。经典保序回归研究的是在约束条件下基于平方损失的最优化问题,它包括许多种算法,主要有PAVA法、最大最小公式法和MLS算法等等。第十页,讲稿共三十一页哦2、PAVA算法简介 给实验对象(某种动物)服用一种药剂,观察是否有药物反应,并且每组药物剂量是不同的。假定有k组药物剂量,分别为 ,它们满足递增的关系,即:对于每一个剂量,选择 个动物进行试验,令 表示当剂量为 时动物发生药物反应的概率,则是反应研究总体背景的样本参数。第十一页,讲稿共三十一页哦 之间满足特定的顺序:现在使P的最大估计值为 ,PAVA算法为:(1)假如估计值满足递增顺序,那么,(2)如果不满足递增顺序,那么,第十二页,讲稿共三十一页哦具体实例(k=5)组数j 1 2 3 4 5 20 10 10 15 20 0.2 0.1 0.5 0.3 0.3 30 25 20 0.167 0.38 0.3 30 45 0.167 0.344第十三页,讲稿共三十一页哦在上表中:30=20+10,25=10+15,20=20;0.167=(200.2+100.1)/(20+10),0.38=(100.5+150.3)/(10+15),0.3=0.3;30=30,45=25+20;0.167=0.167,0.344=(250.38+200.3)/(25+20)。因为0.167 data(cirdata)cirdata orderGroups example1CIRE example1CIRE第十九页,讲稿共三十一页哦在R软件中运行后得到的结果:Circular Isotonic Regression Estimator(CIRE):0.994 1.476 3.066 5.057 3.066 5.057 5.057 0.994 所以,满足要求的参数的保序回归估计值为:第二十页,讲稿共三十一页哦plot(example1CIRE)Circular Isotonic Regression Estimator 第二十一页,讲稿共三十一页哦四、实验分析四、实验分析第二十二页,讲稿共三十一页哦实验对象:酵母菌细胞周期数据实验目的:使用保序回归的统计推断 方法对酵母菌细胞周期数据进行分析和处理,检测16个裂殖酵母的基因是否与芽殖酵母的同源基因满足相同的顺序。第二十三页,讲稿共三十一页哦实验内容首先假定16个裂殖酵母的基因,即ssb1,cdc22,msh6,psm3,rad21,cig2,mik1,h3.3,hhf1,hht3,hta2,htb1,fkh2,chs2,sid2 和 slp1与芽殖酵母的同源基因(RFA1,RNR1,MSH6,SMC3,MCD1,CLN2,SWE1,HHT2,HHF1,HHT1,HTA2,HTB2,FKH1,CHS2,DBF2和CDC20)满足相同的顺序。第二十四页,讲稿共三十一页哦对以下假设进行测试检验:is not true.第二十五页,讲稿共三十一页哦检验水准用表示,通常取0.05或0.10。这里取=0.2当P0.2时,接受零假设,即假设内容成立。当P0.2时,拒绝零假设 假设检验基本步骤第二十六页,讲稿共三十一页哦酵母菌细胞周期原始数据第二十七页,讲稿共三十一页哦P值求解方法:第二十八页,讲稿共三十一页哦 data(cirgenes)kappas allresults resultIsoCIRE SCEs pvalues for(i in 1:nrow(cirgenes)+k-kappasi+genes-as.numeric(cirgenesi,!is.na(cirgenesi,)+allresultsi-cond.test(genes,kappa=k)+resultIsoCIRE i,!is.na(cirgenesi,)-unlist(allresultsi$CIRE)+SCEsi-allresultsi$SCE+pvaluesi pvalues1 0.6658259 2 0.7214027 3 0.24367154 0.9982836 5 0.9850408 6 0.4141533 7 0.9535828 8 0.9992395 9 0.9991716 10 0.8747734 分析:在高达0.20的显着性水平下,10组数据的p值都显示,假设内容H0是成立的。第三十页,讲稿共三十一页哦实验结论16个裂殖酵母的基因与芽殖酵母的同源基因满足相同的顺序。第三十一页,讲稿共三十一页哦