《数据分析的统计方法.ppt》由会员分享,可在线阅读,更多相关《数据分析的统计方法.ppt(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析的统计方法数据分析的统计方法选择小结选择小结目录目录完全随机分组设计的资料完全随机分组设计的资料1配对设计或随机区组设计配对设计或随机区组设计2变量之间的关联性分析变量之间的关联性分析3完全随机分组设计的资料完全随机分组设计的资料v两组或多组计量资料的比较两组或多组计量资料的比较 两组资料两组资料大样本资料或服从正态分布的小样本资料 (1)若方差齐性,则作成组t检验 (2)若方差不齐,则作t检验或用成组的Wilcoxon秩和检验小样本偏态分布资料,则用成组的Wilcoxon秩和检验完全随机分组设计的资料完全随机分组设计的资料v两组或多组计量资料的比较两组或多组计量资料的比较 多组资料多
2、组资料若大样本资料或服从正态分布,并且方差齐性,则作完全随机的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。如果小样本的偏态分布资料或方差不齐,则作Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。完全随机分组设计的资料完全随机分组设计的资料v分类资料的统计分析分类资料的统计分析 单样本资料与总体比较单样本资料与总体比较 二分
3、类资料 (1)小样本:用二项分布进行确切概率法检验;(2)大样本:用U检验多分类资料:用Pearson 2 检验(又称拟合优度检验)完全随机分组设计的资料完全随机分组设计的资料v分类资料的统计分析分类资料的统计分析 四格表资料四格表资料(1)n40并且所以理论数大于5,则用Pearson 2;(2)n40并且所以理论数大于1并且至少存在一个理 论数5,则用校正 2或用Fishers 确切概率法检验(3)n40或存在理论数40并且理论数小于5的格子数行列表中格子总数的25%,则用Fishers 确切概率法检验 完全随机分组设计的资料完全随机分组设计的资料v分类资料的统计分析分类资料的统计分析 R
4、C表表资资料的料的统计统计分析分析列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH 2或Kruskal Wallis的秩和检验 列变量为效应指标,并且为无序多分类变量,行变量为有序多分类变量,作none zero correlation analysis的CMH 2 列变量和行变量均为有序多分类变量,可以作Spearman相关分析 列变量和行变量均为无序多分类变量 (1)n40并且理论数小于5的格子数行列表中格子总数的25%,则用Fishers 确切概率法检验 完全随机分组设计的资料完全随机分组设计的资料vPoisson分布资料分布资料单样本资料与总体比较单样本资料与总体比较
5、 观察值较小时:用确切概率法进行检验观察值较大时:用正态近似的U检验两个样本比较:用正态近似的两个样本比较:用正态近似的U检验检验配对设计或随机区组设计配对设计或随机区组设计v两组或多组计量资料的比较两组或多组计量资料的比较两组资料两组资料 大样本资料或配对差值服从正态分布的小样本资料,作配对t检验小样本并且差值呈偏态分布资料,则用Wilcoxon的符号配对秩检验配对设计或随机区组设计配对设计或随机区组设计v两组或多组计量资料的比较两组或多组计量资料的比较多组资料多组资料若大样本资料或残差服从正态分布,并且方差齐性,则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义,则进一步作统计分
6、析:选择合适的方法(如:LSD检验,Bonferroni检验等)进行两两比较。如果小样本时,差值呈偏态分布资料或方差不齐,则作Fredman的统计检验。如果Fredman的统计检验为有统计学意义,则进一步作统计分析:选择合适的方法(如:用Wilcoxon的符号配对秩检验,但用Bonferroni方法校正P值等)进行两两比较。配对设计或随机区组设计配对设计或随机区组设计v分类资料的统计分析分类资料的统计分析四格表资料四格表资料b+c40,则用McNemar配对 2检验或配对边际2检验 b+c40,则用二项分布确切概率法检验 CC表资料表资料 配对比较:用McNemar配对 2检验或配对边际2检验
7、 b+c40,则用二项分布确切概率法检验 变量之间的关联性分析变量之间的关联性分析 v两个变量之间的关联性分析两个变量之间的关联性分析两个变量均为连续型变量两个变量均为连续型变量小样本并且两个变量服从双正态分布,则用Pearson相关系数做统计分析大样本或两个变量不服从双正态分布,则用Spearman相关系数进行统计分析 两个变量均为有序分类变量:两个变量均为有序分类变量:可以用Spearman相关系数进行统计分析 一个变量为有序分类变量,另一个变量为连续型变一个变量为有序分类变量,另一个变量为连续型变量量:可以用Spearman相关系数进行统计分析 变量之间的关联性分析变量之间的关联性分析
8、v回归分析回归分析直线回归:直线回归:如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,则直线回归(单个自变量的线性回归,称为简单回归),否则应作适当的变换,使其满足上述条件。变量之间的关联性分析变量之间的关联性分析v回归分析回归分析多重线性回归:多重线性回归:应变量(Y)为连续型变量(即计量资料),自变量(X1,X2,Xp)可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布(大样本时无需正态性),残差与自变量无趋势变化,可以作多重线性回归。观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素实验性研究:在保持主要研究因素变量(干预变量
9、)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用变量之间的关联性分析变量之间的关联性分析v回归分析回归分析二分类的二分类的Logistic回归:回归:应变量为二分类变量,自变量(X1,X2,Xp)可以为连续型变量、有序分类变量或二分类变量。非配对的情况:用非条件Logistic回归 (1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用变量之间的关联性分析变量之间的关联性分析v回归分析回归分析二分类的二分类的Logisti
10、c回归回归配对的情况:用条件Logistic回归 (1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用变量之间的关联性分析变量之间的关联性分析v回归分析回归分析有序多分类有序的有序多分类有序的Logistic回归:回归:应变量为有序多分类变量,自变量(X1,X2,Xp)可以为连续型变量、有序分类变量或二分类变量。(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能
11、的混杂因素变量,以校正这些混杂因素对结果的混杂作用变量之间的关联性分析变量之间的关联性分析v回归分析回归分析无序多分类有序的无序多分类有序的Logistic回归:回归:应变量为无序多分类变量,自变量(X1,X2,Xp)可以为连续型变量、有序分类变量或二分类变量。(1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用变量之间的关联性分析变量之间的关联性分析v生存分析生存分析生存分析资料:生存分析资料:要求资料记录结局和结局发生的时间(如;死亡和死亡发生的时间)用Kaplan-Meier方法估计生存曲线大样本时,可以寿命表方法估计单因素可以用Logrank比较两条或多条生存曲线多个因素时,可以作多重的Cox回归 (1)观察性研究:可以用逐步线性回归寻找(拟)主要的影响因素 (2)实验性研究:在保持主要研究因素变量(干预变量)外,可以适当地引入一些其它可能的混杂因素变量,以校正这些混杂因素对结果的混杂作用
限制150内