《常见统计学错误PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《常见统计学错误PPT讲稿.ppt(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、常见统计学错误第1页,共31页,编辑于2022年,星期六1.随机区组设计不可用成组分析方法随机区组设计不可用成组分析方法例例1 有有5件标本件标本I,II,III,IV,V,每一件均匀分成,每一件均匀分成4份,随机分配给份,随机分配给4种处理种处理A,B,C,D,得下表资,得下表资料,试比较处理间的差别。料,试比较处理间的差别。不恰当做法:不恰当做法:视纵向视纵向4列为列为4组数据,进行组数据,进行4组间比较。组间比较。第2页,共31页,编辑于2022年,星期六多次多次t检验检验?!?!分别作两组比较的分别作两组比较的t检验,得检验,得认为:认为:A与与B,A与与C,A与与D 差异具有统计学意
2、义;差异具有统计学意义;B与与C,B与与D,C与与D 差异无统计学意义。差异无统计学意义。第3页,共31页,编辑于2022年,星期六单因素方差分析单因素方差分析?!?!同时比较同时比较A,B,C,D四个处理组均数间的四个处理组均数间的差异差异,得得F=0.55,P=0.59认为:四个处理组均数的差异无统计学意义。认为:四个处理组均数的差异无统计学意义。第4页,共31页,编辑于2022年,星期六为什麽不对?为什麽不对?(1)辜负了设计的苦心)辜负了设计的苦心 随机区组设计!随机区组设计!*同一件标本为一个区组;同一件标本为一个区组;*同一区组内同一区组内4种处理有较好的可比性。种处理有较好的可比
3、性。无视区组的存在,组内个体间变异较大,识别差异的能力无视区组的存在,组内个体间变异较大,识别差异的能力大大降低。大大降低。(2)不能翻来覆去比较!)不能翻来覆去比较!*6次次t 检验会增大第一类错误检验会增大第一类错误!设设 每次每次t 检验犯第一类错误的概率为检验犯第一类错误的概率为0.05,则则 6次次t 检验中检验中 一次不错的概率一次不错的概率=(1-0.05)6 第一类错误的概率第一类错误的概率=至少一次出错的概率至少一次出错的概率=1-(1-0.05)6=0.27第5页,共31页,编辑于2022年,星期六正确作法:随机区组资料的方差分析正确作法:随机区组资料的方差分析 将处理间的
4、差别与扣除区组间变异后的随机误差将处理间的差别与扣除区组间变异后的随机误差进行比较,识别差异的能力大大提高。进行比较,识别差异的能力大大提高。本例,本例,处理组间处理组间 F=8.23,P=0.003 差别有统计学意义差别有统计学意义 区组间区组间 F=1.21,P=0.36 差别无统计学意义差别无统计学意义第6页,共31页,编辑于2022年,星期六2析因设计不能用单因素方差分析析因设计不能用单因素方差分析例例2 收集甲状腺术中正常甲状腺组织做成收集甲状腺术中正常甲状腺组织做成16份标本,份标本,按析因设计随机分为四个处理组。将处理后的标本分按析因设计随机分为四个处理组。将处理后的标本分别行免
5、疫组化染色,作单位面积别行免疫组化染色,作单位面积HLA-抗原阳性细抗原阳性细胞计数。试分析如下数据:胞计数。试分析如下数据:第第1组(经组(经95%空气和空气和5%CO2培养培养 7天):天):2.5,2.4,2.6,2.5第第2组(经组(经95%空气和空气和5%CO2培养培养14天):天):1.8,1.9,1.7,1.8第第3组(经组(经95%O2 和和5%CO2培养培养 7天):天):2.2,2.3,2.1,2.2第第4组(经组(经95%O2 和和5%CO2培养培养14天):天):1.9,1.8,1.7,1.9第7页,共31页,编辑于2022年,星期六单因素方差分析单因素方差分析?!?!
6、直接比较四组资料间的差别直接比较四组资料间的差别 F=60.00,P=0.00认为:四组间差别具有统计学意义认为:四组间差别具有统计学意义 表表2 析因设计下的实验结果(均数)析因设计下的实验结果(均数)第8页,共31页,编辑于2022年,星期六这是典型的两因素这是典型的两因素2水平的析因设计!水平的析因设计!i)有负初衷有负初衷分析各因素的效应!分析各因素的效应!ii)直接比较四组资料,组间变异大,不敏感!)直接比较四组资料,组间变异大,不敏感!为什麽不对?为什麽不对?第9页,共31页,编辑于2022年,星期六正确作法:析因设计的方差分析正确作法:析因设计的方差分析i)主效应:某一因素各水平
7、间的平均差别。主效应:某一因素各水平间的平均差别。A因素的主效应因素的主效应=(第三组均数第三组均数+第四组均数第四组均数)(第一组均数第一组均数+第二组均数第二组均数)/2=(2.2+1.9)(2.5+1.8)/2=0.1ii)交互效应:若某因素的单独效应随另一因素水平的变化而有较大交互效应:若某因素的单独效应随另一因素水平的变化而有较大变化,则称这两个因素间存在交互效应。变化,则称这两个因素间存在交互效应。AB的交互效应的交互效应 =(第四组均数第四组均数 第二组均数第二组均数)(第三组均数第三组均数 第一组均数第一组均数)/2 =(1.9-1.8)-(2.2-2.5)/2=0.2第10页
8、,共31页,编辑于2022年,星期六检验检验iii)A的主效应:的主效应:F=1.37,P=0.26;B的主效应:的主效应:F=47.13,P=0.00 A与与B的交互效应:的交互效应:F=0.03,P=0.87 结论:结论:B因素因素(培养天数培养天数)的效应具有统计学意义。的效应具有统计学意义。第11页,共31页,编辑于2022年,星期六检验检验 A的主效应:的主效应:F=1.37,P=0.26;B的主效应:的主效应:F=47.13,P=0.00 A与与B的交互效应:的交互效应:F=0.03,P=0.87 结论:结论:B因素因素(培养天数培养天数)的效应具有统计学的效应具有统计学意义。意义
9、。第12页,共31页,编辑于2022年,星期六3剂量剂量-反应关系反应关系 不能用单因素方差分析不能用单因素方差分析例例3 有人分析蛇毒因子(有人分析蛇毒因子(CVF)的剂量对血液白细)的剂量对血液白细胞噬菌率的影响,得表胞噬菌率的影响,得表3的数据,欲讨论剂量的数据,欲讨论剂量-反应反应关系。关系。第13页,共31页,编辑于2022年,星期六i)单因素方差分析?!单因素方差分析?!F=0.701,P0.5,均数间差别无统计学意义均数间差别无统计学意义 为什麽不对?为什麽不对?有负初衷有负初衷 探讨反应随剂量变化的趋势探讨反应随剂量变化的趋势*由多个剂量组的比较只能得知均数间是否有差异由多个剂
10、量组的比较只能得知均数间是否有差异*有差异不等于有剂量反应关系有差异不等于有剂量反应关系第14页,共31页,编辑于2022年,星期六均数关于均数关于log(剂量剂量)的回归分析的回归分析?!为什麽不对?为什麽不对?均数做因变量造成假象均数做因变量造成假象!*回归方程是否有统计学意义与反应的变异状况有关回归方程是否有统计学意义与反应的变异状况有关*以诸个体反应值的均数作回归计算以诸个体反应值的均数作回归计算,掩盖变异性,造成假掩盖变异性,造成假象象回归方程:回归方程:Y=61.786-6.886 log(剂量剂量)决定系数:决定系数:R2=0.914。第15页,共31页,编辑于2022年,星期六
11、正确作法:用个体资料作回归分析正确作法:用个体资料作回归分析回归方程:回归方程:Y=61.782-6.884 log(剂量剂量)决定系数:决定系数:R2=0.095。回归方程无统计学意义,无剂量反应关系!回归方程无统计学意义,无剂量反应关系!若反应和剂量间散点图呈曲线状,若反应和剂量间散点图呈曲线状,剂量可剂量可作适当变换。作适当变换。第16页,共31页,编辑于2022年,星期六4.重复测量资料不能逐个时间点两组比较重复测量资料不能逐个时间点两组比较例例4 为研究某食物对血清胆固醇浓度的影响,各取为研究某食物对血清胆固醇浓度的影响,各取7只兔子,只兔子,分别以正常食物和待研究食物喂养,在实验前
12、、喂养分别以正常食物和待研究食物喂养,在实验前、喂养5周、周、10周后,各取血测量其中胆固醇浓度,其自然对数转换后的数据周后,各取血测量其中胆固醇浓度,其自然对数转换后的数据见表见表22.1,问血清胆固醇浓度随时间变化的趋势是否受该食物的问血清胆固醇浓度随时间变化的趋势是否受该食物的影响。影响。第17页,共31页,编辑于2022年,星期六例例5 某药物有新、旧两种剂型。为了比较这两种剂型的代谢情某药物有新、旧两种剂型。为了比较这两种剂型的代谢情况,对况,对16例某病患者服药后例某病患者服药后0、4、8、12小时的血药浓度作小时的血药浓度作了测量,问该药新旧两种剂型的血药浓度了测量,问该药新旧两
13、种剂型的血药浓度-时间曲线的差时间曲线的差别是否具有统计学意义。别是否具有统计学意义。第18页,共31页,编辑于2022年,星期六第19页,共31页,编辑于2022年,星期六常见的不妥常见的不妥i)对每个时间点,分别计算均数、标准差;对每个时间点,分别计算均数、标准差;将各时间点测量值的均值用线连接,标出将各时间点测量值的均值用线连接,标出“误差误差”线线ii)在各时间点做在各时间点做t检验或检验或Mann-Whitney U检验检验第20页,共31页,编辑于2022年,星期六为什麽不对?为什麽不对?(1)连接各时间点测量值均数的方法将掩盖个体曲)连接各时间点测量值均数的方法将掩盖个体曲线位置
14、和形状的特点;线位置和形状的特点;(2)各均数所对应的点连起来形成的曲线形状可能)各均数所对应的点连起来形成的曲线形状可能与诸个体的曲线形状毫不相干;与诸个体的曲线形状毫不相干;(3)各时间点相应的标准差是一种误导;)各时间点相应的标准差是一种误导;(4)上述方法无法体现不同时间点的数据来自同一)上述方法无法体现不同时间点的数据来自同一个体,而每一个体的多次重复测量值间具有相关个体,而每一个体的多次重复测量值间具有相关性。(关键所在)性。(关键所在)第21页,共31页,编辑于2022年,星期六正确做法:正确做法:1)综合指标法()综合指标法(summary measures approach)
15、或或 派生变量法(派生变量法(derived variable approach)w采用少数独立的综合指标来概括每个个体多个时间点的测量值;采用少数独立的综合指标来概括每个个体多个时间点的测量值;w用单变量方法比较各组的差异用单变量方法比较各组的差异第22页,共31页,编辑于2022年,星期六综合指标综合指标第23页,共31页,编辑于2022年,星期六2)重复测量资料的方差分析)重复测量资料的方差分析w 先做先做“球形检验球形检验”不同时间点上数据之间没有相关性?不同时间点上数据之间没有相关性?任何两个时间点之间的相关性都一样?任何两个时间点之间的相关性都一样?w重复测量资料的方差分析!重复测
16、量资料的方差分析!例例6 对表对表4资料进行单变量方差分析。资料进行单变量方差分析。处理因素(处理因素(group):):F=31.69,P=0.0001 测量时间(测量时间(time):):F=11.93,P=0.0003 时间与处理交互效应项(时间与处理交互效应项(timegroup):):F=10.57,P=0.0005结果:食物对家兔血清胆固醇有影响;结果:食物对家兔血清胆固醇有影响;家兔血清胆固醇浓度随时间变化;家兔血清胆固醇浓度随时间变化;所研究的食物对血清胆固醇浓度随时间变化的趋势也有影响。所研究的食物对血清胆固醇浓度随时间变化的趋势也有影响。第24页,共31页,编辑于2022年
17、,星期六5多维列联表资料不可反复做检验多维列联表资料不可反复做检验例例7 某地区呼吸系统疾病的患病率较高,有人怀疑与当地某地区呼吸系统疾病的患病率较高,有人怀疑与当地室内点香的习惯有关,经抽样调查,得数据如下室内点香的习惯有关,经抽样调查,得数据如下第25页,共31页,编辑于2022年,星期六合并后作检验合并后作检验?!?!第26页,共31页,编辑于2022年,星期六为什麽不对?为什麽不对?i)点香与不点香者患病率不可比!点香与不点香者患病率不可比!年龄组合并掩盖了年龄组合并掩盖了:点香(点香(B1)与不点香()与不点香(B2)者年龄结构不同)者年龄结构不同ii)不同年龄组患病率不可比!不同年
18、龄组患病率不可比!点香与不点香者合并掩盖了点香与不点香者合并掩盖了:不同年龄组中点香与不点香者比例的不同不同年龄组中点香与不点香者比例的不同第27页,共31页,编辑于2022年,星期六正确作法:对数线性模型或正确作法:对数线性模型或logistic回归回归i)对数线性模型对数线性模型平等地讨论平等地讨论A,B,C三因素对各格子中频数的影响三因素对各格子中频数的影响w仅当其他变量的影响与某变量无关时,才可通过合仅当其他变量的影响与某变量无关时,才可通过合并消除该变量并消除该变量ii)logistic回归回归 反应变量反应变量:患病与否,解释变量患病与否,解释变量:点香和年龄点香和年龄w交互效应交
19、互效应:点香点香年龄年龄第28页,共31页,编辑于2022年,星期六小结设计类型和变量类别决定分析方法:设计类型和变量类别决定分析方法:1.随机区组设计不能用成组分析方法随机区组设计不能用成组分析方法 不能用不能用t 检验或单因素方差分析检验或单因素方差分析 要用随机区组设计资料的方差分析要用随机区组设计资料的方差分析2.析因设计不能用单因素方差分析析因设计不能用单因素方差分析 要用析因设计资料的方差分析要用析因设计资料的方差分析第29页,共31页,编辑于2022年,星期六3.剂量剂量-反应关系不能用单因素方差分析反应关系不能用单因素方差分析 要用原始资料的回归分析反映趋势要用原始资料的回归分析反映趋势4.重复测量资料不能逐个时间点两组比较重复测量资料不能逐个时间点两组比较 可用几个综合指标逐一进行单指标分析可用几个综合指标逐一进行单指标分析 或可用重复测量资料的方差分析或可用重复测量资料的方差分析(先做球形检验先做球形检验)5.多维列联表资料不能盲目合并后反复做检验多维列联表资料不能盲目合并后反复做检验 可用对数线性模型或可用对数线性模型或logistic回归模型研究分类变量回归模型研究分类变量间关系间关系第30页,共31页,编辑于2022年,星期六谢谢谢谢第31页,共31页,编辑于2022年,星期六
限制150内