完全随机设计配对设计随机区组设计交叉设计拉丁方.docx
《完全随机设计配对设计随机区组设计交叉设计拉丁方.docx》由会员分享,可在线阅读,更多相关《完全随机设计配对设计随机区组设计交叉设计拉丁方.docx(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析的策略在研究设计思路指导下进展医学科学研究,研究结果常常以数据形式呈现,这些数据提供了丰富的信息。然而,如何从大量的看似杂乱无章的数据中萃取与提炼有用的信息,以提醒其中隐含的内在规律,帮助研究者进展判断或推理,还需要对这些纷繁复杂的数据进展分析。数据分析是分析与处理变量间关系的理论与方法,所涉及变量常被分为解释变量与反响变量,解释变量又称分组变量、协变量等,反响变量是表示试验效应的变量或指标。变量的观测值构成数据或资料,常有计量资料、计数资料与等级资料之分。数据分析指的是对数据进展统计分析,就是根据抽样研究的方法,利用概率论与数理统计的原理,对样本信息进展分析与研究,从而对所研究的事物
2、的统计规律性作出概率性的估计与推断。具体内容包括数据的变量变换、统计量的选择策略、参数估计与假设检验方法应用策略。第一局部 数据的变量变换策略许多统计分析方法对数据有一定要求,如检验、检验,要求样本独立地来自正态总体,方差齐同;又如直线回归分析要求自变量与应变量呈线性关系,每个对应 的总体为正态分布,各个正态分布的总体方差相等,各次观测彼此独立。然而,仍有大量的医学资料往往不满足上述要求,在分析过程中对资料进展变量变换transformation of variable是解决问题的途径之一。恰当的数据变换可以一定程度上使资料满足统计分析方法的要求,如使资料符合正态化、方差齐同化、曲线直线化等要
3、求。常用的变量变换方法有对数变换transformation of logarithm、平方根变换transformation of square root、平方根反正弦变换(transformation of inverse sine)、倒数变换transformation of reciprocal、概率单位变换transformation of probability unit、logit变换 (transformation of logit)、反双曲正切变换(transformation of inverse hyperbolic tangent)、得分变换transformation
4、 of score、box-cox变换(transformation of box-cox)等。第二节 统计量的选择策略一、概念统计量statistic是由样本观测值计算出来的,反映样本分布特征的指标。对反响变量特征的描述中,计量资料有集中趋势指标与离散程度指标,计数资料与等级资料有相对数指标;对于解释变量与反响变量间关系的描述,有互依关系指标、依存关系指标等。如何从众多统计量中选择适宜的统计量描述样本分布特征是至关重要的。二、选择统计量的策略数据分析涉及众多统计量,基于分析目的,通常依据资料类型、资料特征、解释变量与反响变量个数等来选择适宜的统计量。表9-1 计量资料常用统计量的选择策略反响
5、变量数资料特征不同分析目的下的常用统计量平均水平变异程度单个反响变量单峰对称分布,尤其正态分布资料算术均数方差、标准差、变异系数*单个反响变量各种分布类型资料,但主要是偏态分布资料,分布一端或两端无确切数值的资料中位数四分位间距、全距单个反响变量等比级数资料,经对数变换呈对称分布资料,尤其对数正态分布资料几何均数多个反响变量多元正态分布均数向量协方差矩阵*主要用于度量衡单位不同或均数相差悬殊的多个变异程度的比拟表9-2 计数资料与等级资料常用统计量的选择策略资料特征主要分析目的常用统计量二分类计数资料某现象发生的频率或强度率 二分类或多分类计数资料、等级资料某事物内部各组成局部所占比重构成比此
6、外,相比照也是常用的派生统计量指标,是两个有关指标之比,旨在描述两个指标间比例关系。这两个有关的指标可以是基于计量资料、计数资料而计算出的统计量,也可以是某绝对数。表9-3 解释变量与反响变量间关联性常用统计量的选择策略解释变量个数反响变量个数资料类型资料特征主要分析目的分析方法常用统计量11计量资料线性、独立、正态、等方差与的线性依存关系直线回归分析回归系数2 1计量资料线性、独立、正态、等方差、与的线性依存关系多元线性回归分析偏回归系数21为计数资料、等级资料非线性各因素危险度大小 logistic回归分析回归系数优势比21截尾变量为计数资料;时间变量为计量资料非线性各因素危险度大小 Co
7、x回归分析回归系数风险比11计量资料线性、独立、二元正态、等方差相关的程度与方向直线相关分析Pearson相关系数11计量资料或等级资料不服从双变量正态分布、总体分布类型未知、有不确定值、双向有序且、属性不同的列联表相关的程度与方向等级相关分析Spearman等级相关系数、Kendall 等级相关系数11计数资料列联表关联程度关联性分析Pearson列联系数11二分类计数资料配对四格表关联程度关联性分析点相关系数11为计量资料,为二分类变量服从正态分布关联程度关联性分析点双序列相关系数21计量资料多元正态分布多个变量同时与某一变量相关的程度多元线性相关分析复相关系数21计量资料多元正态分布其他
8、变量固定时,某两个变量间相关程度与方向多元线性相关分析偏相关系数22计量资料两组变量之间的相关程度典型相关分析典型相关系数第三节 参数估计方法应用策略一、概念描述某总体特征的指标称为参数parameter,但在抽样研究中,参数往往是未知的,抽样研究的目的正是通过样本推断参数。参数估计estimation of population parameters是统计推断重要内容之一,分为点估计point estimation与区间估计interval estimation两种形式。点估计就是用相应样本统计量直接作为其总体参数的估计值,区间估计是按预先给定的概率所确定的包含未知总体参数的一个范围。二、常
9、用参数估计方法应用策略数据分析中常用统计量均是其总体参数的点估计量,如样本均数是总体均数的点估计量,样本率是总体率的点估计量。良好的参数点估计量必须满足:无偏性:统计量的数学期望等于被估计参数;一致性:即当样本含量无穷大时,统计量等于参数;有效性:方差最小估计量为有效的估计量。对于参数的区间估计,可综合考虑分析目的、准确度与精度、资料分布特征、样本含量及其他有关条件等来选择具体的估计方法。主要参数的区间估计方法双侧如下。一正态总体均数的可信区间 1.总体标准差或样本含量足够大时,总体均数的可信区间为 9-13 或 9-14其中,是标准正态分布水准双侧分位数。一般求其95%可信区间, =1.96
10、.2.总体标准差未知时,总体均数的可信区间为 9-15其中是自由度的分布水准双侧分位数 。一般求其95%可信区间,查t界值表得。(二) 总体几何均数的可信区间 9-18 其中,。 (三) 总体率的可信区间较小,采用查表法,获得的95%或99%可信区间;2.假设充分大且,采用正态近似法获得的可信区间,的可信区间为 9-26四Poisson分布资料总体均数的可信区间,采用查表法,获得的95%或99%可信区间。,采用正态近似法获得的可信区间,的可信区间为 9-29五总体回归系数的1-可信区间 9-30其中,为回归系数的标准误,(六) 总体均数的可信区间利用直线回归方程,在处的总体均数的可信区间为 9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 完全 随机 设计 配对 交叉 拉丁
限制150内