第三章-单变量描述统计分析讲-解.ppt
《第三章-单变量描述统计分析讲-解.ppt》由会员分享,可在线阅读,更多相关《第三章-单变量描述统计分析讲-解.ppt(53页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第八章第八章 相关分析和线性回归分析相关分析和线性回归分析28.1 概述n函数关系:两变量之间一一对应的关系,即当x取一定值,另一变量y会依据函数取唯一确定的值。例如:n统计关系:两变量之间确实存在的互相依存关系,但变量间的数量依存关系的具体关系值不是固定的。例如:身高和体重,子代身高与父代身高。n相关分析和回归分析是以不同的方式测度变量间统计关系的非常有效的工具。38.2 相关关系n相关关系的种类:线性相关和非线性相关(形态),正线性相关和负线性相关(方向),强线性相关和弱线性相关(程度)。n相关分析的两种有效方式:一散点图:它将数据以点的形式画在直角平面上,通过观察散点图能够直观地发现变量
2、间地统计关系以及它们的强弱程度和数据的可能走向。二相关系数:以数值的方式精确的反映了两变量间线性关系的强弱程度。4散点图 Graphs Scatter/Dot简单散点图简单散点图矩阵散点图矩阵散点图重叠散点图重叠散点图三维散点图三维散点图简单的点图简单的点图n简单散点图:表示一对变量间统计关系的散点图。n重叠散点图:表示多对变量间统计关系的散点图。n矩阵散点图:以矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。n三维散点图:以立体图的形式展示三对变量间的统计关系。56Y Y轴变量轴变量X X轴变量轴变量分组变量分组变量标记变量标记变量7将标签值写在样本点的旁边将标签值写在样本点的旁边简单
3、散点图8作为标签的变量在该点的取值作为标签的变量在该点的取值矩阵散点图9注意:在矩阵散点图中,选择变量的先后顺序决定了矩阵对角线上变量的排列顺序。横轴、纵轴的代表变量见边框旁的标识。三维散点图10重叠散点图11n评价:各种散点图虽然能够简单直观展现变量之间的统计关系,但并不精确。1213相关系数n相关系数r的取值在11之间。nr0表示两变量存在正的相关关系;r0.8表示两变量之间具有较强的线性关系;/r/0.3表示两变量之间的线性相关关系较弱。nAnalyze Correlate Bivariate相关系数的种类nPearson简单相关系数:用来度量两定距型变量间的线性关系,如收入与储蓄,身高
4、与体重等。在X和Y的Pearson相关系数是无量纲的,故可以进行不同对变量之间的比较。Pearson相关系数度量的是统计关系而不是函数关系,更不是因果关系。Pearson相关系数用来度量两变量之间的线性关系的密切程度,但它并不是度量非线性关系的有效工具。Pearson相关系数中的两变量具有对称性。14nSpearman等级相关系数:用来度量定序变量间的线性相关关系。该统计量的设计思想与Pearson简单相关系数完全相同,只是利用数据的秩代替原始数据计算Pearson相关系数。例如:对商品的偏好与价格。该方法属于非参数方法。Spearman等级相关系数对数据的要求是两变量中有一个或两个定序变量,
5、或两个变量是定距的但母体分布不清楚或严重偏离二元正态,等级相关比Pearson相关更适合描述两变量间的相关关系。15n秩:设有样本X1,X2,X3,Xn,把它们从小到大排列,若Xi在这个次序中占第Ri个位置,则称Xi的秩为Ri。n例如:某样本为 8,3,5,9,12,6,9 则它的秩依次为4,1,2,5.5,7,3,5.516nKendall s tau-b偏秩相关:用来度量定序变量间的线性相关关系,它利用变量秩,通过计算“一致对数目”和“非一致对数目”获得系数。该方法属于非参数方法。与交叉列联表中两定序变量类中的Kendall s tau-b统计量是一致的。与Spearman等级相关系数相比
6、,当样本数量较少时用Kendall s tau-b较为合适。17相关分析n步骤:一,计算样本相关系数;二,对样本来自的总体是否存在显著的线性关系进行推断。n原因:由于存在抽样的随机性和样本数量较少等原因,通常样本的相关系数不能直接用来说明样本来自的两总体是否具有显著的线性相关性,而需要通过假设检验的方式对样本来自的总体是否存在显著线性相关进行统计推断。n检验规则:pa,认为两总体零相关。1819选中时表示相关分析结果中,除显示统计检验的相伴概率值选中时表示相关分析结果中,除显示统计检验的相伴概率值p p以外,而且还以以外,而且还以(*)(*)表示:表示:*:a=0.05a=0.05,且伴随概率
7、,且伴随概率p p值值0.050.05,故在故在0.050.05下有显著性意义的相关系数;下有显著性意义的相关系数;*:a=0.01a=0.01,且伴随概率,且伴随概率p p值值0.010.01,故在故在0.010.01下有显著性意义的相关系数;下有显著性意义的相关系数;Pearson相关系数相关系数定距变量定距变量Kendalls偏秩相关系数偏秩相关系数定类变量定类变量 Spearman秩相关系数秩相关系数定序变量定序变量20显示每一个变量的均值与标准差显示每一个变量的均值与标准差每一对变量的叉集离差积与协方差每一对变量的叉集离差积与协方差排除带有缺失值的所有样品排除带有缺失值的所有样品排除
8、在分析变量上带有缺失值的样品排除在分析变量上带有缺失值的样品21叉积离差叉积离差协方差协方差注注意意:*比比*的的结结论论更更准准确确。例:n结论:两变量之间相关性显著,且属于高度相关。n注:需要特别关注p值,只有在pa的情况下才会关注相关系数的大小。否则相关系数没有意义。22例:n考查某人对8种电视机品牌的喜好是否与价格有显著的负相关?23n结论:偏好和价格存在显著负相关,程度为中等。n注:Spearman和Pearson的结果有细微差别,建议按照数据特征选择恰当的统计量。n注:假设检验中“大于”,“小于”的问题应该建立单侧假设检验。“等于”建立双侧的假设检验。24n注:与Spearman的
9、相关系数略有差异,当都是一致的认为具有显著负相关,程度中等。25268.3 偏相关分析n偏相关分析的意义:在某些情况下,单纯利用相关系数来评价变量间的相关性显然是不准确的,而需要在剔除其他相关因素影响的条件下计算变量间的相关。n偏相关分析:也称净相关分析,它在控制其它变量的线性影响的条件下分析两变量间的线性相关。n当控制变量的个数为k时,偏相关系数称为k阶偏相关。当控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是相关系数。nAnalyze Correlate Partial27参与分析的变量参与分析的变量选择一个或多个选择一个或多个控制变量控制变量表示输出零阶偏相关系数表示输出零阶偏相关
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 变量 描述 统计分析
限制150内