统计学第六章 研究变量的关系相关与回归.pdf
《统计学第六章 研究变量的关系相关与回归.pdf》由会员分享,可在线阅读,更多相关《统计学第六章 研究变量的关系相关与回归.pdf(49页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第六章 研究变量之间的关系:相关与回归第六章 研究变量之间的关系:相关与回归以前各章的描述统计和推断统计集中在单 变量上,这是统计的基础。两个或多个变量 之间关系的研究是大部分研究的核心,是统 计应用的重点。多变量统计分析建立在单变 量分析工具上,指导原则是相同的:作图表现数据,给出数值概括度量寻找整体模式,讨论与模式的偏差当整体模式比较规律,用一个简洁的数学 模型描述。第一节 分类数据之间关系研究:列联表 许多变量本身是分类变量,如性别、种族 和职业,其他分类变量由将数值变量的取 值分成若干个组而产生的。为了分析分类 变量的关系,需要使用落在各个类别中的 频数或频率,列联表(two-way
2、table)是 概括分类数据关系的一种分析工具。列联表结构:行变量、列变量、行和、列 和频数第一节 分类数据之间关系研究:列联表 例 CASE7.1 音乐会影响购买行为吗?列联表的分析开始于对单个变量分布的观察,即 边际分布。Stata命令:tabulate Wine Music fweight=count第一节 分类数据之间关系研究:列联表 分类变量间的关系可由条件分布的比较来描述:CASE7.1 条件分布的比较:第一节 分类数据之间关系研究:列联表 Simpson 悖论:An association or comparison that holds for all of several g
3、roups can reverse direction when the data are combined to form a single group.This reversal is called Simpsons paradox.启发:Conclusions that seem obvious when we look only at aggregated data can become quite different when the data are examined in more detail.第一节 分类数据之间关系研究:列联表Example:第一节 分类数据之间关系研究:列
4、联表 统计检验:The null hypothesis H0 of interest in a two-way table is there is no association between the row variable and the column variable.The alternative hypothesis Ha is that there is an association between these two variables.The alternative Ha does not specify any particular direction for the ass
5、ociation.For r c tables in general,the alternative includes many different possibilities.Because it includes all the many kinds of association that are possible,we cannot describe Ha as either one-sided or two-sided.第一节 分类数据之间关系研究:列联表 检验方法:To test the null hypothesis in r c tables,we compare the obs
6、erved cell counts with expected cell counts calculated under the assumption that the null hypothesis is true.Our test statistic is a numerical measure of the distance between the observed and expected cell counts.第一节 分类数据之间关系研究:列联表 Chi方检验:第一节 分类数据之间关系研究:列联表卡方检验:Case7.1卡方检验结果第一节 分类数据之间关系研究:列联表 用于列联表的
7、模型:The precise statement of the null hypothesis“no relationship”in terms of population parameters is different for different designs.模型1:比较几个总体 Case 7.1(wine sales in three environments)is an example of separate and independent random samples from each of c populations.The c columns of the two-way t
8、able represent the populations.There is a single categorical response variable,wine type.The r rows of the table correspond to the values of the response variable.The r c table allows us to compare more than two populations or more than two categories of response,or both.In this setting,the null hyp
9、othesis“no relationship between column variable and row variable”becomesH0:The distribution of the response variable is the same in all c populations.第一节 分类数据之间关系研究:列联表模型2:检验独立性Model for Examining Independence in Two-Way TablesSelect an SRS of size n from a population.Measure two categorical variabl
10、es for each individual.The null hypothesis is that the row and column variables are independent.The alternative hypothesis is that the row and column variables are dependent.CASE7.2第二节 数值型数据之间关系研究:相关与回归 解释变量与响应变量:数值型数据关系研 究开始于度量同一个体的两个变量,经常 我们认为一个变量解释或影响另一个变量有时两变量不存在解释-被解释的关系,如存 货与销售量,是否存在依赖于我们使用数 据
11、目的第二节 数值型数据之间关系研究:相关与回归 散点图(scatterplots):表现两个数值变 量之间关系的最常用方法是散点图。解释散点图:通过散点图来寻找整体模式,即变量关系的形式、方向和强度 控制点(Locus of control)这一概念,最初是由美国社会学习理论家的朱利 安罗特(Julian Bernard Rotter)于1954年提出的一种个体归因倾向的理论,旨 在对个体的 归因差异进行说明和测量。罗特发现,个体对自己生活中发生的 事情及其结果的控制源有不同的解释。对某些人来说,个人生活中多数事情 的结果取决于个体在做这 些事情时的努力程度,所以这种人相信自己能够对 事情的发
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学第六章 研究变量的关系相关与回归 统计学 第六 研究 变量 关系 相关 回归
限制150内