应用统计学 相关分析与回归分析.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《应用统计学 相关分析与回归分析.pptx》由会员分享,可在线阅读,更多相关《应用统计学 相关分析与回归分析.pptx(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、1相关分析(相关分析(掌握掌握)线性回归分析(线性回归分析(掌握掌握)回归模型的统计检验和预测(回归模型的统计检验和预测(掌握掌握)非线性回归模型(非线性回归模型(了解了解)主要内容和学习目标 第1页/共65页28.1.1 8.1.1 相关关系的概念和种类相关关系的概念和种类8.1.1.1 8.1.1.1 相关关系的概念相关关系的概念在社会经济发展变化中,客观现象总是普在社会经济发展变化中,客观现象总是普遍联系和相互依存的,客观现象(变量)遍联系和相互依存的,客观现象(变量)之间的数量依存关系可分为两种类型:确之间的数量依存关系可分为两种类型:确定性关系和定性关系和相关关系相关关系。相关关系相
2、关关系是指现象之间客观存在的非确定是指现象之间客观存在的非确定性的数量依存关系。性的数量依存关系。8.1 8.1相关分析相关分析第2页/共65页3如:商品的消费量(如:商品的消费量(y y)与居民收入()与居民收入(x x)之间的关系)之间的关系 变量间关系是变量间关系是不能用函数关系精确表达不能用函数关系精确表达的,一个变的,一个变量的取值不能由另一个变量唯一确定。当变量量的取值不能由另一个变量唯一确定。当变量x x取某个取某个值时,变量值时,变量y y的取值可能有几个。的取值可能有几个。各观测点分布在直线周围。各观测点分布在直线周围。第3页/共65页48.1.1.2 8.1.1.2 相关关
3、系的种类相关关系的种类1.1.按相关的方向可以分为按相关的方向可以分为正相关正相关和和负相关负相关。1.1.按相关的程度可分为按相关的程度可分为完全相关完全相关、不完全相关不完全相关和和不相关不相关。2.2.按涉及的变量或因素的个数可以分为按涉及的变量或因素的个数可以分为单相关单相关与与复相关复相关。1.1.按相关的表现形式可分为按相关的表现形式可分为线性相关线性相关与与非线性相关非线性相关。第4页/共65页5曲线相关相关关系线性相关正相关负相关单相关复相关多元线性相关多元非线性相关第5页/共65页68.1.1.3 8.1.1.3 相关图表相关图表相关表和相关图可直观地表达变量之间相关表和相关
4、图可直观地表达变量之间的相关关系的程度。的相关关系的程度。相关表相关表是将具有相关关系的原始数据是将具有相关关系的原始数据,按某一顺序平行排列在一张表上按某一顺序平行排列在一张表上,以观以观察它们之间的相互关系。察它们之间的相互关系。第6页/共65页7表表8-18-1高校人数和周边饭店季营业额高校人数和周边饭店季营业额饭饭店店学生人学生人数(千数(千人)人)x x季营业季营业额(千额(千元)元)y y饭饭店店学生人学生人数(千数(千人)人)x x季营业额季营业额(千元)(千元)y y1 12 258586 616161371372 26 61051057 720201571573 38 888
5、888 820201691694 48 81181189 922221491495 5121211711710102626202202第7页/共65页8相关图相关图也称为分布图或散点图,它是在平也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用点面直角坐标中把相关关系的原始数据用点描绘出来,通常以直角坐标的横轴代表自描绘出来,通常以直角坐标的横轴代表自变量变量x,x,纵轴代表因变量纵轴代表因变量y y。相关图所反映的。相关图所反映的变量之间的相关关系的方向和程序比相关变量之间的相关关系的方向和程序比相关表更为清晰,也更为直观。表更为清晰,也更为直观。第8页/共65页9图图8-18
6、-1学生人数和季营业额相关图学生人数和季营业额相关图 第9页/共65页10第10页/共65页118.1.1.4 8.1.1.4 相关分析的意义相关分析的意义1 1、相关分析可以确定变量之间相关关系的方向和程度、相关分析可以确定变量之间相关关系的方向和程度2 2、相关分析可以衡量回归估计的精确程度、相关分析可以衡量回归估计的精确程度第11页/共65页128.1.2 8.1.2 简单线性相关简单线性相关8.1.2.1 8.1.2.1 相关系数相关系数相关系数相关系数是描述相关的两个变量之间相关关系密切程度的数量是描述相关的两个变量之间相关关系密切程度的数量指标。早在指标。早在18901890年,英
7、国著名统计学家年,英国著名统计学家Karl PearsonKarl Pearson便提出了便提出了一个测定两个变量线性相关的计算方法,通常称为积差相关系一个测定两个变量线性相关的计算方法,通常称为积差相关系数或简单相关系数。数或简单相关系数。第12页/共65页13总体相关系数总体相关系数:式中:是变量是变量X X和和Y Y的协方差的协方差是变量是变量X X的标准差的标准差是变量是变量Y Y的标准差的标准差样本相关系数样本相关系数:第13页/共65页14计算学生人数和季营业额的相关系数计算学生人数和季营业额的相关系数 第14页/共65页158.1.2.2 8.1.2.2 相关系数的性质相关系数的
8、性质 1 1、2 2、若、若 ,表示变量,表示变量x x与变量与变量y y为线性为线性正相关关系;若正相关关系;若 ,表示变量,表示变量x x与与变量变量y y为线性负相关关系。为线性负相关关系。3 3、若、若 ,表示两变量完全线性相关,即,表示两变量完全线性相关,即变量变量x x与变量与变量y y之间存在确定的函数关系。若之间存在确定的函数关系。若 ,表示两变量完全线性正相关;若,表示两变量完全线性正相关;若 ,表示,表示两变量完全线性负相关。两变量完全线性负相关。4 4、若、若 ,表示两变量不存在线性相关。,表示两变量不存在线性相关。第15页/共65页165 5、当、当 时,表示两变量存在
9、不同程时,表示两变量存在不同程度的线性相关。度的线性相关。的数值越接近于的数值越接近于1 1,表示两,表示两变量之间线性相关程度越高;反之变量之间线性相关程度越高;反之 的数值的数值越接近于越接近于0 0,表示两变量之间线性相关程度越低。,表示两变量之间线性相关程度越低。通常认为:通常认为:微弱相关;微弱相关;低度相关低度相关 显著相关;显著相关;高度相关高度相关6 6、相关系数不受变量值水平和计量单位的影响。、相关系数不受变量值水平和计量单位的影响。第16页/共65页17根据给定的显著性水平和自由度根据给定的显著性水平和自由度n-2,n-2,查找查找t t分布中的相分布中的相应临界值应临界值
10、 。如果。如果 ,就否定原假设,认为,就否定原假设,认为 r r 在统计上是显著的,即总体相关系数不为零,总体变在统计上是显著的,即总体相关系数不为零,总体变量间存在线性相关关系。量间存在线性相关关系。8.1.2.3 8.1.2.3 相关系数的显著性检验相关系数的显著性检验提出假设:提出假设:计算计算 t t 检验统计量:检验统计量:第17页/共65页18检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性检验高校学生人数与周边饭店季营业额之间的相关系数是否显著,显著性水平水平=0.05=0.05。第一步:提出假设第一步:提出假设第二步:构造并计算检验统计量第二步:构造并计算检验统
11、计量第18页/共65页19第三步:确定临界值。根据给定的显著性水平第三步:确定临界值。根据给定的显著性水平=0.05=0.05和自由度和自由度10-2=810-2=8,查找,查找t t分布表或利用分布表或利用ExcelExcel计算,得到临界值。计算,得到临界值。第四步:决策。由于第四步:决策。由于 所以拒绝原假设,说明高校学生人数与周边饭店所以拒绝原假设,说明高校学生人数与周边饭店季营业额之间存在着显著的正线性相关关系。季营业额之间存在着显著的正线性相关关系。第19页/共65页208.2.1 8.2.1 回归分析回归分析 回归分析回归分析是根据已知变量估计未知变量是根据已知变量估计未知变量的
12、一种统计方法,它是以对未知变量的一种统计方法,它是以对未知变量(因因变量变量)同其他变量同其他变量(自变量自变量)相互关系的相互关系的观察为基础,在某种精确度下,预测未观察为基础,在某种精确度下,预测未知变量的数值。知变量的数值。8.2 8.2 线性回归分析线性回归分析第20页/共65页21回归分析的内容和步骤回归分析的内容和步骤:选择适当的回归模型。选择适当的回归模型。进行参数估计。进行参数估计。进行模型的检验。进行模型的检验。进行预测。即根据回归方程进行适当的进行预测。即根据回归方程进行适当的经济预测,这是回归分析的最终目的。经济预测,这是回归分析的最终目的。第21页/共65页228.2.
13、1.1 8.2.1.1 总体回归方程与样本回归方程总体回归方程与样本回归方程例:研究家庭消费支出与家庭收入之例:研究家庭消费支出与家庭收入之间的关系,一个总体由间的关系,一个总体由5050户家庭组成,户家庭组成,并按人均月收入水平划分成组内收入并按人均月收入水平划分成组内收入水平大致相同的水平大致相同的1010个组。个组。第22页/共65页23图图8-4 8-4 不同收入水平的家庭消费支出散点分布图不同收入水平的家庭消费支出散点分布图总体回归线PRL随机试验所有可能结果的集合称为总体或样本空间第23页/共65页第一节 古典回归模型由图中看出总体回归直线是线性的,用函数的形式由图中看出总体回归直
14、线是线性的,用函数的形式来表示:来表示:(1)(1)这是直线的数学表达式,在式这是直线的数学表达式,在式(1)(1)中,中,E(YE(YXi)Xi)表示给定表示给定X X值相应的值相应的(或条件的或条件的)Y Y的均的均值,称为值,称为Y Y Y Y的条件期望的条件期望的条件期望的条件期望或条件均值下标或条件均值下标i i代表第代表第i i个个子总体。如,子总体。如,x=2x=2时,时,y y的条件均值为的条件均值为 即收入水平为即收入水平为20002000元的元的4 4个家庭的平均消费支出个家庭的平均消费支出为为15001500元。元。第24页/共65页第一节 古典回归模型注意注意:E E(
15、Y YX Xi i)是是X Xi i的函数的函数(在此例中是线性函数在此例中是线性函数)。这。这意味着意味着Y Y依赖于依赖于X Xi i,一般称之为,一般称之为Y Y Y Y对对对对X X X X的回归的回归的回归的回归。回归。回归可简单地定义为在给定可简单地定义为在给定X X值的条件下值的条件下Y Y值分布的均值。值分布的均值。换句话说,总体回归直线经过换句话说,总体回归直线经过Y Y的条件期望值。式的条件期望值。式(1)(1)是总体回归函数是总体回归函数(Population Regression(Population Regression Function,PRF)Function,P
16、RF)的数学形式。在本例中,总体回的数学形式。在本例中,总体回归函数是线性函数。归函数是线性函数。第25页/共65页第一节 古典回归模型 为参数为参数(parameters),也称,也称回归系数回归系数(regression coefficients)。又称为截距又称为截距(intercept),是当,是当X X为为0 0时时Y Y的均的均值值 又称为斜率又称为斜率(slope),斜率度量了,斜率度量了X X 每变动每变动一单位,一单位,Y Y 的均值的变化率。的均值的变化率。例,如果斜率例,如果斜率 为为0.5,那么,当收入,那么,当收入x x每增加每增加1 1单位(千元),单位(千元),Y
17、 Y 的的(期望期望)均值将增加均值将增加0.50.5个个单位(千元);即,平均而言,消费支出将单位(千元);即,平均而言,消费支出将增加增加0.50.5千元。千元。第26页/共65页第一节 古典回归模型模型的随机设定模型的随机设定从图中可看出单个家庭的消费支出与平均消费支从图中可看出单个家庭的消费支出与平均消费支出之间存在着一定的离差,即出之间存在着一定的离差,即 (2)(2)其中,其中,表示随机误差项表示随机误差项(stochastic,(stochastic,random error term)random error term)或简称为误差项。或简称为误差项。第27页/共65页28表表
18、8-4 8-4 从表从表8-38-3的总体中抽取一个随机样本的总体中抽取一个随机样本 XYXY10.7763.2021.1074.0031.7084.3041.6594.5052.50106.00第28页/共65页29图图8-5 8-5 总体回归线与样本回归线总体回归线与样本回归线第29页/共65页第一节 古典回归模型得到一条很好地得到一条很好地“拟合拟合”了样本数据的直线,称之为了样本数据的直线,称之为样本回归线样本回归线样本回归线样本回归线(sample regression lines,SRL)(sample regression lines,SRL)。可能从可能从K K个不同的样本中得
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用统计学 相关分析与回归分析 应用 统计学 相关 分析 回归
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内