统计教材3.2 相关关系与回归分析.ppt
《统计教材3.2 相关关系与回归分析.ppt》由会员分享,可在线阅读,更多相关《统计教材3.2 相关关系与回归分析.ppt(65页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、相关回归相关回归-1相关关系与回归分析相关关系与回归分析(Correlation&RegressionCorrelation&Regression)相关回归相关回归-2您将如何处理下述情况?您将如何处理下述情况?您的公司生产高级冰淇淋。您们正着手减少装料量不足的纸盒数您的公司生产高级冰淇淋。您们正着手减少装料量不足的纸盒数量。装料机有一个称重单元量。装料机有一个称重单元,可跟踪流过桶的冰淇淋量。如果可跟踪流过桶的冰淇淋量。如果计算机控制器测定到装量过低计算机控制器测定到装量过低,它将向送料螺杆马达发出一个它将向送料螺杆马达发出一个命令命令,以增加送料螺杆每分钟转数以增加送料螺杆每分钟转数(rp
2、m)。如果装量过高如果装量过高,计算计算机将发出命令降低送料螺杆的每分钟转速机将发出命令降低送料螺杆的每分钟转速(rpm)。您怀疑计算机您怀疑计算机控制器没有合适地指定装量指标控制器没有合适地指定装量指标,它是纸盒装料量不足的原因。它是纸盒装料量不足的原因。如果您可以找到送料螺杆转速和已装料的纸盒重量之间的关系如果您可以找到送料螺杆转速和已装料的纸盒重量之间的关系,您就可以用它来更改控制器程序并减少装料量不足的纸盒数量。您就可以用它来更改控制器程序并减少装料量不足的纸盒数量。1.您需要什么数据?您需要什么数据?2.您应怎样显示它?您应怎样显示它?3.您怎样使用显示出的曲线来预测装料纸盒的重量?
3、您怎样使用显示出的曲线来预测装料纸盒的重量?相关回归相关回归-3X(输入)Y(输出)请回忆前面学习的基础课程:散点图显示输出(Y)是如何随输入(X)变化的。如果 X 与 Y 没有关系,这些点将随机分布在图上。散点图:显示散点图:显示 X 和和 Y 之间的关系之间的关系相关回归相关回归-4目的:目的:练习识别输入和输出变量并练习使用散点图。时间:时间:2 分钟要求:要求:填写图中的标签,完成表格,并回答有关冰淇淋数据的问题。练习:识别练习:识别 X 和和 Y202530260270280290300X=Y=样本样本送料螺杆送料螺杆纸盒重量纸盒重量 (每分钟转数)每分钟转数)(克)克).23 28
4、 290 24 20 25925 26 280相关回归相关回归-5练习:答案练习:答案问题 1:特性问题 2:每分钟 27 转时的重量大约大约 285 克。克。相关回归相关回归-6回归回归:量化:量化 X 和和 Y 之间的关系之间的关系 0 1 2 3 4 5 6 7 8 91012345678X(输入)Y(输出)回归分析生成一条直线,量化回归分析生成一条直线,量化 X 和和 Y 之间的关系。之间的关系。回归中回归中 X 或或 Y 的合适数据的合适数据数据类型数据类型Minitab格式格式离散序数离散序数秩 1,2,.,5数字离散计数或百分比离散计数或百分比缺陷数缺陷率%数字连续连续数量周期数
5、字相关回归相关回归-7量化关系的好处量化关系的好处预测 方程式代入方程式代入 X 值可用于预测未来的值可用于预测未来的 Y控制如果如果 X 可控制,您可操纵过程情况以避免不理想的结果并可控制,您可操纵过程情况以避免不理想的结果并/或产生理想的结果或产生理想的结果相关回归相关回归-8小心!超出数据范围的外推是危险的小心!超出数据范围的外推是危险的203040250300350送料螺杆转速(rpm)纸盒重量(克)?X 30 时 X 和 Y 之间是什么关系?数据范围相关回归相关回归-9外推法示例外推法示例一位教授要他的学生解释回归线上标记为一位教授要他的学生解释回归线上标记为“星号星号”的点。下面是
6、最好的答案:的点。下面是最好的答案:“很明显,您不能在一段为负数的时间内砍伐一棵树。很明显,您不能在一段为负数的时间内砍伐一棵树。”“树太小了,它可能在您砍它之前两秒钟就已倒下。树太小了,它可能在您砍它之前两秒钟就已倒下。”“这种尺寸的树,您用脚就可以踢倒它。这种尺寸的树,您用脚就可以踢倒它。”正确答案是什么呢?正确答案是什么呢?树的直径(英寸)用链锯砍伐树木的时间(秒)相关回归相关回归-10051015051015XY残差2残差7观测的 Y(实际的 Y)预测的 Y(拟合的或预计的 Y位于直线上)使直线贴近数据使直线贴近数据:残差残差相关回归相关回归-11如何确定回归方程式如何确定回归方程式最
7、小二乘法(最小平方法)要确定回归方程式要确定回归方程式,应使所有点到应使所有点到直线的距离的平方总和最小。直线的距离的平方总和最小。找到一条直线找到一条直线,使每个数据使每个数据点到该直线的点到该直线的垂直距离的平方 尽可能小(尽可能小(“最小最小”)。)。换言之换言之使所有残差的平方最小。使所有残差的平方最小。回归使用最小二乘法来确定最佳直线:回归使用最小二乘法来确定最佳直线:使用数据(使用数据(X 和和 Y 两种值)来求两种值)来求 b0 和和 b1 值。值。b0 和和 b1 值建立方程式。值建立方程式。使用使用 Minitab。最小二乘法最小二乘法1.测量点到直线的垂直距离2.取这些数字
8、的平方3.将平方距离相加4.查找总和最小的直线相关回归相关回归-12关于术语的一点注释关于术语的一点注释下列术语可经常交换使用:下列术语可经常交换使用:回归方程式*回归线回归线预测方程式预测方程式预测线预测线拟合直线或拟合*模型模型相关回归相关回归-13练习练习 1:绘制一个含回归线的图绘制一个含回归线的图目的:练习使用目的:练习使用 Minitab 绘制一个含回归线的图,并解绘制一个含回归线的图,并解释结果。释结果。时间:时间:10 分钟分钟数据:数据:打开文件打开文件FoilSeal.mtw背景:您的公司在背景:您的公司在 8 盎司塑料杯中装满果汁,计划在自盎司塑料杯中装满果汁,计划在自动
9、贩卖机中销售。您负责密封过程。一条比杯子直径稍动贩卖机中销售。您负责密封过程。一条比杯子直径稍宽的金属薄片被拉过杯子。下侧涂有热敏粘合剂。装有宽的金属薄片被拉过杯子。下侧涂有热敏粘合剂。装有热压盘的压力机下落,使粘合剂生效,并与杯子边缘接热压盘的压力机下落,使粘合剂生效,并与杯子边缘接触。杯子边缘多余的薄片被剪掉。触。杯子边缘多余的薄片被剪掉。相关回归相关回归-14练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)您试图减少有缺陷的密封数目;并且想知道密封强度与压盘您试图减少有缺陷的密封数目;并且想知道密封强度与压盘温度是否有关。当前的操作规格允许压盘温度在华氏温度是否有关。
10、当前的操作规格允许压盘温度在华氏 200 到到 300 度度(F)之间变化。对这种高产量的过程每半小时之间变化。对这种高产量的过程每半小时记录一次测量值。每天记录一次测量值。每天 12 小时一班(从上午小时一班(从上午 6 点到下午点到下午 6点),从周一到周五。您获得了过去两周内每点),从周一到周五。您获得了过去两周内每 30 分钟时间分钟时间间隔的密封强度间隔的密封强度(g/cm2)和压盘温度和压盘温度(F)数据数据(n=240):相关回归相关回归-15练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)要求:回答下列问题:回答下列问题:1.X 是什么,它是什么类型的数据?
11、它是否可控制?2.Y 是什么,它是什么类型的数据?3.使用 Minitab 绘制一个含回归线的散点图:Stat Regression Fitted Line Plot相关回归相关回归-16练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)4.截距是多少?截距是多少?斜率是多少?斜率是多少?该该斜率表示什么含义?斜率表示什么含义?5.当压盘温度为当压盘温度为 250 F 时,您预期可达到多大的密封强度?时,您预期可达到多大的密封强度?6.如果理想的密封强度是如果理想的密封强度是 205 g/cm2,您应保持压盘加热的温度是多,您应保持压盘加热的温度是多少?少?7.R-sq 值是
12、多少?值是多少?相关回归相关回归-17练习练习 1:答案:答案1:X=温度温度(F);连续数据;它是可控制的连续数据;它是可控制的2:Y=密封强度密封强度(g/cm2);连续数据连续数据3:Minitab 输出:输出:200250300175185195205215225温度(F)密封强度(g/cm2)Y=101.611+0.354237XR-Sq=83.3%回归图相关回归相关回归-18练习练习 1:答案(续):答案(续)4:截距截距=101.61;斜率斜率=0.35温度每增加一度,可以预期密封强度平均增加温度每增加一度,可以预期密封强度平均增加.35 g/cm2 或或(通过增加温度通过增加温
13、度 10 度,平均密封强度增加度,平均密封强度增加 3.5 g/cm2)。)。5:压盘加热到压盘加热到 250 F 平均可获得平均可获得 189.1 g/cm2 的密封强度的密封强度(=101.61+.35 x 250)。6:利用回归方程式求利用回归方程式求 X。205=101.61+.35(X)表示表示 X=295 F将压盘加热到将压盘加热到 295 F 可获得可获得 205 g/cm2 的密封强度的密封强度7:R-sq=83.3%(见下页)见下页)相关回归相关回归-19R 平方(平方(R-sq 或或 R2):):可解释变化百分比可解释变化百分比(%)R 平方=R-sq测量测量 Y 值变化的
14、百分比,该变化通过与值变化的百分比,该变化通过与 X 的线性关系来解释。的线性关系来解释。范围从范围从 0 到到 1(=0%到到 100%)尝试使用下面的图理解尝试使用下面的图理解可解释的变化。*相关回归相关回归-20讨论:解释讨论:解释 R 平方平方(R2)1.从密封强度数据求得的从密封强度数据求得的 R-Sq 值是多少?值是多少?2.它表示什么含义?它表示什么含义?3.您对压盘温度加热到您对压盘温度加热到 250 F 时所预测的密封强度把时所预测的密封强度把握有多大?握有多大?相关回归相关回归-21讨论:答案讨论:答案1.从密封强度数据求得的从密封强度数据求得的 R-Sq 值是多少?值是多
15、少?83.3%2.它表示什么含义?它表示什么含义?密封强度几乎有密封强度几乎有 85%的变化都可通过压盘温度来解释。大的变化都可通过压盘温度来解释。大约有约有 15%的变化是无法解释的。的变化是无法解释的。3.您对压盘温度加热到您对压盘温度加热到 250 F 时所预测的密封强度把握有多大时所预测的密封强度把握有多大?由于由于 250 F 在研究的数据范围内(我们无需外推),而且在研究的数据范围内(我们无需外推),而且由于由于 R2 相当大,因此我们对密封强度的预测相当满意。相当大,因此我们对密封强度的预测相当满意。相关回归相关回归-22相关性相关性(r):关系的关系的“强度强度”相关性 r:范
16、围从范围从 1 到到 1r =1=完全负(或反)相关r =0=无线性关系r =+1=完全正相关测量关系的测量关系的“强度强度”(密切)(密切)R2 等于等于 r 的平方的平方称为称为 Pearson 相关系数相关系数相关回归相关回归-23相关性相关性(r):关系的关系的“强度强度”(续)续)注意:如果斜率注意:如果斜率 b1=0,则则 r=0。否则斜率值否则斜率值 b1 和相关性值和相关性值 r 之间没有之间没有关系。关系。XYXYXYXYXYXY强正相关 r =.95R2=90%中等正相关 r=.70R2=49%不相关 r=.006R2=.0036%其它模式-无线性关系 r=-.29R2=8
17、%中等负相关r=-.73R2=53%强负相关r=-.90R2=81%相关回归相关回归-24练习:求相关系数练习:求相关系数(r)目的:练习使用目的:练习使用 Minitab 求相关系数并对其进行解释。求相关系数并对其进行解释。时间:时间:2 分钟分钟数据:打开文件数据:打开文件FoilSeal.mtw要求:使用要求:使用 Minitab 求密封强度和压盘温度之间的相关性:求密封强度和压盘温度之间的相关性:Stat Basic Statistics Correlation1.r 的值是多少?的值是多少?2.用计算器检查拟合图的用计算器检查拟合图的 r2=R-Sq 是否成立。是否成立。相关回归相关
18、回归-25练习:答案练习:答案问题 1:Minitab 输出问题 2r2=(.913)2=.834相关性相关性(Pearson)密封强度(g/cm2)和温度(F)之间的相关性=0.913,P 值=0.000相关回归相关回归-26小心!相关性并不表示因果关系小心!相关性并不表示因果关系当散点图上的两个变量显示某种关系时,则称它们是相关的,当散点图上的两个变量显示某种关系时,则称它们是相关的,但这并不一定表示它们有因果关系。相关性表示两件事情一起变化相关性表示两件事情一起变化因果关系表示一个变量的变化将因果关系表示一个变量的变化将造成造成另一个变量的变化另一个变量的变化示例 1 两个变量都受第三个
19、变量年龄的影响40 42 44 46 48 50 52 54 56 58024681012身高(英寸)读书水平(年级)相关回归相关回归-27小心!相关性并不表示因果关系小心!相关性并不表示因果关系(续)续)示例 2发票周期部门 A部门 B发票上的错误数原始分层发票上的错误数将图分层后,我们看不到相关性,而是看到了由于部门的不同造成的差异相关回归相关回归-28检查 X 变量的范围如果如果 X 的范围过窄,可能会看不出关系。的范围过窄,可能会看不出关系。在正常的情况下,雇员有在正常的情况下,雇员有 20 至至 30 名,名,这种情况的数据虽然较多,该小组最初却这种情况的数据虽然较多,该小组最初却省
20、略这种情况以外的数据。省略这种情况以外的数据。按其它离散变量分层将图分层后,我们看到了原本不明显的将图分层后,我们看到了原本不明显的关系。关系。小心!没有相关性并不表示没有因果关系小心!没有相关性并不表示没有因果关系如果在您希望看到一种关系时,却没有关系出现:如果在您希望看到一种关系时,却没有关系出现:职员数候时间电话等2030AB发票上的错误数部门发票周期相关回归相关回归-29应用到您的企业应用到您的企业目的:练习将回归应用到您的企业。目的:练习将回归应用到您的企业。时间:时间:5 分钟分钟要求:思考您的企业中可能彼此相关的两个变量(连续、离散计数要求:思考您的企业中可能彼此相关的两个变量(
21、连续、离散计数或离散百分比)。或离散百分比)。1.X 是哪一个变量?(输入变量是哪一个变量?(输入变量可望用来控制或处理它以影响可望用来控制或处理它以影响 Y,或者至少使用它来预测或者至少使用它来预测 Y)2.Y 是哪一个变量?(输出变量是哪一个变量?(输出变量对您的客户而言很重要的测量数据)对您的客户而言很重要的测量数据)3.总结这些变量:总结这些变量:X:_数据类型:数据类型:_ 是否可控制?是否可控制?_Y:_数据类型:数据类型:_4.回归方程式对您是否有用?回归方程式对您是否有用?5.要求要求自愿者向整个组发表自己的看法。自愿者向整个组发表自己的看法。相关回归相关回归-30使用要求符变
22、量使用要求符变量(用于离散用于离散 X)xxxxxxxxxxxxxxxXiYXaXbXc回归类型回归类型曲线(一个曲线(一个 X)XY简单的线性(一个简单的线性(一个 X)XY多重(两个或更多多重(两个或更多 X)YX2X1逻辑(用于离散逻辑(用于离散 Y)10%是X曲线(两个或更多曲线(两个或更多 X)YX1X2相关回归相关回归-31回归假设:残差回归假设:残差关键的回归假设基于残差(而不是原始数据)的属性。关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差:我们假设残差:与与 X 无关无关稳定而且独立,稳定而且独立,不随时间变化不随时间变化是常量,不随预测的是常量,不随预测的 Y
23、 增加增加而增大而增大是正态的是正态的(钟形的),钟形的),平均值为平均值为 0残差2残差7相关回归相关回归-32使用使用 Minitab:回归分析回归分析数据:打开文件FoilSeal.mtw 第一部分:拟合方程式并检查残差1.使用 Minitab 对密封强度和压盘温度进行对密封强度和压盘温度进行回归分析。Stat Regression RegressionResponse=Minitab 的 Y 名称Predictor=Minitab 的 X 名称如果没有异常值,值范围从-3 到 3将 X 变量放在此处相关回归相关回归-33使用使用 Minitab:回归分析(续)回归分析(续)这些变量将存
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计教材3.2 相关关系与回归分析 统计 教材 3.2 相关 关系 回归 分析
限制150内