欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    统计教材3.2 相关关系与回归分析.ppt

    • 资源ID:82955472       资源大小:1.37MB        全文页数:65页
    • 资源格式: PPT        下载积分:16金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要16金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    统计教材3.2 相关关系与回归分析.ppt

    相关回归相关回归-1相关关系与回归分析相关关系与回归分析(Correlation&RegressionCorrelation&Regression)相关回归相关回归-2您将如何处理下述情况?您将如何处理下述情况?您的公司生产高级冰淇淋。您们正着手减少装料量不足的纸盒数您的公司生产高级冰淇淋。您们正着手减少装料量不足的纸盒数量。装料机有一个称重单元量。装料机有一个称重单元,可跟踪流过桶的冰淇淋量。如果可跟踪流过桶的冰淇淋量。如果计算机控制器测定到装量过低计算机控制器测定到装量过低,它将向送料螺杆马达发出一个它将向送料螺杆马达发出一个命令命令,以增加送料螺杆每分钟转数以增加送料螺杆每分钟转数(rpm)。如果装量过高如果装量过高,计算计算机将发出命令降低送料螺杆的每分钟转速机将发出命令降低送料螺杆的每分钟转速(rpm)。您怀疑计算机您怀疑计算机控制器没有合适地指定装量指标控制器没有合适地指定装量指标,它是纸盒装料量不足的原因。它是纸盒装料量不足的原因。如果您可以找到送料螺杆转速和已装料的纸盒重量之间的关系如果您可以找到送料螺杆转速和已装料的纸盒重量之间的关系,您就可以用它来更改控制器程序并减少装料量不足的纸盒数量。您就可以用它来更改控制器程序并减少装料量不足的纸盒数量。1.您需要什么数据?您需要什么数据?2.您应怎样显示它?您应怎样显示它?3.您怎样使用显示出的曲线来预测装料纸盒的重量?您怎样使用显示出的曲线来预测装料纸盒的重量?相关回归相关回归-3X(输入)Y(输出)请回忆前面学习的基础课程:散点图显示输出(Y)是如何随输入(X)变化的。如果 X 与 Y 没有关系,这些点将随机分布在图上。散点图:显示散点图:显示 X 和和 Y 之间的关系之间的关系相关回归相关回归-4目的:目的:练习识别输入和输出变量并练习使用散点图。时间:时间:2 分钟要求:要求:填写图中的标签,完成表格,并回答有关冰淇淋数据的问题。练习:识别练习:识别 X 和和 Y202530260270280290300X=Y=样本样本送料螺杆送料螺杆纸盒重量纸盒重量 (每分钟转数)每分钟转数)(克)克).23 28 290 24 20 25925 26 280相关回归相关回归-5练习:答案练习:答案问题 1:特性问题 2:每分钟 27 转时的重量大约大约 285 克。克。相关回归相关回归-6回归回归:量化:量化 X 和和 Y 之间的关系之间的关系 0 1 2 3 4 5 6 7 8 91012345678X(输入)Y(输出)回归分析生成一条直线,量化回归分析生成一条直线,量化 X 和和 Y 之间的关系。之间的关系。回归中回归中 X 或或 Y 的合适数据的合适数据数据类型数据类型Minitab格式格式离散序数离散序数秩 1,2,.,5数字离散计数或百分比离散计数或百分比缺陷数缺陷率%数字连续连续数量周期数字相关回归相关回归-7量化关系的好处量化关系的好处预测 方程式代入方程式代入 X 值可用于预测未来的值可用于预测未来的 Y控制如果如果 X 可控制,您可操纵过程情况以避免不理想的结果并可控制,您可操纵过程情况以避免不理想的结果并/或产生理想的结果或产生理想的结果相关回归相关回归-8小心!超出数据范围的外推是危险的小心!超出数据范围的外推是危险的203040250300350送料螺杆转速(rpm)纸盒重量(克)?X 30 时 X 和 Y 之间是什么关系?数据范围相关回归相关回归-9外推法示例外推法示例一位教授要他的学生解释回归线上标记为一位教授要他的学生解释回归线上标记为“星号星号”的点。下面是最好的答案:的点。下面是最好的答案:“很明显,您不能在一段为负数的时间内砍伐一棵树。很明显,您不能在一段为负数的时间内砍伐一棵树。”“树太小了,它可能在您砍它之前两秒钟就已倒下。树太小了,它可能在您砍它之前两秒钟就已倒下。”“这种尺寸的树,您用脚就可以踢倒它。这种尺寸的树,您用脚就可以踢倒它。”正确答案是什么呢?正确答案是什么呢?树的直径(英寸)用链锯砍伐树木的时间(秒)相关回归相关回归-10051015051015XY残差2残差7观测的 Y(实际的 Y)预测的 Y(拟合的或预计的 Y位于直线上)使直线贴近数据使直线贴近数据:残差残差相关回归相关回归-11如何确定回归方程式如何确定回归方程式最小二乘法(最小平方法)要确定回归方程式要确定回归方程式,应使所有点到应使所有点到直线的距离的平方总和最小。直线的距离的平方总和最小。找到一条直线找到一条直线,使每个数据使每个数据点到该直线的点到该直线的垂直距离的平方 尽可能小(尽可能小(“最小最小”)。)。换言之换言之使所有残差的平方最小。使所有残差的平方最小。回归使用最小二乘法来确定最佳直线:回归使用最小二乘法来确定最佳直线:使用数据(使用数据(X 和和 Y 两种值)来求两种值)来求 b0 和和 b1 值。值。b0 和和 b1 值建立方程式。值建立方程式。使用使用 Minitab。最小二乘法最小二乘法1.测量点到直线的垂直距离2.取这些数字的平方3.将平方距离相加4.查找总和最小的直线相关回归相关回归-12关于术语的一点注释关于术语的一点注释下列术语可经常交换使用:下列术语可经常交换使用:回归方程式*回归线回归线预测方程式预测方程式预测线预测线拟合直线或拟合*模型模型相关回归相关回归-13练习练习 1:绘制一个含回归线的图绘制一个含回归线的图目的:练习使用目的:练习使用 Minitab 绘制一个含回归线的图,并解绘制一个含回归线的图,并解释结果。释结果。时间:时间:10 分钟分钟数据:数据:打开文件打开文件FoilSeal.mtw背景:您的公司在背景:您的公司在 8 盎司塑料杯中装满果汁,计划在自盎司塑料杯中装满果汁,计划在自动贩卖机中销售。您负责密封过程。一条比杯子直径稍动贩卖机中销售。您负责密封过程。一条比杯子直径稍宽的金属薄片被拉过杯子。下侧涂有热敏粘合剂。装有宽的金属薄片被拉过杯子。下侧涂有热敏粘合剂。装有热压盘的压力机下落,使粘合剂生效,并与杯子边缘接热压盘的压力机下落,使粘合剂生效,并与杯子边缘接触。杯子边缘多余的薄片被剪掉。触。杯子边缘多余的薄片被剪掉。相关回归相关回归-14练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)您试图减少有缺陷的密封数目;并且想知道密封强度与压盘您试图减少有缺陷的密封数目;并且想知道密封强度与压盘温度是否有关。当前的操作规格允许压盘温度在华氏温度是否有关。当前的操作规格允许压盘温度在华氏 200 到到 300 度度(F)之间变化。对这种高产量的过程每半小时之间变化。对这种高产量的过程每半小时记录一次测量值。每天记录一次测量值。每天 12 小时一班(从上午小时一班(从上午 6 点到下午点到下午 6点),从周一到周五。您获得了过去两周内每点),从周一到周五。您获得了过去两周内每 30 分钟时间分钟时间间隔的密封强度间隔的密封强度(g/cm2)和压盘温度和压盘温度(F)数据数据(n=240):相关回归相关回归-15练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)要求:回答下列问题:回答下列问题:1.X 是什么,它是什么类型的数据?它是否可控制?2.Y 是什么,它是什么类型的数据?3.使用 Minitab 绘制一个含回归线的散点图:Stat Regression Fitted Line Plot相关回归相关回归-16练习练习 1:绘制一个含回归线的图(续):绘制一个含回归线的图(续)4.截距是多少?截距是多少?斜率是多少?斜率是多少?该该斜率表示什么含义?斜率表示什么含义?5.当压盘温度为当压盘温度为 250 F 时,您预期可达到多大的密封强度?时,您预期可达到多大的密封强度?6.如果理想的密封强度是如果理想的密封强度是 205 g/cm2,您应保持压盘加热的温度是多,您应保持压盘加热的温度是多少?少?7.R-sq 值是多少?值是多少?相关回归相关回归-17练习练习 1:答案:答案1:X=温度温度(F);连续数据;它是可控制的连续数据;它是可控制的2:Y=密封强度密封强度(g/cm2);连续数据连续数据3:Minitab 输出:输出:200250300175185195205215225温度(F)密封强度(g/cm2)Y=101.611+0.354237XR-Sq=83.3%回归图相关回归相关回归-18练习练习 1:答案(续):答案(续)4:截距截距=101.61;斜率斜率=0.35温度每增加一度,可以预期密封强度平均增加温度每增加一度,可以预期密封强度平均增加.35 g/cm2 或或(通过增加温度通过增加温度 10 度,平均密封强度增加度,平均密封强度增加 3.5 g/cm2)。)。5:压盘加热到压盘加热到 250 F 平均可获得平均可获得 189.1 g/cm2 的密封强度的密封强度(=101.61+.35 x 250)。6:利用回归方程式求利用回归方程式求 X。205=101.61+.35(X)表示表示 X=295 F将压盘加热到将压盘加热到 295 F 可获得可获得 205 g/cm2 的密封强度的密封强度7:R-sq=83.3%(见下页)见下页)相关回归相关回归-19R 平方(平方(R-sq 或或 R2):):可解释变化百分比可解释变化百分比(%)R 平方=R-sq测量测量 Y 值变化的百分比,该变化通过与值变化的百分比,该变化通过与 X 的线性关系来解释。的线性关系来解释。范围从范围从 0 到到 1(=0%到到 100%)尝试使用下面的图理解尝试使用下面的图理解可解释的变化。*相关回归相关回归-20讨论:解释讨论:解释 R 平方平方(R2)1.从密封强度数据求得的从密封强度数据求得的 R-Sq 值是多少?值是多少?2.它表示什么含义?它表示什么含义?3.您对压盘温度加热到您对压盘温度加热到 250 F 时所预测的密封强度把时所预测的密封强度把握有多大?握有多大?相关回归相关回归-21讨论:答案讨论:答案1.从密封强度数据求得的从密封强度数据求得的 R-Sq 值是多少?值是多少?83.3%2.它表示什么含义?它表示什么含义?密封强度几乎有密封强度几乎有 85%的变化都可通过压盘温度来解释。大的变化都可通过压盘温度来解释。大约有约有 15%的变化是无法解释的。的变化是无法解释的。3.您对压盘温度加热到您对压盘温度加热到 250 F 时所预测的密封强度把握有多大时所预测的密封强度把握有多大?由于由于 250 F 在研究的数据范围内(我们无需外推),而且在研究的数据范围内(我们无需外推),而且由于由于 R2 相当大,因此我们对密封强度的预测相当满意。相当大,因此我们对密封强度的预测相当满意。相关回归相关回归-22相关性相关性(r):关系的关系的“强度强度”相关性 r:范围从范围从 1 到到 1r =1=完全负(或反)相关r =0=无线性关系r =+1=完全正相关测量关系的测量关系的“强度强度”(密切)(密切)R2 等于等于 r 的平方的平方称为称为 Pearson 相关系数相关系数相关回归相关回归-23相关性相关性(r):关系的关系的“强度强度”(续)续)注意:如果斜率注意:如果斜率 b1=0,则则 r=0。否则斜率值否则斜率值 b1 和相关性值和相关性值 r 之间没有之间没有关系。关系。XYXYXYXYXYXY强正相关 r =.95R2=90%中等正相关 r=.70R2=49%不相关 r=.006R2=.0036%其它模式-无线性关系 r=-.29R2=8%中等负相关r=-.73R2=53%强负相关r=-.90R2=81%相关回归相关回归-24练习:求相关系数练习:求相关系数(r)目的:练习使用目的:练习使用 Minitab 求相关系数并对其进行解释。求相关系数并对其进行解释。时间:时间:2 分钟分钟数据:打开文件数据:打开文件FoilSeal.mtw要求:使用要求:使用 Minitab 求密封强度和压盘温度之间的相关性:求密封强度和压盘温度之间的相关性:Stat Basic Statistics Correlation1.r 的值是多少?的值是多少?2.用计算器检查拟合图的用计算器检查拟合图的 r2=R-Sq 是否成立。是否成立。相关回归相关回归-25练习:答案练习:答案问题 1:Minitab 输出问题 2r2=(.913)2=.834相关性相关性(Pearson)密封强度(g/cm2)和温度(F)之间的相关性=0.913,P 值=0.000相关回归相关回归-26小心!相关性并不表示因果关系小心!相关性并不表示因果关系当散点图上的两个变量显示某种关系时,则称它们是相关的,当散点图上的两个变量显示某种关系时,则称它们是相关的,但这并不一定表示它们有因果关系。相关性表示两件事情一起变化相关性表示两件事情一起变化因果关系表示一个变量的变化将因果关系表示一个变量的变化将造成造成另一个变量的变化另一个变量的变化示例 1 两个变量都受第三个变量年龄的影响40 42 44 46 48 50 52 54 56 58024681012身高(英寸)读书水平(年级)相关回归相关回归-27小心!相关性并不表示因果关系小心!相关性并不表示因果关系(续)续)示例 2发票周期部门 A部门 B发票上的错误数原始分层发票上的错误数将图分层后,我们看不到相关性,而是看到了由于部门的不同造成的差异相关回归相关回归-28检查 X 变量的范围如果如果 X 的范围过窄,可能会看不出关系。的范围过窄,可能会看不出关系。在正常的情况下,雇员有在正常的情况下,雇员有 20 至至 30 名,名,这种情况的数据虽然较多,该小组最初却这种情况的数据虽然较多,该小组最初却省略这种情况以外的数据。省略这种情况以外的数据。按其它离散变量分层将图分层后,我们看到了原本不明显的将图分层后,我们看到了原本不明显的关系。关系。小心!没有相关性并不表示没有因果关系小心!没有相关性并不表示没有因果关系如果在您希望看到一种关系时,却没有关系出现:如果在您希望看到一种关系时,却没有关系出现:职员数候时间电话等2030AB发票上的错误数部门发票周期相关回归相关回归-29应用到您的企业应用到您的企业目的:练习将回归应用到您的企业。目的:练习将回归应用到您的企业。时间:时间:5 分钟分钟要求:思考您的企业中可能彼此相关的两个变量(连续、离散计数要求:思考您的企业中可能彼此相关的两个变量(连续、离散计数或离散百分比)。或离散百分比)。1.X 是哪一个变量?(输入变量是哪一个变量?(输入变量可望用来控制或处理它以影响可望用来控制或处理它以影响 Y,或者至少使用它来预测或者至少使用它来预测 Y)2.Y 是哪一个变量?(输出变量是哪一个变量?(输出变量对您的客户而言很重要的测量数据)对您的客户而言很重要的测量数据)3.总结这些变量:总结这些变量:X:_数据类型:数据类型:_ 是否可控制?是否可控制?_Y:_数据类型:数据类型:_4.回归方程式对您是否有用?回归方程式对您是否有用?5.要求要求自愿者向整个组发表自己的看法。自愿者向整个组发表自己的看法。相关回归相关回归-30使用要求符变量使用要求符变量(用于离散用于离散 X)xxxxxxxxxxxxxxxXiYXaXbXc回归类型回归类型曲线(一个曲线(一个 X)XY简单的线性(一个简单的线性(一个 X)XY多重(两个或更多多重(两个或更多 X)YX2X1逻辑(用于离散逻辑(用于离散 Y)10%是X曲线(两个或更多曲线(两个或更多 X)YX1X2相关回归相关回归-31回归假设:残差回归假设:残差关键的回归假设基于残差(而不是原始数据)的属性。关键的回归假设基于残差(而不是原始数据)的属性。我们假设残差:我们假设残差:与与 X 无关无关稳定而且独立,稳定而且独立,不随时间变化不随时间变化是常量,不随预测的是常量,不随预测的 Y 增加增加而增大而增大是正态的是正态的(钟形的),钟形的),平均值为平均值为 0残差2残差7相关回归相关回归-32使用使用 Minitab:回归分析回归分析数据:打开文件FoilSeal.mtw 第一部分:拟合方程式并检查残差1.使用 Minitab 对密封强度和压盘温度进行对密封强度和压盘温度进行回归分析。Stat Regression RegressionResponse=Minitab 的 Y 名称Predictor=Minitab 的 X 名称如果没有异常值,值范围从-3 到 3将 X 变量放在此处相关回归相关回归-33使用使用 Minitab:回归分析(续)回归分析(续)这些变量将存储在工作表的 Fits1、Resi1 和 SRes1 列中;下一次回归将把它们标记为 Fits2、Resi2 和 SRes2。Minitab 的预测Y 或拟合 Y 的名称相关回归相关回归-34使用使用 Minitab:回归分析(续)回归分析(续)2.首先检查残差图。是否有问题,或这些假设有效?是否有问题,或这些假设有效?200250300-3-2-1012345温度(F)标准化残差残差对温度(F)(响应是密封(g/)50100150200-3-2-1012345观测顺序标准化残差残差对数据顺序(响应是密封(g/)180190200210-3-2-1012345拟合值标准化残差残差对拟合值(响应是密封(g/)相关回归相关回归-35使用使用 Minitab:回归分析(续)回归分析(续)-4-3-2-101234501020304050标准化残差频率残差的直方图(响应是密封(g/)-3-2-1012345-3-2-10123正态值标准化残差残差的正态概率图(响应是密封(g/)相关回归相关回归-36使用使用 Minitab:回归分析(续)回归分析(续)180190200210-3-2-1012345拟合值标准化残差残差对拟合值(响应是密封(g/)50100150200-3-2-1012345观测顺序标准化残差残差对数据顺序(响应是密封(g/)200250300-3-2-1012345温度(F)标准化残差残差对温度(F)(响应是密封(g/)如果只有一个 X 变量,这两个图中的模式将是相同的看起来有一个模糊的模式(波浪形或循环)。与时间有关的什么变量可能造成这种现象?尽量找到它并将它添加到回归分析中。稍后我们将说明如何识别此变量。变化随温度升高略有增大。这看起来似乎是合理的,但固定变异数的假设并不完全成立。您可以尝试对 Y 求平方根进行变换。我们将在本节稍后介绍此方法。相关回归相关回归-37使用使用 Minitab:回归分析(续)回归分析(续)问题 2 的答案(续)-3-2-1012345-3-2-10123正态值标准化残差残差的正态概率图(反应是密封(g/)-4-3-2-101234501020304050标准化残差频率残差直方图(响应是密封(g/)有一条直线几乎通过所有的点,这表示残差呈正态分布。仔细检查极端数据点。确定是将它们留在那里还是将它们去掉。残差看起来似乎为正态分布(好)。相关回归相关回归-38使用使用 Minitab:回归分析(续)回归分析(续)下几步下几步A.尝试找到另一个与时间有关的变量(如湿度、压力、每日设尝试找到另一个与时间有关的变量(如湿度、压力、每日设置等)并进行多重回归分析。置等)并进行多重回归分析。B.尝试进行平方根变换,看看是否它改进了残差的不变性。尝试进行平方根变换,看看是否它改进了残差的不变性。C.检查异常值(即大的残差)。检查异常值(即大的残差)。为了教学的目的,我们先进行为了教学的目的,我们先进行#C,然后进行然后进行#A 和和#B。相关回归相关回归-39使用使用 Minitab:回归分析(续)回归分析(续)3.检查工作表,找出存储的残差和预测的检查工作表,找出存储的残差和预测的 Y。将它们与方程式和图将它们与方程式和图中显示的实际数据联系起来。中显示的实际数据联系起来。a.当压盘温度为当压盘温度为 208时预测的密封强度是多少?时预测的密封强度是多少?b.检查第一行:是否残差检查第一行:是否残差=观测的观测的 Y 预测的预测的 Y?c.为何第为何第 11 行和第行和第 12 行的残差不同(尽管每行中的行的残差不同(尽管每行中的 X=295)?)?标准化残差的平均值应为 0,范围从-3 到+3观测的 YX预测的 Y相关回归相关回归-40使用使用 Minitab:回归分析(续)回归分析(续)密封强度密封强度=101.61+0.35(温度)温度)=拟合值拟合值=预测的值预测的值相关回归相关回归-41不正常的观测数据不正常的观测数据Minitab 标记不正常的观测数据,这样您可以:标记不正常的观测数据,这样您可以:检查它们是否有错误检查它们是否有错误研究是否发生了不正常的事件研究是否发生了不正常的事件去掉这些数据重新运行回归分析,以确定系数(去掉这些数据重新运行回归分析,以确定系数(b0 和和 b1)变化有变化有多大多大如果系数变化很大,您必须确定是否将这些不正常的观测数据如果系数变化很大,您必须确定是否将这些不正常的观测数据用于建立回归方程式用于建立回归方程式回归线应清楚地表示回归线应清楚地表示 X 和和 Y 之间的关系之间的关系清除某些观测数据可能减小清除某些观测数据可能减小 X 数据的范围数据的范围如果不清除某些真正的异常值,可能会不合理地影响回归如果不清除某些真正的异常值,可能会不合理地影响回归方程式方程式相关回归相关回归-42影响较大的观测数据影响较大的观测数据影响较大的点通常位于影响较大的点通常位于 X 轴的任一端轴的任一端回归线取决于这些影响较大的点是保留在数据集中还是从数据集中除回归线取决于这些影响较大的点是保留在数据集中还是从数据集中除去去05101520250510152025雇员数AB包含点 A 和 B 所拟合的最佳直线,R-sq=11%忽略点 A 和 B 所拟合的最佳直线,R-sq=0%错误雇员相关回归相关回归-43使用使用 Minitab:回归分析(续)回归分析(续)第二部分:处理不正常的观测数据第二部分:处理不正常的观测数据(续)续)7a.将 C5(Y)复制到 C10,并将它命名为 Ymissing。编辑 C10 观测数据观测数据 1、49、98、121、122、145、169、193:用用*替换这些值(将它们替换这些值(将它们标记为缺少的值)。标记为缺少的值)。7b.用 Ymissing 重新进行回归分析。(关闭所有的残差图)。除去影响较大的观测数据的方程式 N=232200250300175185195205215225温度(F)密封(g/cm2)Y=99.1332+0.362986XR-Sq=81.1%包含所有数据的方程式(N=240)Y=101.6+.35XR-Sq=83.4%比较相关回归相关回归-44使用使用 Minitab:回归分析(续)回归分析(续)第二部分:处理不正常的观测数据第二部分:处理不正常的观测数据(续)续)7c.重叠两条回归线:重叠两条回归线:Graph Plot (Fits1 vs.Temp)&(Fits2 vs.Temp)Frame Multiple plots overlaygraphs on same page7d.File Save Current Worksheet As Seal2结论:右侧结论:右侧(温度温度 250)的预测值没有很大的变化。的预测值没有很大的变化。8 个有影响的点将左侧个有影响的点将左侧(温度温度 Probability Plot (选择选择 RES1 或或 SRES1;或者或者 works。)。)b.残差是否为正态分布?残差是否为正态分布?结论是,残差是正态分布。尾部有几个我们已研究过的异常值。是,残差是正态分布。尾部有几个我们已研究过的异常值。-3-2-101234 1 51020304050607080909599数据百分比 SRES1 的正态概率图ML 预计平均值:StDev:0.00023650.999349有些人更喜欢此图,因为它包含置信区。您可以看到有 95%的数据位于置信区内。使用使用 Minitab:回归分析(续)回归分析(续)相关回归相关回归-46区域区域 1:用于计算个别系数的值:用于计算个别系数的值结论结论b0(截距)远大于截距)远大于 0通常,因为通常,因为 X 总不为总不为 0,所以有关截距的信息不象有关斜率的信息那样令人感,所以有关截距的信息不象有关斜率的信息那样令人感兴趣兴趣因此它没有实际意义因此它没有实际意义b1(斜率)远大于斜率)远大于 0X(温度)与温度)与 Y(密封强度)有明显的线性关系密封强度)有明显的线性关系Minitab 输出:区域输出:区域 1以下两种情况的 P 值H0:b0(截距)=0 不太令人感兴趣H0:b1(斜率)=0 很令人感兴趣假设检验Predictor Coef StDev T P Constant 101.61 2.808 36.18 0.000Temp(F)0.35424 0.01027 34.48 0.000相关回归相关回归-47解释回归中的解释回归中的 P 值值对于模型中的每个对于模型中的每个 Xi 项:项:虚假设:虚假设:H0i:斜率斜率=0 (或)(或)当当 X 变化时变化时 Y 没有变化没有变化 (或)或)Y 与与 X 之间的关系方程式是之间的关系方程式是 Y=替代假设:替代假设:Ha:斜率斜率 0(或)或)Y 随随 X 变化而变化变化而变化(或)或)Y 与与 X 之间的关系方程式是之间的关系方程式是:相关回归相关回归-48解释回归中的解释回归中的 P 值值(续)续)如果如果 pi .05不要拒绝不要拒绝 H0没有足够的证据说明统计上存在显著的斜率没有足够的证据说明统计上存在显著的斜率如果存在真实的斜率,则变化太大或样品数量太小,以致无如果存在真实的斜率,则变化太大或样品数量太小,以致无法检测到它法检测到它 如果如果 pi Regression Regression(使用原始的 Y Seal g/cm2)Options:给定的 X 值相关回归相关回归-53使用使用 Minitab:回归分析(续)回归分析(续)我们 95%确信在压盘温度为 275时,198.5 到 199.6 包含密封强度的最佳拟合(估计)我们 95%确信在压盘温度为 275时,密封强度将在 190.7 和 207.3 g/cm2 之间预测值 拟合 标准偏差拟合 95.0%CI 95.0%PI 199.027 0.272 (198.490,199.563)(190.746,207.307)Minitab 输出(您必须记住您选择的 X 值本例中 X=275)相关回归相关回归-54使用使用 Minitab:回归分析(续)回归分析(续)第四部分:计算置信区间和预测区间(续)9b.计算包含置信区间和预测区间的拟合直线图计算包含置信区间和预测区间的拟合直线图Stat Regression Fitted Line Plot(使用原始 Y Seal g/cm2)Options (同时选择置信区和预测区)200250300165175185195205215225温度(F)密封强度(g/cm2)Y=101.611+0.354237XR-Sq=83.3%回归95%CI95%PI 回归图相关回归相关回归-55小心!应始终将数据绘制成图小心!应始终将数据绘制成图没有绘制数据,就不要进行回归分析没有绘制数据,就不要进行回归分析。示例:四个示例:四个 X,Y 数据集数据集每个有相同的汇总统计数据每个有相同的汇总统计数据相同的相同的 X 平均值平均值相同的相同的 Y 平均值平均值相同的相同的 r(相关性)相关性)每个有相同的回归方程式每个有相同的回归方程式Y=3.0+0.5X相关回归相关回归-56小心!应始终将数据绘制成图小心!应始终将数据绘制成图(续)续)示例:四个示例:四个 X,Y 数据集数据集(续)续)相同的回归方程相同的回归方程 Y=3+.5X四种完全不同的关系。直线模型最能代表哪一个数据集?四种完全不同的关系。直线模型最能代表哪一个数据集?05101520051015ABCD本图中的极端点可能不是真实的,否则它可能扩大了数据的范围相关回归相关回归-57法则法则 将数据绘制成图将数据绘制成图“图形的优点在于可清楚、准确而且有效地表达复杂的意念图形的优点在于可清楚、准确而且有效地表达复杂的意念它它 可可以在最短的时间、用最少的语言、在最小的空间中给读者提供最多的以在最短的时间、用最少的语言、在最小的空间中给读者提供最多的意念。意念。”Edward R.Tufte用图来:用图来:研究研究分析分析报告结果报告结果相关回归相关回归-58使用使用 Minitab:回归分析(续)回归分析(续)第五部分:检查原始数据图第五部分:检查原始数据图返回到先前开始的数据分析返回到先前开始的数据分析10.绘制原始数据图(本页和下页显示这些图)。本页和下页显示这些图)。在进行回归分析在进行回归分析之前之前了解此信息有用吗?了解此信息有用吗?200250300010203040温度(F)频率温度(F)直方图直方图形状无需是正态的175185195205215225010203040密封强度(g/cm2)频率密封强度(g/cm2)直方图相关回归相关回归-59使用使用 Minitab:回归分析(续)回归分析(续)按“星期几”分层的散点图。我们没有看出任何模式。星期一星期二星期三星期四星期五200250300175185195205215225温度(F)密封强度(g/cm2)相关回归相关回归-60使用使用 Minitab:回归分析(续)回归分析(续)第五部分:检查原始数据图第五部分:检查原始数据图(续)续)X 和和 Y 变量是按全部变量是按全部 10 天内天内 30 分钟的时间增量(分钟的时间增量(12 小时一班,有小时一班,有 24 个个时段)绘制的。它显示这两个变量如何随一天各个时段发生变化。什么因素时段)绘制的。它显示这两个变量如何随一天各个时段发生变化。什么因素造成这种形状?压盘缓慢地加热,最后稳定在造成这种形状?压盘缓慢地加热,最后稳定在 300。可能应该花更多精力来可能应该花更多精力来控制压盘温度,以达到理想的密封强度并减小变化。回归分析向我们显示出控制压盘温度,以达到理想的密封强度并减小变化。回归分析向我们显示出这种关系。这种关系。0510152025200250300时段温度(F)0510152025175185195205215225时段密封强度(g/cm2)相关回归相关回归-61使用使用 Minitab:回归分析回归分析(续)续)按时间顺序绘制的分层残差图显示与不同日子相关的另一个变量影响按时间顺序绘制的分层残差图显示与不同日子相关的另一个变量影响了结果。它可能是压力、湿度、每日设置等。应收集其它数据并并入了结果。它可能是压力、湿度、每日设置等。应收集其它数据并并入回归分析中,以帮助预测密封强度。回归分析中,以帮助预测密封强度。星期一星期二星期三星期四星期五50100150200-3-2-1012345指数SRES1相关回归相关回归-62回顾假设回顾假设在回归分析中:在回归分析中:所有假设都是关于残差的所有假设都是关于残差的没有对没有对 X 或或 Y 作假设作假设X 和和 Y 不不须是:须是:钟形的(正态)钟形的(正态)稳定的(一段时间)稳定的(一段时间)*随机的随机的无关的(实际上我们认为无关的(实际上我们认为 X 与与 Y 是相关的)是相关的)相关回归相关回归-63警告、假设和学习要点的总结页警告、假设和学习要点的总结页进行回归分析之前先绘制数据进行回归分析之前先绘制数据残差需要显示某些属性,才可正确地进行回归分析残差需要显示某些属性,才可正确地进行回归分析将输入过程数据代入回归方程式,可用于预测(或者可能处理)输将输入过程数据代入回归方程式,可用于预测(或者可能处理)输出数据出数据相关回归相关回归-64回归过程的五个步骤:概述回归过程的五个步骤:概述下面概述进行简单线性回归的过程下面概述进行简单线性回归的过程(一个输入或(一个输入或 X 变量):变量):观察图形观察描述性统计数据线性或曲线?一个 X 还是多个 X?是否进行变换?离散 X,离散 Y?进行回归观察残差图观察不正常的观测数据观察 R-Sq观察 b 的 P 值1预测感兴趣的 X 值1.熟悉数据2.建立模型公式3.使模型拟合 数据5.报告结果并使用方程式4.检查模型和假设拟合得很好不适当的拟合相关回归相关回归-65复习回归复习回归本单元讲述了:本单元讲述了:回归是用于改进的高级工具回归是用于改进的高级工具回归分析通过使一条线与数据拟合,来量化一个输出测量回归分析通过使一条线与数据拟合,来量化一个输出测量(Y)与与一个或多个输入测量或过程测量一个或多个输入测量或过程测量(X)之间的关系之间的关系回归分析生成一个方程式,以:回归分析生成一个方程式,以:说明说明 Y 值的变化值的变化允许我们预测控制过程变量允许我们预测控制过程变量(X)的影响的影响允许我们对某些允许我们对某些 X 值预测未来的过程性能值预测未来的过程性能有助于识别影响有助于识别影响 Y 的几个关键的几个关键 X

    注意事项

    本文(统计教材3.2 相关关系与回归分析.ppt)为本站会员(hyn****60)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开