统计学教程相关与回归.pptx
会计学1统计学教程相关与回归统计学教程相关与回归基本内容基本内容基本内容基本内容 统计描述统计推断应 用计量资料 频数分布集中趋势离散趋势统计图表抽样误差、标准误 t u F检验正常值范围区间估计计数资料相对数及其标准化统计图表标准误2检验率的区间估计人口统计疾病统计相关与回归相关与回归 rb统计图表 t检验检验 第1页/共46页相关与回归3n n 医学上,许多现象之间都有相互联系,例医学上,许多现象之间都有相互联系,例医学上,许多现象之间都有相互联系,例医学上,许多现象之间都有相互联系,例如:身高与体重、父亲身高与儿子身高、如:身高与体重、父亲身高与儿子身高、如:身高与体重、父亲身高与儿子身高、如:身高与体重、父亲身高与儿子身高、体温与脉搏、产前检查与婴儿体重、乙肝体温与脉搏、产前检查与婴儿体重、乙肝体温与脉搏、产前检查与婴儿体重、乙肝体温与脉搏、产前检查与婴儿体重、乙肝病毒与乙肝等。病毒与乙肝等。病毒与乙肝等。病毒与乙肝等。n n 在这些有关系的现象中,它们之间联系的在这些有关系的现象中,它们之间联系的在这些有关系的现象中,它们之间联系的在这些有关系的现象中,它们之间联系的程度和性质也各不相同。程度和性质也各不相同。程度和性质也各不相同。程度和性质也各不相同。第2页/共46页相关与回归4变量之间的关系:变量之间的关系:变量之间的关系:变量之间的关系:n n乙肝病毒感染是前因,得了乙肝是后果,乙乙肝病毒感染是前因,得了乙肝是后果,乙乙肝病毒感染是前因,得了乙肝是后果,乙乙肝病毒感染是前因,得了乙肝是后果,乙肝病毒和乙肝之间是肝病毒和乙肝之间是肝病毒和乙肝之间是肝病毒和乙肝之间是因果关系因果关系因果关系因果关系;n n有的现象之间因果不清,只是有的现象之间因果不清,只是有的现象之间因果不清,只是有的现象之间因果不清,只是伴随关系伴随关系伴随关系伴随关系,例,例,例,例如丈夫的身高和妻子的身高之间,就不能说如丈夫的身高和妻子的身高之间,就不能说如丈夫的身高和妻子的身高之间,就不能说如丈夫的身高和妻子的身高之间,就不能说有因果关系。有因果关系。有因果关系。有因果关系。第3页/共46页相关与回归5 相关与回归就是用于研究和解释两相关与回归就是用于研究和解释两相关与回归就是用于研究和解释两相关与回归就是用于研究和解释两个变量之间个变量之间个变量之间个变量之间相互相互相互相互关系的。关系的。关系的。关系的。第4页/共46页相关与回归6主要内容主要内容第一节第一节第一节第一节 直线相关直线相关直线相关直线相关第二节第二节第二节第二节 直线回归直线回归直线回归直线回归第三节第三节第三节第三节 注意事项注意事项注意事项注意事项第5页/共46页第一节第一节 直线相关直线相关一、相关的类型一、相关的类型二、二、相关系数相关系数 相关系数的计算公式相关系数的计算公式 相关系数的假设检验相关系数的假设检验三、直线相关的意义三、直线相关的意义第6页/共46页n n为研究父亲与成年儿子身为研究父亲与成年儿子身高之间的关系,高之间的关系,皮尔逊测皮尔逊测量了量了10781078对父子的身高。对父子的身高。n n把把10781078对数字表示在坐标对数字表示在坐标上。上。X X上的数代表父亲身上的数代表父亲身高,高,Y Y上的数代表儿子的上的数代表儿子的身高身高n n10781078个点形成图形是一个个点形成图形是一个散点图。散点图。第7页/共46页相关与回归9散点图散点图散点图散点图 为了确定相关变量之间的关系,收集一为了确定相关变量之间的关系,收集一为了确定相关变量之间的关系,收集一为了确定相关变量之间的关系,收集一些数据,这些数据是成对的;然后在直角些数据,这些数据是成对的;然后在直角些数据,这些数据是成对的;然后在直角些数据,这些数据是成对的;然后在直角坐标系上描述这些点,这一组点集称为散坐标系上描述这些点,这一组点集称为散坐标系上描述这些点,这一组点集称为散坐标系上描述这些点,这一组点集称为散点图点图点图点图。第8页/共46页相关的类型相关的类型相关的类型相关的类型正相关正相关正相关正相关 负相关负相关负相关负相关 完全正相关完全正相关完全正相关完全正相关 完全负相关完全负相关完全负相关完全负相关 称零相关称零相关称零相关称零相关 第9页/共46页相关系数相关系数相关系数相关系数 样本的相关系数样本的相关系数样本的相关系数样本的相关系数用用用用r r表示表示表示表示n nr r的值在的值在的值在的值在-1-1和和和和1 1之间;之间;之间;之间;n n r r的绝对值越接近的绝对值越接近的绝对值越接近的绝对值越接近1 1,两变量的关联程度越强,两变量的关联程度越强,两变量的关联程度越强,两变量的关联程度越强,r r的绝对值越接近的绝对值越接近的绝对值越接近的绝对值越接近0 0,两变量的关联程度越弱;,两变量的关联程度越弱;,两变量的关联程度越弱;,两变量的关联程度越弱;n n正相关时,正相关时,正相关时,正相关时,r r值在值在值在值在0 0和和和和1 1之间,这时一个变量增加,之间,这时一个变量增加,之间,这时一个变量增加,之间,这时一个变量增加,另一个变量也增加;负相关时,另一个变量也增加;负相关时,另一个变量也增加;负相关时,另一个变量也增加;负相关时,r r值在值在值在值在-1-1和和和和0 0之之之之间,此时一个变量增加,另一个变量将减少。间,此时一个变量增加,另一个变量将减少。间,此时一个变量增加,另一个变量将减少。间,此时一个变量增加,另一个变量将减少。第10页/共46页相关系数的计算公式相关系数的计算公式相关系数的计算公式相关系数的计算公式第11页/共46页n n一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量雌三醇含量雌三醇含量与产儿的与产儿的与产儿的与产儿的体重体重体重体重有关;有关;有关;有关;n n于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。以预测产儿体重,以便对低出生体重进行预防。因此收集了因此收集了因此收集了因此收集了3131例待产妇例待产妇例待产妇例待产妇2424小时的尿,测量其中的小时的尿,测量其中的小时的尿,测量其中的小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。雌三醇含量,同时记录产儿的体重。n n问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间问尿中雌三醇含量与产儿体重之间相关系数相关系数相关系数相关系数是多是多是多是多少?是正相关还是负相关?少?是正相关还是负相关?少?是正相关还是负相关?少?是正相关还是负相关?n n分析问题:总体分析问题:总体分析问题:总体分析问题:总体-样本、样本、样本、样本、目的、变量、关系目的、变量、关系目的、变量、关系目的、变量、关系 第12页/共46页编号(1)尿雌三醇mg/24h(2产儿体重kg(3)编号(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 第13页/共46页X=534X=534Y=99.2Y=99.2 X X2 2=9876=9876 Y Y2 2=324.8=324.8XY=1750XY=1750N=31N=31第14页/共46页相关与回归16计算结果计算结果计算结果计算结果r的值说明了两个变量的值说明了两个变量X与与Y之间关联的密切之间关联的密切程度(绝对值大小)与关联的性质(正负号)。程度(绝对值大小)与关联的性质(正负号)。第15页/共46页问题:我们能否得出结论:问题:我们能否得出结论:问题:我们能否得出结论:问题:我们能否得出结论:待产妇尿中雌三醇待产妇尿中雌三醇待产妇尿中雌三醇待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是含量与产儿体重之间成正相关,相关系数是含量与产儿体重之间成正相关,相关系数是含量与产儿体重之间成正相关,相关系数是0.610.61。为什么?为什么?为什么?为什么?从计算结果可以知道,从计算结果可以知道,31例待产妇尿中雌三例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数醇含量与产儿体重之间程正相关,相关系数r0.61。第16页/共46页相关与回归18相关系数的假设检验相关系数的假设检验相关系数的假设检验相关系数的假设检验 n n上例中的相关系数上例中的相关系数上例中的相关系数上例中的相关系数r r等于等于等于等于0.610.61,说明了,说明了,说明了,说明了3131例样本中雌例样本中雌例样本中雌例样本中雌三醇含量与出生体重之间存在相关关系。但是,这三醇含量与出生体重之间存在相关关系。但是,这三醇含量与出生体重之间存在相关关系。但是,这三醇含量与出生体重之间存在相关关系。但是,这3131例只是例只是例只是例只是总体总体总体总体中的中的中的中的一个样本一个样本一个样本一个样本,由此得到的相关系数,由此得到的相关系数,由此得到的相关系数,由此得到的相关系数会存在抽样误差。会存在抽样误差。会存在抽样误差。会存在抽样误差。n n因为,总体相关系数因为,总体相关系数因为,总体相关系数因为,总体相关系数()为零时,由于抽样误差,为零时,由于抽样误差,为零时,由于抽样误差,为零时,由于抽样误差,从总体抽出的从总体抽出的从总体抽出的从总体抽出的3131例,其例,其例,其例,其r r可能不等于零。可能不等于零。可能不等于零。可能不等于零。n n这就要对这就要对这就要对这就要对r r进行假设检验,判断进行假设检验,判断进行假设检验,判断进行假设检验,判断r r不等于零是由于不等于零是由于不等于零是由于不等于零是由于抽抽抽抽样误差所致样误差所致样误差所致样误差所致,还是,还是,还是,还是两个变量之间确实存在相关关系两个变量之间确实存在相关关系两个变量之间确实存在相关关系两个变量之间确实存在相关关系。第17页/共46页相关与回归19相关系数的相关系数的假设检验假设检验,常用,常用t检验,选用检验,选用统计量统计量t的计算公式如下:的计算公式如下:=n-2 第18页/共46页相关与回归20 1.H0:=0 H1:0 2.=0.05 3.t=n-2=31-2=29 t=4.14t=4.144.确定P值:查t值表,t 0.05(29)=2.045 t=4.142.045,由t所推断的P值小于0.055.结论:按=0.05水准拒绝?,接受?,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。第19页/共46页直线相关的意义直线相关的意义直线相关的意义直线相关的意义n n在确实存在相关关系的前提下(?),如果在确实存在相关关系的前提下(?),如果r r的的绝对值越大,说明两个变量之间的关联程度越强,绝对值越大,说明两个变量之间的关联程度越强,那么,已知一个变量对预测另一个变量越有帮助;那么,已知一个变量对预测另一个变量越有帮助;如果如果r r绝对值越小,则说明两个变量之间的关系越绝对值越小,则说明两个变量之间的关系越弱,一个变量的信息对猜测另一个变量的值无多大弱,一个变量的信息对猜测另一个变量的值无多大帮助。帮助。n n一般说来,当样本量较大,并对一般说来,当样本量较大,并对r r进行假设检验,进行假设检验,有统计学意义时,有统计学意义时,r r的绝对值大于的绝对值大于0.70.7,则表示两个则表示两个变量高度相关;变量高度相关;r r的绝对值大于的绝对值大于0.40.4,小于等于,小于等于0.70.7时,则表示两个变量之间中度相关;时,则表示两个变量之间中度相关;r r的绝对值大的绝对值大于于0.20.2,小于等于,小于等于0.40.4时,则两个变量低度相关。时,则两个变量低度相关。第20页/共46页 雌三醇含量与产儿体重有相关雌三醇含量与产儿体重有相关关系:关系:n n如果知道了一位待产妇的尿如果知道了一位待产妇的尿雌三醇含量雌三醇含量n n能推断出产儿的体重吗?能推断出产儿的体重吗?n n能预测产儿的体重可能在什能预测产儿的体重可能在什么范围内?么范围内?n n这要用直线回归的方法来解这要用直线回归的方法来解决。决。第21页/共46页一、回归方程一、回归方程二、回归系数二、回归系数三、回归系数的假设检验三、回归系数的假设检验四、直线回归的应用四、直线回归的应用一个人的快乐,不是因为他拥有的多,而是因为他计较的少休息第22页/共46页相关与回归24一、回归方程一、回归方程二、回归系数二、回归系数三、回归系数的假设检验三、回归系数的假设检验四、直线回归的应用四、直线回归的应用第二节第二节 直线回归直线回归第23页/共46页相关与回归25n n知道了两个变量之间有直线相关关系,并且知道了两个变量之间有直线相关关系,并且知道了两个变量之间有直线相关关系,并且知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,一个变量的变化会引起另一个变量的变化,一个变量的变化会引起另一个变量的变化,一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,这时,如果它们之间存在准确、严格的关系,这时,如果它们之间存在准确、严格的关系,这时,如果它们之间存在准确、严格的关系,它们的变化可用函数方程来表示,叫它们是它们的变化可用函数方程来表示,叫它们是它们的变化可用函数方程来表示,叫它们是它们的变化可用函数方程来表示,叫它们是函数关系函数关系函数关系函数关系,它们之间的关系式叫,它们之间的关系式叫,它们之间的关系式叫,它们之间的关系式叫函数方程函数方程函数方程函数方程。第24页/共46页相关与回归26n n实际上,由于其它因素的干实际上,由于其它因素的干扰,许多双变量之间的关系扰,许多双变量之间的关系并不是严格的函数关系,不并不是严格的函数关系,不能用函数方程反映,为了区能用函数方程反映,为了区别于两变量间的函数方程,别于两变量间的函数方程,我们称这种关系式为我们称这种关系式为直线回直线回归方程归方程,这种关系为直线回,这种关系为直线回归。归。第25页/共46页相关与回归27直线回归就是用来描述一个变量如直线回归就是用来描述一个变量如何何依赖依赖于于另一个变量另一个变量其任务就是要找出一个变量随另一其任务就是要找出一个变量随另一个变量变化的直线方程,我们把这个变量变化的直线方程,我们把这个直线方程叫做个直线方程叫做直线回归方程直线回归方程。第26页/共46页相关与回归28 回归方程回归方程回归方程回归方程 abX=+式中的 是由自变量X推算应变量Y的估计值,a是回归直线在Y 轴上的截距,即X=0时的Y值;b为样本的回归系数,回归系数,即回归直线的斜率,表示当X变动一个单位时,Y平均变动b个单位。如果a、b已知,代入上式,就可求得直线回归方程。第27页/共46页相关与回归29y第28页/共46页相关与回归30回归系数回归系数回归系数回归系数根据上例的数据,求根据上例的数据,求待产妇尿中雌三醇含待产妇尿中雌三醇含量与产儿体重之间的回归方程。量与产儿体重之间的回归方程。从相关系数的计算中,已经求得:第29页/共46页这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程这就是我们求得的二者关系的回归方程第30页/共46页相关与回归32 回归直线的描绘回归直线的描绘回归直线的描绘回归直线的描绘 n n 根据求得的回归方程,可以在自变量根据求得的回归方程,可以在自变量根据求得的回归方程,可以在自变量根据求得的回归方程,可以在自变量X X的实测范围的实测范围的实测范围的实测范围内任取两个值,代入方程中,求得相应的两个内任取两个值,代入方程中,求得相应的两个内任取两个值,代入方程中,求得相应的两个内任取两个值,代入方程中,求得相应的两个Y Y值,值,值,值,以这两对数据找出对应的两个坐标点,将两点连接以这两对数据找出对应的两个坐标点,将两点连接以这两对数据找出对应的两个坐标点,将两点连接以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。为一条直线,就是该方程的回归直线。为一条直线,就是该方程的回归直线。为一条直线,就是该方程的回归直线。n n回归直线一定经过(回归直线一定经过(回归直线一定经过(回归直线一定经过(0 0,a a),(),(),(),()。)。)。)。n n这两点可以用来核对图线绘制是否正确。这两点可以用来核对图线绘制是否正确。这两点可以用来核对图线绘制是否正确。这两点可以用来核对图线绘制是否正确。第31页/共46页第32页/共46页相关与回归34=2.15+0.061X是否一定能说明雌三醇与产儿体重之间是否一定能说明雌三醇与产儿体重之间是否一定能说明雌三醇与产儿体重之间是否一定能说明雌三醇与产儿体重之间存在回归关系?存在回归关系?存在回归关系?存在回归关系?第33页/共46页相关与回归35n n与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。在着抽样误差问题。n n所以,需要对样本的回归系数所以,需要对样本的回归系数b b进行假设检验,以判断进行假设检验,以判断b b是否从回归系数是否从回归系数为零的总体中抽得。为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行为了判断抽样误差的影响,需对回归系数进行假设假设假设假设检验检验检验检验。总体的回归系数一般用。总体的回归系数一般用表示。表示。第34页/共46页相关与回归36采用采用采用采用t t检验方法检验方法检验方法检验方法其中Sy.x为各观察值Y到回归直线的距离的标准差,表示去除X影响后Y的变异程度,第35页/共46页第36页/共46页 回归系数的假设检验回归系数的假设检验回归系数的假设检验回归系数的假设检验n nHH0 0:=0=0 H H1 1:00n n=0.05=0.05n n计算统计量:计算统计量:计算统计量:计算统计量:t=4.14t=4.14;=31-2=29=31-2=29,t t 0.05(29)=0.05(29)=2.0452.045n n计算概率值计算概率值计算概率值计算概率值P P:P0.05P0.05n n做出推论:做出推论:做出推论:做出推论:按按按按 =0.05=0.05检验水准,拒绝检验水准,拒绝检验水准,拒绝检验水准,拒绝HH0 0,接受,接受,接受,接受HH1 1认为待产妇认为待产妇认为待产妇认为待产妇2424小时尿中雌三醇含量与产儿体重之间小时尿中雌三醇含量与产儿体重之间小时尿中雌三醇含量与产儿体重之间小时尿中雌三醇含量与产儿体重之间存在直线回归关系。存在直线回归关系。存在直线回归关系。存在直线回归关系。,第37页/共46页相关与回归39直线回归的应用直线回归的应用直线回归的应用直线回归的应用 n n描述两变量之间的依存关系:描述两变量之间的依存关系:描述两变量之间的依存关系:描述两变量之间的依存关系:通过回归系数通过回归系数的假设检验的假设检验,若认为两变量之间存在直线回归若认为两变量之间存在直线回归关系关系,则可用直线回归来描述。则可用直线回归来描述。n n利用回归方程进行预测利用回归方程进行预测利用回归方程进行预测利用回归方程进行预测 :把自变量代入回归:把自变量代入回归方程,对应变量进行估计,可求出应变量的方程,对应变量进行估计,可求出应变量的波动范围。例如,已知某待产妇的尿雌三醇波动范围。例如,已知某待产妇的尿雌三醇浓度,代入回归方程,再用区间估计的方法,浓度,代入回归方程,再用区间估计的方法,即可知道生产时,产儿的体重的范围。即可知道生产时,产儿的体重的范围。n n利用回归方程进行统计控制利用回归方程进行统计控制利用回归方程进行统计控制利用回归方程进行统计控制 :空气质量与汽空气质量与汽车数量车数量第38页/共46页相关与回归40 第三节第三节第三节第三节 应用时注意事项应用时注意事项应用时注意事项应用时注意事项一、注意事项一、注意事项 二、相关与回归的区别二、相关与回归的区别三、相关与回归的联系三、相关与回归的联系第39页/共46页相关与回归41应用直线相关与回归的注意事项应用直线相关与回归的注意事项应用直线相关与回归的注意事项应用直线相关与回归的注意事项 1.1.实际意义实际意义实际意义实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。无意义,用孩子的身高推测小树的高度则更加慌谬。2.2.相关关系相关关系相关关系相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素并不能使脚变大,而是涉及到第三个因素 年龄。当儿年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。下原来的鞋。第40页/共46页相关与回归423.利用散点图利用散点图对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。4.变量范围变量范围相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。第41页/共46页相关与回归43相关与回归的区别相关与回归的区别相关与回归的区别相关与回归的区别 1.1.意义意义意义意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。一种单向的关系。2.2.应用应用应用应用:研究两个变量的研究两个变量的相互关系相互关系用相关分析。研究两个变量的用相关分析。研究两个变量的依存关依存关系系用回归分析。用回归分析。3.3.研究性质研究性质研究性质研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。个变量值可以预测出另一个变量值,可以得到定量结果。4.4.相关系数相关系数相关系数相关系数r r与回归系数与回归系数与回归系数与回归系数b b :r r与与b b的绝对值反映的意义不同。的绝对值反映的意义不同。r r的绝对值的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。相关程度越高。b b的绝对值越大,回归直线越陡,说明当的绝对值越大,回归直线越陡,说明当X X变化一个变化一个单位时,单位时,Y Y的平均变化就越大。反之也是一样。的平均变化就越大。反之也是一样。第42页/共46页相关与回归的联系相关与回归的联系相关与回归的联系相关与回归的联系 1.1.关系关系关系关系 能进行回归分析的变量之间存在相关关系。所以,能进行回归分析的变量之间存在相关关系。所以,对于两组新数据可先做散点图,求出它们的相关对于两组新数据可先做散点图,求出它们的相关系数,对于确有相关关系的变量再进行回归分析,系数,对于确有相关关系的变量再进行回归分析,求出回归方程。求出回归方程。2.r2.r与与与与b b 符号一致:符号一致:r r为正时,为正时,b b也为正,表示两变量是正相也为正,表示两变量是正相关,是同向变化。关,是同向变化。r r为负时,为负时,b b也为负,表示两变也为负,表示两变量是负相关,是反向变化。量是负相关,是反向变化。r r与与b b的假设检验结果一致的假设检验结果一致:可用:可用r r的显著检验代替的显著检验代替b b的显著性检验。的显著性检验。第43页/共46页相关与回归45小结小结第一节第一节第一节第一节 直线相关直线相关直线相关直线相关n n相关的类型相关的类型相关的类型相关的类型n n相关系数相关系数相关系数相关系数n n相关系数的计算相关系数的计算相关系数的计算相关系数的计算n n相关系数的假设检验相关系数的假设检验相关系数的假设检验相关系数的假设检验第二节第二节第二节第二节 直线回归直线回归直线回归直线回归n n回归方程回归方程回归方程回归方程n n回归系数回归系数回归系数回归系数n n回归系数的假设检验回归系数的假设检验回归系数的假设检验回归系数的假设检验n n直线回归的应用直线回归的应用直线回归的应用直线回归的应用第三节第三节第三节第三节 注意事项注意事项注意事项注意事项第44页/共46页相关与回归46第二次第二次 随堂测验随堂测验1.1.某地某地某地某地20042004年年平均人口数为年年平均人口数为年年平均人口数为年年平均人口数为127127万,该年活产万,该年活产万,该年活产万,该年活产数为数为数为数为2.42.4万,死亡人数为万,死亡人数为万,死亡人数为万,死亡人数为54845484人,婴儿死亡数人,婴儿死亡数人,婴儿死亡数人,婴儿死亡数为为为为698698人,肺癌死亡人数是人,肺癌死亡人数是人,肺癌死亡人数是人,肺癌死亡人数是8585人。请计算该人。请计算该人。请计算该人。请计算该地地地地20042004年粗出生率、粗死亡率、婴儿死亡率年粗出生率、粗死亡率、婴儿死亡率年粗出生率、粗死亡率、婴儿死亡率年粗出生率、粗死亡率、婴儿死亡率和肺癌死亡率。和肺癌死亡率。和肺癌死亡率。和肺癌死亡率。2.2.寿命表法计算生存率的优点是什么?寿命表法计算生存率的优点是什么?寿命表法计算生存率的优点是什么?寿命表法计算生存率的优点是什么?3.3.计量资料(频数)的分布特征是计量资料(频数)的分布特征是计量资料(频数)的分布特征是计量资料(频数)的分布特征是.;常见的;常见的;常见的;常见的分布类型包括分布类型包括分布类型包括分布类型包括第45页/共46页