应用统计复习资料PPT课件.ppt
应用统计 总复习对外经济贸易大学 国际商学院统计与技术经济学系杨震宁复习重点基本概念基本公式基本原理课后习题和期中考题老师上课强调的内容复习的重点内容一、基本概念统计学内容统计学内容描述统计学推断统计学描述描述统计学学定定义:指搜集、整理、分析并提供指搜集、整理、分析并提供统计资料的理料的理论和方法。和方法。主要任主要任务:使反映客使反映客观事物的事物的统计数据可以一目了然,条理清数据可以一目了然,条理清晰,使用方便,可以晰,使用方便,可以说明明现象的数量特征和数量关象的数量特征和数量关系。系。内容内容:第二第二讲:数据的采集数据的采集 第三第三讲:数据的整理和表述数据的整理和表述 第四第四讲:数据的描述性分析数据的描述性分析推断推断统计学学定定义:是只依据是只依据样本本资料推断料推断总体特征的技体特征的技术和方法。和方法。方法:方法:包括参数估包括参数估计和假和假设检验的方法。的方法。内容内容:第五第五讲:抽抽样分布与参数估分布与参数估计 第六第六讲:假假设检验 第七第七讲:方差分析方差分析有关概念有关概念总体和总体单位总体和总体单位样本和样本单位样本和样本单位变量(标志)变量(标志)数据数据总体和体和总体体单位位总体(有限体(有限总体和无限体和无限总体)体)定定义:研究具有某些相同性研究具有某些相同性质的全部的全部单位或事位或事件的整体。件的整体。特征特征:.同同质性性 .大量性大量性 .变异性异性总体体单位位:组成成总体的个体。体的个体。样本和本和样本本单位位样本本:在在总体中抽取部分体中抽取部分总体体单位位进行行调查,被,被抽出的抽出的总体体单位构成一个整体,位构成一个整体,这个整体个整体称称为样本。本。样本本单位位:组成成样本的个体。本的个体。总体总体总体单位总体单位样本样本样本单位样本单位变量(量(标志):参数(志):参数(总体)和体)和统计量(量(样本)本)定定义:反映反映总体体单位属性或特征的名位属性或特征的名词种种类:品品质变量量:变量量值表示事物表示事物类别或或顺序的序的变量量.数量数量变量量:标志表志表现事物数字特征的事物数字特征的变量量.连续型型变量量 离散型离散型变量量初级初级数据数据初级资料(primary data)、第一手资料,是指由数据的使用者组织,通过调查和实验而得到的数据 对原始资料的采集方法为:统计调查 实验 观察 次次级数据数据二、统计调查15判断抽样判断抽样非随机抽样非随机抽样抽样调查抽样调查随机抽样随机抽样简单随机抽样简单随机抽样方便抽样方便抽样配额抽样配额抽样系统抽样系统抽样分层抽样分层抽样整群抽样整群抽样多步抽样多步抽样非随机抽样非随机抽样判断抽样判断抽样按照一定的标准有意识地在总体中抽取若干合按照一定的标准有意识地在总体中抽取若干合乎标准的样本单位进行调查;乎标准的样本单位进行调查;方便抽样方便抽样抽取样本的标准主要是方便,这样抽出的样本抽取样本的标准主要是方便,这样抽出的样本代表性不高,常用于案例研究;代表性不高,常用于案例研究;配额抽样配额抽样 -根据已经定好的单位数抽取样本。根据已经定好的单位数抽取样本。随机抽样随机抽样简单随机抽样简单随机抽样系统抽样系统抽样分层抽样分层抽样整群抽样整群抽样多步抽样多步抽样三、描述性统计频数分布编制频数分布编制分组的关键分组的关键变量的选择,选择与研究的问题有关的变量的选择,选择与研究的问题有关的 变量变量 。组限的确定。应遵循组限的确定。应遵循穷尽和互斥穷尽和互斥原则原则。定性数列编制:定性数列编制:组限的确定一般比较简单组限的确定一般比较简单。如人口按性别分组、企业按所有制分组等如人口按性别分组、企业按所有制分组等 定量定量变变量量编制:编制:分为分为单项数列单项数列和和组距数列组距数列两种形式。两种形式。单项数列单项数列:即变量的一个取值为一组,适用于离散:即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。型变量,并且变量的取值较少。组距数列组距数列:即每一组有一个上限值和一个下限值所:即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且形成的区间,适用于连续性变量,或离散型变量且变量的取值较多的情况。变量的取值较多的情况。注意以下三个方面的问题注意以下三个方面的问题 1.确定组数确定组数 2.确定组距:组距为上限与下限之差。确定组距:组距为上限与下限之差。等距数列数据分布均匀。等距数列数据分布均匀。异距数列数据分布不均匀。异距数列数据分布不均匀。3.确定确定组组限限 应能把现象的不同类型划分出来应能把现象的不同类型划分出来。要考虑到数据是连续性变量还是离散型要考虑到数据是连续性变量还是离散型变量。变量。无法确定实际数据的取值范围,或者数无法确定实际数据的取值范围,或者数据中存在极端数值,可采用开口据中存在极端数值,可采用开口组组的的形形式式。4.确定确定组中值组中值 :(上限下限)上限下限)2 2 ,开口组,开口组 统计图饼图条形图直方图折线图曲线图茎叶图用途用途?集中趋势的测定集中趋势的测定平均数平均数概念概念表表明明同同类类现现象象在在一一定定时时间间、地地点点、条条件件下下所所达达到到的的一一般般水水平平,是是总总体体内内某某个个变变量量大大小小各各异异的的观观察察值值的的代代表表性数值。也是对变量分布集中趋势的测定。性数值。也是对变量分布集中趋势的测定。数据集中区数据集中区变量变量x四、参数估计参数与统计量参数与统计量参数:反应总体分布特征的指标统称参数:反应总体分布特征的指标统称为总体参数,简称参数。常用的有为总体参数,简称参数。常用的有统计量:反应样本分布特征的指标统统计量:反应样本分布特征的指标统称为样本统计量,简称统计量。常用称为样本统计量,简称统计量。常用总体参数总体参数 样本统计量样本统计量平均数平均数方差方差比率比率抽样分布样本统计量的概率分布称为抽样分布。用以描述抽样误差的规律性,是统计推断的理论基础。的抽样分布的抽样分布单一样本均值的抽样分布单一样本均值的抽样分布正态分布再生定理正态分布再生定理中心极限定理中心极限定理两样本均值差异的抽样分布两样本均值差异的抽样分布正态分布再生定理正态分布再生定理 当总体服从正态分布时,从中抽取样本容当总体服从正态分布时,从中抽取样本容量为量为n的样本,样本均值一定服从正态分布。的样本,样本均值一定服从正态分布。样本均值的期望值和方差?它们与总体的样本均值的期望值和方差?它们与总体的期望值和方差有何关系期望值和方差有何关系样本均值的期望值等于总体均值样本均值的期望值等于总体均值方差(有退还抽样、无退还抽样方差(有退还抽样、无退还抽样)(退还抽样)(退还抽样)(不退还抽样)(不退还抽样)中心极限定理中心极限定理 设某总体的元素总量为设某总体的元素总量为N,期望值为,期望值为 ,标,标准差为准差为 ;若从该总体中随机抽取样本容量为;若从该总体中随机抽取样本容量为n的样本,当的样本,当n很大(很大(n30)时,则样本平均数时,则样本平均数 的抽样分布近似为正态分布,即:的抽样分布近似为正态分布,即:(退还抽样)(退还抽样)(不退还抽样)(不退还抽样)参数估计参数估计估计方法估计方法点估计点估计区间估计区间估计单一总体均值估计单一总体均值估计单一总体比率估计单一总体比率估计参数估计的统计过程总体均值=?从总体中选取几项组成一个简单随机样本对样本数据的汇总提供了样本均值 的值用 的值对 值 进行推断 点估计点估计区间估计区间估计 参数估计的参数估计的方法方法点估计点估计定义:以实际抽样得到的某一估计量的定义:以实际抽样得到的某一估计量的单一值作为相应总体参数的估计值的估单一值作为相应总体参数的估计值的估计称为点估计计称为点估计估计量优良性的标准估计量优良性的标准v无偏性无偏性 v有效性有效性v一致性一致性常用的优良估计量我们用 来点估计总体均值.s 来点估计总体标准差.p 来点估计总体比例.区间估计的定义区间估计的定义 区间估计是在一定的置信系数的区间估计是在一定的置信系数的保证下,根据统计量得到的一个保证下,根据统计量得到的一个取值范围去估计总体的参数。取值范围去估计总体的参数。区间估计的几个关键概念区间估计的几个关键概念置信系数置信系数 使人相信区间包含总体均值的使人相信区间包含总体均值的概率概率,一般取一般取 0.95,0.90,0.99.它的大小说明估计的把它的大小说明估计的把握性的大小握性的大小.置信区间置信区间:在一定概率的保证下在一定概率的保证下,包含总体均值的区包含总体均值的区间间,区间的宽窄说明估计精度的大小区间的宽窄说明估计精度的大小.区间越宽区间越宽,估计估计的精度就小的精度就小;否则就大否则就大.临界值临界值:置信区间的上限和下限置信区间的上限和下限注意置信系数和注意置信系数和 区间宽窄的关系区间宽窄的关系区间估计的程序区间估计的程序选定置信系数选定置信系数抽取一个样本容量为抽取一个样本容量为n的样本的样本计算相应的统计量计算相应的统计量确定统计量的概率分布确定统计量的概率分布得到置信区间的临界值得到置信区间的临界值得到参数的置信区间得到参数的置信区间单一总体平均数的区间估计单一总体平均数的区间估计当当已知时已知时的置信区间的置信区间当当未知时未知时的置信区间的置信区间大样本大样本小样本小样本当当 已知时计算已知时计算的置信区间的步骤的置信区间的步骤选定置信系数抽取一个样本容量为n的样本计算确定 统计量的概率分布求置信区间的临界值单一总体平均数的置信区间的临界值为当当 未知时的单一总体平均数的区未知时的单一总体平均数的区间估计(大样本)间估计(大样本)由于由于 未知,一般情况下用未知,一般情况下用S替代,替代,单一总体平均数的置信区间的临界值仍为单一总体平均数的置信区间的临界值仍为单一总体平均数的置信区间的临界值为单一总体平均数的置信区间的临界值为时的时的单一总体平均数的区间估计举例,教材144页单一总体比率的区间估计单一总体比率的区间估计应用条件:应用条件:()时,)时,样本比率样本比率 p近似服从正态分布。近似服从正态分布。使用正态分布统计量使用正态分布统计量 总体比率总体比率总体比率总体比率总体比率总体比率 在在在在在在1-1-1-1-1-1-置信水平下的置信区间为置信水平下的置信区间为置信水平下的置信区间为置信水平下的置信区间为置信水平下的置信区间为置信水平下的置信区间为根据均值区间估计公式可得样本容量根据均值区间估计公式可得样本容量n为为样本容量的确定样本容量的确定估计总体均值时估计总体均值时根据比率区间估计公式可得根据比率区间估计公式可得n为为 样本容量的确定样本容量的确定 估计总体比率时估计总体比率时分组、描述性统计和参数估计请复习期中考试习题(计算第一题)五、假设检验假设检验在统计方法中的地位推断统计推断统计统计方法统计方法参数估计参数估计描述统计描述统计假设检验假设检验直接通过样本直接通过样本估计总体参数估计总体参数先假设先假设总体参总体参数具有数具有某特征,某特征,然后看然后看样本提样本提供的信供的信息是否息是否与假设与假设矛盾矛盾 假设(hypothesis)假设(假设(hypothesis):):是对总体参数的具体是对总体参数的具体数值所作的陈述。数值所作的陈述。参数是总体的均值、参数是总体的均值、比例、方差比例、方差参数必须在分析前确参数必须在分析前确定定我认为这批我认为这批产品的重量产品的重量符合现实要符合现实要求!求!原假设(null hypothesis)1、研究者想收集证据予以反对的假设、研究者想收集证据予以反对的假设2、称、称“零假设零假设”3、总具有符号、总具有符号=,或或4、表示为、表示为H0如如.H0:=100备择假设(Alternative hypothesis)1、研究者想收集证据予以支持的假设、研究者想收集证据予以支持的假设2、称、称“对立假设对立假设”3、总具有、总具有,4、表示为、表示为H1(Ha)如如.H1:100显著性水平(小概率)判断是否接受原假设的依据如果原假设是正确的,而根据样本的如果原假设是正确的,而根据样本的信信 息却拒绝了原假设的概率息却拒绝了原假设的概率.用用 表示表示一般取一般取 0.01,0.05,0.10显著性水平是事先确定的显著性水平是事先确定的小概率在一次试验中,一个几乎不可能发生在一次试验中,一个几乎不可能发生的事件发生的概率的事件发生的概率在一次试验中小概率事件一旦发生,在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设我们就有理由拒绝原假设小概率事件由研究者事先确定小概率事件由研究者事先确定接受接受接受接受 HH0 0两类错误两类错误正确决策正确决策1-1-错误决策错误决策错误决策错误决策 正确决策正确决策1-1-错误决策错误决策错误决策错误决策 拒绝拒绝拒绝拒绝HH0 0HH0 0 是真实的是真实的是真实的是真实的(=100=100)HH0 0 是假的是假的是假的是假的(100)100)统计决策统计决策统计决策统计决策实际情况实际情况实际情况实际情况第二类错误第二类错误存伪错误存伪错误第一类错误第一类错误弃真错误弃真错误 a&b 间的关系间的关系 ab它们的关系就像跷跷板它们的关系就像跷跷板大大小,小,小小就大就大假设检验的基本步骤确定原假设和备择假设确定原假设和备择假设选定显著性水平选定显著性水平抽取样本容量为抽取样本容量为n的样本并计算相应的统计量的样本并计算相应的统计量确定统计量的抽样分布确定统计量的抽样分布根据选定显著性水平计算临界值根据选定显著性水平计算临界值确定决策规则确定决策规则判断是否接受零假设判断是否接受零假设得出结论得出结论双尾检验和单尾检验的假设形式假设假设双尾检验双尾检验单尾检验单尾检验左尾检验左尾检验 右尾检验右尾检验原假设原假设H0:=0 0H0:0H1:0备择假备择假设设H1:0H1:0 0假设决定 和拒绝域的方向左尾检验右尾检验双尾检验如果统计值如果统计值如果统计值如果统计值落入拒绝域,落入拒绝域,落入拒绝域,落入拒绝域,拒绝拒绝拒绝拒绝H H H H0 0 0 0总体均值的假设检验单一总体均值的假设检验单一总体均值的假设检验 两总体均值之差的假设检验两总体均值之差的假设检验 独立样本独立样本匹配样本匹配样本独立样本独立样本正态总体方差已知或大样本正态总体方差已知或大样本两正态总体方差未知,但相等,小两正态总体方差未知,但相等,小样本样本两正态总体方差未知,但不等,小两正态总体方差未知,但不等,小样本样本配对样本配对样本两总体平均数间差异的比较两总体均值之差的假设检验 两总体方差已知的独立样本在处理某大型跨国公司是否存在男女员工的工资歧视案在处理某大型跨国公司是否存在男女员工的工资歧视案件时,处理此案件的部门通过抽样调查,收集了如下资件时,处理此案件的部门通过抽样调查,收集了如下资料。料。男员工男员工 女员工女员工样本容量样本容量 44 32样本平均工资样本平均工资 9.25 8.70 (美元(美元/小时)小时)总体标准差的经验值总体标准差的经验值 1 0.8问题:本案例中有工资歧视吗?问题:本案例中有工资歧视吗?解决方法解决方法原假设:没有歧视原假设:没有歧视 H0:1 1-2 2=0=0备择假设:有歧视(但需要寻找证据)备择假设:有歧视(但需要寻找证据)H1:1 1-2 200Z统计量统计量本例的本例的Z Z统计量计算结果统计量计算结果作业作业:教材(教材(P208)注意:注意:如何确定假设如何确定假设方法和步骤方法和步骤两总体均值之差的假设检验 两总体方差未知但相等的独立样本两总体均值之差的假设检验 两总体方差未知但相等的独立样本假设假设重要公式重要公式假设检验复习请看书上的例题六、ANOVA单因素方差分析步骤提出假设选择显著性水平构造检验的统计量制定决策规则决策 构造检验的F统计量比较F和F*得出结论单因素方差分析方法的应用方差分析表(教材方差分析表(教材P233P233)七、回归分析分析相关关系的定量方法分析相关关系的定量方法相关系数的含义相关系数的含义r简单线性回归模型(总体)简单线性回归模型(总体)因变量自变量参数随机误差总体线性回归模型的图示总体线性回归模型的图示YX实际观察值实际观察值总体线性回归模型总体线性回归模型总体线性回归总体线性回归方程方程样本线形回归方程建立线性回归模型的步骤建立线性回归模型的步骤确定研究的问题确定研究的问题定性和定量分析相结合,正确选择变量定性和定量分析相结合,正确选择变量搜取样本资料搜取样本资料(数据资料数据资料)设样本回归方程设样本回归方程(如如:):)估计未知参数估计未知参数(计算统计量计算统计量)得到样本回归方程得到样本回归方程检验回归方程检验回归方程用模型预测因变量用模型预测因变量拟合样本线性回归方程的方法拟合样本线性回归方程的方法 -最小二乘法最小二乘法实际观察值与样本回归线上实际观察值与样本回归线上的点的距离的平方和最小的点的距离的平方和最小XY e1e2e3e4最小简单回归方法的所有公式总结公式一定要熟记!P250 P258 P265 P271简单回归的作业题一定要看!多元回归是重点!请看教材P287 P288 P291 P295一定要重新做一下作业P325 9.6多元回归分析内容多元回归分析内容回归模型及方程的形式回归模型及方程的形式回归方程的估计方法回归方程的估计方法普通最小二乘法普通最小二乘法回归方程中回归系数的含义回归方程中回归系数的含义多元线性回归方程的检验多元线性回归方程的检验总检验总检验回归系数检验回归系数检验多元线性回归方程的拟合优度多元线性回归方程的拟合优度可决系数可决系数估计的标准误差估计的标准误差利用多元线性回归方程进行估计和预测利用多元线性回归方程进行估计和预测 (点估计)(点估计)多元线性回归多元线性回归模型及方程的形模型及方程的形式式总体回归模型和总体回归方程总体回归模型和总体回归方程样本回归模型和样本回归方程样本回归模型和样本回归方程多元回归模型的参数估计多元回归模型的参数估计最小平方法最小平方法样本回归方程样本回归方程对多元线形回归模型的有关对多元线形回归模型的有关检验检验总检验:总检验:H0:1=2=.=K =0目的:检验所有的自变量作为一个整体与目的:检验所有的自变量作为一个整体与因变量之间是否存在线性关系因变量之间是否存在线性关系方法:方法:F检验检验回归系数检验:回归系数检验:H0:i=0检验每一个自变量是否与因变量之间存在检验每一个自变量是否与因变量之间存在线性关系线性关系方法:方法:t检验检验多元回归模型的总检验多元回归模型的总检验P301F检验检验方差分析表方差分析表回归系数检验回归系数检验P291案例案例3的回归系数检验的回归系数检验模型的效果模型的效果P295:复可决系数复可决系数预测(案例预测(案例3)如果某个家庭其家庭成员有如果某个家庭其家庭成员有4人,年人均收入人,年人均收入为为40千元,试估计使用信用卡支付的数额可千元,试估计使用信用卡支付的数额可能是多少,在置信水平为能是多少,在置信水平为95%的要求,确定的要求,确定估计区间。估计区间。点预测:点预测:预测区间:预测区间:2643.308822643.308825416.427065416.42706八、时间序列分析时间序列分解时间序列分解长长期期趋趋势势T:各各个个时时期期普普遍遍长长期期起起作作用用的的基基本本因素影响的变动,向上或向下的变动趋势;因素影响的变动,向上或向下的变动趋势;循循环环变变动动C:社社会会经经济济发发展展中中近近乎乎规规律律性性的的盛衰交替变动;盛衰交替变动;季季节节变变动动S:受受到到自自然然季季节节变变换换和和社社会会习习俗俗等因素影响而发生的有规律的周期波动。等因素影响而发生的有规律的周期波动。不规则变动不规则变动 I:剩余的随机变动。:剩余的随机变动。时间数列分析模式时间数列分析模式加法模式:加法模式:Y=T+S+C+I乘法模式:乘法模式:Y=T*S*C*I 线性长期趋势线性长期趋势趋势方程趋势方程方程的估计方法方程的估计方法系数的经济解释系数的经济解释方程的应用方程的应用线性长期趋势方程的建立线性长期趋势方程的建立 -最小平方法最小平方法L1L2L3YtL2直线最好线性长期趋势方程的建立的步骤线性长期趋势方程的建立的步骤设方程为:设方程为:方程的应用方程的应用原点年份确定的方法原点年份确定的方法季节指数的定义季节指数的定义所谓季节指数(所谓季节指数(seasonal index)就是用于)就是用于表示具有典型季节性变动的现象年复一年表示具有典型季节性变动的现象年复一年的在每月(季)的变动方向和幅度的百分的在每月(季)的变动方向和幅度的百分数。如一月、二月、三月数。如一月、二月、三月十二月的季十二月的季节性变动比率可能分别是节性变动比率可能分别是1.04,1.09,1.000.97 一、按月(或按季)平均法一、按月(或按季)平均法季度季度年份年份全全 年年12个季度合计个季度合计12个季度平均个季度平均100一一二二四四三三季节指数季节指数各季平均数各季平均数季节变动的测定季节变动的测定:书上的例题书上的例题 预测结果预测结果时间2004序号长期趋势值 t季节指数预测值第一季度41876.9582.185720.72第二季度42894.6192.633828.97第三季度43912.27111.8731020.58第四季度44930.02113.3091052.80九、指数指数的概念指数的概念广义广义:一切说明社会经济现象数量变动或差一切说明社会经济现象数量变动或差异程度的相对数。异程度的相对数。狭义狭义:指数是指不能直接相加现象在不同时指数是指不能直接相加现象在不同时期比较的综合相对数。期比较的综合相对数。全国零售物价总指数全国零售物价总指数 全国货物出口量指数全国货物出口量指数 综合加权指数定义定义:先综合后对比先综合后对比由两个总量指标对比形成的指数由两个总量指标对比形成的指数.凡是一个总量指标可凡是一个总量指标可以分解为两个或两个以上的因素指标时以分解为两个或两个以上的因素指标时,将将其中一个或一个以上的因素指标固定下来其中一个或一个以上的因素指标固定下来,仅观察剩仅观察剩余的一个因素指标的变动程度余的一个因素指标的变动程度.公式公式:PL(Laspeyres 公式)公式)=德国经济德国经济学家学家1864 拉氏公式拉氏公式数量指数,更具数量指数,更具有意义有意义综合加权物价指数(拉氏)结果的解释结果的解释:三种商品综合起来报告期物价比基期的物价下降了.三种商品综合起来报告期物价比基期的物价下降了9.2%综综合加合加权权数量指数数量指数(拉氏拉氏)结果的解释结果的解释:三种商品综合起来报告期销售量比基期的销售量上 涨了。三种商品综合起来报告期销售量比基期的销售量上涨了8.75%.综综合加合加权权指数指数(派氏公式派氏公式)德德国经济国经济学家学家1874派氏公式派氏公式质量指数,更具质量指数,更具有意义有意义拉氏公式和派氏公式的比较讨论:马歇尔指数和费暄指数*把同度量因素固定在基期把同度量因素固定在基期*有利于不同时期的指数进行比较有利于不同时期的指数进行比较*取得资料比较容易取得资料比较容易*如基期离报告期太远,则算出的指数现实如基期离报告期太远,则算出的指数现实意义差意义差派派氏氏拉拉氏氏*把同度量因素固定在报告期把同度量因素固定在报告期*不利于不同时期的指数进行比较不利于不同时期的指数进行比较*需要搜集的资料较多需要搜集的资料较多*算出的指数更具有现实意义算出的指数更具有现实意义认真复习,考出好成绩,祝福大家!新年快乐!