统计方法与应用幻灯片.ppt
统计方法与应用1第1页,共70页,编辑于2022年,星期二主要内容主要内容一、统计的理解一、统计的理解二、统计方法的理解二、统计方法的理解三、向量自回归模型三、向量自回归模型四、结构方程模型四、结构方程模型五、五、Panel Data模型模型六、应用的思考六、应用的思考2第2页,共70页,编辑于2022年,星期二一、统计的理解一、统计的理解 数据采集数据采集 整理整理 分析分析 科学科学 艺术艺术 数据数据 规律规律 有用的信息有用的信息 目标目标 对象对象 数据的类型数据的类型 定性定性 定量定量 数据的分布数据的分布 已知已知 未知未知 正态正态 非正态非正态 数据不同,方法(模型)不同数据不同,方法(模型)不同 3第3页,共70页,编辑于2022年,星期二 1.异常(缺失)值处理异常(缺失)值处理 数据的预处理数据的预处理数据表现数据表现 异常值的判断异常值的判断 观察数据的变化观察数据的变化 是否有异常数据出现是否有异常数据出现 原因分析原因分析 规律分析规律分析 是否有冲击或干扰是否有冲击或干扰 瞬间瞬间 持续持续4第4页,共70页,编辑于2022年,星期二6000080000100000120000140000989900010203Y5第5页,共70页,编辑于2022年,星期二5.0E+081.0E+091.5E+092.0E+092.5E+093.0E+093.5E+0999:0199:0700:0100:0701:0101:0702:0102:07Y6第6页,共70页,编辑于2022年,星期二7第7页,共70页,编辑于2022年,星期二 2.数据的转换数据的转换 原因原因 现象的量变与质变现象的量变与质变 数据转换后将更有意义数据转换后将更有意义 更便于解释更便于解释 方法方法 重新分类编码重新分类编码 虚拟变量(哑变量)引入虚拟变量(哑变量)引入 连续变量离散化连续变量离散化 如年龄如年龄 收入收入 多项选择的转化多项选择的转化8第8页,共70页,编辑于2022年,星期二二、统计方法的理解二、统计方法的理解 1.数据的基本描述数据的基本描述 特点特点 基本规律基本规律 表表 图图 特征值特征值(示例示例)分组分组(类类)检检验验 2.变量之间关系变量之间关系 截面截面 线性回归模型线性回归模型 被解释变量被解释变量:连续连续 离散离散 解释变量解释变量:连续连续 离散离散9第9页,共70页,编辑于2022年,星期二10第10页,共70页,编辑于2022年,星期二11第11页,共70页,编辑于2022年,星期二虚拟变量虚拟变量 当当解解释释变变量量不不是是定定量量测测量量数数据据,或或在在不不同同的的情情况况下下,所所产产生生的的结结果果不不同同,就就需需要要将将解解释释变变量量区区分分开开,可可以以采采用用设设虚虚拟拟变变量的方法。量的方法。虚拟变量是取值仅取虚拟变量是取值仅取1或或0的变量。一般,基的变量。一般,基础类型、肯定类型取值础类型、肯定类型取值“1”,比较类型、,比较类型、否定类型取值否定类型取值“0”。12第12页,共70页,编辑于2022年,星期二13第13页,共70页,编辑于2022年,星期二 工具变量法工具变量法 引引入入工工具具变变量量的的目目的的是是改改善善由由解解释释变变量量与误差项相关导致与误差项相关导致OLS估计的不一致性估计的不一致性 工工具具变变量量Z是是与与解解释释变变量量X高高度度相相关关,但但与与误误差差项项不不相相关关的的一一组组变变量量,且且这这些些变变量量间是线性独立的间是线性独立的 14第14页,共70页,编辑于2022年,星期二15第15页,共70页,编辑于2022年,星期二 线性回归模型线性回归模型 广义线性模型广义线性模型 因子分析因子分析潜变量潜变量 结构方程模型结构方程模型 3.变量随时间变化规律变量随时间变化规律 时序模型时序模型 纵向数据模型纵向数据模型 16第16页,共70页,编辑于2022年,星期二4.模型的应用模型的应用 分析实际现象之间变化关系分析实际现象之间变化关系现象之间关系有一定理论做依据现象之间关系有一定理论做依据,大体关系已知大体关系已知 回归模型回归模型 模型应用的条件模型应用的条件 多水平多水平 结构方程结构方程 联立方程联立方程 现象之间关系没有一定理论做依据现象之间关系没有一定理论做依据,但有相互关系但有相互关系 单变量时间序列模型单变量时间序列模型 AR MA ARMA ARIMA 多变量时间序列模型多变量时间序列模型 VAR SVAR VEC Panel Data 模型作用模型作用 定量的角度定量的角度 分析探讨现象或之间的数量关系分析探讨现象或之间的数量关系 17第17页,共70页,编辑于2022年,星期二VAR、SVAR与与VEC模型模型 多变量序列之间动态变化关系多变量序列之间动态变化关系 VAR(p)多平稳序列之间动态变化规律描述多平稳序列之间动态变化规律描述 没有变量序列之间同期的相互关系没有变量序列之间同期的相互关系SVAR(p)多平稳序列之间动态变化规律描述多平稳序列之间动态变化规律描述 存在变量序列之间同期的相互关系存在变量序列之间同期的相互关系 VEC 具有协整关系的多变量序列之间动态具有协整关系的多变量序列之间动态 变化规律描述变化规律描述 三、向量自回归模型三、向量自回归模型18第18页,共70页,编辑于2022年,星期二(一一)向量平稳性检验向量平稳性检验 我国出口额(我国出口额()、进)、进口额(口额()和外汇储备()和外汇储备()示例、进出口与外汇储备示例、进出口与外汇储备19第19页,共70页,编辑于2022年,星期二序列序列 趋势类趋势类型型 t t 1%5%10%1%5%10%y1 C C,t,0t,0 -3.7211 -4.0391 -3.4490 -3.1497 -3.7211 -4.0391 -3.4490 -3.1497y2C C,t,0 -4.1844 -4.0391 -3.4490 -3.1497t,0 -4.1844 -4.0391 -3.4490 -3.1497y3C C,t,0 0.1439 -4.0391 -3.4490 -3.1497t,0 0.1439 -4.0391 -3.4490 -3.1497dy3无无C C和和t,0 -3.2816 -2.5852 -1.9436 -1.6149t,0 -3.2816 -2.5852 -1.9436 -1.614920第20页,共70页,编辑于2022年,星期二一阶差分后序列图一阶差分后序列图21第21页,共70页,编辑于2022年,星期二序列序列 趋势类趋势类型型 t t 1%5%10%1%5%10%dy1无无C C,t,0t,0-12.5844 -2.5876-1.9440 -1.6147-12.5844 -2.5876-1.9440 -1.6147dy2无无C C,t,0 -13.9201 -2.5876-1.9440 -1.6147t,0 -13.9201 -2.5876-1.9440 -1.6147dy3无无C C,t,0 -2.4107 -2.5876 -1.9440 -1.6147t,0 -2.4107 -2.5876 -1.9440 -1.614722第22页,共70页,编辑于2022年,星期二(二)(二)模型识别模型识别 对模型阶数对模型阶数p作出选择作出选择 1.阶数的初选阶数的初选阶数阶数p的初选,通常可以借助序列间的互相关函数进行。的初选,通常可以借助序列间的互相关函数进行。阶数阶数p要足够大,以完整反映变量之间的动态特征;要足够大,以完整反映变量之间的动态特征;p不宜过大,模型待估计参数增多,自由度减少,不宜过大,模型待估计参数增多,自由度减少,没有足够的样本数目时,可能导致参数不能得到正确有效没有足够的样本数目时,可能导致参数不能得到正确有效的估计。的估计。和普通线性回归一样,一个待估计参数,一般来说,至和普通线性回归一样,一个待估计参数,一般来说,至少需要少需要10个观测期的数据。个观测期的数据。23第23页,共70页,编辑于2022年,星期二2.利用评价指标确认利用评价指标确认利利用用初初选选的的阶阶数数p可可以以构构建建VAR模模型型,参参数数估估计计后后,可可以以利用几个评价指标帮助判断合适的阶数利用几个评价指标帮助判断合适的阶数(1)LR检验(似然比检验)检验(似然比检验):附加约束是正确的:附加约束是正确的 服从自由度为服从自由度为M的分布的分布(2)最终预测误差)最终预测误差FPE(Final prediction error)其中,其中,是滞后是滞后p期时模型残差的方差估计,期时模型残差的方差估计,n是样本量,是样本量,k是待估计参数的个数是待估计参数的个数。FPE(p)=24第24页,共70页,编辑于2022年,星期二(3)AIC(Akaike inof criterion)准则准则 其其中中:指指VAR(p)模模型型残残差差的的协协方方差差阵阵的的行行列列式式;n是是有有效效的的观测数目;观测数目;m是变量序列的数目;是变量序列的数目;p是阶数是阶数(4)SC(Schwarz criterion)准则)准则(5)HQ(Hannan-Quinn criterion)准则)准则 其其中中:L是是似似然然函函数数,k是是待待估估计计参参数数的的个个数数,其其它它符符号号意义同上意义同上 AIC=log +2m2p/n,p=1,k SC=log+(logn),p=1,k+(logn)HQ=25第25页,共70页,编辑于2022年,星期二差分后序列滞后差分后序列滞后4阶检验结果阶检验结果 26第26页,共70页,编辑于2022年,星期二VAR(3)AR特征多项式系数特征多项式系数 27第27页,共70页,编辑于2022年,星期二AR特征多项式根的倒数分布图特征多项式根的倒数分布图 28第28页,共70页,编辑于2022年,星期二原序列原序列VAR(3)AR特征多项式系数特征多项式系数 29第29页,共70页,编辑于2022年,星期二原序列原序列VAR(3)AR特征多项式根的倒数分布图特征多项式根的倒数分布图 30第30页,共70页,编辑于2022年,星期二迹检验结果迹检验结果(三三)变量间协整关系检验变量间协整关系检验 选择序列有线性趋势,选择序列有线性趋势,协整方程有截距的情况,并选协整方程有截距的情况,并选p=3 31第31页,共70页,编辑于2022年,星期二最大特征值检验结果最大特征值检验结果 32第32页,共70页,编辑于2022年,星期二(四四)向量误差修正模型向量误差修正模型 协整方程为协整方程为 VEC模型为模型为 33第33页,共70页,编辑于2022年,星期二34第34页,共70页,编辑于2022年,星期二四、结构方程模型四、结构方程模型(StructuralEquationModeling,SEM)(一)(一)问题的提出问题的提出研究学生学习成绩与什么因素有关研究学生学习成绩与什么因素有关 学习成绩学习成绩 学习能力学习能力 教师要求教师要求 自信自信 同学关系同学关系35第35页,共70页,编辑于2022年,星期二回归分析回归分析 假设假设 自变量非随机(不存在测量误差)自变量非随机(不存在测量误差)自变量之间不存在相关关系自变量之间不存在相关关系学习成绩学习能力教师要求自 信同学关系因因变变量量自自变变量量36第36页,共70页,编辑于2022年,星期二因果关系分析因果关系分析 直接因果效应直接因果效应 间接因果效应间接因果效应观测变量的变异:随机误差的变异、系统误差的变观测变量的变异:随机误差的变异、系统误差的变异、潜变量的变异异、潜变量的变异因子分析因子分析学习成绩教师要求自 信同学关系学习能力37第37页,共70页,编辑于2022年,星期二因子分析因子分析 探索性因子分析探索性因子分析 已有数据已有数据 探索其规律关系探索其规律关系 验证性因子分析验证性因子分析 已知可能有已知可能有 某种关系某种关系 利用数据验证利用数据验证38第38页,共70页,编辑于2022年,星期二结构方程模型(结构方程模型(StructuralEquationModeling,简称,简称SEM),亦称协方差结构模型),亦称协方差结构模型(ConarianceStructureModels,简称,简称CSM),),也称线性结构模型(也称线性结构模型(LinearStructuralRelationsModels),或称),或称LISREL模型。模型。SEM是一般线性模型的扩展,主要用于研究不是一般线性模型的扩展,主要用于研究不可直接观测变量(潜变量)与可测变量之间关可直接观测变量(潜变量)与可测变量之间关系和潜变量之间的关系。系和潜变量之间的关系。(二)(二)模型形式模型形式39第39页,共70页,编辑于2022年,星期二 协方差结构模型由两部分组成:协方差结构模型由两部分组成:测量模型测量模型 结构模型结构模型潜变量(潜变量(Latent VariableLatent Variable)无法直接测量的变量无法直接测量的变量,亦称隐变量;亦称隐变量;可测变量(可测变量(Manifest VariableManifest Variable)可以直接测量的变量可以直接测量的变量,亦称显变量。亦称显变量。外生、内生变量外生、内生变量40第40页,共70页,编辑于2022年,星期二测量模型测量模型(MeasurementModel)亦称为验证性因素分析模型,主亦称为验证性因素分析模型,主要表示观测变量和潜变量之间的要表示观测变量和潜变量之间的关系。模型形式关系。模型形式 41第41页,共70页,编辑于2022年,星期二其中,其中,为为q1q1阶外生观测变量向量,阶外生观测变量向量,为为p1 p1 阶内生观测变量阶内生观测变量 向量;向量;为为n1n1阶外生潜变量向量,阶外生潜变量向量,为为m1m1阶内生潜阶内生潜 变量向量;变量向量;为为qnqn矩阵,是外生观测变量矩阵,是外生观测变量 在外生在外生 潜变量潜变量 上的因子载荷矩阵;上的因子载荷矩阵;为为pmpm 阶矩阵,是内阶矩阵,是内 生观测变量生观测变量 在内生潜变量在内生潜变量 上的因子载荷矩阵;上的因子载荷矩阵;为为q1q1阶测量误差向量,阶测量误差向量,为为p1 p1 阶测量误差向量,阶测量误差向量,它们表示不能由潜变量解释的部分。它们表示不能由潜变量解释的部分。(1)(2)42第42页,共70页,编辑于2022年,星期二结构模型(结构模型(StructuralModel)又称为潜变量因果关系模型,主要表示又称为潜变量因果关系模型,主要表示潜变量之间的关系。模型形式为潜变量之间的关系。模型形式为 (3)其中,和其中,和 分别是内生潜变量和外生潜变量向量;分别是内生潜变量和外生潜变量向量;是内生是内生潜变量潜变量 的系数矩阵,亦是内生潜变量间的通径系数矩阵;的系数矩阵,亦是内生潜变量间的通径系数矩阵;是外生潜变量是外生潜变量 的系数矩阵,也是外生潜变量对相应内生的系数矩阵,也是外生潜变量对相应内生潜变量的通径系数矩阵;为残差向量。潜变量的通径系数矩阵;为残差向量。43第43页,共70页,编辑于2022年,星期二模型的假设模型的假设 假定:假定:与与 相相互互独独立立,与与 相相互互独独立立,与与 相相互互独独立立,、及及 为相互独立;为相互独立;在对角线上为在对角线上为0,且,且 为非奇异阵。为非奇异阵。44第44页,共70页,编辑于2022年,星期二(三)模型的设定(三)模型的设定初始理论模型的设定初始理论模型的设定 根根据据理理论论或或以以往往研研究究的的成成果果,构构建建潜潜变变量量和和观观测测变变量量以以及及潜潜变变量量和和潜潜变变量量之之间间的的关关系系,即即设设定定初初始始模模型型。通通常常采采用用路路径径图图的的形形式式表表示示。一一个个潜潜变变量量通通常常会会对对应应几几个个可可测测变变量量,至至于于究究竟竟对对应应多多少少,根根据据研研究究的的具具体体问问题题而而定定,但但一一般般不不宜宜少少于于两两个个。潜潜变变量量可可以以可可以以根根据据理理论论确定,也可以利用因子分析提取。确定,也可以利用因子分析提取。注意因子分析的运用:因子之间关系注意因子分析的运用:因子之间关系 45第45页,共70页,编辑于2022年,星期二客户期望客户抱怨客户忠诚度客户满意度价值感知质量和服务感知企业形象46第46页,共70页,编辑于2022年,星期二客户忠诚度企业形 象知名度Q36-1信誉Q36-2规范化、专业化、国际化程度Q36-3业务员的形象Q36-4推荐给亲友Q33继续的可能性Q3247第47页,共70页,编辑于2022年,星期二作业量学习状态玩耍状态朋友数目言语推理数学英语统计提问次数例例1 学生成绩的影响因素学生成绩的影响因素48第48页,共70页,编辑于2022年,星期二教师要求同学关系学习能力学习成绩49第49页,共70页,编辑于2022年,星期二测量模型测量模型=+50第50页,共70页,编辑于2022年,星期二=+结构模型结构模型=+51第51页,共70页,编辑于2022年,星期二(四)模型参数的估计(四)模型参数的估计参数估计的思路和方法参数估计的思路和方法 估计方法估计方法 最小二乘最小二乘 偏最小二乘偏最小二乘 最大似然最大似然 途径途径 如何实现目标如何实现目标 算法算法 样本量:不同估计方法所需样本量不同样本量:不同估计方法所需样本量不同 为什么?为什么?52第52页,共70页,编辑于2022年,星期二参数估计的思路参数估计的思路当初始模型确定,模型(当初始模型确定,模型(1)、()、(2)中变量的数目随之确)中变量的数目随之确定。模型中,变量定。模型中,变量 和和 是不可观测的,因而无法直接估计。是不可观测的,因而无法直接估计。但是,如果模型定义正确,总体协方差矩阵与模型拟合协方差但是,如果模型定义正确,总体协方差矩阵与模型拟合协方差矩阵应该相等。矩阵应该相等。其中,其中,是总体协方差矩阵,是总体协方差矩阵,是含有待估计参数是含有待估计参数的模型拟合协方差矩阵。的模型拟合协方差矩阵。待估计的参数:待估计的参数:=53第53页,共70页,编辑于2022年,星期二总体协方差矩阵总体协方差矩阵 未知,需要用样本协方差矩阵未知,需要用样本协方差矩阵估计估计.若若S为样本观测变量之间方差和协方差的矩阵,为样本观测变量之间方差和协方差的矩阵,即要有即要有 =S。于是,对协方差结构模型的参数估。于是,对协方差结构模型的参数估计就转化为求解一组参数,使得计就转化为求解一组参数,使得 与与S的差距达到的差距达到最小。最小。求解模型参数的过程,是不断的将一些参数代求解模型参数的过程,是不断的将一些参数代入模型,计算出方差和协方差,使得模型拟合协方入模型,计算出方差和协方差,使得模型拟合协方差矩阵差矩阵 中的每一个元素都尽可能的接近中的每一个元素都尽可能的接近S中相应中相应元素的过程。元素的过程。与与S S的接近程度可以通过定义的拟合函数得到测的接近程度可以通过定义的拟合函数得到测定。定。54第54页,共70页,编辑于2022年,星期二不同的估计方法定义的拟合函数不完全相同不同的估计方法定义的拟合函数不完全相同 极大似然估计法对应的拟合函数极大似然估计法对应的拟合函数 其中,其中,是模型拟合协方差矩阵,是模型拟合协方差矩阵,p是外生变量的数目,是外生变量的数目,q是内生变量的数目,是内生变量的数目,tr是求矩阵的迹是求矩阵的迹(4)若若 与与S越越接接近近,则则S越越接接近近一一个个(p+q)(p+q)阶阶的的单单位位阵阵,也也就就是是越越趋趋近近于于(p+q),此此时时,第第一一项项与与第第二二项项也也越越接接近近。因此,当因此,当 等于等于S时,极大似然估计的拟合函数为零。时,极大似然估计的拟合函数为零。55第55页,共70页,编辑于2022年,星期二(四)模型的评价(四)模型的评价模型与数据间的拟合程度评价模型与数据间的拟合程度评价 残差矩阵残差矩阵 -S的各个元素越接近于的各个元素越接近于0,表明模型越能很好地,表明模型越能很好地拟合数据,所建模型越有效拟合数据,所建模型越有效 两类指标:绝对拟合指数(两类指标:绝对拟合指数(AbsoluteIndex)相对拟合指数(相对拟合指数(RelativeIndex)56第56页,共70页,编辑于2022年,星期二(五)模型的修正(五)模型的修正模型拟合效果模型拟合效果变量的选择变量的选择变量之间关系的确定变量之间关系的确定模型的调整模型的调整57第57页,共70页,编辑于2022年,星期二公司形象工作期望工作感受满意度忠诚抱怨0.553210.66772-0.030610.6592260.155660.183390.154840.553760.6578775.0071.2177.7480.6365.3580.00全国的客户满意度情况(03年)58第58页,共70页,编辑于2022年,星期二全国的客户满意度情况(05年)形象形象71.99客户关系管理客户关系管理70.26忠诚忠诚74.16总体满意总体满意78.12价值感知价值感知73.54质量感知质量感知79.66期望期望84.190.2010.0050.2900.5040.2680.2210.5530.4500.5500.6650.1550.04059第59页,共70页,编辑于2022年,星期二人文奥运工程实施效果人文奥运工程实施效果 人文奥运,是一个非常抽象的概念人文奥运,是一个非常抽象的概念.初始模型设定初始模型设定 六个潜变量六个潜变量 对人文奥运氛围产生直接影响,对人文奥运氛围产生直接影响,每个潜变量都有若干个可测指标测度。每个潜变量都有若干个可测指标测度。数据采集数据采集 电话调查共得到有效样本电话调查共得到有效样本336份份 参数估计参数估计模型修正模型修正 60第60页,共70页,编辑于2022年,星期二道德素质意识全民学外语全民健身人文奥运氛围服务意识奥运进社区志愿服务61第61页,共70页,编辑于2022年,星期二62第62页,共70页,编辑于2022年,星期二 模模型型能能够够同同时时反反映映研研究究对对象象在在时时间间和和截截面面单单元元两两个个方方向向上上的的变变化化规规律律及及不不同同时时间间、不不同单元的特性。同单元的特性。模型形式模型形式 根根据据模模型型截截距距和和斜斜率率参参数数的的不不同同可可以以有有几几种形式:种形式:斜率相同且截距相同斜率相同且截距相同 五、五、Panel DataPanel Data模型模型63第63页,共70页,编辑于2022年,星期二斜率相同但截距不同斜率相同但截距不同斜率和截距都不同斜率和截距都不同64第64页,共70页,编辑于2022年,星期二 模型类型模型类型 固定效应固定效应 随机效应随机效应 参数估计参数估计 模型检验模型检验 回归系数显著回归系数显著 拟合优度检验拟合优度检验 D.W.D.W.检验检验65第65页,共70页,编辑于2022年,星期二66第66页,共70页,编辑于2022年,星期二统计模型统计模型 应用为目的应用为目的模型用以解决实际问题模型用以解决实际问题 宏观宏观 微观微观 模型改善以应用为前提模型改善以应用为前提 依据依据为什么要用为什么要用 如何用如何用 结果解释结果解释 解决什么问题解决什么问题 如何解决的如何解决的 效果如何效果如何 上市公司财务与业绩上市公司财务与业绩 不同收入居民的消费行为不同收入居民的消费行为 六、六、应用的思考应用的思考67第67页,共70页,编辑于2022年,星期二研究内容示例影响心理的因素证券投资者心理证券投资者行为心理学范畴行为金融学范畴68第68页,共70页,编辑于2022年,星期二参考文献参考文献1.侯杰泰、温忠麟、成子娟:侯杰泰、温忠麟、成子娟:结构方程模型及其应用,教育科学结构方程模型及其应用,教育科学出版社,出版社,2004年年7月月2.黄芳铭:结构方程模式黄芳铭:结构方程模式理论与应用,中国税务出版社,理论与应用,中国税务出版社,2005年年4月月3.张雷、雷雳、郭伯良:多层线性模型应用,教育科学出版社,张雷、雷雳、郭伯良:多层线性模型应用,教育科学出版社,2005年年6月第月第2版版4.刘红云、张雷:追踪数据分析方法及其应用,教育科学出版社,刘红云、张雷:追踪数据分析方法及其应用,教育科学出版社,2005年年5月月5.Kenneth A.Bollen:Structural Equations with Latent Variables,John Wiley&Sons,1989 6.易丹辉易丹辉:数据分析与数据分析与EViews应用应用,中国人民大学出社中国人民大学出社,2008年年10月月7.易丹辉:结构方程模型:方法与应用,中国人民大学出版社,易丹辉:结构方程模型:方法与应用,中国人民大学出版社,2008年年4月月69第69页,共70页,编辑于2022年,星期二报告结束,谢谢!报告结束,谢谢!70第70页,共70页,编辑于2022年,星期二