《线性回归问题和分析方法扩展PPT课件.ppt》由会员分享,可在线阅读,更多相关《线性回归问题和分析方法扩展PPT课件.ppt(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、关于线性回归的问题和分析方法扩展1第一张,PPT共四十六页,创作于2022年6月2第一节第一节 多重共线性多重共线性一、问题的性质和种类二、多重共线性的危害三、发现和检验四、多重共线性的克服和处理第二张,PPT共四十六页,创作于2022年6月3一、问题的性质和种类1、严格多重共线性 模型设定问题 识别问题2、近似多重共线性 主要是数据问题,也有模型设定问题 第三张,PPT共四十六页,创作于2022年6月4二、二、(近似)多重共线性的危害(近似)多重共线性的危害*随着多重共线性程度的提高,参数方差会急剧上升到很大的水平,理论上使最小二乘法估计的有效性、可靠性和价值都受到影响,实践中参数估计的稳定
2、性和可靠程度下降。*证明:把 矩阵分为 根据分块矩阵的运算法则有第四张,PPT共四十六页,创作于2022年6月5其逆矩阵 左上角的首项为其中因此参数 的最小二乘估计 的方差为第五张,PPT共四十六页,创作于2022年6月6三、发现和检验三、发现和检验(一)方差扩大因子检验(二)状态数检验第六张,PPT共四十六页,创作于2022年6月7(一)方差扩大因子检验(一)方差扩大因子检验分析已知记 为 ,为 。第七张,PPT共四十六页,创作于2022年6月8当 时,当 时,方差扩大因子,记作常以方差扩大因子是否大于10来判断第 个解释变量是否存在较强的、必须加以处理的多重共线性。第八张,PPT共四十六页
3、,创作于2022年6月9(二)状态数检验(二)状态数检验1、状态指数 将 矩阵的每一列 用其模 相除以实现标准化,然后再求 矩阵的特征值,取其中最大的除以最小的后再求平方根,得到该矩阵的“状态数”,记为:通常当 大于20或30时,认为存在较明显的多重共线性。第九张,PPT共四十六页,创作于2022年6月10确定哪些解释变量的系数受到多重共线性的影响:先计算各个特征值的“状态指数”这些状态指数的水平在1到 之间,很可能有好几个超过20-30的“危险”水平。第十张,PPT共四十六页,创作于2022年6月112、回归系数方差分解:如果V V是对角化 的(K+1)(K+1)对角矩阵:即其中 是 的特征
4、值构成的对角矩阵。从而两种理解两种理解:如果特征值之和反映对被解释变量解释程度,倒数之和反映引起估计量方差的比重。第十一张,PPT共四十六页,创作于2022年6月12四、多重共线性的克服和处理四、多重共线性的克服和处理(一)增加样本容量(二)差分方程(三)模型修正(四)分步估计参数(五)岭回归方法第十二张,PPT共四十六页,创作于2022年6月13(一)增加样本容量原理:样本容量越大,变量相关性越小,相关越难。注意局限,且不一定解决问题。第十三张,PPT共四十六页,创作于2022年6月14(二)差分方程(二)差分方程线性回归模型为 且已知 和 之间存在多重共线性问题。作如下变换:改用差分方程
5、进行回归,受多重共线性的影响比较小。第十四张,PPT共四十六页,创作于2022年6月15(三)模型修正(三)模型修正1、删减解释变量(利用检验结论、经验等)2、整合解释变量(利用原模型回归信息、经验等)3、先验信息参数约束 第十五张,PPT共四十六页,创作于2022年6月16先验信息参数约束 例:生产函数 ,经对数变换为:如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。第十六张,PPT共四十六页,创作于2022年6月17(四)分步估计参数(四)分步估计参数例:研究需求规律的模型 可以先求出模型中参数 的估计值(用截面数据等)。前一个模型变为 整理这个模型
6、可以得到 从而估计出 和 的估计值 和 ,得到克服了多重共线性的回归直线第十七张,PPT共四十六页,创作于2022年6月18(五)岭回归方法(五)岭回归方法设一个多元线性回归模型为普通最小二乘估计的公式为当解释变量间存在严重的多重共线性时,矩阵接近于奇异。用 代替 代入最小二乘估计的公式,得到:其中 称为“岭回归参数”,一般 ,是用 矩阵对角线上元素 和 构成的对角线矩阵。第十八张,PPT共四十六页,创作于2022年6月19(五)岭回归方法(五)岭回归方法估计量的数学期望为:第十九张,PPT共四十六页,创作于2022年6月20第二节第二节 随机解释变量随机解释变量一、解释变量的随机性二、随机解
7、释变量和参数估计的性质三、工具变量法估计四、参数估计量的分布性质和统计推断第二十张,PPT共四十六页,创作于2022年6月21一、解释变量的随机性和问题解释变量有随机性是普遍的问题。随机解释变量有不同的情况,关键是与误差项的相关性。不同情况对回归分析的影响不同,处理也不同。第二十一张,PPT共四十六页,创作于2022年6月22二、随机解释变量和参数估计的二、随机解释变量和参数估计的性质性质设模型为其中误差项符合古典线性回归模型的各个假设。参数二乘估计的参数为:把 代入 ,得到第二十二张,PPT共四十六页,创作于2022年6月23如果 是随机变量,但与误差项不相关,那么:以 为条件的 的条件方差
8、是最小方差,从而 的方差 也是最小方差。第二十三张,PPT共四十六页,创作于2022年6月24如果 是随机变量,与误差项小样本不独立,但大样本渐进不相关,即那么因为因此 是 的一致估计。虽然不是无偏估计。第二十四张,PPT共四十六页,创作于2022年6月25三、工具变量法估计三、工具变量法估计设模型为其中 不仅是随机变量,而且与 有强相关性。对模型作离差变换得两边乘 并求和得然后两边除以 ,有第二十五张,PPT共四十六页,创作于2022年6月26 的“工具变量法估计”为 ,即 的估计可以利用 的估计得到第二十六张,PPT共四十六页,创作于2022年6月27多元回归工具变量法估计引进、选择多个关
9、键变量。向量、矩阵表示。工具变量的选择问题:与替代解释变量相关性强 与误差相相关性小 避免引起共线性问题第二十七张,PPT共四十六页,创作于2022年6月28四、参数估计量分布问题和统计推断四、参数估计量分布问题和统计推断问题问题:分布未知 两变量线性回归模型参数估计量 多元回归模型参数的最小二乘估计影响影响:t、F检验等仍基本有效。统计量 渐近t分布。F统计量类似。第二十八张,PPT共四十六页,创作于2022年6月29存在随机解释变量时相关统计推断受到一定的影响第二十九张,PPT共四十六页,创作于2022年6月30第三节第三节 误差项非正态分布误差项非正态分布一、问题的提出二、误差项正态性的
10、检验第三十张,PPT共四十六页,创作于2022年6月31一、问题的提出误差项正态分布假设也不一定成立。误差项不服从正态分布时,称“非正态误差项”影响:统计推断、假设检验的有效性等,相关统计推断、检验结论的可靠性降低。第三十一张,PPT共四十六页,创作于2022年6月32二、误差项正态性的检验二、误差项正态性的检验(一)直方图检验类似“高尔顿板”第三十二张,PPT共四十六页,创作于2022年6月33(二)偏斜度和峰度检验“偏斜系数”:用 代替 ,用 代替 。“峰度”指标:其中 用 代替。,第三十三张,PPT共四十六页,创作于2022年6月34第四节第四节 最大似然估计最大似然估计一、最大似然估计
11、的原理二、两变量线性回归模型参数的最大似然估计三、多元线性回归模型参数的最大似然估计四、随机解释变量模型的最大似然估计五、最大似然估计的性质第三十四张,PPT共四十六页,创作于2022年6月35一、最大似然估计的原理一、最大似然估计的原理根据事物出现的概率(几率、可能性)的大小,推断事物的真相,包括定性的和定量的(参数水平)真相。例1:一个老战士和一个军训学生各射击一次,但只有一枪中靶。问可能是谁打中的。第三十五张,PPT共四十六页,创作于2022年6月36例2:观测到一个服从未知参数的泊松分布的随机变量的10个数据的样本,这些数据分别为5、0、1、2、3、2、3、4、1、1,要求估计出该泊松
12、分布的未知分布参数 。根据泊松分布的概率公式,该随机变量的数值为 的概率为10个数据出现的联合分布概率为第三十六张,PPT共四十六页,创作于2022年6月37这个联合分布概率就是生成上述10个数据的似然函数,记作 ,即它的对数似然函数是(对数函数的单调性)求导可得 的最大似然估计 必须满足所以 。第三十七张,PPT共四十六页,创作于2022年6月38二、两变量线性回归模型参数的最大似二、两变量线性回归模型参数的最大似然估计然估计设模型为根据误差项服从正态分布的假设,有因此这个模型参数的似然函数是第三十八张,PPT共四十六页,创作于2022年6月39对数似然函数为最大化的一阶条件为第三十九张,P
13、PT共四十六页,创作于2022年6月40解一阶条件方程组可以得到最大似然估计为第四十张,PPT共四十六页,创作于2022年6月41三、多元线性回归模型参数的最大似然三、多元线性回归模型参数的最大似然估计估计模型为其中似然函数为对数似然函数为第四十一张,PPT共四十六页,创作于2022年6月42求导可得解这个方程组可得第四十二张,PPT共四十六页,创作于2022年6月43四、随机解释变量模型的最大似然估计四、随机解释变量模型的最大似然估计只讨论解释变量的分布满足下面两个条件的模型 (1)随机解释变量的多元密度函数 的参数中,不包含需要估计的模型参数 、或前者的部分。(2)和 分布独立。第四十三张,PPT共四十六页,创作于2022年6月44似然函数为因为 仍然成立,因此对数似然函数为第四十四张,PPT共四十六页,创作于2022年6月45五、最大似然估计的性质五、最大似然估计的性质(1)最大似然估计是一致估计,即(2)最大似然估计渐近于正态分布,即 (3)最大似然估计是渐近有效的,且达到克拉美-劳下界。(4)不变性:如果 是 的最大似然估计,那么 也是 的最大似然估计。第四十五张,PPT共四十六页,创作于2022年6月感感谢谢大大家家观观看看第四十六张,PPT共四十六页,创作于2022年6月
限制150内