2021-2022年收藏的精品资料统计方法在税收分析中的应用.doc

资源ID：29604818 资源大小：1.91MB 全文页数：85页
资源格式： DOC 下载积分：12金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要12金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2021-2022年收藏的精品资料统计方法在税收分析中的应用.doc

目录第一节统计学概述知识准备一、统计学的定义二、数据处理（一）统计数据的类型（二）数据预处理的基本步骤三、统计推断的基本原理介绍（一）几个基本概念（二）区间估计（三）假设检验四、相关分析与方差分析（一）相关分析与偏相关分析（二）方差分析第二节税收收入运行的统计学分析一、税收收入运行的经济性（一）描述统计量（二）相关性分析（三）税收随GDP增长的弹性二、税收收入的内在增长趋势（一）税收收入运行随时间变动的趋势（二）税收增长率分析三、税收收入运行的季节性四、其他常用税收分析方法（一）税源质量的效能位差分析（二）同业税负分析第三节多元统计分析方法一、聚类分析（一）定义（二）聚类的基本步骤（三）实例：部分国家税收加社保负担率聚类分析二、主成分分析法和因子分析法（一）主成分分析法（二）因子分析法第四节回归分析一、基本原理（一）一元回归模型（二）多元回归模型二、模型的基本假设和特殊情况处理（一）古典回归模型的假设（二）模型的检验统计量（三）几种特殊情况及处理方法第五节指数一、加权综合指数（一）拉氏价格指数（二）帕氏价格指数（三）加权平均指数二、常用价格指数（一）消费者物价指数的定义（二）消费者物价指数的作用三、多指标综合评价指数的构建第六节常用统计分析软件简介SPSS和EVIEWS应用实例一、描述统计量二、相关性分析三、图表演示四、回归分析五、预测六、时序模型季节性差分附： EXCEL软件数据分析功能的应用第一节数据整理第二节图表功能一、柱形图二、散点图三、折线图第三节分析功能一、抽样二、描述统计三、相关系数四、回归五、移动平均参考书目第一节统计学概述知识准备一、统计学的定义统计学是收集、处理、分析、解释数据并从数据中得出结论的科学，在多个科学领域有着日益重要的地位。统计学分为描述统计、推断统计、理论统计和应用统计。统计学是与数据打交道的学科，包括数据收集、数据处理和数据分析。数据收集也就是取得统计数据，这是一切统计分析的立足点；数据处理是将数据用图表等形式展示出来，是数据特征的直观反映；数据分析则是选择适当的统计方法研究数据，并从数据中提取有用信息进而得出结论，这是对数据的精细加工，数据分析的方法宜适当，应能说明问题。数据分析所用的方法可分为描述统计和推断统计。描述统计是指用图形、表格和数值方法来汇总数据的统计学。目的在于描述数据的统计特征，找出数据的基本规律。推断统计是指以一定的置信标准要求,根据样本数据来判断总体数量特征的归纳推理方法。二、数据处理（一）统计数据的类型1、定性数据和定量数据分类数据是指归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为文字表述的类别。例如，人口按性别分为男、女两类。顺序数据是只能归于某一有序类别的非数字型数据，如考试成绩分为优、良、及格、不及格等。数值型数据是按数字尺度测量的观测值，其结果为具体数值。分类和顺序数据统称为定性数据或品质数据；数值型数据可称为定量数据或数量数据。2、截面数据和时间序列数据横截面数据：在同一时刻或几乎同一时点所收集到的数据。如：多个企业当年利润总额、实缴税收、税负水平等。时间序列数据：在若干个连续时点内所收集到的数据。如：2000年-2005年每年福建省地方税收收入等。区分数据类型十分重要，因为对不同类型的数据应用不同的统计方法来处理。比如：对分类数据我们通常计算出各组频数或频率，计算其众数和异众比率，进行列联表分析和检验等；对于顺序数据可以计算其中位数和四分位差，计算等级相关系数；对于数值型数据可以用更多的统计方法进行分析，计算各种统计量、进行参数估计和检验等。对于横截面数据可以计算集中度和离散度、进行聚类和主成分分析等；对于时间序列数据可以计算时间趋势，建立预测模型进行预测等。（二）数据预处理的基本步骤1、数据收集数据收集是一切统计工作的基础，搜集数据的方法有多种，可以采用统计报表、典型调查、重点调查或抽样调查。（1）统计报表制度指按照国家统一规定的各项要求，自下而上地定期向国家和主管部门报送基本统计资料的一种报告制度。优点：能保证统计资料的全面性和连续性，能保证统计资料的统一性和及时性，能满足各级部门对统计资料的需要。缺点：统计报表过多会增加基层负担，有可能由于虚报瞒报而影响统计资料质量。如：月度税收会统报表等。（2）普查指国家为详尽了解某项重要的国情国力而专门组织的一次性全面调查优点：可以为抽样调查提供抽样框，可以收集统计报表所不能提供的反映重大国情国力的基本统计信息。缺点：由于需要大量的人力、物力和财力，不宜经常进行。如：经济普查、税源普查等。（3）重点调查为了解总体基本情况，在调查对象中只选择一部分重点单位进行调查的一种非全面调查组织方式优点：能以较少的投入和较快的速度取得总体基本情况及变动趋势的资料。缺点：只适用于客观存在着重点单位的情况。如：重点税源监控等。（4）典型调查在对调查对象有一定了解的基础上，有意识地选择少数典型单位进行调查的一种非全面调查组织方式。优点：一定条件下能估计总体指标数值，可以补充全面调查的不足，可以用来研究新生事物。缺点：不能确定推断的把握程度，无法计算和控制推断误差。如：税源典型性个案分析。（5）抽样调查按照随机原则从调查对象中抽取一部分样本单位进行调查，再用样本资料推断把握总体的数量特征的一种非全面调查组织方式。优点：按随机原则抽取样本单位，目的是推断总体的数量特征，抽样误差可以事先计算并控制。能用较少的人力、物力和时间达到全面调查的目的，调查资料的准确性较高、受人为干扰的可能性较小。应用较广，为统计调查的发展方向。2、数据整理：数据整理是指将统计调查得到的原始资料进行科学的分组和汇总形成综合统计资料的工作过程。（1）数据审核：从完整性和准确性两方面审核数据。（2）数据筛选：当数据中的错误不能予以纠正，或者有些数据不符合调查的要求而又无法弥补时，需要对数据进行筛选。（3）缺失数据处理：在样本数据中，可能出现部分数据点缺失或个别数据点异常波动的情况，几种处理不完备数据集的方法：（3.1）删除元组（3.2）数据补齐平均值填充、众数填充。（3.3）回归基于完整的数据集，建立回归方程模型，将已知属性值带入方程来求未知属性值。（4）数据排序：指按一定顺序将数据排列，以便研究者通过浏览数据发现一些明显的特征或趋势。也对进一步数据重新归类或分组提供方便。（5）数据分组：数据分组是根据统计研究需要，将原始数据按照某种标准划分成不同组别，分组后的数据称为分组数据。其目的在于观察数据的特征。（5.1）几个基本概念频数：落在各类别中的数据个数。组距：一个组上下限间的差。组中值：每一组中上下限值的中间值。开口组组中值=上（下）限+（-）邻组组距/2极差：一组数据最大值和最小值之间的差，也称全距。众数：一组数据中出现次数最多的变量值，用于测度分类数据的集中趋势。中位数：指一组数据排序后处于中间位置上的变量。设一组数据为，按从小到大排序后为，则中位数为：平均数：是集中趋势的主要测度值A、简单平均数B、加权平均数，其中,即样本量。C、几何平均数（5.2）常用分组方法组距分组将变量值的一个区间作为一组，适合于连续变量和变量值较多的情况，分组区间需要遵循“不重不漏”的原则，可采用等距分组，也可采用不等距分组。分组步骤：确定组数：根据 Sturges 提出的经验公式得组数K为：，n为样本数。计算组距：组距=极差/分组数确定组限，编制频数分布表。三、统计推断的基本原理介绍（一）几个基本概念1、概率与概率分布（1）概率：随机试验或观察中,某种事件或结果（随机事件）出现的可能性, 称为概率。基本性质：非负性 0P(A)1，即事件发生的概率介于0和1之间。正则性 P()=1，即所有事件发生的概率之和恒为1。（2）概率分布：如果有某种形式能够表现出随机变量的取值及其概率，则称这种形式为随机变量的概率分布。连续型随机变量的概率分布，其中为密度函数。2、集中度和离散度（1）样本均值:为样本中各观测值的平均数。，为样本观测值，为频数。n为自由度，为样本数据-1。（2）离散度指标（2.1）样本方差：，为样本观测值，为频数。（2.2）样本标准差s：为样本方差的平方根。（2.3）离散系数：为一组数据的标准差与其相应平均数的比。注意：方差和标准差均是反映数据分散程度的绝对值，而离散系数是测度数据离散程度的相对统计量，消除量纲的影响，可直接用于不同样本间离散程度的比较。（2.4）偏斜度：反映以平均值为中心的不对称程度，正偏斜度表示不对称部分的分布更趋向正值，负偏斜度表示不对称部分的分布更趋向负值。在EXCEL中用SKEW（）函数求值。（2.5）峰度表述分布的尖端程度，其中代表正态分布的为常峰态。正峰值表示相对尖锐的分布，负峰值表示相对平坦的分布。在EXCEL中用KURT（）函数求值。3、抽样与抽样分布（1）抽样（1.1）定义抽样即从总体中按一定原则抽取样本。优点：以样本特征推断总体，简单，方便。主要的抽样方法有：简单随机抽样，分层抽样，整群抽样、系统抽样，多阶段抽样。（1.2）抽样平均误差指每一个可能样本的估计值与总体指标值之间离差的平均数，即样本估计量的标准差。抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。抽样误差可以控制但不可避免。（1.3）影响抽样误差的因素：A、总体各单位的差异程度（即标准差的大小）：标准差越大，抽样误差越大；B、样本单位数的多少：样本单位数越大，抽样误差越小；C、抽样方法：不重复抽样的抽样误差比重复抽样的抽样误差小；D、抽样组织方式：简单随机抽样的误差最大。（2）几个主要的抽样分布（21）正态分布 N（）标准正态分布变换通过上述公式可将一般正态分布转化为标准正态分布N（0，1），再通过查标准正态分布即可求得X的概率。中心极限定理：设X1, X2,Xn是n个相互独立同分布的随机变量。在一定条件下, 它们的样本均值服从正态分布，即：。根据中心极限定理，独立同分布的样本，在大样本的情况下，近似服从正态分布，可以用正态分布的特征来研究样本特征。(a)正态分布(b)偏态分布正偏(右偏)负偏(左偏)（2.2）t分布，此为自由度为n-1的t分布。应用：当抽样的样本容量为小样本（n<30）时,抽样分布即为t分布。t分布与正态分布一样是单峰偶函数，但t分布的尾部更厚，即方差更大一些。（2.3）c2分布样本方差除以总体方差的n-1倍的分布是自由度为n-1的c2分布。应用：c2分布在研究样本方差分布特征和信度区间等方面有重要的价值。（2.4）F分布为，为，与独立，记，则F服从参数为m和n的F分布，记为F（m,n）。性质：当F为F（m,n），则1/F为F（n,m）。当T为t(n),则为F（1，n）应用：可用于检验线性回归模型的显著性和异方差。（二）区间估计区间估计指根据样本指标和抽样极限误差以一定的可靠程度推断总体指标的可能范围；其中，被推断的总体指标的下限与上限所包括的区间称为置信区间，估计的可靠程度也称为置信度。一个正态总体的区间估计设总体N（），为的样本，现讨论的区间估计。1、均值的区间当已知，则置信区间为：其中称抽样平均误差为置信度，n为样本容量为正态分布的右侧分位数当未知，由于样本的方差为总体方差的最优无偏估计，所以可用代替。置信区间为：其中为t分布t(n-1)的下侧分位数2、方差的区间估计置信区间为（，）其中与为分布的分位数。可据此对一定置信度内，抽样样本容量进行推断。（三）假设检验假设检验是指在总体分布或参数未知情况下, 提出某些关于总体分布或参数的假设,然后根据样本资料对所提出的假设进行检验，并作出判断。假设检验的依据：小概率定理。正态总体均值的假设检验设为总体的样本，为未知参数。已知，对可提出以下假设：（1）（2）（3）（4）（5）（6）其中（1）、（4）和（6）三种情况较为常见，以下我们介绍（1）和（4）两种假设检验，（6）的处理方法类似于（4）。关于（1）：的拒绝域为关于（4）：的拒绝域为正态总体方差的假设检验设为总体的样本，为修正样本方差。未知时，假设（1）（2）（3）关于（1）：的拒绝域为关于（2）：的拒绝域为关于（3）：的拒绝域为四、相关分析与方差分析（一）相关分析与偏相关分析相关分析研究现象之间相互关系的密切程度，求得相关系数。1、相关分析相关系数检验统计量t 2、偏相关分析偏相关分析是用于衡量在多变量情况下，变量之间的相关关系。与简单相关分析不同的是，偏相关分析要对其他变量的影响进行控制，以考察两个变量之间的净相关关系。（二）方差分析方差分析是检验两个样本或多个样本的均值间差异是否有统计意义。假定：总体同方差，服从正态分布。各样本总方差：各样本联合方差：g为样本组数，n为每组样本个数，为每组均值，为总体均值。检验统计量 > 时，总体均值间存在差异。在实际工作中，方差分析过程常用方差分析表来表现，众多统计分析软件都可直接生成方差分析表，而常用的EXCEL软件，在数据分析的分析工具选择中就提供了单因素方差分析、可重复双因素方差分析、无重复双因素方差分析三种选择。第二节税收收入运行的统计学分析一、税收收入运行的经济性税收收入来源于经济性税源，税收与经济运行有较强的正相关性。表：1994-2006年福建省地方税收收入和GDP表（单位：亿元）年份GDP税收收入1994 1644 44 1995 2146 56 1996 2560 70 1997 2975 91 1998 3287 102 1999 3550 115 2000 3765 130 2001 4073 159 2002 4468 173 2003 4984 202 2004 5763 244 2005 6569 284 2006 7502 366 从图中可以看出，税收收入和GDP成正相关关系，2001年和2006年是两个跳跃点，将曲线大致分为三段。（一）描述统计量根据此表可知税收收入和GDP的95%置信区间，并可进行离散系数分析。税收收入的离散系数为：95.78/156.62=0.61GDP的离散系数为：1730.02/4098.92=0.42二者的离散系数都比较大，数据波动比较明显。（二）相关性分析税收收入和GDP相关系数为0.9866,存在正相关性。也可进行偏相关分析，计算在税收收入与GDP和年份两变量都相关的条件下，通过控制其中一个变量的干扰，判断另两变量间的相关关系。如控制时间变量后，税收收入和GDP的偏相关系数为0.9372,仍存在明显正相关。（三）税收随GDP增长的弹性税收的GDP弹性定义为一定时期内，税收变动对于GDP变动的关系。弹性分为点弹性和线弹性。点弹性指当GDP增长一个百分点时，税收变动的百分比。线弹性指两个经济变量存在函数关系时，函数曲线的斜率。对数税收和对数GDP的回归系数近似为税收线弹性。如下图：Y=1.44X-3.035,R平方为0.9939,系数1.44即为1994-2006年税收对GDP的线弹性。注意:由上述关系图可以看出2001年和2006年为明显跳跃点,若要更精确的求出弹性,应将时期分成三个阶段分别求弹性。二、税收收入的内在增长趋势（一）税收收入运行随时间变动的趋势税收收入的运行除了具有和经济变量密切相关的特点外，其序列本身也具有随时间变化的内在规律性。税收收入随时间变化的走势图如下：对图中指数模型取对数，可以得到：对数税收= 0.1627年份-118.31此为半对数模型,根据半对数模型的特点,税收的增长率为16.3%。也可选择外推的时期数，作粗略预测。（二）税收增长率分析1、增长率：也称增长速度，它是时间序列中报告期观察值与基期观察值之比减1后的结果，用%表示。由于对比基期的不同，增长率可以分为环比增长率和定基增长率。环比增长率是报告期观察值与前一时期观察值之比减1，说明现象的逐期增长变化程度；定基增长率是报告期观察值与某一固定时期观察值之比减1，说明现象在整个观察期内总的增长变化程度。环比增长率：定基增长率：平均增长率：也称平均增长速度，它是时间序列中逐期环比值（也称环比发展速度）的几何平均数减1后的结果，计算公式为：表示平均增长率，n为环比个数。2、增长率分析中应注意的问题：对于大多数时间序列，特别是有关社会经济现象的时间序列，经常利用增长率来描述其增长状况，尽管增长的计算和分析都比较简单，但在实际工作中仍应注意不误用和滥用，不能单纯就增长率而论，应与绝对水平结合分析。3、平均增长率的计算实例实例：2001-2004年某省税收收入增长分别为11%、12%、13%和14%，要求计算这4年税收收入的平均增幅。实例：某省2001年税收收入159亿元，2006年税收收入365.76 亿元，求该省这几年的税收收入平均增幅。三、税收收入运行的季节性年度税收数据序列有明显的随时间增长的特征，而月度税收波动则呈现出一大月二小月交错分布，具有明显的季节性。2002年1月-2007年7月的全省月度税收走势图如下：对于此类波动数据类型，应选用季节性差分模型进行处理。四、其他常用税收分析方法（一）税源质量的效能位差分析效能位差法化绝对指标为相对指标，可以简便直观的分析纳税能力和税源质量的关系。可用于结合税源状况，对征管效率进行评估。1、实例：六区域税源质量分析税源质量综合指数测算表地区排序盈利比例(%)利润率(%)户均盈利增值率(%)税源质量指数合计/平均046.992.46173.338.971西北539.451.9668.0111.800.836华北647.651.95118.606.380.800西南255.462.48148.5718.001.262中南444.982.31156.739.110.943东北338.031.97182.1211.070.974华东164.143.06350.027.491.365税收效能位差测算表地区企业户数税源质量指数排序税负（%）排序效能位差合计/平均25339102.0600西北39570.83653.0023华北62500.80061.4142西南18301.26225.3911中南79450.94342.6731东北22430.97430.926-3华东44511.36511.405-42、税源质量指数的计算方法：计算各项指标的平均值，填入合计/平均行。将各指标值除以各自对应列的平均值得出各项指数，求各项指数的平均值，即得税源质量指数。3、效能位差的计算方法：根据各地区税源质量指数排序，再根据各地区税负排序，将税源质量指数排序值减去同行的税负排序值，差值即为效能位差。（二）同业税负分析1、定义行业税负:某一行业税收总量与税源总量之间的比例关系，是一项反映行业税收经济关系的数据指标。它可以是一个行业所有税收总量负担的概念，也可以是该行业一个税种总量负担的概念。同业税负：同一行业税收负担形成过程中所表现出的税收与经济的一系列相关关系，包括个体与整体的相关关系，个体之间的相关关系，以及由这一系列关系所反映出的行业税收经济关系的规律特征。同业税负分析理论依据可比性。同业税负分析的目的：强化税负分析的可比性；建立行业税负客观标准；寻找地区差异、评价征收力度；为建立税负预警系统提供理论基础和数据支持。营业税同业税负分析指标：准予扣除率、计税收入比、应交税负、实交税负。企业所得税同业税负分析指标：赢利企业比例成本费用率、经营利润率、内外资企业分赢利规模的计税所得额与利润总额的比例、内外资企业分赢利规模应交税负、内外资企业分赢利规模实交税负。征收力度是以各行业的实际税负水平在全国各行业相对位置的积分表示。2、同业税负的分析方法（1）计算同业税负TB为税负，TAX为税收，CR为计税收入，i为地区，j为行业。j行业税负水平计算税负相对值综合征收力度（2）税负预警模型计算行业税负的平均值：计算行业税负的离散度。标准差离散系数一个行业的税负标准差和离散系数越大，说明这个行业的税收征管情况越复杂。计算税负预警线。当时，税负预警上下限=当时，税负预警上下限=0.6和1均为经验值。（3）实例：2006年上半年全国重点企业税收负担预警分析对2006年上半年重点税源企业税收负担(比率)进行分析,比率标准差为2.47765,均值为6.7694,离散系数为0.37<0.6,所以此例中比率预警线为6.77+(-)2.48,即上线为9.25,下线为4.29。注意:此处税收负担并非同业税负，亦可使用同业税负数据实现该分析。第三节多元统计分析方法一、聚类分析（一）定义聚类分析是利用样本的多变量条件，通过数理统计，对属性相近的数据聚类，根据聚类的量度和方向予以定性，是根据对象特征进行“物以类聚”的方法。分为系统聚类，动态聚类等。假使每个样品有p个变量，则每个样品都可以看成p维空间中的一个点，n个样品就是p维空间中的n个点，则第i样品与第j样品之间的距离记为。距离和相关系数均可以衡量样品间的接近程度。欧氏距离：相关系数：（二）聚类的基本步骤： 1、将n个样品各作为一类； 2、计算n个样品两两之间的距离，构成距离矩阵； 3、合并距离最近的两类为一新类，计算新类与当前各类的距离；再合并、计算，直至只有一类为止； 4、画聚类图，决定分类个数和类。（三）实例：部分国家税收加社保负担率聚类分析1、单指标聚类将2004年部分OECD国家的税收加社保负担率（tax revenue + social contribution）用SPSS软件进行聚类分析，操作步骤：SPSS下选数据分组，聚类，系统聚类，做出聚类图。2004年，中国税收加社保负担率为19.55%，由聚类结果可以看出，我国的税收加社保负担率在第一层次聚类分组中，与智利、墨西哥、泰国等国家同属一类，在第二层次聚类分组中与智利、墨西哥、泰国、新加坡和巴基斯坦同属一类。税收加社保负担率水平在第一层次聚类七大分组中，列为第二低值组，仅高于新加坡和巴基斯坦所在的分组；在第二层次聚类四大分组中，列为最低值组。据此推断，我国的税费负担水平与福布斯公布的税负痛苦指数位次不符，我国税收加社保负担率在所比较的OECD国家中应属于较轻水平。2、双指标聚类以两组指标分别为X和Y轴，做散点图，求取各指标数据的平均值，（或用已知标准值），画, 两条直线把数据分成四个区。再画直线（连接（0,0）（,）两个点），把数据分成两个区。测算各点到（,）的距离。用SPSS软件做散点图(图形,交互式,散点图,在图形属性中添加X,Y均值的参考线,将图形导出在画图程序中,绘制斜线)如下:从上图可以看出中国属于社保负担和税收负担双低的国家,但相对我国的税收负担,中国的社保负担偏轻（落在斜线下方），同区域的国家有智利、泰国和阿根廷。二、主成分分析法和因子分析法（一）主成分分析法1、定义主成分分析是一种简化数据、降低维数的多元技术。即在不损失或很少损失原有信息的前提下，将多个指标转化为少数几个相互独立的综合指标，称之为主成分。设有n个被评价对象，每个被评对象由p个指标来描述，得到原始数据矩阵：主成分分析的目的是找出少数几个综合指标替代原来p个指标。理论证明，主成分问题可以转化为求系数矩阵征值和特征向量问题。 2、基本步骤：（1）求X的协方差阵V；（2）求特征值i和特征向量ui；（3）求得第i个主成分; （4）写出主成分，并适当作出筛选。选择依据主成分的累计贡献率（85%）。（二）因子分析法因子分析是从相关矩阵内部的依赖关系出发，把多个变量复杂关系用少数几个隐变量综合因子来解释。可以看成是主成分分析的推广。1、一般模型为其中称为因子，系数称因子负荷，为特殊因子。因子分析的目的就是通过替代，达到既降维又不损失原变量主要信息的目的。因子模型的基本假设：公因子之间相互独立，且均值为0，方差为1；特殊因子与公因子之间相互独立，COV（ , )=0；特殊因子之间相互独立，E（ )=0。2、基本步骤(1)将原始数据标准化，计算相关系数阵；(2)计算载荷阵，确定公因子数（贡献率）；(3)因子旋转，解释因子意义；(4)计算总因子得分；(5)进行综合评价分析。3、因子分析的意义：将评价指标归纳成几个方面，如评估税源质量，可用计税收入率、经营利润率、销售增值率等十几个乃至几十个指标，但大致可归纳为几个方面的指标，并衡量每个方面指标的不同影响程度。因子分析可以用于在建模分析中寻找替代变量。4、实例：根据年鉴资料，选取全国31个省（直辖市、自治区）2006年经济发展情况的10项综合性指标资料：地区生产总值、人均GDP、工业总产值、第三产业总值、固定资产投资总额、进出口贸易总额、社会消费品零售总额、财政收入、城镇居民可支配收入、农村居民纯收入等，对全国31个省（直辖市、自治区）2006年经济发展情况作主成分和因子分析。第四节回归分析一、基本原理一元线形回归方程和多元线形回归方程的建模思想均是依据最小二乘法原理。（一）一元回归模型：根据最小二乘法原理，由偏导求解最小值得参数估计最小二乘法基本思想是配合一条较为理想的趋势线，使观察值与估计值的离差平方和为最小。即在平面上求取一条趋势线，使各散点值到直线的距离总体最小。（二）多元回归模型：现实问题处理中，因变量往往由多个自变量共同决定，例如：税收不仅和GDP相关，还受物价指数、税制等多个因素影响。二、模型的基本假设和特殊情况处理（一）古典回归模型的假设:（1）解释变量x为非随机变量；（2）零均值假定：；（3）同方差假定：为常数；（4）非自相关假定：；（5）解释变量与随机误差项不相关假定：；（6）无多重共线性假定。（二）模型的检验统计量1、判定系数：为回归平方和和总离差平方和的比值。总离差平方和=回归平方和+残差平方和，即TSS=ESS+RSS。判定系数用于判定回归模型的拟合程度，各个样本观测点和样本回归直线靠得越近，。注意：不能简单的认为时最好，应检验是否存在伪回归的可能。截面模型的一般小于时序模型，当时，也可认为模型拟合度较好。2、回归系数的显著性检验（t检验法）回归参数的T统计量P为变量的个数，一般取，即检验在95%的水平上，回归参数的显著程度。当T的绝对值大于临界值时认为回归系数显著。3、回归方程的整体显著性检验-F检验法其中：ESS和RSS分别为自由度为p和n-p-1的分布。F值大于临界值，可以认为模型显著。（三）几种特殊情况及处理方法1、自相关检验（1）散点图示法绘制残差e的散点图图( 为横轴)若散点大部分落在一、三象限为扰动项正自相关。若散点大部分落在二、四象限为扰动项负自相关。（2）DW检验-用于时序模型的随机误差项具有一阶自回归形式的序列自相关性检验。DW 2(1-),为残差，是干扰项的系列相关系数，。对于小样本查DW（p,n-p-1）的上下临界值，dL和dU。0DWdL时，认为存在一阶正自相关性。4-dUDW4时，认为存在一阶负自相关性。dUDW4-dU时，认为不存在一阶自相关性。dL<DW<dU或4-dU<DW<4-dL时，无法确定是否存在自相关性。（3）自相关产生的原因：A、时间序列样本中，经济变量具有惯性，前后期之间总是互相关联。B、扰动项序列本身自相关。C、遗漏重要解释变量误差项会出现明显正相关。考虑变量应全面，并反复尝试，若模型的判别系数值偏小，则有可能遗漏重要解释变量。（4）自相关的影响后果（4.1）参数估计值的方差增大。（4.2）常用F检验和t检验失效。（4.3）模型预测时有较大的方差错误解释。（5）消除一阶自相关的方法：将变量进行一阶差分，即令。2、异方差散点图图示法判断是否存在异方差，方法有散点图图示法、残差回归检验法和样本分段比较法等，对于处理异方差常用加权最小二乘法（WLS），即以自变量和方差作为加权权数对变量进行标准化处理。样本分段比较法取两个同样本的子样，分别回归，计算各自残差平方和。构造统计量，C为取样时未取入的样本个数。SSR2对应X值较大部分样本残差。时，存在异方差，且为递增异方差。3、多重共线性所谓多重共线性是指线性回归模型中解释变量样本观测值间具有某种线性关系。（1）多重共线性的影响后果A、各个解释变量的影响难以精确鉴别。B、回归参数估计量方差偏大，导致不当剔除解释变量。C、模型参数对观测值增减和剔除不显著解释变量都过于敏感。方差扩大因子表示偏回归系数方差因多重共线性扩大的倍数。表示第j个解释变量对其他解释变量进行回归的判定系数。时，认为存在多重共线性。（2）多重共线性的处理A、删除不重要的解释变量从实际经济分析为不重要的，且偏相关系数检验为多重共线性的原因的变量中删除。B、追加样本信息样本增容。C、改变解释变量的形式横截面数据采用相对数变量，时间序列数据采用增量型数据。D、逐步回归法逐步引入经F检验显著的自变量，并剔除不显著的自变量，至没有不显著的变量引入方程，也没有显著的变量从方程中剔除为止。E、岭回归在解释变量中加入对角矩阵I，以适度有偏为代价解决共线性问题。Y（X+KI）4、含虚拟变量回归（1）模型间断点有时异常数据点是样本的真实情况，体现事物发展的阶段性变化，此类数据点对反映真实情况有着重要的价值，不宜简单处理。周检验：用于查找划分样本的异常数据点。（2）虚拟变量回归虚拟变量线形回归模型，虚拟变量以间断点为界，将模型划分成斜率、截距不同的两条直线。其中：若，则为截距相同，斜率不同。若，则为截距不同，斜率相同。虚拟变量回归模型与分为不同区间段分别回归模型的区别在于前者扰动项相同，即随机因素影响的假设是一致的。5、非线形模型线形化现实生活中，变量之间并不总是遵循线形关系，而是非线形的，几种常用的非线形回归模型：（1）抛物线模型（二次曲线模型）当X的一阶差分和Y的二阶差分接近常数时，可用此模型。（2）双曲线模型Y随X的增加而增加（减少），开始增加（或减少）很快，后来逐步趋于稳定。（3）幂函数模型一般可对幂函数模型两边取对数化为线形模型Log表示取自然对数，此类模型的优点在于模型中的参数可以直接表示Y对X的弹性。（4）指数函数模型广泛的应用于社会经济现象的某种变动趋势，如：税收按一定比率增长等。对此模型取对数，得：，称为半对数模型。建立的是Y的增长率与的关系，相关系数为。若X为时间趋势t,则可衡量变量随时间的增长趋势。（5）多项式模型根据数学上级数展开的原理，任何曲线、曲面、超曲面的问题均可用多项式逼近，因而该模型在非线性回归分析中占有重要的地位。总结：我们常用的税收计量模型为数据驱动模型，认真观察数据的特征是建模的基础。建模并不是简单列出一个线性等式，模型的建立涵盖了多方面的内容，只有综合掌握了上述建模要点，才可能建立与真实情况较为接近的模型。以回归模型为例，考虑的问题就包括选择模型的类型，选择哪些变量，模型平稳性，显著性，各变量的显著性，无异方差，无序列自相关等等，应考量全面，反复尝试。以上内容并不要求大家都能掌握，但大家应知道建立一个简单的模型并不困难，但模型若要能较好的反映客观现实，却有大量的工作要做。第五节指数在进行税收分析中，我们经常要和各种指数打交道，例如：零售价格指数、销售价格指数、GDP平减指数等等。本节主要介绍一些价格指数的编制方法。一、加权综合指数通过加权来测定一组商品价格的综合变动。因权数固定的时期不同，加权综合指数有不同的计算方法。（一）拉氏价格指数：把作为权数的销售量固定在基期。（二）帕氏价格指数：把作为权数的销售量固定在报告期。（三）加权平均指数：是计算综合指数的一种形式，它是以某一时期的销售额作为权数对单个商品价格指数加权平均计算。我们注意到该指数化简后与拉氏指数相近，但经济含义完全不同。二、常用价格指数我们常接触的价格指数主要有居民消费者物价指数、固定资产投资价格指数、商品零售价格指数等。我们重点介绍消费者物价指数。（一）消费者物价指数的定义消费者物价指数又称消费价格指数。是反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度的一种相对数。通过这一指数可以观察消费价格的变动水平及对消费者货币支出的影响，研究实际收入和实际消费水平的变动状况。可分为城市居民消费价格指数、农村居民消费价格指数和全国居民消费价格指数。（二）消费者物价指数的作用、用于反映通货膨胀的状况通货膨胀的严重程度一般用通货膨胀率来表示，它说明一定时期内商品价格持续上升的幅度。通货膨胀率=（报告期消费价格指数-基期消费价格指数）/基期消费价格指数×100%（）用于反映货币购买力变动货币购买力指单位货币可以购买到的消费品和服务的数量。货币购买力指数=1/消费价格指数×100%（）用于反映对职工实际工资的影响消费价格指数提高意味着实际工资减少，消费价

注意事项

本文（2021-2022年收藏的精品资料统计方法在税收分析中的应用.doc）为本站会员（可****阿）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。