实证研究中的数据分析.ppt
《实证研究中的数据分析.ppt》由会员分享,可在线阅读,更多相关《实证研究中的数据分析.ppt(145页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2022/12/22陈小林发表经验论文(empirical paper)应做到三条o研究问题有趣,能引起共鸣o论文必须对文献做出贡献n其他研究者未曾考虑过此问题n其他研究者未能回答此问题n其他研究者提供的回答是错误的o对研究的经验分析必须非常可靠为什么需要计量分析2022/12/22陈小林 在数学与头脑相遇的地方,你的脑筋可以豁然开朗,你可以轻而易举地化解掉数学现象中的匪夷所思。数学是最奇妙的,它不关心主题,知道2X+2X=4X就行,能把真理浓缩统计分析是正确理解数据的工具o首先:要避免犯统计错误o明确:统计没有错误,犯错的是人。n1.理论和方法的错误n2.理解和解释的错误2022/12/22
2、陈小林2022/12/22陈小林理念o统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很简单o做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做吧o复杂的方法未必是可行的方法,越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多的价值o 要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效果2022/12/22陈小林2022/12/22陈小林2022/12/22陈小林2022/12/22陈小林经验数据分析三步骤o数据收集与整理o描述性统计o多元回归分析(与稳健性检验)注:一篇经验研究论文的数据 3-4描述性
3、统计和单变量分析表 一些多元回归分析表2022/12/22陈小林一、数据的收集与整理(select data&manage data)o数据的收集n数据库:CSMAR;CCER;WINDn手工收集:年报;年鉴;网络资源o数据整理n数据结构变换n数据合并(sas/stata:merge;append)n计算新变量n2022/12/22陈小林数据结构变换2022/12/22陈小林合并o简单合并(simple merge)n一个文件记录100个公司资产、负债,另一个文件记录该100个公司利润,合并成一个文件o附加合并(append)n一个文件记录50个公司的资产、负债和利润,另一个文件记录另外50个
4、公司的资产、负债和利润,合并成一个文件o匹配合并(match merge)n一个文件记录100个公司资产、负债,另个文件记录100个公司利润,但两个文件的变量有缺失,合并成一个,需要按关键字合并(如股票代码等)研究中主要是此类合并比如:前一文件中第30个公司没有数据,后一文件中第75个公司没有数据2022/12/22陈小林匹配合并示例2022/12/22陈小林计算新变量o研究中的测试变量往往需要重新计算n独立董事比例n国有股比例n净资产收益率n 2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o什什 么么 是是 描描 述述 性性 统统 计计(Descri
5、ptive Statistics)n描述性统计就是组织、描述和总结所收集到的一组数据的特征。n需要注意的是,它所描述的是这组数据本身的分布特征。2022/12/22陈小林2022/12/22陈小林 二、描述性统计分析(Descriptive Analysis)o什么是推论统计什么是推论统计(Inferential Statisticsn推论统计就是从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体。我们把较小的这个群体,也就是我们收集了数据的群体称之为样本(sample),把更大的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为总体(population)。2022/12/
6、22陈小林描述统计与推断统计的关系反映客观现反映客观现反映客观现反映客观现象的数据象的数据象的数据象的数据总体内在的总体内在的总体内在的总体内在的数量规律性数量规律性数量规律性数量规律性推断统计推断统计推断统计推断统计(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)行估计和检验等)行估计和检验等)概率论概率论概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)和
7、中心极限定理等)和中心极限定理等)描述统计描述统计描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)理、显示和分析等)理、显示和分析等)总体数据总体数据总体数据总体数据样本数据样本数据样本数据样本数据统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程 二、描述性统计分析(Descriptive Analysis)2022/12/22陈小林 二、描述性统计分析(Descriptive Analysis)o描述统计的目的n检查数据(如:变量值要有意
8、义)n对此变量的分布特征做初步判断n依据此数据推论总体是否合适,要如何做调整n依据此变量分布特征,选择合适的统计模型进行回归分析之前,进行描述性统进行回归分析之前,进行描述性统计分析是非常重要的计分析是非常重要的2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o总体和样本n样本是总体的一部分,是对总体随机抽样后得到的集合。n对观察者而言,无法了解总体,只能了解样本的具体情况。通过对具体样本研究,来推断总体特征。o随机变量n连续型n离散型2022/12/22陈小林变量的测量尺度2022/12/22陈小林二、描述性统计分析(Descriptive Analy
9、sis)o名称级:用于测量“定类变量(nominal scale)”的值,是最低级别的测量等级。大多数定性测量都使用定类变量。其严格区分又可分为标记和类别n标记:作为一个识别的记号,并不表示数量的多少,不能做数学运算,如运动员的号码n类别:可以作为对变量的不同状态的度量。如性别、宗教。类别能够识别出某些特征,但也不能运算o顺序级:用于测量“定序变量(ordinal scale)”的值,是可以按某种特性将观测对象排序的,如等级、高低,先后的次序等,人的经济地位、文化程度的测量n 2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o间隔级:用于测量“定距变量(
10、interval scale)”的值,这种值之间不但可以比较大小顺序,还可以说明相差多少,即两上个值之间是有实际意义的。n例如,摄氏温度这一定距变量说明,摄氏40度比30度高10度,摄氏30度比20度又高10度,它们之间高出的距离相等,而摄氏零度并不是没有温度。又比如调查数个地区的工人占全部劳动人口的比率时,发现甲、乙,丙、丁、戊五个地区的比率分别是2、10、35、20、10。甲区与丙区相差33,丙区与丁区相差15。这也是一个变距变量。定距变量各类别之间的距离,只能用加减而不能用乘除或倍数的形式来说明它们之间的关系。n定距变量的每一等级之间的间距是相等的,可以用来相加或相减,但不能相乘和相除2
11、022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o比例级:用于测量“定比率变量(ratio scale)”,这是最高的测量级别。n数字具有实际意义,能够进行加减乘除运算,运算的结果也具有实际意义。o一般情况下,测量级别高的变量可以当作级别低的变量来分析,但反过来一般不可以 o定类变量是属于定性型的;定距和定比率变量属于定量型;而定序变量则根据具体情况而定。2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)数据特征的描述数据特征的描述分布特征分布特征集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中
12、位数中位数中位数中位数均均均均均均 值值值值值值全距、分全距、分全距、分全距、分全距、分全距、分位数位数位数位数位数位数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 度度度度度度最小值最小值最小值最小值最小值最小值最大值最大值最大值最大值最大值最大值偏偏偏偏偏偏 度度度度度度2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o(1)数据集中趋势描述统计量)数据集中趋势描述统计量n均值(mean)o衡量数据的中心位置的重要指标。包括算术平均值(常用,总和除以个数)、加权算术平均值、调和平均值和几何平均值 n中位数(me
13、dian)o另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数,当当n为奇数为奇数,按大小排列,按大小排列后后,第,第(n+1)/2个观察值个观察值,就是中位,就是中位数数。当当n为偶数与为偶数与,则则取第取第n/2与与(n+2)/2个观察个观察值值的平均数为中位数的平均数为中位数。n众数(mode)o是指在数据中发生频率最高的数据值。可能不止一个众数,也可能没有众数(即不重复出现)2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)n如果X的分布是单峰的对称分布,这时众数、中位数和平均数是一致的 n对于
14、一个偏斜的分布,相对于众数,中位数朝长尾巴方向偏离了一些,而均值刚偏离的更远 n均值对异常值是较敏感的,而中位数不那么敏感 n如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数有较好的代表性。众数虽然稳定性差,但有时会有用,比如评选最受欢迎的比如评选最受欢迎的XXX 2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o(2)数据的离散程度)数据的离散程度描述统计量描述统计量n离散程度分析主要是用离散程度分析主要是用来反映数据之间的差异来反映数据之间的差异程度程度 n标准差(std D
15、eviation)o主要是用來衡量主要是用來衡量观察观察值与平均值的离散程值与平均值的离散程度,其值越小,表示度,其值越小,表示总体的齐质总体的齐质性越高性越高总体标准差样本标准差2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)n方差(Variance)n最大值(maximum)n最小值(minimum)n全距(range)(=max-min)n分位数(排序后处于25%和75%位置上的值)QQ1 1QQMMQQ3 325%25%25%25%2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o(3)数据的分布)数据的分
16、布n偏度(skewness)o偏度衡量的是样本分布的偏斜方向和程度,以平均值为中心的不对称程度o=0 分布为对称分布分布为对称分布o0 此此分分布布为为右右偏偏或或正正偏偏分分布布,分分配配集集中中在在低低数数值值方方面面,不不对对称称的的尾尾端端向向较较大大值值方方向向(右)延伸(右)延伸o3 此分此分布为高狭峰,布为高狭峰,分分布较为布较为尖峰集中尖峰集中o3 此分此分布为低阔布为低阔峰,分峰,分布较为布较为平坦平坦2022/12/22陈小林峰度分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布峰度峰度峰度峰度2022/12/22陈小林二、描述性统计分析(Descr
17、iptive Analysis)n一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。2022/12/22陈小林二、描述性统计分析(Descriptive Analysis)o示例:auditfeesn 检查数据(inspect auditfees)n单个变量数据分布o连续变量o离散变量n两个变量数据联合分布(含单变量分析)o两个都是连续变量o两个都是离散变量o一个连续变量,一个离散变量n单变量分析o两个连续变量(相关系数t检验)o两个离散变量(卡方检验)o一个连续变量和一个离散变量(分组均值t、中位数检验wilxocon)2022/12/22陈小林三、多元
18、分析:线性回归模型(OLS)o基本模型基本模型o系数解释系数解释o模型和系数检验模型和系数检验o模型诊断模型诊断2022/12/22陈小林(一)基本模型o模型中的变量模型中的变量n因变量因变量(dependent variable)o待解释变量待解释变量n自变量自变量(independent variable)o解释变量(需要研究的变量)解释变量(需要研究的变量)o控制变量(根据现有文献需进行控制的变量)控制变量(根据现有文献需进行控制的变量)2022/12/22陈小林(一)基本模型o一元线性回归一元线性回归o直线回归方程的模型:直线回归方程的模型:yi=a+bxi+ein其中:其中:na是截
19、距是截距nb是回归系数是回归系数(regression coefficient)(回归直线的斜(回归直线的斜率)率)nei是残差是残差n回归系数的统计学意义是:自变量每变化一个单位,因回归系数的统计学意义是:自变量每变化一个单位,因变量变量平均平均变化的单位数变化的单位数n直线回归方程的一般形式是:直线回归方程的一般形式是:2022/12/22陈小林(一)基本模型o回归直线的性质回归直线的性质残差和=0平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与注意:这里的残差与随机扰动项不是一个随机扰动项不是一个概念。随机扰动项是概念。随机扰动项是总体的残差。总体的残差。2022/12/
20、22陈小林(一)基本模型n残差要求:n(1)不相关n(2)同方差n(3)正态性2022/12/22陈小林(一)基本模型o多元线性回归多元线性回归n多元线性回归方程模型为:多元线性回归方程模型为:n yi=b0+b1x1i+b2x2i+bnxni+einb0是常数项,是各自变量都等于是常数项,是各自变量都等于0时,因变量的时,因变量的估计值。估计值。nb1,b2,bn是偏回归系数是偏回归系数(pertial regression coefficient),其统计学意义是在其它,其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化所有自变量不变的情况下,某一自变量每变化一个单位,因变量平均
21、变化的单位数一个单位,因变量平均变化的单位数nOLS目的是使残差最小目的是使残差最小(一)基本模型n如果有遗漏变量,而且与解释变量相关,将导致系数估计有偏,有偏的程度,取决于遗漏变量与解释变量的相关程度。n如果遗漏变量或未控制变量与解释变量不相关,那么得当的估计系数就能是无偏的。n确定是否存在遗漏变量:o理论指导o以前的经验研究结果o样本数据的收集过程2022/12/22陈小林2022/12/22陈小林(一)基本模型n如果所有参加分析的变量都是标准化的变量,如果所有参加分析的变量都是标准化的变量,这时这时b0就等于就等于0,b1,b2,bn 就变成了标就变成了标准化偏回归系数,用符号准化偏回归
22、系数,用符号b1,b2,bn表示表示nbi=bi*sxi/syn由于由于bi没有量纲,因此可以相互比较大小,反没有量纲,因此可以相互比较大小,反映自变量的相对作用大小映自变量的相对作用大小nei是残差是残差2022/12/22陈小林(一)基本模型o举例:举例:y x2022/12/22陈小林(二)系数解释o研究变量为连续变量的解释研究变量为连续变量的解释n如果得到的回归模型为如果得到的回归模型为nSALARY=963+18.5ROEn请解释其含义?(请解释其含义?(salary为经理的报酬)为经理的报酬)2022/12/22陈小林(二)系数解释n(1)ROE为为0,则,则CEO的报酬为的报酬为
23、963n(2)ROE增加增加1个百分点,即个百分点,即ROE=1,那,那么薪水的预期变化是么薪水的预期变化是18.5n如果得到回归模型为:如果得到回归模型为:nWage=-0.90+0.54educnLog(wage)=0.584+0.083educnLog(salary)=4.822+0.257log(sales)n含义?含义?2022/12/22陈小林(二)系数解释n对于第一个:关键是注意截距为负,不是没有意义,而是数据中的educ不会为0。增加一年教育,工资增加0.54.n第二个,因变量取了自然对数,如果将educ的系数乘以100,就成为百分数的概念,也就是增加一年的教育回报是多少。模型
24、说明,增加1年的教育,工资会有8.3%的增长。此时,截距没有很大意义。n第三个,因变量和自变量都取了自然对数,表示薪水对销售额的弹性,公司销售额增加1%,CEO的薪水增加0.257%。2022/12/22陈小林2022/12/22陈小林(二)系数解释n假定通过对526个观测数据估计得到的方程为:nLog(wage)=0.284+0.092educ+0.0041exper+0.022tenurenexper工作经历;tenure现职务任期n如果一个人在一个企业多待1年,对工资的影响有多大?2022/12/22陈小林(二)系数解释n在同一企业多待1年,意味着工作经历和现任职务都增加1年,对工资的估
25、计影响是:即工资增加即工资增加2.61%2022/12/22陈小林(二)系数解释o(2)研究变量为虚拟变量的解释n模型:wage=7.1-2.51femalen其中 female是虚拟变量n模型中的系数含义?n模型:log(price)=5.56+0.168log(lotsize)+0.707log(sqrft)+0.027bdrms+0.054colonialn其中:colonial是虚拟变量,殖民地风格建筑物为1,其他为0.n如何解释colonial的系数?2022/12/22陈小林(二)系数解释o(3)交互项系数的解释n模型:nLog(wage)=0.321-0.110female+0.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实证 研究 中的 数据 分析
限制150内