2022年我的数据分析心得 .pdf
《2022年我的数据分析心得 .pdf》由会员分享,可在线阅读,更多相关《2022年我的数据分析心得 .pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、我的数据分析心得来源以下是我在近三年做各类计量和统计分析过程中感受最深的东西,或能对大家有所帮助。当然,它不是ABC 的教程,也不是细致的数据分析方法介绍,它只是“总结”和“体会”。由于我所学所做均甚杂,我也不是学统计、数学出身的,故本文没有主线,只有碎片,且文中内容仅为个人观点,许多论断没有数学证明,望统计、计量大牛轻拍。关于软件。于我个人而言,所用的数据分析软件包括EXCEL 、SPSS、STATA 、EVIEWS 。在分析前期可以使用 EXCEL 进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是, E
2、XCEL毕竟只是办公软件,它的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到“万”以上级别时,EXCEL 的运行速度有时会让人抓狂。SPSS是擅长于处理截面数据的傻瓜统计软件。首先,它是专业的统计软件,对“万”甚至“十万”样本量级别的数据集都能应付自如;其次,它是统计软件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现), 对于复杂的、前沿的计量分析无能为力;第三, SPSS主要用于分析
3、截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。STATA 与 EVIEWS 都是我偏好的计量软件。前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之 SPSS差了许多;STATA 与 EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA 的扩展性较好,我们可以上网找自己需要的命令文件(.ado文件),不断扩展其应用,但EVIEWS 就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS 较强。综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法
4、。EXCEL 适用于处理小样本数据,SPSS 、STATA 、EVIEWS 可以处理较大的样本;EXCEL 、SPSS适合做数据清洗、 新变量计算等分析前准备性工作,而 STATA 、EVIEWS 在这方面较差; 制图制表用EXCEL ; 对截面数据进行统计分析用SPSS, 简单的计量分析SPSS 、 STATA 、EVIEWS 可以实现,高级的计量分析用STATA 、EVIEWS ,时序分析用EVIEWS 。关于因果性。做统计或计量, 我认为最难也最头疼的就是进行因果性判断。假如你有A、B 两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)?早期,人们通过观察原因和结果
5、之间的表面联系进行因果推论,比如恒常会合、时间顺序。但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是由共同的原因或其他因素造成的。从归纳法的角度来说,如果在有A 的情形下出现B,没有 A 的情形下就没有 B,那么 A 很可能是B 的原因, 但也可能是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 4 页 - - - - - - - - - 有两种解决因果问
6、题的方案:统计的解决方案和科学的解决方案。统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与未接受干预样本在效果指标 (因变量) 上的差异。 需要强调的是, 利用截面数据进行统计分析,不论是进行均值比较、频数分析, 还是方差分析、 相关分析, 其结果只是干预与影响效果之间因果关系成立的必要条件而非充分条件。类似的, 利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系; 计量模型中哪个变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。总之,回归并不意味着因果关系的成立,因果关系的判定或推断必须依据经过实践检验的相
7、关理论。虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其中最经典的方法就是进行“ 格兰杰因果关系检验” 。但格兰杰因果关系检验的结论也只是统计意义上的因果性,而不一定是真正的因果关系,况且格兰杰因果关系检验对数据的要求较高(多期时序数据),因此该方法对截面数据无能为力。综上所述, 统计、 计量分析的结果可以作为真正的因果关系的一种支持,但不能作为肯定或否定因果关系的最终根据。科学的解决方案主要指实验法,包括随机分组实验和准实验。以实验的方法对干预的效果进行评估, 可以对除干预外的其他影响因素加以控制,从而将干预实施后的效果归因为干预本身,这就解决了因果
8、性的确认问题。关于实验。在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差异。随机分组使得两组样本“ 同质 ” ,即 “ 分组 ” 、“ 干预 ” 与样本的所有自身属性相互独立,从而可以通过干预结束时两个群体在效果指标上的差异来考察实验处理的净效应。随机实验设计方法能够在最大程度上保证干预组与对照组的相似性,得出的研究结论更具可靠性,更具说服力。 但是这种方法也是备受争议的, 一是因为它实施难度较大、成本较高;二是因为在干预的影响评估中,接受干预与否通常并不是随机发生的;第三, 在社会科学研究领域,完全随机
9、分配实验对象的做法会涉及到研究伦理和道德问题。鉴于上述原因, 利用非随机数据进行的准实验设计是一个可供选择的替代方法。准实验与随机实验区分的标准是前者没有随机分配样本。通过准实验对干预的影响效果进行评估,由于样本接受干预与否并不是随机发生的,而是人为选择的, 因此对于非随机数据,不能简单的认为效果指标的差异来源于干预。在剔除干预因素后, 干预组和对照组的本身还可能存在着一些影响效果指标的因素,这些因素对效果指标的作用有可能同干预对效果指标的作用相混淆。为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性 在对照组中寻找一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年我的数据分析心得 2022 数据 分析 心得
限制150内