SPSS数据分析汇报.doc
/SPSS期 末 报 告关于员工受教育程度对其工资水平的影响统计分析报告 课程名称: SPSS统计分析方法 姓 名: 汤重阳 学 号: 1402030108 所在专业: 人力资源管理 所在班级: 三班 目 录一、数据样本描述1二、要解决的问题描述11 数据管理与软件入门部分11.1 分类汇总11.2 个案排秩11.3 连续变量变分组变量12 统计描述与统计图表部分12.1 频数分析12.2 描述统计分析13 假设检验方法部分23.1 分布类型检验23.1.1 正态分布23.1.2 二项分布23.1.3 游程检验23.2 单因素方差分析23.3 卡方检验23.4 相关与线性回归的分析方法23.4.1 相关分析(双变量相关分析&偏相关分析)23.4.2 线性回归模型24 高级阶段方法部分2三、 具体步骤描述31 数据管理与软件入门部分31.1 分类汇总31.2 个案排秩41.3 连续变量变分组变量52 统计描述与统计图表部分52.1 频数分析52.2 描述统计分析73 假设检验方法部分83.1 分布类型检验83.1.1 正态分布83.1.2 二项分布103.1.3 游程检验103.2 单因素方差分析123.3 卡方检验133.4 相关与线性回归的分析方法143.4.1 相关分析143.4.2 线性回归模型164 高级阶段方法部分184.1 信度184.2 效度19一、数据样本描述分析数据来自于“微盘SPSS数据包 data02-01”。(http:/vdisk.weibo.com/s/cLUq3Ep3X1lp?archive_ref=F0I4kg0FObO2f&archive_path=%2FSPSS%E6%95%B0%E6%8D%AE%E5%8C%85&category_id=0)本次分析的数据为某公司474名职工状况统计表,其中共包含11个变量,分别是:id(职工编号),gender(性别),bdate(出生日期),edcu(受教育水平程度),jobcat(职务等级),salbegin(起始工资),salary(现工资),jobtime(本单位工作经历<月>),prevexp(以前工作经历<月>),minority(民族类型),age(年龄)。通过运用SPSS统计软件,对变量进行统计分析,以了解该公司职工总体状况,并分析职工受教育程度、起始工资、现工资的分布特点及相互间的关系。二、要解决的问题描述1 数据管理与软件入门部分1.1 分类汇总以受教育水平程度为分组依据,对职工的起始工资和现工资进行数据汇总。1.2 个案排秩对受教育水平程度不同的职工起始工资和现工资进行个案排秩。1.3 连续变量变分组变量将被调查者的年龄分为10组,要求等间距。2 统计描述与统计图表部分2.1 频数分析利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。2.2 描述统计分析以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。3 假设检验方法部分3.1 分布类型检验3.1.1 正态分布分析职工的现工资是否服从正态分布。3.1.2 二项分布抽样数据中职工的性别分布是否平衡。3.1.3 游程检验该样本中的抽样数据是否随机。3.2 单因素方差分析把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。3.3 卡方检验职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。3.4 相关与线性回归的分析方法3.4.1 相关分析(双变量相关分析&偏相关分析)对受教育程度和现工资两个变量进行相关性分析。3.4.2 线性回归模型建立用受教育程度预测现工资水平的回归方程4 高级阶段方法部分对该样本数据进行信效度检测三、具体步骤描述1 数据管理与软件入门部分1.1 分类汇总以受教育水平为分组依据,对职工的起始工资和现工资进行数据汇总。图 1.1分类汇总数据由图1.1所示,受教育等级以年为单位划分可分为8年、12年、14年等图中所示10个等级。以等级为8年为例,现工资均值为24399.06美元,起始工资均值为13064.15美元,统计量为53人。经比较可知,教育年限为12年和15年的职工在公司中占大多数,教育年限为20年和21年的职工在公司中的初始工资平均水平较高,但教育年限为19年的职工现工资平均水平较高。1.2 个案排秩对受教育水平程度不同的职工起始工资和现工资进行个案排秩。表 1.2-1 现工资水平个案排秩统计量統計資料Rank of salary by educN有效遺漏4740平均數中位數標準偏差範圍最小值最大值60.4346046.5000050.975992189.0001.000190.000表 1.2-2 初始工资水平个案排秩统计量統計資料Rank of salbegin by educN有效遺漏4740平均數中位數標準偏差範圍最小值最大值60.4346047.5000050.865407189.0001.000190.0001.3 连续变量变分组变量将被调查者的年龄分为5组。表 1.3 被调查者年龄分布(已分组)agec次數百分比有效的百分比累積百分比有效<33>733343435353636373總計16267716762474.21.356.315.014.113.1100.0.21.356.315.014.113.1100.0.21.557.872.886.9100.0根据表1.3所示,该公司474名职员年龄几乎全部在33岁以上、73岁以下,年龄层分布集中在已有工作经验的人当中,其中3343岁的员工为该公司的主体。2 统计描述与统计图表部分2.1 频数分析利用了某公司474名职工基本状况的统计数据表,在性别、受教育水平程度不同的状况下进行频数分析,从而了解该公司职工的男女职工数量、受教育状况的基本分布。表 2.1-1 职工性别频数统计表Gender次數百分比有效的百分比累積百分比有效FemaleMale總計21625847445.654.4100.045.654.4100.045.6100.0由表2.1-1可知,在该公司的474名职工中,有216名女性,258名男性,男女比例分别为45.6%和54.4%,该公司职工男女数量差距不大,男性略多于女性。下面对该公司员工受教育程度进行频数分析:表 2.1-2 职工受教育程度频数统计表Educational Level (years)次數百分比有效的百分比累積百分比有效8121415161718195319011.211.211.240.140.151.361.31.352.511624.524.577.05912.412.489.5112.32.391.891.91.993.7275.75.799.4202.4.499.8211.2.2100.0總計474100.0100.0图 2.1-2 职工受教育程度频数分布直方图表2.1-2及其直方图说明,被调查的474名职工中,受过12年教育的职工是该组频数最高的,为190人,占总人数的40.1%,其次为15年,共有116人,占总人数的24.5%。且接受过高于20年的教育的人数只有1人,比例很低。2.2 描述统计分析以职工受教育水平程度为依据,对职工起始工资进行描述统计分析,得到它们的均值、标准差、偏度峰度等数据,以进一步把握数据的集中趋势和离散趋势。(由于输出结果较长,为了便于解释,仅截取职工受教育水平年限为8年的分析结果)图 2.2-1 职工起始工资描述统计表(部分)图 2.2-2 职工起始工资描述统计直方图(部分)图2.2给出的就是以受教育年限为8年时职工起始工资的描述统计,由此得出结论如下:(1) 集中趋势指标:由图2.2-1可知,职工起始工资均值为$13064.15,5%截尾均数为$13016.35,中位数为$13050.00,三者差异较大,说明数据分布的对称性较差。(2) 离散趋势指标:起始工资方差为5799170.900,其平方根即标准差为2408.147,样本中极小值为$9750,极大值为美元18750,两者之差为全距(范围)$9000,中间一半样本的全距为四分位间距$4875。(3) 参数估计:职工起始工资的标准误差为$330.784,相应的总体均数95%可信区间为$12400.38-$13727.92。(4) 分布特征指标:根据描述统计数据可知,该样本数据中偏度为0.148>0,曲线右偏;峰度为-1.219<3,曲线较为平缓(该结论也可从图2.2-2的直方图及其曲线中看出)。3 假设检验方法部分3.1 分布类型检验3.1.1 正态分布分析职工的现工资是否服从正态分布。H0:职工的现工资服从正态分布H1:职工的现工资不服从正态分布=0.05表 3.1.1 职工现工资正态分布检验结果單一樣本 Kolmogorov-Smirnov 檢定Current SalaryN474常態參數a,b平均數$34,419.57標準偏差$17,075.661最極端差異絕對.208正.208負-.143測試統計資料.208漸近顯著性 (雙尾).000ca. 檢定分配是常態的。b. 從資料計算。c. Lilliefors 顯著更正。图 3.1.1 K-S检验详细模型输出结果如表3.1.1所示:P=0.000P<接受H1,认为职工的现工资统计量不服从正态分布。3.1.2 二项分布抽样数据中职工的性别分布是否平衡。H0:抽样数据中职工性别比例无差异H1:抽样数据中职工性别比例有差异=0.05表 3.1.2 职工性别二项分布检验结果二項式檢定類別N觀察比例。檢定比例。精確顯著性(雙尾)gender群組 1群組 2malefemale258216.54.46.50.060總計4741.00P=0.06P>接受H0,认为抽样数据中职工性别比例无差异。3.1.3 游程检验该样本中的抽样数据是否随机(检测数据均以均值为分割点)。(1) 性别:H0:抽样数据中性别序列为随机序列H1:抽样数据中性别序列不为随机序列=0.05表 3.1.3-1 性别序列游程检验連檢定gender測試值a.46觀察值 < 檢定值258觀察值 >= 檢定值216總箱數474連個數110Z-11.692漸近顯著性 (雙尾).000a. 平均數图 3.1.3-1 性别序列游程检验详细模型输出P=0.000P<接受H1,认为样本数据中性别序列不是随机序列。(2) 年龄:H0:抽样数据中年龄序列是随机序列H1:抽样数据中年龄序列不是随机序列=0.05表 3.1.3-2 年龄序列游程检验结果連檢定Years測試值a47.14觀察值 < 檢定值298觀察值 >= 檢定值175總箱數473連個數196Z-2.519漸近顯著性 (雙尾).012a. 平均數图 3.1.3-2 年龄序列游程检验详细模型输出结果P=0.012P<接收H1,认为年龄序列不是随机序列。3.2 单因素方差分析把受教育水平和起始工资作为控制变量,现工资为观测变量,通过单因素方差分析方法研究受教育水平和起始工资对现工资的影响进行分析。(1) 起始工资对现工资的影响分析H0:认为起始工资对现工资没有显著影响H1:认为起始工资对现工资有显著影响=0.05表 3.2-1 起始工资对现工资的影响分析结果變異數分析Current Salary平方和df平均值平方F顯著性群組之間121986603521.736891370635994.62633.040.000在群組內15929891914.60338441484093.528總計137916495436.340473P=0.000P<接受H1,认为起始工资对现工资有显著影响。(2) 受教育水平对现工资的影响分析对受教育水平与现工资之间进行方差齐性检测,其结果如下:表 3.2-2 方差齐性检验结果變異數同質性測試Current SalaryLevene 統計資料df1df2顯著性16.1698464.000P=0.000<0.05,认为该样本方差不齐的要求,因此下面进行的方差分析结论的稳定性较差。单因素方差检验:H0:认为受教育水平对现工资没有显著影响H1:认为受教育水平对现工资有显著影响=0.05表 3.2-3 受教育水平对现工资的影响分析结果變異數分析Current Salary平方和df平均值平方F顯著性群組之間88653535061.98499850392784.66592.779.000在群組內49262960374.356464106170173.221總計137916495436.340473P=0.000P<接受H1,认为职工受教育水平对现工资有显著影响。3.3 卡方检验职工的起始工资水平和现工资水平与其受教育程度之间是否存在关联性。(1)H0:起始工资水平与受教育程度之间不存在关联性H1:起始工资水平与受教育程度之间存在关联性=0.05表 3.3-1 起始工资与受教育程度的分析结果卡方測試數值df漸近顯著性 (2 端)皮爾森 (Pearson) 卡方1969.189a801.000概似比765.651801.811線性對線性關聯189.6431.000有效觀察值個數474a. 878 資料格 (97.6%) 預期計數小於 5。預期的計數下限為 .00。P=0.000P<接受H1,认为起始工资与受教育程度之间存在关联性。(2)H0:现工资与起始工资之间不存在关联性H1:现工资与起始工资之间存在关联性=0.05表 3.3-2 现工资与起始工资的分析结果卡方測試數值df漸近顯著性 (2 端)皮爾森 (Pearson) 卡方26391.304a19580.000概似比2672.323195801.000線性對線性關聯366.3891.000有效觀察值個數474a. 19890 資料格 (100.0%) 預期計數小於 5。預期的計數下限為 .00。P=O.OOOP<接受H1,认为现工资与起始工资之间存在关联性。3.4 相关与线性回归的分析方法3.4.1 相关分析(1) 双变量相关分析对受教育程度与现工资之间进行相关性分析。表 3.4.1-1 受教育程度与现工资间相关性检测相關Educational Level (years)Current SalaryEducational Level (years)皮爾森 (Pearson) 相關1.661*顯著性 (雙尾).000N474474Current Salary皮爾森 (Pearson) 相關.661*1顯著性 (雙尾).000N474474*. 相關性在 0.01 層上顯著(雙尾)。由表3.4.1-1可知,受教育程度与现工资之间存在相关性,相关系数为0.661,对相关系数的检验双侧P=0.000,所以可以认为两变量间的正相关是有统计学意义的,受教育程度影响职工的现工资水平,即受教育程度越高,现工资水平越高。(2)偏相关分析由于上述检测数据无法说明相关系数中有多少是反映“受教育程度-初始工资水平-现工资水平”这样一种简介的链条影响,也就是说,在控制了初始工资水平之后,受教育程度与现工资水平之间的相关性不确定,因此,下面采用偏相关分析对这三个因素进行分析。表 3.4.1-2 受教育程度与现工资水平偏相关分析相關控制變數Current SalaryEducational Level (years)Beginning SalaryCurrent Salary相關1.000.281顯著性(雙尾).000df0471Educational Level (years)相關.2811.000顯著性(雙尾).000.df4710如图3.4.1-2所示,在控制初始工资后计算出受教育水平与现工资的偏相关系数为0.281,对相关系数检验双侧P=0.000,虽然相关系数有所减小,但仍然具有统计学意义。在控制初始工资后仍可以认为受教育程度影响职工现工资水平,且受教育程度越高,现工资水平越高。3.4.2 线性回归模型建立用受教育程度预测现工资的回归方程。图 3.4.2 受教育程度与现工资水平散点图由图3.4.2可以看出,受教育程度与现工资水平之间存在线性相关关系,且可以用回归方程来解释两变量之间的关系。表 3.4.2-1 回归方程模型汇总模型摘要模型RR 平方調整後 R 平方標準偏斜度錯誤1.661a.436.435$12,833.540a. 預測值:(常數),Educational Level (years)由表3.4.2-1可知,决定系数R2=0.436,说明在对现工资水平的影响因素中,受教育程度起到一定的作用,但是并非决定性作用。表 3.4.2-2 回归模型方差分析结果變異數分析a模型平方和df平均值平方F顯著性1迴歸60178217760.000160178217760.000365.381.000b殘差77738277676.339472164699740.840總計137916495436.340473a. 應變數: Current Salaryb. 預測值:(常數),Educational Level (years)由表3.4.2-2可知,对该回归方程模型的方差分析中,F值为365.381,P值小于0.05,所以该模型具有统计意义,也就是说,自变量受教育程度的回归系数具有统计意义。表 3.4.2-3 回归方程常数项及回归系数检验结果係數a模型非標準化係數標準化係數T顯著性B標準錯誤Beta1(常數)-18331.1782821.912-6.496.000Educational Level (years)3909.907204.547.66119.115.000a. 應變數: Current Salary由表3.4.2-3可知,回归方程中a=-18331.178,b=3909.907,因此可以写出如下回归方程:现工资水平=-18331.178+3909.907*受教育程度(年)由该方程可得出如下信息:(1) 当受教育年限是0年时,在该公司内的现工资水平为$-18331.2。(2) 受教育年限每增加一个单位,在该公司内的现工资水平将增加$3909.9。4 高级阶段方法部分对该样本数据进行信效度检测。4.1 信度表 4.1-1 样本数据信度检测可靠性統計資料Cronbach 的 Alpha項目個數.6013表 4.1-2 除去某项后信度检测结果項目總計統計資料尺度平均數(如果項目已刪除)尺度變異數(如果項目已刪除)更正後項目總數相關Cronbach 的 Alpha(如果項目已刪除)Educational Level (years)51435.65590094313.948.669.802Current Salary17029.5861975707.433.880.001Beginning Salary34433.06291643301.912.880.000由表4.1-1可得出结论:该样本数据总体=0.601,信度良好。由表4.1-2可得出结论:当信度检测中除去受教育程度后的=0.802,大于总体信度0.601,说明该项目的信度对总体信度检测产生负向影响。4.2 效度表 4.2-1 效度分析数据描述Communalities起始擷取Educational Level (years)1.000.719Employment Category1.000.791Current Salary1.000.900Beginning Salary1.000.888Months since Hire1.000.999Previous Experience (months)1.000.944擷取方法:主體元件分析。表 4.2-2 效度分析结果說明的變異數總計元件起始特徵值擷取平方和載入總計變異的 %累加 %總計變異的 %累加 %13.13452.22552.2253.13452.22552.22521.10318.38670.6111.10318.38670.61131.00416.73487.3451.00416.73487.3454.4146.89894.2435.2474.11298.3556.0991.645100.000擷取方法:主體元件分析。由表4.2-2可以看出,该样本数据中第一项的累计百分比为52.225%,大于50%,因此可以认为该样本数据中的效度较高。