数据分析报告的范文(共19页).doc
精选优质文档-倾情为你奉上数据分析报告的范文【摘 要 题】青少年社会调查 【正 文】 中国拥有世界上最为庞大的青少年人口群体。统计表明,2003年中国1435岁人口有4.65亿,占总人口的36.25%。对于任何社会来说,青少年都是民族的未来与希望。中国社会正处于改革开放的时代,现在的青少年是变革的弄潮儿、受益者和风险承担者,他们正在经历着我国社会经济等方面的重大变革,发展变化的速度很快。客观、准确地了解和掌握青少年的现状,才能从实际出发,制定有效的政策,从而正确引导青少年,把青少年一代培养成为有理想、有道德、有文化、有纪律的社会主义新人。本报告主要是依据统计数据对近年来中国青少年发展状况进行分析,所采用的数据均为撰写本报告时(截至2005年7月31日)中国青少年发展状况指标体系中各项指标所能获得的最新数据。在本报告中青少年采用1429岁和1435岁两种年龄统计口径。 一、青少年人口状况指标 1.青少年人口总数及比重 2003年人口变动抽样调查数据显示,全国1429岁青少年共有311,217,923人,占总人口的24.25%。其中男性158,338,086 人,女性152,879,837人,分别占总人口的12.34%和11.91%,性别比为103.57。1435岁青少年共有465,259,674 人,占总人口的36.25%。其中男性235,453,157人,女性229,806,517人,分别占总人口的18.34%和17.90%,性别比为 102.46。 2.青少年人口性别年龄构成 分性别年龄结构反映的是男女不同性别人口的年龄分布情况。2003年中国青少年分性别人口的年龄分布基本一致,无论是男性还是女性,在其总人口中都是3035岁人口所占比例最高,其次是1420岁人口。人口年龄结构在2030岁之间出现凹陷,除了自然的人口变动规律(如受人口惯性发展的影响)以外,与该年龄人群的漏报也有较大关系。因为这一年龄段人群处于流动活跃时期,而流动人口的漏报是统计中很难避免的。同时,我国军人也主要集中在这个年龄段,而军人人数是不在统计数据中反映的,这也加大了凹陷的程度。 3.青少年人口分布状况 人口的分布状况主要由地区构成和城乡构成两项指标来衡量。2000年第五次人口普查时,1429岁的青少年人口广东省为最多,达2900万人,西藏最少,仅为82万人。各省市青少年占总人口的比重集中在24.0134.03%区间范围内,广东省比重最高,达34.03%,最低的为江苏省,占 24.01%。1435岁的青少年人口数分布与1429岁的青少年人口数分布接近,比重略有差异。各省之间青少年人口差异与各省总人口和它们过去的生育率、死亡率、迁移率的变化都有密切关系。 2003年1429岁青少年人口31,122万人,居住在城市的有7817万人,占青少年人口的25.12%,居住在镇的有4718万人,占 15.16%,居住在乡的有18,587万人,占59.72%。1429岁青少年人口城镇化水平40.28%略低于我国40.53%的城镇化水平。 1435岁青少年人口46,526万人,居住在城市的有12,165万人,占青少年人口的26.15%,居住在镇的有7234万人,占15.55%,居住在乡的有27,127万人,占58.31%。1435岁青少年人口城镇化水平41.69%又略高于全国平均水平。 4.青少年人口的迁移 2000年第五次人口普查时,我国迁移人口有12,466,250人,其中1429岁6,749,193人,占迁移总人口的54.14%,1435岁8,396,246人,占迁移总人口的67.35%。迁移原因以务工经商、学习培训、婚姻迁入为主,占迁移总人口的七成之多(见图1-3a和图1-3b)。从全国迁移情况来看,学习培训、分配录用、婚姻迁入、务工经商主要是以青年人口为主,均占80%以上。 5.青少年人口的受教育状况 随着我国社会经济的发展,受教育程度普遍提高,1429岁青少年人口有98.33%受过小学以上教育,1435岁青少年人口比例略低一点 (97.14%),但仍以初中教育程度为主,分别占55.13%和50.34%。这与青少年正处于学习求知年龄不无关系。从全国总人口受教育情况来看,青少年人口受教育程度明显好于其他年龄人口,初中以上各级文化程度人口中,1429岁人口基本占40%左右,1435岁人口基本占60%左右。 6.青年人口的婚姻状况 青年人正处于组建家庭时期,1529岁青年未婚人口占64.03%,有配偶占35.53%,随着年龄的增长,有配偶的比例逐渐增大,1535岁青年未婚人口占43.36%,有配偶占55.02%。青年人口婚姻关系比较稳定,无论是在1529岁青年人口中还是在1535岁青年人口中,丧偶、离婚和再婚有配偶的比例都非常低,分别为0.7%和1.62%。 7.青年人口生育状况 青年人口不同于老年人口和少年儿童人口,随着其生理和心理的发育成熟,开始组建家庭哺育后代。从生育的年龄分布来看,青年正处于生育高峰期。根据2003年全国人口变动抽样调查数据计算,全国一般生育率为38.01,总和生育率为1.4,29岁组累计生育率为1164.79,35岁组累计生育率为1375.93。 8.青少年人口死亡状况 青少年人口处于风华正茂、生命力旺盛、死亡率水平最低时期。青年人口死亡率随着年龄的增长略有增长,但增长幅度不大,基本在0.281.38的小区间范围内波动增长。根据2003年全国人口变动抽样调查数据计算,全国死亡率水平为6.05,青少年人口死亡率远远低于全国平均水平,1429岁的死亡率仅为0.85,1435岁的死亡率为0.95。 9.青年人口的民族状况 我国是一个多民族国家,在960万平方公里土地上居住着56个民族,每个民族都有自己的青少年人口。2000年第五次人口普查时,汉族仍是我国的主体民族,1429岁青少年人口中有90.58%为汉族,9.42%为少数民族;1435岁青少年人口中汉族比例略高,为91.09%,少数民族占 8.91%。少数民族中壮族、满族、回族、维吾尔族、苗族、彝族、土家族、蒙古族、藏族人数最多,人口比例均占0.5%以上。关于某地区361个人旅游情况统计分析报告一、 数据介绍:本次分析的数据为某地区361个人旅游情况状况统计表,其中共包含七变量,分别是:年龄,为三类变量;性别,为二类变量(0代表女,1代表男);收入,为一类变量;旅游花费,为一类变量;通道,为二类变量(0代表没走通道,1代表走通道);旅游的积极性,为三类变量(0代表积极性差,1代表积极性一般,2代表积极性比较好,3代表积极性好 4代表积极性非常好);额外收入,一类变量。通过运用spss统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析,以了解该地区上述方面的综合状况,并分析个变量的分布特点及相互间的关系。二、 数据分析1、 频数分析。基本的统计分析往往从频数分析开始。通过频数分地区359个人旅游基本状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分析,从而了解该地区的男女职工数量、不同积极性情况的基本分布。 统计量积极性性别N有效359359缺失00首先,对该地区的男女性别分布进行频数分析,结果如下性别频率百分比有效百分比累积百分比有效女19855.255.255.2男16144.844.8100.0合计359100.0100.0表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性。其次对原有数据中的旅游的积极性进行频数分析,结果如下表 :积极性频率百分比有效百分比累积百分比有效差17147.647.647.6一般7922.022.069.6比较好7922.022.091.6好246.76.798.3非常好61.71.7100.0合计359100.0100.0 其次对原有数据中的积极性进行频数分析,结果如下表 :其次对原有数据中的是否进通道进行频数分析,结果如下表 :Statistics通道NValid359Missing0通道FrequencyPercentValid PercentCumulative PercentValid没走通道29381.681.681.6通道6618.418.4100.0Total359100.0100.0这说明,在该地区被调查的359个人中,有没走通道的占81.6%,占绝大多数。上表及其直方图说明,被调查的359个人中,对与旅游积极性差的组频数最高的,为171 人数的47.6%,其次为积极性一般和比较好的,占比例都为22.0%,积性为好的和非常好的比例比较低,分别为24人和6人,占总体的比例为6.7%和1.7%。2、 描述统计分析。再通过简单的频数统计分析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。描述统计量N极小值极大值均值标准差方差偏度峰度统计量统计量统计量统计量统计量统计量统计量标准误统计量标准误收入3597.4266250.0001032.93021762.7621.790.1296.869.257旅游花费359211006116.41130.71617086.7043.145.12913.401.257有效的 N (列表状态)359如表所示,以起始工资为例读取分析结果,359个人中收入最小值为7.426¥,最大值为6250.00000¥,平均1032.9302¥,标准差为762.5239¥偏度系数和峰度系数分别为1.790和6.869。其他数据依此读取,则该表表明该地区旅游花费的详细分布状况。3、 探索性数据分析(1) 交叉分析。通过频数分析能够掌握单个变量的数据分布情况,但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。现以现工资与职务等级的列联表分析为例,读取数据(下面数据分析表为截取的一部分):Count 性别* 积极性 交叉制表计数积极性合计差一般比较好好非常好性别女964741122198男753238124161合计1717979246359上联表及Bar Chart涉及两个变量,即性别与积极性的二维交叉,反映了在不同的性别对于旅游积极性分布情况。上表中,性别成为行向量,积极性列向量。(2)性别与收入的探索性分析性别Case Processing Summary性别CasesValidMissingTotalNPercentNPercentNPercent收入女198100.0%0.0%198100.0%男161100.0%0.0%161100.0%Descriptives性别StatisticStd. Error收入女Mean1005.2856249.95% Confidence Interval for MeanLower Bound907.63853Upper Bound1102.932725% Trimmed Mean957.92011Median937.50000Variance.577Std. Deviation696.Minimum7.426Maximum3125.000Range3117.574Interquartile Range937.563Skewness.896.173Kurtosis.310.344男Mean1066.9279165.95% Confidence Interval for MeanLower Bound936.59779Upper Bound1197.258025% Trimmed Mean986.95497Median937.50000Variance.907Std. Deviation837.Minimum58.630Maximum6250.000Range6191.370Interquartile Range718.750Skewness2.370.191Kurtosis10.166.380收入Stem-and-Leaf Plots收入 Stem-and-Leaf Plot for性别= 女 Frequency Stem & Leaf 18.00 0 . 26.00 0 . 3333 17.00 0 . 33.00 0 . 22.00 0 . 13.00 1 . 11 18.00 1 . 18.00 1 . 4.00 1 . 7777 5.00 1 . 88888 14.00 2 . 111 .00 2 . 4.00 2 . 5555 1.00 2 . 6 2.00 2 . 88 3.00 Extremes (>=3000) Stem width: 1000.000 Each leaf: 1 case(s)收入 Stem-and-Leaf Plot for性别= 男 Frequency Stem & Leaf 15.00 0 . 1111 17.00 0 . 13.00 0 . 55 26.00 0 . 7777 19.00 0 . 13.00 1 . 11 19.00 1 . 13.00 1 . 55 2.00 1 . 77 6.00 1 . 6.00 2 . 12.00 Extremes (>=2351) Stem width: 1000.000 Each leaf: 1 case(s)结果分析如下 收入 女 男平均数 1005.28562 1066.92791 均数的95%可信区间 (907.63853,1102.93272) (936.59779,1197.25802)5%的调整均数 957.92011 986.95497 中位数 937.50000 937.50000标准差 696. 837.标准差 .577 .907最小值 7.426 58.630最大值 3125.000 6250.000极差 3117.574 6191.370四分位数间距 937.563 718.750偏度系数 2.370 2.370峰度系数 .310 10.166(3)p-p图分析Age结果分析年龄在正态p-p图的散点近似成一条直线,无趋势正态p-p图的散点均匀分布在直线y=0的上下,故可认为本资料服从正态分布4、 相关分析。相关分析是分析客观事物之间关系的数量分析法,明确客观事之间有怎样的关系对理解和运用相关分析是极其重要的。函数关系是指两事物之间的一种一一对应的关系,即当一个变量X取一定值时,另一个变量函数Y可以根据确定的函数取一定的值。另一种普遍存在的关系是统计关系。统计关系是指两事物之间的一种非一一对应的关系,即当一个变量X取一定值时,另一个变量Y无法根据确定的函数取一定的值。统计关系可分为线性关系和非线性关系。事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异。如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的有效工具。Correlations收入旅游花费额外收入收入Pearson Correlation1.140*.853*Sig. (2-tailed).008.000N359359359旅游花费Pearson Correlation.140*1.183*Sig. (2-tailed).008.000N359359359额外收入Pearson Correlation.853*.183*1Sig. (2-tailed).000.000N359359359*. Correlation is significant at the 0.01 level (2-tailed).上表是对本次分析数据中,旅游花费、收入、额外收入的相关分析,表中相关系数旁边有两个星号(*)的,表示显著性水平为0.01时,仍拒绝原假设。一个星号(*)表示显著性水平为0.05是仍拒绝原假设。先以现旅游花费这一变量与其他变量的相关性为例分析,由上表可知,旅游花费与额外收入的相关性最大,5.回归分析有相关性分析可得收入,旅游花费呈线性相关,因此作回归分析Variables Entered/RemovedbModelVariables EnteredVariables RemovedMethod1收入a.Entera. All requested variables entered.b. Dependent Variable: 旅游花费Model SummarybModelRR SquareAdjusted R SquareStd. Error of the Estimate1.140a.020.017129.604a. Predictors: (Constant), 收入b. Dependent Variable: 旅游花费ANOVAbModelSum of SquaresdfMean SquareFSig.1Regression.8091.8097.170.008aResidual.23935716797.188Total.048358a. Predictors: (Constant), 收入b. Dependent Variable: 旅游花费CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)91.56311.5287.943.000收入.024.009.1402.678.008a. Dependent Variable: 旅游花费Residuals StatisticsaMinimumMaximumMeanStd. DeviationNPredicted Value91.74241.90116.4118.342359Std. Predicted Value-1.3456.842.0001.000359Standard Error of Predicted Value6.84047.3629.0483.426359Adjusted Predicted Value92.09271.79116.5319.018359Residual-193.904891.785.000129.423359Std. Residual-1.4966.881.000.999359Stud. Residual-1.6076.891.0001.002359Deleted Residual-223.789894.316-.117130.229359Stud. Deleted Residual-1.6117.390.0041.025359Mahal. Distance.00046.811.9972.955359Cook's Distance.000.199.003.015359Centered Leverage Value.000.131.003.008359a. Dependent Variable: 旅游花费Charts 由上图可知回归方程:y=91.563+ 0.024 (x1) , (P(Sig=0.000)<0.01)即 旅游花费=91.563+0.024*收入 ( p<0.01)6单样本T检验首先对现工资的分布做正态性检验,结果如下:由上图可知,现工资的分布可近似看作符合正态分布,现推断现工资变量的平均值是否为$3,000,0,因此可采取单样本t检验来进行分析。分析如下:One-Sample Statistics单个样本统计量N均值标准差均值的标准误收入3591032.93021762.40.单个样本检验检验值 = 0 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限收入25.666358.0001032.953.784931112.07550由One-Sample Statistics可知,359个被调查的人中收入平均值1032.93021,标准差为762.,均值标准误差为40.。图表One-Sample Test中,第二列是t统计量的观测值为25.666;第三列是自由度为358(n-1);第四列是t统计量观测值的双尾概率值;第五列是样本均值和检验值的差;第六列和第七列是总体均值与原假设值差的95%的置信区间为(953.78493 , 1112.07550)。该问题的t值等于25.666对应的临界置信水平为0,远远小于设置的0.05,因此拒绝原假设,表明该地区被调查的359名人中收入与1032.93021存在显著差异。7,独立样本t检验T-TestGroup Statistics性别NMeanStd. DeviationStd. Error Mean旅游花费女198126.09149.53310.627男161104.51102.1878.053Independent Samples TestLevene's Test for Equality of Variancest-test for Equality of Means95% Confidence Interval of the DifferenceFSig.tdfSig. (2-tailed)Mean DifferenceStd. Error DifferenceLowerUpper旅游花费Equal variances assumed6.302.0131.559357.12021.58013.844-5.64748.806Equal variances not assumed1.618347.241.10621.58013.334-4.64547.805结果分析得到两组的均数(mean)分别为198 和 161独立样本t检验,取的t值1.559与Sig为0.120 p>0.05旅游花费不成显著性差异,由图中可知旅行的旅游花费较高。学号: 姓名 : 班级 :专心-专注-专业