数据分析报告的范文123019.pdf
人不知而不愠,不亦君子乎?论语大丈夫处世,不能立功建业,几与草木同腐乎?罗贯中 数据分析报告的范文-CAL-FENGHAI.-(YICAI)-Company One1 宠辱不惊,看庭前花开花落;去留无意,望天上云卷云舒。洪应明云路鹏程九万里,雪窗萤火二十年。王实甫2 数据分析报告的范文【摘 要 题】青少年社会调查 【正 文】中国拥有世界上最为庞大的青少年人口群体。统计表明,2003 年中国 1435 岁人口有 4.65 亿,占总人口的 36.25%。对于任何社会来说,青少年都是民族的未来与希望。中国社会正处于改革开放的时代,现在的青少年是变革的弄潮儿、受益者和风险承担者,他们正在经历着我国社会经济等方面的重大变革,发展变化的速度很快。客观、准确地了解和掌握青少年的现状,才能从实际出发,制定有效的政策,从而正确引导青少年,把青少年一代培养成为有理想、有道德、有文化、有纪律的社会主义新人。本报告主要是依据统计数据对近年来中国青少年发展状况进行分析,所采用的数据均为撰写本报告时(截至 2005 年 7 月 31 日)中国青少年发展状况指标体系中各项指标所能获得的最新数据。在本报告中青少年采用1429 岁和 1435 岁两种年龄统计口径。一、青少年人口状况指标 1.青少年人口总数及比重 2003 年人口变动抽样调查数据显示,全国 1429 岁青少年共有311,217,923 人,占总人口的 24.25%。其中男性 158,338,086 好学近乎知,力行近乎仁,知耻近乎勇。中庸人人好公,则天下太平;人人营私,则天下大乱。刘鹗3 人,女性 152,879,837 人,分别占总人口的 12.34%和 11.91%,性别比为 103.57。1435 岁青少年共有 465,259,674 人,占总人口的 36.25%。其中男性 235,453,157 人,女性 229,806,517 人,分别占总人口的 18.34%和 17.90%,性别比为 102.46。2.青少年人口性别年龄构成 分性别年龄结构反映的是男女不同性别人口的年龄分布情况。2003 年中国青少年分性别人口的年龄分布基本一致,无论是男性还是女性,在其总人口中都是 3035 岁人口所占比例最高,其次是1420 岁人口。人口年龄结构在 2030 岁之间出现凹陷,除了自然的人口变动规律(如受人口惯性发展的影响)以外,与该年龄人群的漏报也有较大关系。因为这一年龄段人群处于流动活跃时期,而流动人口的漏报是统计中很难避免的。同时,我国军人也主要集中在这个年龄段,而军人人数是不在统计数据中反映的,这也加大了凹陷的程度。3.青少年人口分布状况 人口的分布状况主要由地区构成和城乡构成两项指标来衡量。2000 年第五次人口普查时,1429 岁的青少年人口广东省为最多,达 2900 万人,西藏最少,仅为 82 万人。各省市青少年占总人口的比重集中在 24.0134.03%区间范围内,广东省比重最高,达34.03%,最低的为江苏省,占 24.01%。1435 岁的青少年人口数分布与 1429 岁的青少年人口数分布接近,比重略有差异。各省之间人之为学,不日进则日退,独学无友,则孤陋而难成;久处一方,则习染而不自觉。顾炎武天行健,君子以自强不息。地势坤,君子以厚德载物。易经4 青少年人口差异与各省总人口和它们过去的生育率、死亡率、迁移率的变化都有密切关系。2003 年 1429 岁青少年人口 31,122 万人,居住在城市的有7817 万人,占青少年人口的 25.12%,居住在镇的有 4718 万人,占 15.16%,居住在乡的有 18,587 万人,占 59.72%。1429 岁青少年人口城镇化水平 40.28%略低于我国 40.53%的城镇化水平。1435岁青少年人口 46,526 万人,居住在城市的有 12,165 万人,占青少年人口的 26.15%,居住在镇的有 7234 万人,占 15.55%,居住在乡的有 27,127 万人,占 58.31%。1435 岁青少年人口城镇化水平41.69%又略高于全国平均水平。4.青少年人口的迁移 2000 年第五次人口普查时,我国迁移人口有 12,466,250 人,其中 1429 岁 6,749,193 人,占迁移总人口的 54.14%,1435岁 8,396,246 人,占迁移总人口的 67.35%。迁移原因以务工经商、学习培训、婚姻迁入为主,占迁移总人口的七成之多(见图 1-3a 和图 1-3b)。从全国迁移情况来看,学习培训、分配录用、婚姻迁入、务工经商主要是以青年人口为主,均占 80%以上。5.青少年人口的受教育状况 随着我国社会经济的发展,受教育程度普遍提高,1429 岁青少年人口有 98.33%受过小学以上教育,1435 岁青少年人口比例略低一点(97.14%),但仍以初中教育程度为主,分别占 55.13%和50.34%。这与青少年正处于学习求知年龄不无关系。从全国总人口志不强者智不达,言不信者行不果。墨翟百川东到海,何时复西归?少壮不尽力,老大徒伤悲。汉乐府长歌行5 受教育情况来看,青少年人口受教育程度明显好于其他年龄人口,初中以上各级文化程度人口中,1429 岁人口基本占 40%左右,1435 岁人口基本占 60%左右。6.青年人口的婚姻状况 青年人正处于组建家庭时期,1529 岁青年未婚人口占 64.03%,有配偶占 35.53%,随着年龄的增长,有配偶的比例逐渐增大,1535 岁青年未婚人口占 43.36%,有配偶占 55.02%。青年人口婚姻关系比较稳定,无论是在 1529 岁青年人口中还是在 1535 岁青年人口中,丧偶、离婚和再婚有配偶的比例都非常低,分别为 0.7%和1.62%。7.青年人口生育状况 青年人口不同于老年人口和少年儿童人口,随着其生理和心理的发育成熟,开始组建家庭哺育后代。从生育的年龄分布来看,青年正处于生育高峰期。根据 2003 年全国人口变动抽样调查数据计算,全国一般生育率为 38.01,总和生育率为 1.4,29 岁组累计生育率为 1164.79,35岁组累计生育率为 1375.93。8.青少年人口死亡状况 青少年人口处于风华正茂、生命力旺盛、死亡率水平最低时期。青年人口死亡率随着年龄的增长略有增长,但增长幅度不大,基本在 0.281.38的小区间范围内波动增长。根据 2003年全国人口变动抽样调查数据计算,全国死亡率水平为 6.05,青少年人口死亡海纳百川,有容乃大;壁立千仞,无欲则刚。林则徐丹青不知老将至,贫贱于我如浮云。杜甫6 率远远低于全国平均水平,1429 岁的死亡率仅为 0.85,1435岁的死亡率为 0.95。9.青年人口的民族状况 我国是一个多民族国家,在 960 万平方公里土地上居住着 56个民族,每个民族都有自己的青少年人口。2000 年第五次人口普查时,汉族仍是我国的主体民族,1429 岁青少年人口中有 90.58%为汉族,9.42%为少数民族;1435岁青少年人口中汉族比例略高,为91.09%,少数民族占 8.91%。少数民族中壮族、满族、回族、维吾尔族、苗族、彝族、土家族、蒙古族、藏族人数最多,人口比例均占 0.5%以上。关于某地区 361 个人旅游情况统计分析报告 一、数据介绍:本次分析的数据为某地区 361 个人旅游情况状况统计表,其中共包含七变量,分别是:年龄,为三类变量;性别,为二类变量(0 代表女,1 代表男);收入,为一类变量;旅游花费,为一类变量;通道,为二类变量(0 代表没走通道,1 代表走通道);旅游的积极性,为三类变量(0 代表积极性差,1 代表积极性一般,2 代表积极性比较好,3 代表积极性好 4 代表积极性非常好);额外收入,一类变量。通过运用 spss 统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析,以了解该地区上述方面的综合状况,并分析个变量的分布特点及相互间的关系。二、数据分析 以家为家,以乡为乡,以国为国,以天下为天下。管子牧民吾日三省乎吾身。为人谋而不忠乎?与朋友交而不信乎?传不习乎?论语7 1、频数分析。基本的统计分析往往从频数分析开始。通过频数分地区 359个人旅游基本状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分析,从而了解该地区的男女职工数量、不同积极性情况的基本分布。统计量 积极性 性别 N 有效 359 359 缺失 0 0 首先,对该地区的男女性别分布进行频数分析,结果如下 性别 频率 百分比 有效百分比 累积百分比 有效 女 198 55.2 55.2 55.2 男 161 44.8 44.8 100.0 合计 359 100.0 100.0 表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性。其次对原有数据中的旅游的积极性进行频数分析,结果如下表:积极性 频率 百分比 有效百分比 累积百分比 有效 差 171 47.6 47.6 47.6 一般 79 22.0 22.0 69.6 比较好 79 22.0 22.0 91.6 好 24 6.7 6.7 98.3 非常好 6 1.7 1.7 100.0 合计 359 100.0 100.0 良辰美景奈何天,便赏心乐事谁家院。则为你如花美眷,似水流年。汤显祖良辰美景奈何天,便赏心乐事谁家院。则为你如花美眷,似水流年。汤显祖8 其次对原有数据中的积极性进行频数分析,结果如下表:其次对原有数据中的是否进通道进行频数分析,结果如下表:Statistics 通道 N Valid 359 Missing 0 通道 Frequency Percent Valid Percent Cumulative Percent Valid 没走通道 293 81.6 81.6 81.6 良辰美景奈何天,便赏心乐事谁家院。则为你如花美眷,似水流年。汤显祖一寸光阴一寸金,寸金难买寸光阴。增广贤文9 通道 66 18.4 18.4 100.0 Total 359 100.0 100.0 这说明,在该地区被调查的359个人中,有没走通道的占81.6%,占绝大多数。上表及其直方图说明,被调查的359个人中,对与旅游积极性差的组频数最高的,为171 人数的47.6%,其次为积极性一般和比较好的,占比例都为22.0%,积性为好的和非常好的比例比较低,分别为24人和6 人,占总体的比例为6.7%和1.7%。2、描述统计分析。再通过简单的频数统计分析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。描述统计量 N 极小值 极大值 均值 标准差 方差 偏度 峰度 统计量 统计量 统计量 统计量 统计量 统计量 统计量 标准误 统计量 标准误 收入 359 7.426 6250.000 1032.93021 762.523942 581442.762 1.790.129 6.869.257 旅游花费 359 21 1006 116.41 130.716 17086.704 3.145.129 13.401.257 有效的 N(列表状态)359 如表所示,以起始工资为例读取分析结果,359个人中收入最小值为7.426¥,最大值为6250.00000¥,平均1032.9302¥,标准差为762.5239¥偏度系数和峰度系数分别为1.790和6.869。其他数据依此读取,则该表表明该地区旅游花费的详细分布状况。3、探索性数据分析 以铜为镜,可以正衣冠;以古为镜,可以知兴替;以人为镜,可以明得失。旧唐书魏征列传大丈夫处世,不能立功建业,几与草木同腐乎?罗贯中10(1)交叉分析。通过频数分析能够掌握单个变量的数据分布情况,但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。现以现工资与职务等级的列联表分析为例,读取数据(下面数据分析表为截取的一部分):Count 性别*积极性 交叉制表 计数 积极性 合计 差 一般 比较好 好 非常好 性别 女 96 47 41 12 2 198 男 75 32 38 12 4 161 合计 171 79 79 24 6 359 百学须先立志。朱熹我尽一杯,与君发三愿:一愿世清平,二愿身强健,三愿临老头,数与君相见。白居易11 上联表及 Bar Chart 涉及两个变量,即性别与积极性的二维交叉,反映了在不同的性别对于旅游积极性分布情况。上表中,性别成为行向量,积极性列向量。(2)性别与收入的探索性分析 性别 Case Processing Summary 性别 Cases Valid Missing Total N Percent N Percent N Percent 收入 女 198 100.0%0.0%198 100.0%男 161 100.0%0.0%161 100.0%Descriptives 性别 Statistic Std.Error 天行健,君子以自强不息。地势坤,君子以厚德载物。易经万两黄金容易得,知心一个也难求。曹雪芹12 收入 女 Mean 1005.28562 49.514796 95%Confidence Interval for Mean Lower Bound 907.63853 Upper Bound 1102.93272 5%Trimmed Mean 957.92011 Median 937.50000 Variance 485439.577 Std.Deviation 696.734940 Minimum 7.426 Maximum 3125.000 Range 3117.574 Interquartile Range 937.563 Skewness.896.173 Kurtosis.310.344 男 Mean 1066.92791 65.993219 95%Confidence Interval for Mean Lower Bound 936.59779 Upper Bound 1197.25802 5%Trimmed Mean 986.95497 Median 937.50000 Variance 701171.907 Std.Deviation 837.360082 Minimum 58.630 Maximum 6250.000 Range 6191.370 Interquartile Range 718.750 Skewness 2.370.191 Kurtosis 10.166.380 以铜为镜,可以正衣冠;以古为镜,可以知兴替;以人为镜,可以明得失。旧唐书魏征列传百学须先立志。朱熹13 收入 Stem-and-Leaf Plots 收入 Stem-and-Leaf Plot for 性别=女 Frequency Stem&Leaf 18.00 0.001111111111111111 26.00 0.22222222222223333333333333 17.00 0.44444444444555555 33.00 0.666666666666666666666777777777777 22.00 0.8889999999999999999999 13.00 1.0000000001111 18.00 1.222222222222222223 18.00 1.444455555555555555 4.00 1.7777 5.00 1.88888 14.00 2.00000111111111 .00 2.4.00 2.5555 1.00 2.6 2.00 2.88 3.00 Extremes (=3000)Stem width:1000.000 Each leaf:1 case(s)收入 Stem-and-Leaf Plot for 性别=男 Frequency Stem&Leaf 15.00 0.001111111111111 17.00 0.22222233333333333 13.00 0.4444445555555 26.00 0.66666666666667777777777777 19.00 0.8888899999999999999 13.00 1.0000000000011 19.00 1.2222222222222222223 13.00 1.4444555555555 以家为家,以乡为乡,以国为国,以天下为天下。管子牧民宠辱不惊,看庭前花开花落;去留无意,望天上云卷云舒。洪应明14 2.00 1.77 6.00 1.888889 6.00 2.000111 12.00 Extremes (=2351)Stem width:1000.000 Each leaf:1 case(s)结果分析如下 收入 女 男 平均数 1005.28562 1066.92791 均数的95%可信区间 (907.63853,1102.93272)(936.59779,1197.25802)5%的调整均数 957.92011 986.95497 常将有日思无日,莫待无时思有时。增广贤文谋事在人,成事在天!增广贤文15 中位数 937.50000 937.50000 标准差 696.734940 837.360082 标准差 485439.577 701171.907 最小值 7.426 58.630 最大值 3125.000 6250.000 极差 3117.574 6191.370 四分位数间距 937.563 718.750 偏度系数 2.370 2.370 峰度系数 .310 10.166 (3)p-p图分析 一寸光阴一寸金,寸金难买寸光阴。增广贤文先天下之忧而忧,后天下之乐而乐。范仲淹16 Age 结果分析 年龄在正态 p-p 图的散点近似成一条直线,无趋势正态 p-p图的散点均匀分布在直线 y=0 的上下,故可认为本资料服从正态分布 4、相关分析。相关分析是分析客观事物之间关系的数量分析法,明确客观事 之间有怎样的关系对理解和运用相关分析是极其重要的。函数关系是指两事物之间的一种一一对应的关系,即当一个变量 X取一定值时,另一个变量函数 Y可以根据确定的函数取一定的值。另一种普遍存在的关系是统计关系。统计关系是指两事物之间的一种非一一对应的关系,即当一个变量 X取一定值时,另一个变量 Y无法根据确定的函数取一定的值。统计关系可分为线性关系和非线性关系。丈夫志四方,有事先悬弧,焉能钧三江,终年守菰蒲。顾炎武海纳百川,有容乃大;壁立千仞,无欲则刚。林则徐17 事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异。如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的有效工具。Correlations 收入 旅游花费 额外收入 收入 Pearson Correlation 1.140*.853*Sig.(2-tailed).008.000 N 359 359 359 旅游花费 Pearson Correlation.140*1.183*Sig.(2-tailed).008 .000 N 359 359 359 额外收入 Pearson Correlation.853*.183*1 Sig.(2-tailed).000.000 N 359 359 359*.Correlation is significant at the 0.01 level(2-tailed).上表是对本次分析数据中,旅游花费、收入、额外收入的相关分析,表中相关系数旁边有两个星号(*)的,表示显著性水平为 0.01时,仍拒绝原假设。一个星号(*)表示显著性水平为 0.05是仍拒绝原假设。先以现旅游花费这一变量与其他变量的相关性为例分析,由上表可知,旅游花费与额外收入的相关性最大,5.回归分析 有相关性分析可得收入,旅游花费呈线性相关,因此作回归分析 Variables Entered/Removedb Model Variables Entered Variables Removed Method 1 收入a.Enter a.All requested variables entered.b.Dependent Variable:旅游花费 以家为家,以乡为乡,以国为国,以天下为天下。管子牧民老当益壮,宁移白首之心;穷且益坚,不坠青云之志。唐王勃18 Model Summaryb Model R R Square Adjusted R Square Std.Error of the Estimate 1.140a.020.017 129.604 a.Predictors:(Constant),收入 b.Dependent Variable:旅游花费 ANOVAb Model Sum of Squares df Mean Square F Sig.1 Regression 120443.809 1 120443.809 7.170.008a Residual 5996596.239 357 16797.188 Total 6117040.048 358 a.Predictors:(Constant),收入 b.Dependent Variable:旅游花费 Coefficientsa Model Unstandardized Coefficients Standardized Coefficients t Sig.B Std.Error Beta 1(Constant)91.563 11.528 7.943.000 收入.024.009.140 2.678.008 a.Dependent Variable:旅游花费 Residuals Statisticsa Minimum Maximum Mean Std.Deviation N Predicted Value 91.74 241.90 116.41 18.342 359 Std.Predicted Value-1.345 6.842.000 1.000 359 Standard Error of Predicted Value 6.840 47.362 9.048 3.426 359 Adjusted Predicted Value 92.09 271.79 116.53 19.018 359 Residual-193.904 891.785.000 129.423 359 Std.Residual-1.496 6.881.000.999 359 谋事在人,成事在天!增广贤文忍一句,息一怒,饶一着,退一步。增广贤文19 Charts 由上图可知回归方程:y=+0(x1),(P(Sig=0.000)0.01)即 旅游花费=+0.024*收入 (p0.05 旅游花费不成显著性差异,由图中可知旅行的旅游花费较高。学号:姓名:班级: