数据管理及基本统计分析实验报告.docx
评分评分实验报告实验报告课程名称课程名称生物医学统计分析生物医学统计分析实验名称实验名称数据的管理及基本统计分析数据的管理及基本统计分析专业班级专业班级姓姓名名学学号号实验日期实验日期2015 年年 11 月月 19 日日实验地点实验地点20152016 学年度第学年度第2学期学期一、一、实验目的实验目的对数据进行管理及基本统计分析,包括:数据的格式化,数据的输入,数据管理器列宽定义,数据的增减、整理、运算与新变量的生成、文件的调用与保存,Descriptives 过程,Frequenciies过程。二、实验环境二、实验环境1、硬件配置、硬件配置:处理器:Intel(R)Core(TM)i7-3770 CPU 3.40GHz 3.40GHz安装内存(RAM):4.00GB系统类型:64 位操作系统2、软件环境、软件环境:IBM SPSS Statistics 19.0 软件三、实验内容三、实验内容(包括本实验要完成的实验问题及需要的相关知识简单概述)(1)课本第二章资料的描述性统计分析的例 2.1-2.7 运行一遍,注意理解结果;(2)然后将实验指导书的例 1 按照步骤进行数据管理的操作和基本统计分析。(1)某地某年成年男子 120 人的红血球数(1012/L)记录如下:5.195 5.360 4.070 4.065 5.160 4.590 4.520 4.720 4.490 5.260 5.070 5.100 4.315 4.990 4.360 5.450 5.1205.190 4.580 4.380 4.610 4.360 5.100 4.215 5.070 4.721 4.640 5.000 5.510 5.600 4.420 5.180 4.260 5.0605.280 4.250 4.840 4.800 5.850 5.305 5.000 5.290 5.360 4.950 5.420 5.610 5.630 4.520 4.800 5.000 5.2804.920 5.170 4.640 5.520 5.140 4.295 5.470 4.840 4.540 4.740 4.880 5.140 4.700 5.560 5.520 4.485 4.2904.780 4.620 4.810 5.110 4.600 5.200 4.700 5.050 5.220 5.590 5.370 4.650 4.780 5.315 5.150 5.070 5.0055.120 4.985 4.815 5.090 3.980 4.550 4.960 4.780 5.190 5.160 5.640 5.050 5.040 4.320 5.190 4.840 5.0005.700 5.030 5.155 4.860 4.715 4.920 4.890 5.180 5.875 5.105 5.185 5.130 4.070 5.100 5.260 5.220 5.1905.010对该组数据进行数据管理的操作和基本统计分析。四、实验结果与分析四、实验结果与分析(包括实验原理、数据的准备、运行过程分析、源程序(代码)、图形图象界面等)注:本项可以增加页数(一)数据格式化:(一)数据格式化:用户可根据具体资料的属性对数据进行格式化。主要有以下 3 种数据类型:NumericNumeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为 8 位;定义小数位数(DecimalPlaces),默认为 2 位。DateDate:日期型。如选择 mm/dd/yy 形式,则 1995 年 6 月 25 日显示为 06/25/95。StringString:字符型,用户可定义字符长度(Characters)以便输入字符。(二)数据的输入:(二)数据的输入:定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以 1、2、3、表示,即第 1、2、3、行;纵方向为电子表格的列,其列头以 var00001,var00002,var00003表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。(三)数据管理器列宽定义:(三)数据管理器列宽定义:点击 ColumnFormat.钮,用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:Left 表示靠左、Center 表示居中、Right 表示靠右(此为默认方式)。(四)数据的增删:(四)数据的增删:增加一个新的变量列:增加一个新的变量列:Data 菜单的 InsertVariable 命令项。增加一个新的列:Data 菜单的 InsertCase 命令项,增加一个新的行。增加一个新的观察值:增加一个新的观察值:Edit 菜单的 Cut 命令项。删除一个行:Delete 键或选 Edit菜单的 Clear 命令项。删除一个变量列:删除一个变量列:Delete 键或选 Edit 菜单的 Clear 命令项。删除一个观察值:删除一个观察值:Edit 菜单的 Cut 命令项,Edit 菜单的 Paste 命令项。(五)数据的整理:(五)数据的整理:数据的排序数据的排序:选 Data 菜单的 SortCases.命令项,弹出 SortCases.对话框,在变量名列框中选 1 个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击钮使之进入 Sortby 框,然后在SortOrder 框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击 OK 钮即可。数据的行列互换数据的行列互换:选 Data 菜单的 Transpose.命令项,弹出 Transpose.对话框,在变量名列框中选 1 个或多个需要转换的变量,点击钮使之进入 Variable(s)框,再点击 OK 钮即可。产生的新数据会在第 1 列出现一个 case_lbl 新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法与上述过程相同。数据的分组汇总数据的分组汇总:选 Data 菜单的 Aggregate.命令项,弹出 AggregateData 对话框在变量名列框中选一个变量,点击钮使之进入 BreakVariable(s)框,选一个变量进入 AggregateVariable(s)框,因欲作平均值汇总,故点击 Function.钮弹出 AggregateData:AggregateFunction 对话框,选 Meanofvalues 项点击 Continue 钮返回;再点击 OK 钮即可。数据的分割数据的分割:选 Data 菜单的 SplitFile.命令项,弹出 SplitFile 对话框,选Repeatanalysisforeachgroup 表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选 1 个或多个变量点击钮使之进入GroupsBasedon 框来作分组的依据。若在数据分割之后要取消这种分组,可选Analyzeallcases 项,则系统恢复如初。(六)数据的运算与新变量的生成:(六)数据的运算与新变量的生成:选 Transform 菜单的 Compute.命令项,既可对选定的变量进行运算操作,又可通过运算操作让系统生成新的变量。在弹出的 ComputeVariable 对话框中,先TargetVariable 指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击 Type&Label.钮确定是数值型变量,还是字符型变量,或加上变量标签。在 NumericExpression 框中键入运算公式,系统提供计算器和82 种函数(在 Functions 框内)让用户使用;若点击 If.钮会弹出ComputeVariable:IfCases 对话框,用户可指定符合条件的变量参与运算。(七)数据文件的调用与保存(七)数据文件的调用与保存:选 File 菜单的 Open 命令项,再选 Data.项,弹出 OpenDataFile 对话框,用户确定盘符、路径、文件名后点击 OK 钮,即可调入数据文件。数据文件的保存:数据文件的保存:File 菜单的 SaveAs.命令项,弹出 Newdata:SaveDataAs 对话框,用户确定盘符、路径、文件名以及文件格式后点击 OK 钮,即可保存数据文件。(八)(八)DescriptivesDescriptives 过程:过程:调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。依次打开 Analyze-descriptivestatistics-descriptives,弹出 Descriptives 对话框。现在对话框左侧的变量列表中选取变量,点击钮使之进入 Variable(s)框。点击Options.钮,弹出 Descriptives:Options 对话框。框中各指标的意义请参阅上面内容。选好项目后点击Continue 钮返回 Descriptives 对话框,再点击 OK 钮即可。(九)(九)FrequenciesFrequencies 过程:过程:调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。依次选择 AnalyzeDescriptivestatisticsFrequencies,弹出 Frequencies 对话框。同时可点击Format.钮弹出 Frequencies:Format 对话框,在 Orderby 栏中有四个选项:Ascendingvalues 为根据数值大小按升序从小到大作频数分布;Descendingvalues 为根据数值大小按降序从大到小作频数分布;Ascendingcounts 为根据频数多少按升序从少到多作频数分布;Descendingcounts 为根据频数多少按降序从多到少作频数分布。在 PageFormal栏中可定义结果输出的格式。点击 statistics.钮,弹出对话框,可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。如计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness)和峰度系数(Kurtosis),选好后点击 Continue 钮返回 Frequencies 对话框。点击Charts.钮,弹出 Frequencies:Charts 对话框,用户可选两种图形,一是直条图(Barchart),适用于非连续性的变量;另一是直方图(Histogram)。例 2.1 结果:表表 1 描述性统计描述性统计N最小值最大值平均值标 准偏差方差偏度峰度统计量统计量统计量统计量标准错误统计量统计量统计量标准错误统计量标准错误蛋长 652.2256.7254.0933.705331.727692.985.560.845-.8851.741蛋宽 646.1248.4247.3900.40407.98977.980-.490.845-2.011 1.741蛋重 650.0153.2351.6300.662381.622502.633.007.845-3.219 1.741有 效N(成列)6分析:分析:从:从表中可以看出有 6 个统计量,最小值,最大值,平均值:=4.95917,平均值的标准差:,方差:,标准差=,偏度是描述发布形态对称性的统计量,偏度等于 0 是正态分布,大于 0 是右偏分布,表明较低的值占多数,小于 0 是左偏分布,表明较高的值占多数。峰度是描述资料分布形态扁平程度的统计量,峰度等于 0 表示数据分布的扁平程度适中,即正态分布,大于 0 是尖峰分布,小于 0 是扁平分布。例 2.2 结果:表表2 2 描述统计量描述统计量N全距极小值极大值均值标准差体重12628.037.065.051.7625.1779有效的 N(列表状态)126分析分析:从表中可以看出 126 头母羊体重的均值=51.762,标准差 s=5.1779,全距 R=28.0,最大体重=65.0,最小体重=37.0.IF(体重=36.0&体重39.0)次数=1.EXECUTE.IF(体重=39.0&体重42.0)次数=2.EXECUTE.IF(体重=42.0&体重45.0)次数=3.EXECUTE.IF(体重=45.0&体重48.0)次数=4.EXECUTE.IF(体重=48.0&体重51.0)次数=5.EXECUTE.IF(体重=51.0&体重54.0)次数=6.EXECUTE.IF(体重=54.0&体重57.0)次数=7.EXECUTE.IF(体重=57.0&体重60.0)次数=8.EXECUTE.IF(体重=60.0&体重63.0)次数=9.EXECUTE.IF(体重=63.0)次数=10.EXECUTE.表表3 3 频数分布表频数分布表频数百分比有效百分比累积百分比有效36.01.8.8.839.01.8.81.642.064.84.86.345.01814.314.320.648.02620.620.641.351.02721.421.462.754.02620.620.683.357.0129.59.592.960.075.65.698.463.021.61.6100.0合计126100.0100.0分析分析:从表中可以看出,我们对数据进行了分组,分成 10 组,组距=全距/组数=28.0/10 3.0第 一 组 下 限=最 小 值-1/2 组 距=37-1/2*3=35.536,分 组 的 组 限 依 次 为36.0,39.0,42.0,45.0,48.0,51.0,54.0,57.0,60.0,63.0.所以第一组就是 36.0-39.0.以此类推。频数是有效数在各组中取到的次数,如 36.0 的频数是 1,则表示取到 1 位在 36.0-39.0范围内的数。百分比则是频数在总数中的比例,如 1 的百分比是 1/126 0.8,有效百分比就是有效的频数百分比,累积百分比就是有效百分比的累积。例 2.3 结果:图 1 水稻杂种二代米粒性状分离条形图分析:分析:条形图一般用于归类资料,主要适用于彼此独立的资料互相比较。“图表中的数据为”选项说明:1.格案组摘要:观察值分类描述模式,即对变量中的观察值进行分组后绘图;2.各个变量的摘要:变量描述模式,即每个变量生成一个条形图;3.个案值:观察值描述模式,即对应分类轴变量中每一观察值生成一个条形图。本题选个案组摘要。“条的表征”选项说明:1.个案数:以每组观察单元的例数制图;2.个案数的%:以每组观察单元的例数百分比制图;3.累计个数:以每组观察单元的累积例数制图;4.累积%:以每组观察单元的累积百分比制图;5.其它统计量:已经过统计加工数据的制图。本题选其它统计量。从表中可以看出每种米粒性状的平均数次数。注意:米粒性状要定义为字符串。变量为:次数,是纵坐标。类别轴为米粒性状,是横坐标。例2.4结果:图 2 几种动物食品的营养成分分析分析:从图中可以看出牛奶中的水分最多,再是糖类,无机盐最少;牛肉中水分最多,再是蛋白质,脂肪,没有糖类,其它两个以此类推。注意:品名要定义为字符串。例 2.5 结果:图 3 牛肉的不同营养成分构成比分析分析:饼图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。从图中可以看出其它占的比例最大,再是蛋白质,最少是脂肪。图表中的数据为个案组摘要。例 2.6 结果:图 4 长白猪体重的变化分析分析:线图适用于连续性计量资料,表示事物或现象因时间、条件的变化而变迁的趋势。因为只有体重一个变量,所以选择简单以及个案值摘要。从图中可以看出长白猪的体重随着月龄的增长而增长。例 2.7 结果:图53个品种猪体重的变化分析分析:图表中的数据为个案值,从图中可以看出 3 种猪的体重都随着月龄的增长而增长。其中长白猪的变化最快最显著。例 1 结果:表表 4 描述统计量描述统计量N全距极 小值极 大值均值标 准差方差偏度峰度统 计统 计统 计统 计统 计标 准统 计统 计统 计标 准统 计标 准量量量量量误量量量误量误红血球数1201.895 3.980 5.875 4.95917.036866.403841.163-.259.221-.243.438有 效 的N(列表状态)120分析:分析:从表中可以看出有 120 个统计量其中极小值是 3.980,极大值是 5.875,全距=极大值-极小值=5.875-3.980=1.895,均值:=4.95917,均值的标准差:是 0.036866,方差:=0.163,标准差=0.403841,偏度是描述发布形态对称性的统计量,偏度=-0.259 小于 0 是左偏分布,表明较高的值占多数。峰度=-0.243 小于 0 是扁平分布。表表5 5统计量统计量次数N有效120缺失0表表6 6120120人的红血球数的次数分布表人的红血球数的次数分布表频率百分比有效百分比累积百分比有效3.01.8.8.84.05344.244.245.05.06655.055.0100.0合计120100.0100.0图 6 红血球数次数分布图分析分析:列出了120人的基本统计指标,从表中可以120人的红血球数的极差是1.895,均值是4.95909,标准差是0.403835,方差是0.163,数据波动不大,偏度、峰度均小于0,表明较大数值占多数(左偏),数据成扁平分布。该类数据较多、单一变量,故对数据分3组进行进一步分析。从表2.6可知120个数据均有效;从表27可知3.0,4.0,5.0各组中体重符合对应范围的数据个数依次是1,53,66;从表中可以看出红血球数在5.0数量最多。表表 7 7 案例处理摘要案例处理摘要案例有效缺失合计N百分比N百分比N百分比红血球数120100.0%0.0%120100.0%表表 8 8 描述分析描述分析统计量标准误红血球数 均值4.95909.036865均值的 95%置信区间下限4.88610上限5.032095%修整均值4.96422中值5.02000方差.163标准差.403835极小值3.980极大值5.875范围1.895四分位距.490偏度-.258.221峰度-.243.438表表 9 9 M-M-估计器估计器Huber 的 M-估计器aTukey 的双权重bHampel 的 M-估计器cAndrews 波d红血球数4.986865.007094.979385.00776a.加权常量为 1.339。b.加权常量为 4.685。c.加权常量为 1.700、3.400 和 8.500d.加权常量为 1.340*pi。表表 1010 百分位数百分位数百分位数5102550759095加权平均(定义 1)红血球数4.25050 4.360004.70000 5.02000 5.19000 5.50600 5.60950Tukey 的枢纽红血球数4.70000 5.02000 5.19000表表 1111 极值极值案例号值红血球数 最高11115.8752395.85031035.7004965.6405475.630最低1903.980244.06531154.070434.0705244.215红血球数 Stem-and-Leaf PlotFrequencyStem&Leaf1.0039.83.0040.677.0041.5.0042.156995.0043.126683.0044.2896.0045.2245896.0046.0124459.0047.00122488810.0048.00114446896.0049.22568915.0050.00000134556777923.0051.000012234455667888999998.0052.022668895.0053.016673.0054.2575.0055.122694.0056.01341.0057.02.0058.57Stem width:.100Each leaf:1 case(s)图7箱形图分析分析:对例 1 中的数据进行分析,首先因其数据样本的数据较多,而且对其的特性和分布都不是太了解,所以我们就对此样本数均进行一个探索性的分析,分析结果如上所示。(1)首先我做了一个基本的描述性统计分析,得到以上表 6 的全距、最大值、最小值、均值、标准差等最基本的统计数据,表 7 是对样本数据进行的一个基本的处理摘要,得到我们有120 个样本数据且 120 样本数据全为有效值;(2)分析得到的表 8 中,得到了 95%的置信区间,5%的修整均值以及中值、四分位距、偏度、峰度等,其偏度小于 0,呈左偏状态,峰度小于 0 呈扁平状态;(3)表 9 是分别采用 4 个 M-估计器对样本数据进行均值估计得到的 4 个均值;(4)表 10 是分别取了 7 个段落的百分位数(百分位数是将样本数据从小到大排列并均匀分成100 等份,百分位数是所取百分比的一个节点数);(5)表 11 是极值的取值数,他分别取了 5 个最大值和 5 个最小值。(6)图 7 是对样本数据绘制的一个箱形图形,箱形图中像一个箱子的区域是样本数据中间值也是数据最集中的 50%的数据模块,最上面的一杠是最大值,最下面的一杠是最小值。中间粗线为中位数,组成箱子上面的线是四分位的 75%,下则为 25%,两者间的距离为四分位数间距,整个方框包括了 50%的数据样本。四分位距里 25%对应数据 4.7,50%对应 5.02,75%对应 5.19。五、实验小结:五、实验小结:(包括主要实验问题的最终结果描述、详细的收获体会,待解决的问题等)偏度是描述发布形态对称性的统计量,偏度等于 0 是正态分布,大于 0 是右偏分布,表明较低的值占多数,小于 0 是左偏分布,表明较高的值占多数。峰度是描述资料分布形态扁平程度的统计量,峰度等于 0 表示数据分布的扁平程度适中,即正态分布,大于 0 是尖峰分布,小于 0 是扁平分布。“图表中的数据为”选项说明:1.格案组摘要:观察值分类描述模式,即对变量中的观察值进行分组后绘图;2.各个变量的摘要:变量描述模式,即每个变量生成一个条形图;3.个案值:观察值描述模式,即对应分类轴变量中每一观察值生成一个条形图。“条的表征”选项说明:1.个案数:以每组观察单元的例数制图;2.个案数的%:以每组观察单元的例数百分比制图;3.累计个数:以每组观察单元的累积例数制图;4.累积%:以每组观察单元的累积百分比制图;5.其它统计量:已经过统计加工数据的制图。本题选其它统计量。条形图一般用于归类资料,主要适用于彼此独立的资料互相比较。饼图用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。线图适用于连续性计量资料,表示事物或现象因时间、条件的变化而变迁的趋势。手写签名:手写签名: