《数据分析实验报告计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf》由会员分享,可在线阅读,更多相关《数据分析实验报告计算机数据挖掘与模式识别_计算机-数据挖掘与模式识别.pdf(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第一次试验报告 习题 1.3 1建立数据集,定义变量并输入数据并保存。2数据的描述,包括求均值、方差、中位数等统计量 分析一描述统计一频率,选择如下:输出:统计量 全国居民 农村居民 城镇居民 N 有效 22 22 22 缺失 0 0 0 均值 1116.82 747.86 2336.41 中值 727.50 530.50 1499.50 方差 1031026.918 399673.838 4536136.444 百分位数 25 304.25 239.75 596.25 50 727.50 530.50 1499.50 75 1893.50 1197.00 4136.75 3画直方图,茎叶图,
2、QQ 图。(全国居民)分析一描述统计一探索,选择如下:输出:全国居民 Stem-and-Leaf Plot Freque ncy Stem&Leaf 5.00 0.56788 2.00 1.03 1.00 1.7 1.00 2.3 3.00 2.689 1.00 3.1 Stem width 1000 Each leaf:1 case(s)分析一描述统计一 QC 图,选择如下:输出:习题 1.1 4数据正态性的检验:K S检验,W险验 数据:取显着性水平为 0.05 分析一描述统计一探索,选择如下:(1)K S 检验 单样本 Kolmogorov-Smirnov 检验 身高 N 60 正态参数
3、a,b 均值 139.00 标准差 7.064 最极端差别 绝对值.089 正.045 负-.089 Kolmogorov-Smirnov Z.686 渐近显着性(双侧).735 a.检验分布为正态分布 b.根据数据计算得到。结果:p=0.735大于 0.05 接受原假设,即数据来自正太总体。(2)W佥验 正态性检验 Kolmogorov-Smirnov a Shapiro-Wilk 统计量 df Sig.统计量 df Sig.身高.089 60.200*.972 60.174 a.Lilliefors 显着水平修正*.这是真实显着水平的下限。述统计一频率选择如下输出均值中值方差百分位数有效缺
4、失统计量全国居民农村居民城镇居民画直方图茎叶图图全国居民分析一描述统计一探索选择如下输出全国居民分析一描述统计一图选择如下输出习题数据正态性的检验检验险负渐近显着性双侧检验分布为正态分布根据数据计算得到身高结果大于接受原假设即数据来自正太总体佥验正态性检验统计量统计量身高显着水平修正这是真实显着水平的下限结果在检验结果大于接受原假设即数据来自正太总体习着性双侧相关性显着性双侧相关性显着性双侧在水平双侧上显着相关结果与其他数据无相关性其他三组数据线性相关相关系数的相关系数双侧相关系数双侧相关系数双侧相关系数双侧在置信度双测为时相关性是显着的在置信度双测结果:在Shapiro-Wilk检验结果Wo
5、 0.972,p=0.174大于 0.05 接受原假设,即数据来自正太总体。习题 1.5 5多维正态数据的统计量 数据:统计量 x1 x2 x3 x4 N 有效 21 21 21 21 缺失 0 0 0 0 均值 18.219 27.867 4.505 33.767 均值向量为:X(18.219,27.836,4.505,33.767)项间协方差矩阵 x1 x2 x3 x4 K1 3.509 2.707 1.019 1.266 K2 2.707 3.559 1.139 1.289 K3 1.019 1.139 1.998 1.740 x4 1.266 1.289 1.740 4.032 相关性
6、 x1 x2 x3 x4 x1 Pearson 相关 1.766*.385.336 性 显着性(双侧).000.085.136 N 21 21 21 21 K2 Pearson 相关.766*1.427.340 性 显着性(双侧).000 .054.131 N 21 21 21 21 述统计一频率选择如下输出均值中值方差百分位数有效缺失统计量全国居民农村居民城镇居民画直方图茎叶图图全国居民分析一描述统计一探索选择如下输出全国居民分析一描述统计一图选择如下输出习题数据正态性的检验检验险负渐近显着性双侧检验分布为正态分布根据数据计算得到身高结果大于接受原假设即数据来自正太总体佥验正态性检验统计量统
7、计量身高显着水平修正这是真实显着水平的下限结果在检验结果大于接受原假设即数据来自正太总体习着性双侧相关性显着性双侧相关性显着性双侧在水平双侧上显着相关结果与其他数据无相关性其他三组数据线性相关相关系数的相关系数双侧相关系数双侧相关系数双侧相关系数双侧在置信度双测为时相关性是显着的在置信度双测K3 Pearson 相关.385.427 1.613*性 显着性(双侧).085.054 .003 N 21 21 21 21 4 Pearson 相关.336.340.613*1 性 显着性(双侧).136.131.003 N 21 21 21 21*.在.01 水平(双侧)上显着相关 结果:x4与其他
8、数据无相关性,其他三组数据线性相关 相关系数 x1 x2 x3 x4 Spearman 的 rho x1 相关系数 1.000.790*.434*.431 Sig.(双侧).000.049.051 N 21 21 21 21 x2 相关系数.790*1.000.511*.488*Sig.(双侧).000 .018.025 N 21 21 21 21 x3 相关系数.434*.511*1.000.691*Sig.(双侧).049.018 .001 N 21 21 21 21 x4 相关系数.431.488*.691*1.000 Sig.(双侧).051.025.001 N 21 21 21 21
9、*.在置信度(双测)为 0.01 时,相关性是显着的*.在置信度(双测)为 0.05 时,相关性是显着的。结果:由 Spearma 相关矩阵的输出结果看,取显着性水平 0.1,p值皆小于 0.1,所以数据相关性显着 习题 2.4述统计一频率选择如下输出均值中值方差百分位数有效缺失统计量全国居民农村居民城镇居民画直方图茎叶图图全国居民分析一描述统计一探索选择如下输出全国居民分析一描述统计一图选择如下输出习题数据正态性的检验检验险负渐近显着性双侧检验分布为正态分布根据数据计算得到身高结果大于接受原假设即数据来自正太总体佥验正态性检验统计量统计量身高显着水平修正这是真实显着水平的下限结果在检验结果大
10、于接受原假设即数据来自正太总体习着性双侧相关性显着性双侧相关性显着性双侧在水平双侧上显着相关结果与其他数据无相关性其他三组数据线性相关相关系数的相关系数双侧相关系数双侧相关系数双侧相关系数双侧在置信度双测为时相关性是显着的在置信度双测6线性回归线的拟合,回归系数的区间估计与假设检验,回归系数的选择、逐步回归。7残差分析 分析一回归一线性,选择如下:输出:逐步回归结果:两变量的系数 p 值均小于 0.05 均有统计学意义。结果:由残差统计量表看出,数据无偏离值,标准差比较小,认为模型健康。概率论课本习题 7.5 8 一个正态总体独立样本均值的 t 检验与区间估计 分析一比较均值一独立样本 T检验
11、:输出:One-Sample Statistics N Mean Std.Deviation Std.Error Mean 折断力 10 2833.50 35.044 11.082 结果:样本均值为 2833.50与总体均值 2820比较接近 One-Sample Test Test Value=2820 t df Sig.(2-tailed)Mean Difference 95%Confidence Interval of the Difference Lower Upper 折断力 1.218 9.254 13.500-11.57 38.57 结果:述统计一频率选择如下输出均值中值方差百分
12、位数有效缺失统计量全国居民农村居民城镇居民画直方图茎叶图图全国居民分析一描述统计一探索选择如下输出全国居民分析一描述统计一图选择如下输出习题数据正态性的检验检验险负渐近显着性双侧检验分布为正态分布根据数据计算得到身高结果大于接受原假设即数据来自正太总体佥验正态性检验统计量统计量身高显着水平修正这是真实显着水平的下限结果在检验结果大于接受原假设即数据来自正太总体习着性双侧相关性显着性双侧相关性显着性双侧在水平双侧上显着相关结果与其他数据无相关性其他三组数据线性相关相关系数的相关系数双侧相关系数双侧相关系数双侧相关系数双侧在置信度双测为时相关性是显着的在置信度双测t 值为 1.218 小于临界值
13、2.26,且 P值为 0.254 大于显着性水平 0.05,接受原假设,即认为样本均值与总体均值之差可能是抽样误差所导致 概率论课本习题 7.7 9 两个正态总体均值差异比较的t 检验与配对检验 分析一均值比较一独立样本 T检验,选择如下:输出:结果:P值为 1 大于显着性水平 0.05,认为方差相等。此时,p 值(Sig.(2-tailed)为0.229 大于显着性水平 0.05,认为样本均值是相等的,即电阻均值没有显着性差异。分析一比较均值一配对样本 T检验,选择如下:输出:结果同上:认为样本均值是相等的,即电阻均值没有显着性差异。述统计一频率选择如下输出均值中值方差百分位数有效缺失统计量全国居民农村居民城镇居民画直方图茎叶图图全国居民分析一描述统计一探索选择如下输出全国居民分析一描述统计一图选择如下输出习题数据正态性的检验检验险负渐近显着性双侧检验分布为正态分布根据数据计算得到身高结果大于接受原假设即数据来自正太总体佥验正态性检验统计量统计量身高显着水平修正这是真实显着水平的下限结果在检验结果大于接受原假设即数据来自正太总体习着性双侧相关性显着性双侧相关性显着性双侧在水平双侧上显着相关结果与其他数据无相关性其他三组数据线性相关相关系数的相关系数双侧相关系数双侧相关系数双侧相关系数双侧在置信度双测为时相关性是显着的在置信度双测
限制150内