数据分析实验二(10页).doc
-实验课程: 数据分析 专 业: 信息与计算科学 班 级: 13080241 学 号: 1308024121 姓 名: 徐可 中北大学理学院实验二 上市公司的数据分析【实验目的】通过使用SAS软件对实验数据进行描述性分析和回归分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】表2是一组上市公司在2001年的每股收益(eps)、流通盘(scale)的规模以及2001年最后一个交易日的收盘价(price). 表2 某上市公司的数据表代码流通盘每股收益股票价格00009685000.05913.2700009960000.02814.200015012600-0.0037.12000151105000.02610.0800015325000.05622.7500015513000-0.0096.8500015636000.03314.95000157100000.0612.65000158100000.0188.3800015970000.00812.15000301153650.047.3100048877000.10113.2600072560000.04412.3300083513380.0722.5800086932000.19418.290008777800-0.08412.550008856000-0.07312.48000890169340.0319.12000892120000.0317.88000897141660.0026.91000900214230.0588.5900090148000.00527.950009026500-0.03110.9200090360000.10911.7900090595000.0469.2900090666500.00714.4700090889880.0068.2800090960000.0029.9900091080000.0368.900091172800.0679.01000912150000.1128.0600091384500.06211.8600091545990.00114.4000916340000.0385.15000917118000.08616.230009186000-0.04510.121、对股票价格1)计算均值、方差、标准差、变异系数、偏度、峰度;2)计算中位数,上、下四分位 数,四分位极差,三均值;3)作出直方图;4)作出茎叶图;5)进行正态性检验(正态W检验);6)计算协方差矩阵,Pearson相关矩阵;7)计算Spearman相关矩阵;8)分析各指标间的相关性。2、1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差; 2)给定显著性水平=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性; 3)拟合残差关于拟合值的残差图及残差的正态QQ图。分析这些残差,并予以评述。【实验所使用的仪器设备与软件平台】SAS软件 计算机【实验方法与步骤】(阐述实验的原理、方案、方法及完成实验的具体步骤等,附上自己编写的程序)data prices;input num scale eps price;cards;00009685000.05913.2700009960000.02814.200015012600-0.0037.12000151105000.02610.0800015325000.05622.7500015513000-0.0096.8500015636000.03314.95000157100000.0612.65000158100000.0188.3800015970000.00812.15000301153650.047.3100048877000.10113.2600072560000.04412.3300083513380.0722.5800086932000.19418.290008777800-0.08412.550008856000-0.07312.48000890169340.0319.12000892120000.0317.88000897141660.0026.91000900214230.0588.5900090148000.00527.950009026500-0.03110.9200090360000.10911.7900090595000.0469.2900090666500.00714.4700090889880.0068.2800090960000.0029.9900091080000.0368.900091172800.0679.01000912150000.1128.0600091384500.06211.8600091545990.00114.4000916340000.0385.15000917118000.08616.230009186000-0.04510.12run;PROC PRINT DATA=prices;run;proc means data=prices mean var std skewness kurtosis cv;var price;output out=result;run;proc univariate data=prices plot freq normal;var price;output out=result2;run;proc capability data=prices graphics noprint;histogram price/normal;run;proc corr data=prices pearson spearman cov nosimple;var price eps scale;with price eps scale;run;proc reg data=prices;model price=scale eps/selection=backward noint p r;output out =prices p=p r=r;proc print data=prices;run;proc gplot data=prices;plot scale*r=1 eps*r=2 price*r=3;run;proc capability data=prices graphics;qqplot r/noemal;run; 【实验结果】1.1)计算均值、方差、标准差、变异系数、偏度、峰度;2)计算中位数,上、下四分位数,四分位极差,三均值3)作出直方图4)作出茎叶图;5)进行正态性检验(正态W检验);由上图可知W=0.872266正态性检验(一般取)1. W检验:故拒绝原假设认为样本数据不是来自正态总体。2. Kolmogorov-Smirnov检验:故拒绝原假设认为样本数据不是来自正态总体。3. Anderson-Darling检验:故拒绝原假设认为样本数据不是来自正态总体。4. Cramer-von检验:故拒绝原假设认为样本数据不是来自正态总体。6)计算协方差矩阵,Pearson相关矩阵;协方差矩阵:Pearson相关矩阵:7)计算Spearman相关矩阵;8)分析各指标间的相关性通过Pearson相关矩阵,Spearman相关矩阵的结果可以看出price与eps,eps于scale不相关。2. 1)对股票价格,拟合流通盘和每股收益的线性回归模型,求出回归参数估计值及残差;参数估计值如图;其中r列为残差2)给定显著性水平=0.05,检验回归关系的显著性,检验各自变量对因变量的影响的显著性;从图中可以看出1. 流通盘(scale) 拒绝原假设认为股票价格(price)与流通盘(scale)之间存在显著的显著回归关系2.每股收益(eps)拒绝原假设认为股票价格(price)与每股收益(eps)之间存在显著的显著回归关系3) 拟合残差关于拟合值的残差图及残差的正态QQ图。分析这些残差,并予以评述。正态QQ图: 从图中可以得出:1 正态QQ图中散点图是弯曲的,在一条直线的下方,可认为数据不是来自正态分布总体,且样本的偏度为正。2 残差图中数据偏离0轴的距离比较大,数据比较分散。【实验原理】1. preason相关系数当时,称变量X,Y的观测数据是不相关的,当时,称变量X,Y的观测数据是线性正相关的,当 时,称变量X,Y的观测数据是线性负相关的。当时,称变量X,Y的观测数据是完全线性相关的。2. 为了检验之间是否存在显著的线性回归关系,即检验假设我们构造了检验统计量。通过SAS系统PROCREG过程得到检验结果,通过方差分析结果中的P值来拒绝原假设(即在显著性水平下,认为之间存在显著的线性回归关系)或者接受原假设(即在显著性水平下,认为之间线性回归关系不显著)【结果分析与讨论】通过此次的实验,我学会了使用SAS的基本操作,对实验操作也越来越熟练,此次试验,通过线性回归分析,我们可以得出每股收益,流通盘和收盘价三者之间存在线性回归关系,但是通过正态检验和正态QQ可以知道样本数据不是来自正态总体的,数据的偏度为正,数据整体是偏向右边的,峰度为正可得出样本总体分布中极端数值分布范围较广,又通过学生化残差可知残差较大的可疑点所占的比例不大,所以通过线性回归建立的模型是可行的。-第 96 页-