“数理统计”综合作业解析(共11页).doc
精选优质文档-倾情为你奉上 “数理统计”课程综合作业作业要求为了考核同学们综合运用统计方法解决实际问题的过程,请同学们结合当前社会生活实际中的问题,自己拟定一个研究题目,并应用参数估计、假设检验、回归分析、方差分析、正交设计(这些方法中至少选择两个)对其进行分析。要求:(一) 内容必须涵盖以下几个方面:1.题目;2.研讨的问题是什么;3.相关的数据及来源;4.建立的统计模型和统计问题是什么,样本数据是什么;5.使用的统计方法是什么?使用的统计分析软件是什么?5.计算过程(若统计软件,其计算结果是什么)6.对计算结果的说明或解释。(二) 格式 包括报告题目、摘要、正文、参考文献和附录五个部分。正文内容一般包括问题描述、数据描述、模型建立、统计方法选择和问题求解、结果分析等内容。报告用Word 文本格式,中文字使用宋体、小四号字,英文用Roman 字体5 号字,数学符号用MathType 输入。题 目(黑体,三号)摘要:(200-400字)(黑体,小四)正文(正文标题:宋体,粗体,小四)一、问题提出。(正文内容:宋体,五号)二、数据描述(用表格表达数据信息,指出数据来源或提供原始数据)三、建立统计模型四、统计方法设计和方法使用的条件,计算工具的选择。五、计算过程和计算结果。六、结果分析。参考资料(标题:宋体,粗体,小四,内容:宋体,五号)附录(标题:宋体,粗体,小四,内容:宋体,五号)(三) 课外作业提交形式纸质材料和电子文档注意:纸质材料打印内容从封面开始,包括作业要求,直至作业的所有内容。电子文档:先提交给班长,再由班长将压缩文件提交给老师。特别注意电子文档的名称,按如下模板写: 2011级某班“数理统计”综合作业姓名,学号。(四) 课外作业提交时间参加课程考试那天上午提交纸质材料,当天班长提交电子文档给老师。请注意:不能复制现有成果,同学之间也不能相互复制内容。专心-专注-专业 股票市场中变量之间的关系摘要: 在经济飞速发展的当代,金融市场占据着半壁江山,而在金融市场中股票作为公司筹资的重要来源,它占据着重要的地位,我接下来就是要研究股票市场中变量之间的关系,通过统计分析方法还原大数据时代海量数据所反映的事实,以及数据之间的规律性。 首先用统计中的参数估计的方法对所得数据进行分析建立模型Y=X+,对搜集到的数据做参数估计,即最小二乘估计。然后对数据建立回归预测的模型,用回归分析的方法对搜集到的中证100股指的数据建立线性模型,用R软件编程进行求解,最后求出的估计值并用R软件画出残差图并与实际走势相比较。最后对所得结果进行分析,联系实际的K线图,检验预测的效果,对R软件中得出的异常点进行分析,用三种不同的方法得到的结果进行比较,分析此次分析对实际问题的实用性。 中证100指数的回归分析一 问题的提出生活在21世纪,这个信息的海洋里,每天都面对着海量的数据,而与我们并不遥远的金融市场更是信息的集中体,股票期权等每秒都有上亿的数据信息量,面对如此多的数据信息,如何才能从众多的股票中选出优质股进行投资成为人们争夺的热点,其实我们可以用统计的方法来解决这些问题。下面便针对这种现象提出如下的问题:请搜集有关股票数据并对其变量用统计方法进行分析。二 数据描述在大智慧软件上搜集中证100的指数,并对中证100支成分股搜集15分钟k线的收盘价,共352组样本数据得到如下数据:(具体 三.建立统计模型对搜集到的数据进行建模,因为影响因变量中证100收盘价Y的共有100支股票,设这一百只股票分别为X1,X2,X3.X99,X100.这100个变量与Y有如下相关关系:Y=+x+.+其中 N(0,) 且cov()=0,ij.即建立了线性模型: Y=X+ E=0,cov()=I参数估计: 对上述建立的模型进行参数估计,设=()为的估计量,则称为线性回归方程,残差平方和为给定观测数据()i=1,2,3.100就是的最优解即 (1)的解由(1)式可知为正规方程 rank()=rank(X)=p+1所以得到的LS 估计为即四、 统计方法设计和方法使用的条件,计算工具的选择。 用用R软件对所搜集的数据进行用回归分析的方法对最小二乘估计进行计算,并用回归分析建立回归模型,首先把数据中缺失的即停盘的股票删去,并将缺失的补齐,另存为Csv文件,下面在R软件中编程进行解答。下面是程序DA=read.csv(file=file.choose(),head=T)> library(nnls)> x=as.matrix(DA,2:101)> y=as.vector(DA,1)> a=2:101> b=0.> D=data.frame(a,b)> b0=as.vector(D,2)> y1=y-x%*%b0> nnr<-nnls(x,y1)> nnr> coef<- coef(nnr)+0.> coef五、计算过程和计算结果。对数据做正回归分析得出结果:coef(提取系数向量的估计值) 1 1. 45. 14. 0. 2. 6. 0. 9. 36. 0. 0. 12 0. 0. 0. 3. 0. 1. 1. 0. 0. 0. 0. 23 0. 0. 14. 31. 0. 0. 0. 18. 0. 0. 0. 34 0. 0. 0. 0. 5. 12. 0. 0. 0. 0. 0. 45 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 29. 56 3. 0. 0. 4. 0. 0. 0. 0. 0. 0. 0. 67 0. 1. 0. 0. 0. 11. 0. 0. 0. 0. 0. 78 1. 0. 0. 0. 6. 0. 0. 0. 0. 0. 0. 89 0. 23. 17. 0. 0. 0. 0. 0. 3. 0. 0.100 0. x estimates: 1. 45.72455 14.34579 0 2. 6. 0. 9. 36.47136 0. 0 0 0. 0 3. 0 1. 1. 0 0 0 0 0 0 14.42661 31.70552 0 0 0 18.4603 0 0 0 0 0 0 0 5. 12.35397 0 0 0 0 0 0 0 0. 0 0 0 1. 0 0 0 29.40185 3. 0 0 4. 0 0 0 0 0 0 0 0 1. 0 0 0 11.10205 0 0 0 0 0 1. 0 0 0 6.58022 0 0 0 0 0. 0 0 23.85117 17.24039 0 0 0 0 0 3. 0 0 0 residual sum-of-squares: 9190由X的估计值得到下列回归方程:Y=1.x1+45.72455x2+14.34579x3+2.x5+6.x6+0.x7+9. x8+36.47136x9+0.x10+0.x13+3.x15+1.x17+1.x18+14.42661x25+.+3.x98.可以看到残差平方和为9190X的估计值系数也均为正的回归系数残差图如下实际走势与预测效果图如下:从上图可以看出此次回归预测与实际走势基本吻合。六、结果分析。下面对结果进行分析:分析方法:正态性检验此次检验选用了较为简单的QQ图进行检验分析,在R软件中输入以下的程序:DA=read.csv(file=file.choose(),head=T)lm.sz=lm(YX1+X2+X3+X4+X5+X6+X7+X8+X9+X10+X11+X12+X13+X14+X15+X16+X17+X18+X19+X20+X21+X22+X23+X24+X25+X26+X27+X28+X29+X30+X31+X32+X33+X34+X35+X36+X37+X38+X39+X40+X41+X42+X43+X44+X45+X46+X47+X48+X49+X50+X51+X52+X53+X54+X55+X56+X57+X58+X59+X60+X61+X62+X63+X64+X65+X66+X67+X68+X69+X70+X71+X72+X73+X74+X75+X76+X77+X78+X79+X80+X81+X82+X83+X84+X85+X86+X87+X88+X89+X90+X91+X92+X93+X94+X95+X96+X97+X98+X99+X100,data=DA)summary(lm.sz)plot(lm.sz,2)#对数正态QQ残差图#条件数的计算XX<-cor(DA3:101)#变量相关系数矩阵kappa(XX,exact=TRUE)#求矩阵的条件数 条件数1 eigen(XX)#求矩阵的特征值得到如下的QQ图:从图中可以看出第139,321,76组的数据异常下面对数据异常点进行诊断分析:程序为:p=1n=nrow(DA)d1=dffits(lm.sz)cf=1:ncfabs(d1)>2*sqrt(p+1)/n)#库克距离计算infl=lm.influence(lm.sz,do.coef=FALSE)D=cooks.distance(lm.sz,infl=lm.influence(lm.sz,do.coef=FALSE),rs=weighted.residuals(lm.sz),sd=sqrt(deviance(lm.sz)/df.residual(lm.sz),hat=infl$hat)sort(D)#按从小到大的顺序排列#协方差比诊断D=abs(1-covratio(lm.sz, infl=lm.influence(lm.sz, do.coef = FALSE),res = weighted.residuals(lm.sz)sort(D)最后得出的结果是:1.由WK距离共有28个异常点2.用库克距离诊断知:距离最大的是322和333.即2013年10月23号 10:45和15:00的数据,但是距离值仅为0.0594和0.0544,在大智慧中23号的走势如下3:002:3010:45从图中可以看出在异常点10:45时股票价格达到了最大,此时是抛售股票的最佳时机,之后股票价格大幅下跌,而在异常点2:30和3:00中轨线和下轨线经历了一段时间的稳定状态后开始复苏,到3:15时收盘价远远低于开盘价,所以异常点指导股民在3:00之前一定要抛售,否则将面临更加大的亏损.因此,分析表明异常点为股票出现涨停或跌停的预示,给股民一定的指导意义,很好的预测出股票的走势异常时点,对股票市场的走势的预测具有及其重要的作用。3.在S7即协方差比中发现第331号异常,查证得知为10月23号14:30的数据,由前面的K线图知成分指数并没有什么异常,各只成分股也没有什么异常,结果截图如上最后一列即为协方差比猜想可能是由于系统误差引起,具体原因还有待探索。参考资料:1. 多元统计分析 杨虎编著 2. 数理统计 杨虎 钟波编著,高教出版社3. R for beginners Chinese edition 2.04. 统计建模与R软件 薛毅 陈立萍编著,清华大学出版社5. 多元统计分析 张润楚编著,科学出版社