欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    R语言统计分析作业(共13页).docx

    • 资源ID:14285189       资源大小:332.39KB        全文页数:13页
    • 资源格式: DOCX        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    R语言统计分析作业(共13页).docx

    精选优质文档-倾情为你奉上T<- read.table("G:/学习文件夹/R语言/R语言作业/5/住房状况调查.csv",header=TRUE,sep=",")1、对变量计划户型制作一张频数分布表,并绘制相应的图形,写出相应的结论(请写出R代码)table(T$计划户型)2、请对变量计划面积选择正确的图形进行描述,写出相应的结论(请写出R代码); hist(T$计划面积, col = "lightgreen")3、对变量计划面积,计算样本数、平均值、中位数、修剪均值、样本标准差、偏态系数、峰态系数、最大值、最小值、上下四分位数,并对计划面积的分布特征进行综合分析(请写出R代码);t<-na.omit(T$计划面积)summary(t)library("psych")describe(t)根据第二题的直方图显示,计划面积的数据分布是非对称分布,其中位数为100,平均数为101.6,上四分位数为80.0,下四分位数为120.0,分位数之差是40.04、请选用合适的图形来展示变量计划户型和变量从业状况之间的关系,并进行独立性检验;(请写出R代码);t<- na.omit(T)b<-data.frame(t$从业状况,t$计划户型)a<-table(b)barplot(a,main="从业状况与计划户型的关系",ylab="频数",col=c(rainbow(6),beside=TRUE)summary(assocstats(a) H0:计划户型与从业状况独立,即两个变量不关联;H1:计划户型与从业状况不独立,即两个变量关联;Pearson卡方检验结果表明,n=719,X-squared = 129.270, df = 50, p-value = 6.0761e-09,小于0.05, 拒绝原假设,Cramers V = 0.19,有证据表明计划户型与从业状况不独立。5、请选用合适的图形来展示变量户口状况和变量现住面积之间的关系;如果想分析变量户口状况是否对变量现住面积产生显著性影响,应该采取哪种统计分析方法?户口状况是否对变量现住面积产生显著性影响?为什么?(请写出R代码)c<-data.frame(T$户口状况,T$现住面积)boxplot(T$现住面积T$户口状况,data=c,ylab="现住面积",xlab="户口状况",varwidth=TRUE,col="red2")如果想分析变量户口状况是否对变量现住面积产生显著性影响:(1)首先,现住面积是大样本数据,检验方差齐性时可以使用Levene检验,分析本市户口人民的现住面积与外地户口人民的现住面积之间的总体方差是否有显著性差异。根据R输出结果, F = 5.4041, p-value =0.02016,p-value小于0.05,拒绝原假设;有证据表明本市户口人民的现住面积与外地户口人民的现住面积之间的总体方差存在显著差异。leveneTest(T$现住面积T$户口状况,data=T)(2)本研究使用了独立样本t检验方法,分析本地户口人民的现住面积和外地户口人民的现住面积之间是否存在显著差异。t.test(T$现住面积T$户口状况,data=T)cohensD(现住面积户口状况,data=T,method="unequal")由于t=3.3136,d=0.,df =182.43,p值=0.,p值小于0.05,所以拒绝原假设。有证据表明本地户口人民的现住面积和外地户口人民的现住面积之间存在显著差异。但本案例的效应不大。6、如果想分析变量文化程度是否对变量家庭收入产生显著性影响,应该采取哪种统计分析方法?文化程度是否对变量家庭收入产生显著性影响?为什么?(请写出R代码)attach(T)shapiro.test(家庭收入文化程度="初中及以下")shapiro.test(家庭收入文化程度="大学(专、本科)")shapiro.test(家庭收入文化程度="高中(中专)")shapiro.test(家庭收入文化程度="研究生及以上")原假设:文化程度为“初中及以下”时的家庭收入来自于正态总体;备择假设:文化程度为“初中及以下”时的家庭收入不来自于正态总体。原假设:文化程度为“大学(专、本科)”时的家庭收入自于正态总体;备择假设:文化程度为“大学(专、本科)”时的家庭收入不来自于正态总体。原假设:文化程度为“高中(中专)”时的家庭收入来自于正态总体;备择假设:文化程度为“高中(中专)”时的家庭收入不来自于正态总体。原假设:文化程度为“研究生及以上”时的家庭收入来自于正态总体;备择假设:文化程度为“研究生及以上”时的家庭收入不来自于正态总体。根据输出结果,n1=805,n2=896,n3=1258,n4=34, 各组的p值均小于0.05, 拒绝原假设,有证据表明各组数据不服从正态分布。describe.by(家庭收入,文化程度)对不同教育水平的家庭收入进行Shapiro-Wilk检验, 根据R输出结果,所有的p-value都小于0.05,拒绝原假设,证据表明不同教育水平的家庭收入不服从正态分布。该样本虽为大样本,但为高度偏态分布(|sk|>0.5)。本案例不满足单因素方差分析的正态性条件。leveneTest(家庭收入文化程度,data=T)总体方差齐性可以使用levene检验,根据levene检验,F值为22.908,p值为1.168e-14,拒绝原假设,有证据证明不同教育水平的家庭收入的总体方差不相等。因此本案例不符合单因素方差分析的应用条件,故采用非参数中的Kruskal-Wallis检验。原假设:不同文化程度的人民其家庭收入的中位数相等;备择假设:不同文化程度人民的家庭收入的中位数不全相等;检验统计量Chi-Square为452.43,p值非常小,小于0.05,拒绝原假设,有证据证明不同文化程度人民的家庭收入的中位数不全相等。7、请选用合适的图形来展示变量家庭收入和变量计划面积之间的关系,写出相应的结论(请写出R代码);plot(T$家庭收入,T$计划面积)8、 如果建立计划面积关于家庭收入, 常住人口, 现住面积的多元线性回归模型。(请写出R代码)(1)写出估计的多元线性回归方程,并解释回归系数的实际意义; (2)计算判定系数,并解释其意义;计算估计标准误差,并解释其意义。(3)对回归模型进行整体检验(a=0.05)。(4)检验各回归系数是否显著(a=0.05)。(5)多元线性回归分析的基本假定是什么?本案例是否满足?。(6)根据你的判断,模型中是否存在多重共线性?d<-lm(计划面积家庭收入+常住人口+现住面积,data=T)summary(d)(1)根据输出结果:回归方程为y=84.+0.x1 -4.x2+0.x3x1的回归系数为0.,其含义是:当x2、x3 保持不变时,x1(家庭收入)每增加1元,因变量y(计划面积)平均增加0.平米。x2的回归系数为-4.,其含义是:当x1、x3 保持不变时,x2(常住人口)每增加1人,因变量y(计划面积)平均减少4.平米。x3的回归系数为0.,其含义是:当x1、x2 保持不变时,x3(现住面积)每增加1平米,因变量y(计划面积)平均增加0.平米。(2)根据输出结果:修正的判定系数为0.2289。修正的R2值=22.89%,说明模型与数据拟合的不够好,在计划面积的变动中,有22.89%是由家庭收入、常住人口和现住面积的多元线性回归方程所解释的。本回归方程拟合的不好,需要增加自变量。标准回归误差是25.95,表示用估计的回归方程预测y时,预测误差的相对大小为25.95。(3)整体性检验:H0:1=2=3=0;H0:1、2、3至少有一个不等于0。根据输出结果,通过F检验得出F值为83.21,P值非常小,拒绝原假设。(4)显著性检验:使用t检验的方法,H0:i = 0;H1:i 0。对于自变量x1(家庭收入):t值为6.663,P值小于0.05,拒绝原假设。1显著。对于自变量x2(常住人口):t值为-5.435,P值小于0.05,拒绝原假设。2显著。对于自变量x3(现住面积):t值为11.116,P值小于0.05,拒绝原假设。3显著。 (5) 基本假定:1、 误差项是一个服从正态分布的随机变量,且相互独立,即2、 独立性3、 线性4、 同方差性g<-lm(计划面积家庭收入+常住人口+现住面积,data=T)par(mfrow=c(2,2)plot(g)h<- residuals(g)shapiro.test(h)qqPlot(g)正态性检验:p<0.01,能拒绝原假设,有证据表明残差不服从正态分布。durbinWatsonTest(g)独立性检验:P值不显著(p=0.334)说明无自相关性,误差项之间独立。线性检验:在“残差与拟合图”(residuals vs fitted)中可以看到残差与预测值似乎有某种线性关系。同方差性:根据“位置尺度图”(scale-location graph)中,水平线周围的点貌似有线性的趋向,遂使用改进的方法检验同方差。nvcTest(g)原假设:误差方差不变; 备择假设:误方差随拟合值水平的改变而改变。P值<0.05,拒绝原假设,说明存在异方差性。(6)多重共线性vif(g)家庭收入、常住人口、现住面积3项的vif值都小于4,所以不存在多重共线性。专心-专注-专业

    注意事项

    本文(R语言统计分析作业(共13页).docx)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开