统计软件R作业-adult、babiesI数据.pptx
《统计软件R作业-adult、babiesI数据.pptx》由会员分享,可在线阅读,更多相关《统计软件R作业-adult、babiesI数据.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析与统计软件作业姓名:杨烨军学号:2010110148adult、babiesI数据第一部分 adult数据22.4:组合方法:adaboost、bagging、随机森林分析2.1、2.2、2.3:rpart分析2.5:最近邻方法分析2.6:人工神经网络分析2.8:关联规则分析2.7:支持向量机分析1数据简介目录1.数据简介v数据来自于1994年人口普查数据,经过年龄16、AGI100、AFNLWGT1和每周工作时间0等条件筛选。v共有48842个观测,其中:训练集32561个观测,测试集16281个观测。v15个变量,其中:6个连续性变量,9个名义变量。资料来源:任务:预测人们收入是否
2、超过5万/年。变量描述序号变量名序号变量名1 class:分类(50K,=50K)9 relationship:关系(妻子、丈夫等)2 age:年龄(连续变量)10 race:种族(白人、黑人等)3 workclass:工作类别(私人、不工作等)11 sex:性别(女、男)4 fnlwgt:(连续性变量)12 capital.gain:财产收益(连续变量)5 education:教育(学士、硕士、博士等)13 capital.loss:财产损失(连续变量)6 education.num:教育年限(连续变量)14 hours.per.week:每周工作时间(连续变量)7marital.statu
3、s:婚姻状况(未婚、已婚配偶为军人、已婚配偶为平民等)15native.country:国籍(美国、柬埔寨、英国等)8 occupation:职业(技术支持、销售等)数据概览 age workclass fnlwgt education education.num marital.status1 39 State-gov 77516 Bachelors 13 Never-married2 50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse3 38 Private 215646 HS-grad 9 Divorced4 53 Priv
4、ate 234721 11th 7 Married-civ-spouse5 28 Private 338409 Bachelors 13 Married-civ-spouse occupation relationship race sex capital.gain capital.loss1 Adm-clerical Not-in-family White Male 2174 02 Exec-managerial Husband White Male 0 03 Handlers-cleaners Not-in-family White Male 0 04 Handlers-cleaners
5、Husband Black Male 0 05 Prof-specialty Wife Black Female 0 0 hours.per.week native.country class1 40 United-States=50K2 13 United-States=50K3 40 United-States=50K4 40 United-States=50K5 40 Cuba=50K2.1分类树rpart分析:程序v library(rpart);v w=read.table(e:/adult.txt,header=TRUE,sep=,);v wt=read.table(e:/adul
6、ttest.txt,header=TRUE,sep=,);v summary(w);v summary(wt);v(b=rpart(class.,w);v b;v plot(b,uniform=T,branch=1,margin=0.1,cex=0.9);v text(b,cex=0.85);v table(predict(b,w,type=class),wclass);v table(predict(b,wt,type=class),wtclass)2.1分类树rpart分析:输出结果v n=32561 v node),split,n,loss,yval,(yprob)v*denotes t
7、erminal nodev 1)root 32561 7841=50K(0.75919044 0.24080956)v 2)relationship=Not-in-family,Other-relative,Own-child,Unmarried 17800 1178=50K(0.93382022 0.06617978)v 4)capital.gain 7073.5 17482 872=7073.5 318 12 50K(0.03773585 0.96226415)*v 3)relationship=Husband,Wife 14761 6663=50K(0.54860782 0.451392
8、18)v 6)education=10th,11th,12th,1st-4th,5th-6th,7th-8th,9th,Assoc-acdm,Assoc-voc,HS-grad,Preschool,Some-college 10329 3456=50K(0.66540807 0.33459193)v 12)capital.gain 5095.5 9807 2944=5095.5 522 10 50K(0.01915709 0.98084291)*v 7)education=Bachelors,Doctorate,Masters,Prof-school 4432 1225 50K(0.27639
9、892 0.72360108)*关系:未婚、自己为孩子、不在家庭、其他关系:丈夫、妻子学历较高学历较低财产收益大于5096财产收益大于7074财产收益小于7074财产收益小于50962.1分类树rpart分析:输出结果训练集w分类结果真实50K预测50K 1247 4025误判率:0.155493测试集wt分类结果 真实 50K预测50K 630 1945误判率:0.155457 2.1分类树rpart分析:结论v可见:年工资收入是否超过5万,与个人在家庭中担任的角色、所受教育和财产收益有关。v个人如果是家庭的丈夫或者妻子,收入相对较高;v所受教育越高,收入相对较高;v财产收益越高,收入相对较
10、高。v判断一个人年收入是否超过5万,可从关系、教育、财产收益三个变量表现来决定。2.2分类树rpart分析:程序(变量筛选1)v 考虑到education(教育)与education.num(教育年限)相关性较大,只采用education.num(教育年限)。v summary(w);v(b1=rpart(classage+workclass+education.num+marital.status+occupation+race+sex+capital.gain+capital.loss+hours.per.week+native.country,w);v b1;v plot(b1);v t
11、ext(b1,use.n=T)v table(predict(b1,w,type=class),wclass);v table(predict(b1,wt,type=class),wtclass)2.2分类树rpart分析:输出(变量筛选1)v n=32561 v node),split,n,loss,yval,(yprob)v*denotes terminal nodev 1)root 32561 7841=50K(0.75919044 0.24080956)v 2)marital.status=Divorced,Married-spouse-absent,Never-married,Sep
12、arated,Widowed 17562 1139=50K(0.93514406 0.06485594)v 4)capital.gain 7139.5 17252 840=7139.5 310 11 50K(0.03548387 0.96451613)*v 3)marital.status=Married-AF-spouse,Married-civ-spouse 14999 6702=50K(0.55317021 0.44682979)v 6)education.num 12.5 10526 3484=50K(0.66901007 0.33098993)v 12)capital.gain 50
13、95.5 9998 2967=5095.5 528 11 50K(0.02083333 0.97916667)*v 7)education.num=12.5 4473 1255 50K(0.28057232 0.71942768)*婚姻状况:离婚、配偶失踪、丧偶等婚姻状况:已婚有配偶学历较高学历较低可见:年工资收入是否超过5 万,与婚姻状况、所受教育和财产收益有关。训练集w分类结果真实50K预测50K 1277 4034误判率:0.156138 测试集wt分类结果 真实 50K预测50K 633 1953误判率:0.155150 测试集误判率略有降低,变量不筛选时误判率为0.155457 2.
14、2分类树rpart分析:结果(变量筛选1)v 再考虑到capital.gain、capital.loss 本身与收入类别紧密相关,为挖掘其余变量与收入类别的关系,这里分析中不包括capital.gain 与capital.loss 变量。v(b2=rpart(classage+workclass+education.num+marital.status+occupation+race+sex+hours.per.week+native.country,w);v b2;v plot(b2);v text(b2,use.n=T)v table(predict(b2,w,type=class),wc
15、lass);v table(predict(b2,wt,type=class),wtclass)2.3分类树rpart分析:程序(变量筛选2)v n=32561 v node),split,n,loss,yval,(yprob)v*denotes terminal nodev 1)root 32561 7841=50K(0.75919044 0.24080956)v 2)marital.status=Divorced,Married-spouse-absent,Never-married,Separated,Widowed 17562 1139=50K(0.93514406 0.0648559
16、4)*v 3)marital.status=Married-AF-spouse,Married-civ-spouse 14999 6702=50K(0.55317021 0.44682979)v 6)education.num 12.5 10526 3484=12.5 4473 1255 50K(0.28057232 0.71942768)*婚姻状况:离婚、配偶失踪、分居等婚姻状况:已婚有配偶受教育年限不考虑财产收益与损耗情况下,收入类别与婚姻状况、受教育年限关系较强。2.3分类树rpart分析:结果(变量筛选2)训练集w分类结果 真实 50K预测50K 1255 3218误判率:0.1805
17、23 测试集wt分类结果 真实 50K预测50K 624 1573误判率:0.177937 与前面分析相比,训练集、测试集误判率均有所上升,因为这里少了财产收益和损失的信息。2.3分类树rpart分析:结果(变量筛选2)v library(adabag);v b4=adaboost.M1(class.,data=w,mfinal=15,maxdepth=5)v b4.pred-predict.boosting(b4,newdata=w);b4.pred-1v b5.pred-predict.boosting(b4,newdata=wt);b5.pred-1v barplot(b4$import
18、ance)v b4$importance训练集:Observed ClassPredicted Class 50K 50K 869 3937$error1 0.1465864测试集:Observed ClassPredicted Class 50K.=50K.12435 3846$error1 0.2362263测试集中全部判断为=50K。2.4组合方法之adaboost分析v b4$importancev age workclass fnlwgt education education.num v 11.764706 0.000000 0.000000 15.294118 1.176471
19、v marital.status occupation relationship race sex v 7.058824 12.941176 9.411765 0.000000 0.000000 v capital.gain capital.loss hours.per.week native.country v 24.705882 9.411765 8.235294 0.000000重要性较强的变量有:capital.gain educationoccupation age2.4组合方法之adaboost分析v library(mlbench);v b6=adaboost.M1(class.
20、,data=w,mfinal=25,maxdepth=5)v b6.pred-predict.boosting(b6,newdata=w);b6.pred-1v b7.pred-predict.boosting(b6,newdata=wt);b7.pred-1v barplot(b6$importance)v b6$importance训练集:Observed ClassPredicted Class 50K 50K 1255 4475$error1 0.1419182测试集:Observed ClassPredicted Class 50K.=50K.12435 3846$error1 0.
21、2362263测试集中仍全部判断为=50K。mfinal 增加至25训练集误判率有所下降,相差不大2.4组合方法之adaboost分析v b6$importancev age workclass fnlwgt education education.num v 10.6666667 0.0000000 0.0000000 12.6666667 2.0000000 v marital.status occupation relationship race sex v 6.6666667 12.6666667 9.3333333 0.0000000 0.0000000 v capital.gain
22、 capital.loss hours.per.week native.country v 26.0000000 10.0000000 9.3333333 0.6666667 重要性较强的变量有:capital.gain occupation educationagecapital.loss2.4组合方法之adaboost分析v b8=bagging(class.,data=w,mfinal=25,maxdepth=5)v b8.pred=predict.bagging(b8,newdata=w);b8.pred-1v b9.pred=predict.bagging(b8,newdata=wt
23、);b9.pred-1v barplot(b8$importance)v b8$importanceCompany Logo训练集:Observed ClassPredicted Class 50K 50K 1247 4025$error1 0.1554928测试集:Observed ClassPredicted Class 50K.=50K.12435 3846$error1 0.2362263测试集中仍全部判断为=50K。与adaboost 方法相比,训练集误判率有所上升2.4组合方法之bagging分析v b8$importancev age workclass fnlwgt educa
24、tion education.num v 0.000000 0.000000 0.000000 18.518519 3.703704 v marital.status occupation relationship race sex v 0.000000 3.703704 23.148148 0.000000 0.000000 v capital.gain capital.loss hours.per.week native.country v 49.074074 1.851852 0.000000 0.000000 重要性较强的变量与前面有所差异:capital.gain relations
25、hip educationoccupation education.numcapital.loss2.4组合方法之bagging分析v b10=randomForest(class.,data=w,importance=TRUE)v 错误于randomForest.default(m,y,.):v Can not handle categorical predictors with more than 32 categories.v randomForest 不能处理32个分类以上的名义变量的预测,native.country(国籍)变量有41个类别,剔除native.country。v b1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 软件 作业 adult babiesI 数据
限制150内