统计软件R作业——adult、babiesI数据.pptx
《统计软件R作业——adult、babiesI数据.pptx》由会员分享,可在线阅读,更多相关《统计软件R作业——adult、babiesI数据.pptx(50页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据分析与统计软件数据分析与统计软件作业作业姓名:杨烨军姓名:杨烨军学号:学号:20101101482010110148adultadult、babiesIbabiesI数据数据第一部分第一部分 adultadult数据数据22.4:组合方法:组合方法:adaboost、bagging、随机森林分析、随机森林分析2.1、2.2、2.3:rpart分析分析2.5:最近邻方法分析:最近邻方法分析2.6:人工神经网络分析:人工神经网络分析2.8:关联规则分析:关联规则分析2.7:支持向量机分析:支持向量机分析1数据简介数据简介目录目录1.1.数据简介数据简介v数据来自于数据来自于19941994年人
2、口普查数据,经过年龄年人口普查数据,经过年龄1616、AGI100AGI100、AFNLWGT1AFNLWGT1和每周工作时间和每周工作时间00等条件筛选。等条件筛选。v共有共有4884248842个观测,其中:训练集个观测,其中:训练集3256132561个观个观测,测试集测,测试集1628116281个观测。个观测。v1 15 5个变量,其中:个变量,其中:6 6个连续性变量,个连续性变量,9 9个名义个名义变量。变量。资料来源:http:/archive.ics.uci.edu/ml/datasets/Adult任务:预测人们收入是否超过任务:预测人们收入是否超过5 5万万/年。年。变量
3、描述变量描述序序号号变量名变量名序序号号变量名变量名1 class:分类(分类(50K,=50K)9 relationship:关系(妻子、丈夫等)关系(妻子、丈夫等)2 age:年龄(连续变量)年龄(连续变量)10 race:种族(白人、黑人等)种族(白人、黑人等)3 workclass:工作类别(私人、不工作等)工作类别(私人、不工作等)11 sex:性别(女、男)性别(女、男)4 fnlwgt:(连续性变量)(连续性变量)12 capital.gain:财产收益(连续变量)财产收益(连续变量)5 education:教育(学士、硕士、博士等)教育(学士、硕士、博士等)13 capital
4、.loss:财产损失(连续变量)财产损失(连续变量)6 education.num:教育年限(连续变量)教育年限(连续变量)14 hours.per.week:每周工作时间(连续变量)每周工作时间(连续变量)7marital.status:婚姻状况(未婚、已婚配婚姻状况(未婚、已婚配偶为军人、已婚配偶为平民等)偶为军人、已婚配偶为平民等)15native.country:国籍(美国、柬埔寨、英国国籍(美国、柬埔寨、英国等)等)8 occupation:职业(技术支持、销售等职业(技术支持、销售等)数据概数据概览 age workclass fnlwgt education education.
5、num marital.status1 39 State-gov 77516 Bachelors 13 Never-married2 50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse3 38 Private 215646 HS-grad 9 Divorced4 53 Private 234721 11th 7 Married-civ-spouse5 28 Private 338409 Bachelors 13 Married-civ-spouse occupation relationship race sex capital.
6、gain capital.loss1 Adm-clerical Not-in-family White Male 2174 02 Exec-managerial Husband White Male 0 03 Handlers-cleaners Not-in-family White Male 0 04 Handlers-cleaners Husband Black Male 0 05 Prof-specialty Wife Black Female 0 0 hours.per.week native.country class1 40 United-States =50K2 13 Unite
7、d-States =50K3 40 United-States =50K4 40 United-States =50K5 40 Cuba =50K2.12.1分类树分类树rpartrpart分析分析:程序程序vlibrary(rpart);vw=read.table(e:/adult.txt,header=TRUE,sep=,);vwt=read.table(e:/adulttest.txt,header=TRUE,sep=,);vsummary(w);vsummary(wt);v(b=rpart(class.,w);vb;vplot(b,uniform=T,branch=1,margin=0
8、.1,cex=0.9);vtext(b,cex=0.85);vtable(predict(b,w,type=class),wclass);vtable(predict(b,wt,type=class),wtclass)2.12.1分类树分类树rpartrpart分析:输出结果分析:输出结果vn=32561 vnode),split,n,loss,yval,(yprob)v *denotes terminal nodev 1)root 32561 7841 =50K(0.75919044 0.24080956)v 2)relationship=Not-in-family,Other-relati
9、ve,Own-child,Unmarried 17800 1178 =50K(0.93382022 0.06617978)v 4)capital.gain 7073.5 17482 872 =7073.5 318 12 50K(0.03773585 0.96226415)*v 3)relationship=Husband,Wife 14761 6663 =50K(0.54860782 0.45139218)v 6)education=10th,11th,12th,1st-4th,5th-6th,7th-8th,9th,Assoc-acdm,Assoc-voc,HS-grad,Preschool
10、,Some-college 10329 3456 =50K(0.66540807 0.33459193)v 12)capital.gain 5095.5 9807 2944 =5095.5 522 10 50K(0.01915709 0.98084291)*v 7)education=Bachelors,Doctorate,Masters,Prof-school 4432 1225 50K(0.27639892 0.72360108)*关系:未婚、自关系:未婚、自己为孩子、不在己为孩子、不在家庭、其他家庭、其他关系:丈夫、妻关系:丈夫、妻子子学历较高学历较高学历较低学历较低财产收益财产收益大于
11、大于50965096财产收益收益大于大于7074财产收益财产收益小于小于70747074财产收益财产收益小于小于509650962.12.1分类树分类树rpartrpart分析:输出结果分析:输出结果训练集训练集w分类分类结果结果真实真实50K预测预测50K12474025误判率:0.155493测试集集wtwt分分类结果果真真实50K预测50K6301945误判率:0.155457 2.12.1分类树分类树rpartrpart分析:结论分析:结论v可见:年工资收入是否超过可见:年工资收入是否超过5 5万,与个人在家庭中万,与个人在家庭中担任的角色、所受教育和财产收益有关。担任的角色、所受教育
12、和财产收益有关。v个人如果是家庭的丈夫或者妻子,收入相对较高;个人如果是家庭的丈夫或者妻子,收入相对较高;v所受教育越高,收入相对较高;所受教育越高,收入相对较高;v财产收益越高,收入相对较高。财产收益越高,收入相对较高。v判断一个人年收入是否超过判断一个人年收入是否超过5 5万,可从万,可从关系、教育、关系、教育、财产收益财产收益三个变量表现来决定。三个变量表现来决定。2.22.2分类树分类树rpartrpart分析:程序(变量筛选分析:程序(变量筛选1 1)v考考虑到到education(教育)与(教育)与education.num(教育年限)(教育年限)相关性相关性较大,只采用大,只采用
13、education.num(教育年限)。(教育年限)。vsummary(w);v(b1=rpart(classage+workclass+education.num+marital.status+occupation+race+sex+capital.gain+capital.loss+hours.per.week+native.country,w);vb1;vplot(b1);vtext(b1,use.n=T)vtable(predict(b1,w,type=class),wclass);vtable(predict(b1,wt,type=class),wtclass)2.22.2分类树分类
14、树rpartrpart分析:输出(变量筛选分析:输出(变量筛选1 1)vn=32561 vnode),split,n,loss,yval,(yprob)v *denotes terminal nodev 1)root 32561 7841 =50K(0.75919044 0.24080956)v 2)marital.status=Divorced,Married-spouse-absent,Never-married,Separated,Widowed 17562 1139 =50K(0.93514406 0.06485594)v 4)capital.gain 7139.5 17252 840
15、 =7139.5 310 11 50K(0.03548387 0.96451613)*v 3)marital.status=Married-AF-spouse,Married-civ-spouse 14999 6702 =50K(0.55317021 0.44682979)v 6)education.num 12.5 10526 3484 =50K(0.66901007 0.33098993)v 12)capital.gain 5095.5 9998 2967 =5095.5 528 11 50K(0.02083333 0.97916667)*v 7)education.num=12.5 44
16、73 1255 50K(0.28057232 0.71942768)*婚姻状况:离婚、配婚姻状况:离婚、配偶失踪、丧偶等偶失踪、丧偶等婚姻状况:已婚婚姻状况:已婚有配偶有配偶学历学历较高高学历较低学历较低可可见:年工:年工资收入是否超收入是否超过5万,与婚姻状况、万,与婚姻状况、所受教育和所受教育和财产收益有关。收益有关。训练集训练集w分类分类结果结果真实真实50K预测预测50K12774034误判率:0.156138 测试集集wtwt分分类结果果真真实50K预测50K6331953误判率:0.155150 测试集误判率略有降低,变量不筛选时误判率为0.155457 2.22.2分类树分类树r
17、partrpart分析:结果(变量筛选分析:结果(变量筛选1 1)v再考再考虑到到capital.gain、capital.loss本身与收入本身与收入类别紧密相关,密相关,为挖掘其余挖掘其余变量与收入量与收入类别的关系,的关系,这里分析中不包括里分析中不包括capital.gain与与capital.loss变量。量。v(b2=rpart(classage+workclass+education.num+marital.status+occupation+race+sex+hours.per.week+native.country,w);vb2;vplot(b2);vtext(b2,use.
18、n=T)vtable(predict(b2,w,type=class),wclass);vtable(predict(b2,wt,type=class),wtclass)2.32.3分类树分类树rpartrpart分析:程序(变量筛选分析:程序(变量筛选2 2)vn=32561 vnode),split,n,loss,yval,(yprob)v *denotes terminal nodev1)root 32561 7841 =50K(0.75919044 0.24080956)v 2)marital.status=Divorced,Married-spouse-absent,Never-ma
19、rried,Separated,Widowed 17562 1139 =50K(0.93514406 0.06485594)*v 3)marital.status=Married-AF-spouse,Married-civ-spouse 14999 6702 =50K(0.55317021 0.44682979)v 6)education.num 12.5 10526 3484 =12.5 4473 1255 50K(0.28057232 0.71942768)*婚姻状况:离婚、配婚姻状况:离婚、配偶失踪、分居等偶失踪、分居等婚姻状况:已婚婚姻状况:已婚有配偶有配偶受教育年限受教育年限不考虑财
20、产收益与损耗情况下,收入类不考虑财产收益与损耗情况下,收入类别与婚姻状况、受教育年限关系较强。别与婚姻状况、受教育年限关系较强。2.32.3分类树分类树rpartrpart分析:结果(变量筛选分析:结果(变量筛选2 2)训练集训练集w分类分类结果结果真实真实50K预测预测50K12553218误判率:误判率:0.180523 测试集集wtwt分分类结果果真真实=50K50K50K预测=50K50K50K62462415731573误判率:判率:0.177937 0.177937 与前面分析相比,训练集、测试集误判率均有所上升,因为这里少了财产收益和损失的信息。2.32.3分类树分类树rpart
21、rpart分析:结果(变量筛选分析:结果(变量筛选2 2)vlibrary(adabag);vb4=adaboost.M1(class.,data=w,mfinal=15,maxdepth=5)vb4.pred-predict.boosting(b4,newdata=w);b4.pred-1vb5.pred-predict.boosting(b4,newdata=wt);b5.pred-1vbarplot(b4$importance)vb4$importance训练集:Observed ClassPredicted Class 50K 50K 869 3937$error1 0.1465864
22、测试集:Observed ClassPredicted Class 50K.=50K.12435 3846$error1 0.2362263测试集中全部判断为 b4$importancev age workclass fnlwgt education education.num v 11.764706 0.000000 0.000000 15.294118 1.176471 vmarital.status occupation relationship race sex v 7.058824 12.941176 9.411765 0.000000 0.000000 v capital.gain
23、 capital.loss hours.per.week native.country v 24.705882 9.411765 8.235294 0.000000重要性较强的变量有:capital.gain educationoccupation age2.42.4组合方法之组合方法之adaboostadaboost分析分析vlibrary(mlbench);vb6=adaboost.M1(class.,data=w,mfinal=25,maxdepth=5)vb6.pred-predict.boosting(b6,newdata=w);b6.pred-1vb7.pred-predict.b
24、oosting(b6,newdata=wt);b7.pred-1vbarplot(b6$importance)vb6$importance训练集:Observed ClassPredicted Class 50K 50K 1255 4475$error1 0.1419182测试集:Observed ClassPredicted Class 50K.=50K.12435 3846$error1 0.2362263测试集中仍全部判断为 b6$importancev age workclass fnlwgt education education.num v 10.6666667 0.0000000
25、 0.0000000 12.6666667 2.0000000 vmarital.status occupation relationship race sex v 6.6666667 12.6666667 9.3333333 0.0000000 0.0000000 v capital.gain capital.loss hours.per.week native.country v 26.0000000 10.0000000 9.3333333 0.6666667 重要性较强的变量有:capital.gain occupation educationagecapital.loss2.42.4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 软件 作业 adult babiesI 数据
限制150内