数据分析实验报告.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据分析实验报告.doc》由会员分享,可在线阅读,更多相关《数据分析实验报告.doc(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数值分析实验指导数据分析实验指导书理学院实验中心数学专业实验室编写实验一 SAS系统的使用【实验类型】(验证性)【实验学时】2学时【实验目的】 使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。【实验内容】1. 启动SAS系统,熟悉各个菜单的内容;在编辑窗口、日志窗口、输出窗口之间切换。2. 建立数据集表1NameSexMathChineseEnglishAlicef908591Tomm958784Jennyf939083Mikem808580Fredm848589Katef978382Alexm929091Cookm757876Bennief827984Hellenf8
2、57484Winceletf908287Buttm778179Geogem868582Todm898484Chrisf898487Janetf8665871) 通过编辑程序将表1读入数据集sasuser.score;2) 将下面记事本中的数据读入SAS数据集,变量名为code name scale share price:000096 广聚能源 8500 0.059 1000 13.27000099 中信海直 6000 0.028 2000 14.2000150 ST麦科特 12600 -0.003 1500 7.12000151 中成股份 10500 0.026 1300 10.080001
3、53 新力药业 2500 0.056 2000 22.753)将下面Excel表格中的数据导入SAS数据集work.gnp;namex1x2x3x4x5x6北京190.3343.777.9360.5449.0190.4天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.469.8918.173.25内蒙古128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.
4、2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.627.35.74浙江169.9232.7521.7247.1234.355安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5917.6419.1915.974.94山东115.8430.7612.233.133.773.85河南101.1823.268.4620.220.54.3湖北140.6428.2612.3518.5320.95
5、6.23湖南164.0224.7413.6322.218.066.04广东182.5520.5218.3242.436.9711.68广西139.0818.4714.6813.4120.663.85四川137.820.7411.0717.7416.494.39贵州121.6721.5312.5814.4912.184.57云南124.2719.818.8914.2215.533.03陕西106.0220.5610.9410.11183.29甘肃95.6516.825.76.0312.364.49青海107.1216.458.985.48.785.93宁夏113.7424.116.469.612
6、2.922.53新疆123.243813.724.6417.775.754)使用VIEWTABLE格式新建数据集earn,输入如表所示数据Year earn1981 1250001982 1360001983 1223501984 652001985 8446001986 2550001987 2650001988 2800001989 1360003. 将sasuser.score数据集的内容复制到一个临时数据集test,要求只包含变量name, sex, math。4将sasuser.score数据集中的记录按照math的高低拆分到3个不同的数据集:math大于等于90的到good数据集,
7、math在80到89之间的到normal数据集,math在80以下的到bad数据集。5将4题中得到的数据集good,normal,bad合并为数据集combine,并将数据集combine按照数学成绩排序,然后打印排序后的数据集。【实验报告要求】1. 写出2. 1) 2) 3), 3,4,5的程序设计;2. 附上5题打印程序运行的结果。【实验方法或步骤】1SAS系统的启动:2种方法 1)双击桌面上的SAS快捷方式; 2)单击屏幕左下角的“开始”菜单,在菜单中选择“程序”,在程序中选择The SAS System,最后选择The SAS System for Windows V8。2数据的输入与
8、输出1)在SAS程序窗口下,直接输入数据以建立一个SAS数据集,其基本语句形式为:DATA name;INPUT variables;CARDS;data lines;输出数据集的内容,可用PROC PRINT DATA=name;2)将其他格式的数据文件导入数据集.3能够利用已有的SAS数据集建立新的SAS数据集1)两个数据集的合并两数据集的串接:将A和B两个数据集串接成为一个名为“name”的新的SAS数据集.DATA name;SET A B;两数据集的并接:若两个数据集的数据行数(即观测向量个数)相同且按相同顺序排列,可将两数据集并接以形成新的SAS数据集,其中数据集中变量的个数为原两
9、数据集中的变量个数之和.DATA name;MERGE A B;2)两个数据集的复制DATA A;/A为新的数据集/SET B;/B为要复制的数据集名/KEEP variables;/希望保留的变量名/DROP variables;/希望去掉的变量名/3)两个数据集的拆分示例:将记录学生成绩的/数据集按性别分成两个数据集,即一个记录男生的成绩,一个记录女生的成绩。程序如下:Data scorem scoref; Set sasuser.score; Select (sex); When (m) output scorem;When (f) output scoref; End; Run;实验二
10、1991年全国各省、区、市城镇居民月平均收入的数据分析【实验类型】(综合性)【实验学时】6学时【实验目的】通过对1991年全国各省、区、市城镇居民月平均收入进行数据描述性分析、判别分析、聚类分析和主成分分析,培养和提高学生应用统计软件SAS分析处理数据的能力,为以后的学习及应用打下良好的基础。【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人)
11、;X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。省(区市)名类型x1x2x3x4x5x6x7x8x9北京1170.03110.259.768.384.4926.816.4411.90.41天津1141.5582.5850.9813.49.3321.312.369.211.05河北1119.483.3353.39117.5217.311.79120.7上海1194.53107.860.2415.68.883121.0111.80.16山东1130.4686.2152.315.910.520.6112.149.610.47湖北111
12、9.2985.4153.0213.18.4413.8716.478.380.51广西1134.4698.6148.188.94.3421.4926.1213.64.56海南1143.7999.9745.66.31.5618.6729.4911.83.82四川1128.0574.9650.1313.99.6216.1410.1814.51021云南1127.4193.5450.5710.55.8719.4121.212.60.9新疆1122.96101.469.76.33.8611.318.965.624.62山西2102.4971.7247.729.426.9613.127.96.660.61
13、内蒙古2106.1476.2746.199.656.279.65520.16.970.96吉林2104.9372.9944.613.79.019.43520.616.651.68黑龙江2103.3462.9942.9511.17.418.34210.196.452.68江西298.08969.4543.0411.47.9510.5916.57.691.08河南2104.1272.2347.319.486.4313.1410.438.31.11贵州2108.4980.7947.526.063.4213.6916.538.372.85陕西2113.9975.650.885.213.8612.949
14、.4926.771.27甘肃2114.0684.3152.787.815.4410.8216.433.791.19青海2108.880.4150.457.274.078.37118.985.950.83宁夏2115.9688.2151.858.815.6313.9522.654.750.97辽宁3128.4668.9143.4122.415.313.8812.429.011.41江苏3135.2473.1844.5423.915.222.389.66113.91.19浙江3162.5380.1145.9924.313.929.5410.9133.47安徽3111.7771.0743.6419.
15、412.516.689.6987.020.63福建3139.0979.0944.1918.510.520.2316.477.673.08湖南312484.6644.0513.57.4719.1120.4910.31.76广东待判211.311441.4433.211.248.7230.7714.911.1西藏待判175.93163.857.894.223.3717.8182.3215.701、对变量x1作如下计算:1)计算均值、方差、标准差、变异系数、偏度、峰度;2)计算中位数,上、下四分位 数,四分位极差,三均值;3)作出直方图;4)作出茎叶图;5)进行正态性检验(正态W检验);6)计算协方
16、差矩阵,Pearson相关矩阵;7)计算Spearman相关矩阵;8)分析各指标间的相关性。2、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。 2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。3、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分3类的结果; 2)快速聚类法聚类,并写出分3类的结果。4、1)求前两个标准化主成分及其累计贡献率; 2)解释1)中两个主成分的意义; 3)基于第一样本主成分的得分对各地区排序,这与你从原始数据得到的直观看法是否基本吻合?【实验前的预备知识】1、SAS系统的使用;2、1)数据的数字特征:均值、
17、方差、中位数、三均值与极差等; 2)数据的分布:直方图、茎叶图、箱线图、正态性检验等; 3)多元数据的数字特征与相关性分析:均值向量与协方差矩阵等。3、1)距离判别的原理及判别准则的评价; 2)Bayes判别的原理; 3)逐步判别;4、1)样品间的相似性度量距离和变量间的相似性度量相似系数;2)谱系聚类法:最短距离法、最长距离法、类平均法、重心法、中间距离法和WARD最小方差法等;3)快速聚类法:5、1)总体主成分的定义、求法、性质和标准化变量的主成分; 2)样本主成分。【实验方法或步骤】1、1)PROC MEANS过程PROC MEANS options;VAR variables;/指出数
18、据集中要计算的变量名称(应是数值变量)/OUTPUT OUT=SAS data set keyword=name ; /建立一个由PROC MEANS过程的分析结果构成的SAS数据集/其中“options”包含下列内容的部分或全部:a. DATA=SAS data set:指明所要分析的SAS数据集名称.若省略此选项,则对最新建立的数据集作分析.b. MAXDEC=:其中为介于0与8之间的一个正整数,该选项指明在输出数据时小数点后保留位.c. 关键词:逐个列出要计算其值的统计量名称的关键词,最常用的有N(变量的观测值个数)、MEAN(均值)、STD(标准差)、VAR(方差)、MIN(各变量观测
19、值的最小值)、MAX(各变量观测值的最大值)、RANGE(极差)、SUM(总和)、USS(平方和)、CSS(中心化平方和)、SKEWNESS(偏度)、KURTOSIS(峰度)、T(对每个变量的均值是否为零进行双边检验)、PRT(双边的值).2)PROC UNIVARIATE 过程PROC UNIVARIATE options;PLOT variable1;OUTPUT OUT=SAS data set keyword=name ;其中“options”包含下列内容的部分或全部:a. DATA=SAS data set:指明所要分析的SAS数据集名称.b. PLOT:要求对所分析的各变量的观测值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实验 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内