数据挖掘实验报告_计算机-数据挖掘与模式识别.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘实验报告_计算机-数据挖掘与模式识别.pdf》由会员分享,可在线阅读,更多相关《数据挖掘实验报告_计算机-数据挖掘与模式识别.pdf(16页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、.资料.数据挖掘实验报告 实验序号:实验项目名称:C4.5 算法 学 号 姓 名 专业、班 12 数学金融 实验地点 实验楼 5-510 指导教师 巍巍 实验时间 2014.12.24 一、实验目的及要求 1:选择一个数据挖掘标准数据集,采用 C4.5 算法进行分类,给出分类精度,画出用 C4.5 算法诱导的树并写出生成的规则集合。2:在数据挖掘标准数据集上,实验对比剪枝与未剪枝的树的分类性能。3:总结 C4.5 算法的优缺点 二、实验设备(环境)及要求 电脑 WEKA 3.6.1 三、实验容与步骤(3)数据分类(c4.5 算法实现)1.导入数据 .资料.实验目的及要求选择一个数据挖掘标准数据
2、集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.(2)选择 C4.5 分
3、类器进行分类 结果为 其中分类精度为 50%生成的决策树为 实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤
4、数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.分类规则:J48 pruned tree-outlook=sunny|humidity=high:no(3.0)|humidity=normal:yes(2.0)outlook=overcast:yes(4.0)outlook=rainy|windy=TRUE:no(2.0)|windy=FALSE:yes(3.0)剪枝后结果为 实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及
5、要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.分类精度变为57.1%性能变好 (1)C4.5 算法优缺点 优点:分类精度高,生成的分类规则比较简单,易于理解。缺点:需要多次扫描数据集,比较低效 五、分析与讨论 六、教师评语 签
6、名:日期:成绩 实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下
7、结果分别为资料资料资料.资料.数据挖掘实验报告 实验序号:实验项目名称:KNN 算法 学 号 姓 名 专业、班 12 数学金融 实验地点 实验楼 5-510 指导教师 巍巍 实验时间 2014.12.24 一、实验目的及要求 1:KNN 算法的基本思路、步骤。2:选择 UCI 中的 5 个标准数据集,使用 KNN 算法在该数据集上计算混淆矩阵。3:选择 2 个数据集,选择不同的 k 值,k=1,3,5,7,9,对比 KNN 算法计算结果的差异。二、实验设备(环境)及要求 电脑 WEKA 3.6.1 四、实验容与步骤 1.数据集 contact-lenses.arff Glass.arff 两者
8、的混淆矩阵分别为 实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在
9、下结果分别为资料资料资料.资料.(2)两个数据集在 K=1,3,5,7,9下结果分别为 Glass:K=1;=Summary=Correctly Classified Instances 151 70.5607%Incorrectly Classified Instances 63 29.4393%Kappa statistic 0.6005 Mean absolute error 0.0897 Root mean squared error 0.2852 Relative absolute error 42.3747%Root relative squared error 87.8627%T
10、otal Number of Instances 214 =Detailed Accuracy By Class=TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.786 0.167 0.696 0.786 0.738 0.806 build wind float 0.671 0.13 0.739 0.671 0.703 0.765 build wind non-float 0.294 0.051 0.333 0.294 0.313 0.59 vehic wind float 0 0 0 0 0?vehic wind non
11、-float 0.769 0.03 0.625 0.769 0.69 0.895 containers 0.778 0.015 0.7 0.778 0.737 0.838 tableware 0.793 0.011 0.92 0.793 0.852 0.884 headlamps Weighted Avg.0.706 0.109 0.709 0.706 0.704 0.792 =Confusion Matrix=a b c d e f g -classified as 55 9 6 0 0 0 0|a=build wind float 15 51 4 0 3 2 1|b=build wind
12、non-float 9 3 5 0 0 0 0|c=vehic wind float 0 0 0 0 0 0 0|d=vehic wind non-float 0 2 0 0 10 0 1|e=containers 0 1 0 0 1 7 0|f=tableware 0 3 0 0 2 1 23|g=headlamps K=3;实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精
13、度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.=Summary=Correctly Classified Instances 154 71.9626%Incorrectly Classified Instances 60 28.0374%Kappa statistic 0.6097 Mean abso
14、lute error 0.0983 Root mean squared error 0.2524 Relative absolute error 46.4438%Root relative squared error 77.7792%Total Number of Instances 214 =Detailed Accuracy By Class=TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.843 0.215 0.656 0.843 0.738 0.865 build wind float 0.711 0.138 0.
15、74 0.711 0.725 0.835 build wind non-float 0.176 0.015 0.5 0.176 0.261 0.672 vehic wind float 0 0 0 0 0?vehic wind non-float 0.615 0.015 0.727 0.615 0.667 0.913 containers 0.778 0.01 0.778 0.778 0.778 0.914 tableware 0.793 0.011 0.92 0.793 0.852 0.885 headlamps Weighted Avg.0.72 0.123 0.718 0.72 0.70
16、8 0.847 =Confusion Matrix=a b c d e f g -classified as 59 10 1 0 0 0 0|a=build wind float 19 54 2 0 1 0 0|b=build wind non-float 10 4 3 0 0 0 0|c=vehic wind float 0 0 0 0 0 0 0|d=vehic wind non-float 0 3 0 0 8 0 2|e=containers 0 1 0 0 1 7 0|f=tableware 2 1 0 0 1 2 23|g=headlamps K=5;=Summary=Correct
17、ly Classified Instances 145 67.757%Incorrectly Classified Instances 69 32.243%Kappa statistic 0.5469 Mean absolute error 0.1085 实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨
18、论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.Root mean squared error 0.2563 Relative absolute error 51.243%Root relative squared error 78.9576%Total Number of Instances 214 =Detailed Accuracy By Class=TP Rate F
19、P Rate Precision Recall F-Measure ROC Area Class 0.843 0.229 0.641 0.843 0.728 0.867 build wind float 0.684 0.174 0.684 0.684 0.684 0.848 build wind non-float 0 0.01 0 0 0 0.642 vehic wind float 0 0 0 0 0?vehic wind non-float 0.385 0.025 0.5 0.385 0.435 0.952 containers 0.667 0.01 0.75 0.667 0.706 0
20、.909 tableware 0.793 0.016 0.885 0.793 0.836 0.89 headlamps Weighted Avg.0.678 0.142 0.635 0.678 0.651 0.853 =Confusion Matrix=a b c d e f g -classified as 59 10 1 0 0 0 0|a=build wind float 20 52 1 0 3 0 0|b=build wind non-float 12 5 0 0 0 0 0|c=vehic wind float 0 0 0 0 0 0 0|d=vehic wind non-float
21、 0 5 0 0 5 0 3|e=containers 0 2 0 0 1 6 0|f=tableware 1 2 0 0 1 2 23|g=headlamps K=7;=Summary=实验目的及要求选择一个数据挖掘标准数据集采用算法进行分类给出分类精度画出用算法诱导的树并写出生成的规则集合在数据挖掘标准数据集上实验对比剪枝与未剪枝的树的分类性能总结算法的优缺点二实验设备环境及要求电脑资料分类规则剪枝后结果为资料分类精度变为性能变好算法优缺点优点分类精度高生成的分类规则比较简单易于理解缺点需要多次扫描数据集比较低效五分析与讨论六教师评语成绩签名日期资料数据挖掘实验报告实验序号实验项目选择中的
22、个标准数据集使用算法在该数据集上计算混淆矩阵选择个数据集选择不同的值对比算法计算结果的差异二实验设备环境及要求电脑四实验容与步骤数据集两者的混淆矩阵分别为资料两个数据集在下结果分别为资料资料资料.资料.Correctly Classified Instances 137 64.0187%Incorrectly Classified Instances 77 35.9813%Kappa statistic 0.4948 Mean absolute error 0.1147 Root mean squared error 0.2557 Relative absolute error 54.1689
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 报告 计算机 模式识别
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内