《2022年数据挖掘weka数据分类实验报告.docx》由会员分享,可在线阅读,更多相关《2022年数据挖掘weka数据分类实验报告.docx(15页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 一、试验目的使用数据挖掘中的分类算法,对数据集进行分类训练并测试;应用不同的分类算法,比较他们之间的不同;与此同时明白 二、试验环境Weka 平台的基本功能与使用方法;试验采纳 Weka 平台,数据使用 Weka 安装目录下 data 文件夹下的默认数据集 iris.arff ;Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托高校开发;Weka 使用 Java写成的,并且限制在 GNU 通用公共证书的条件下发布;它可以运行于几乎全部操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件;Weka 供应了一个统一界面,可结合预处理以
2、及后处理方法,将很多不同的学习算法应用于任何所给的数据集,并 评估由不同的学习方案所得出的结果;三、数据预处理Weka平台支持ARFF格式和CSV格式的数据;由于本次使用平台自带的ARFF 格式数据,所以不存在格式转换的过程;试验所用的ARFF格式数据集如图1 所示图 1 ARFF 格式数据集 iris.arff 名师归纳总结 对于 iris数据集,它包含了150个实例(每个分类包含50个实例),共有 sepal length、第 1 页,共 9 页- - - - - - -精选学习资料 - - - - - - - - - sepal width、petal length、petal widt
3、h和class 五种属性;期中前四种属性为数值类型, class 属性为分类属性,表示实例所对应的的类别;该数据集中的全部实例共可分为三类: Iris Setosa、Iris Versicolour和Iris Virginica;如所采纳的数试验数据集中全部的数据都是试验所需的,因此不存在属性挑选的问题;据集中存在大量的与试验无关的属性,就需要使用 选;weka 平台的 Filter 过滤器 实现属性的筛试验所需的训练集和测试集均为 iris.arff ;四、试验过程及结果应用 iris 数据集,分别采纳LibSVM、C4.5 决策树分类器和朴实贝叶斯分类器进行测试和评判, 分别在训练数据上训
4、练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评判比较, 得到一个最好的分类模型以及该模型全部设置的最优参数;最终使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,猜测;1、 LibSVM分类并利用该分类器对测试数据进行Weka 平台内部没有集成libSVM 分类器,要使用该分类器,需要下载libsvm.jar 并导入到 Weka 中;点“用“Explorer” 打开数据集“iris.arff ” ,并在Explorer 中将功能面板切换到“Classify” ;Choose” 按钮挑选“functionsweka.classifiers.functions.LibSV
5、M” ,挑选LibSVM 分类算法;在 Test Options 面板中挑选 按钮:Cross-Validatioin folds=10 ,即十折交叉验证; 然后点击“ start”使用 LibSVM 分类算法训练数据集得出的结果名师归纳总结 参数: S 0 K 2 D 3 G 0.0 R 0.0 N 0.5 M 40.0 C 1.0 E 0.0010 P 0.1 第 2 页,共 9 页- - - - - - -精选学习资料 - - - - - - - - - 结果分析:使用该参数指定的 LibSVM 训练数据集,得到精确率为 96.6667%,其中 150 个实例中的 145个被正确分类,5
6、 个被错误分类;依据混淆矩阵,被错误分类实例的为:2 个 b 类实例被错误分类到 c;3 个 c 类实例被错误分类到将模型应用于测试集:b;该算法 P=0.967,R=0.967,ROC面积为 0.975;使用 LibSVM 分类算法测试数据集得出的结果名师归纳总结 - - - - - - -第 3 页,共 9 页精选学习资料 - - - - - - - - - 分类误差:结果分析:精确率为 98.6667%,只有两个实例被错误分类;P=0.987, R=0.987,ROC面积为 0.99 名师归纳总结 - - - - - - -第 4 页,共 9 页精选学习资料 - - - - - - -
7、- - 2、 C4.5 决策树分类器依旧使用十折交叉验证,训练集和测试集相同;使用 C4.5 决策树分类算法训练数据集得出的结果名师归纳总结 参数: -C 0.25 -M 2 第 5 页,共 9 页- - - - - - -精选学习资料 - - - - - - - - - 结果分析:使用该参数指定的 C4.5 决策树分类器训练数据集,得到精确率为 96%,其中 150 个实例中的 144 个被正确分类,6 个被错误分类;依据混淆矩阵,被错误分类实例的为:2 个 b 类实例被错误分类到 c,1个 b 类实例被错误分类到 a;3 个 c 类实例被错误分类到 b;该算法 P=0.96,R=0.96,
8、ROC面积为 0.968;将模型应用于测试集:使用 C4.5 分类算法测试数据集得出的结果分类误差:名师归纳总结 - - - - - - -第 6 页,共 9 页精选学习资料 - - - - - - - - - 结果分析:精确率为 98%,有 3 个实例被错误分类;3、 朴实贝叶斯分类器P=0.98,R=0.98,ROC面积为 0.993 使用朴实贝叶斯分类算法训练数据集得出的结果 参数:无名师归纳总结 - - - - - - -第 7 页,共 9 页精选学习资料 - - - - - - - - - 结果分析:使用朴实贝叶斯分类器训练数据集,得到精确率为 95.3333%,其中 150 个实例
9、中的 143 个被正确分类, 7 个被错误分类;依据混淆矩阵,被错误分类实例的为:4 个 b 类实例被错误分类到 c; 3 个 c 类实例被错误分类到 将模型应用于测试集:b;该算法 P=0.953,R=0.953,ROC面积为 0.994;使用朴实贝叶斯分类算法测试数据集得出的结果分类误差:名师归纳总结 - - - - - - -第 8 页,共 9 页精选学习资料 - - - - - - - - - 结果分析:精确率为 96%,有 6 个实例被错误分类;4、 三种分类算法比较:P=0.96,R=0.96,ROC面积为 0.995 校验精确率LibSVM C4.5 决策树朴实贝叶斯98.6667% 96% 98% 训练 混淆矩阵校验 混淆矩阵标准误差0.0943 0.108 0.1483 比较结果分析:LibSVM 算法相比 C4.5 决策树算法、朴实贝叶斯算法具有更好的分类性能;五、试验总结通过本次试验,我对Weka 平台有了比较完整和深化的熟悉,把握了使用Weka 平台进行数据挖掘的方法,包括数据预处理、分类、聚类、关联分析等;通过试验,对数据挖掘本身也有了比较直观的熟悉;名师归纳总结 - - - - - - -第 9 页,共 9 页
限制150内