2022年数据挖掘期末实验报告.docx
《2022年数据挖掘期末实验报告.docx》由会员分享,可在线阅读,更多相关《2022年数据挖掘期末实验报告.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选学习资料 - - - - - - - - - 数据挖掘技术期末报告理学院姓名:学号:联系电话:专业班级:评分:优| 良 | 中 | 及格 | 不及格1 名师归纳总结 - - - - - - -第 1 页,共 16 页精选学习资料 - - - - - - - - - 一、试验目的基于从 UCI 公开数据库中下载的数据, 使用数据挖掘中的分类算法, 用 Weka平台的基本功能对数据集进行分类, 对算法结果进行性能比较, 画出性能比较图,另外针对不同数量的训练集进行对比试验,并画出性能比较图训练并测试;二、试验环境试验采纳 Weka 平台,数据使用来自从UCI 公开数据库中下载,主要使用其中的
2、Breast Cancer Wisc-onsin Original Data Set 数据; Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托高校开发;Weka 使用 Java写成的,并且限制在 GNU 通用公共证书的条件下发布;它可以运行于几乎全部操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件;Weka 供应了一个统一界面,可结合预处理以及后处理方法,将很多不同的学习算法应用于任何所给的数据 集,并评估由不同的学习方案所得出的结果;三、试验步骤3.1 数据预处理 本试验是针对威斯康辛州 原始 的乳腺癌数据集进行分类, 该表含有 Sample code number(样本
3、代码 ,Clump Thickness(丛厚度),Uniformity of Cell Size(均 匀的细胞大小),Uniformity of Cell Shape (匀称的细胞外形),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小) ,Bare Nuclei(裸 核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中其次项到第十项取值均为 1-10,分类中 2代表 良性, 4代表恶性;通过试验,期望能找出患乳腺癌客户
4、各指标的分布情形;该数据的数据属性如下:1. Sample code number(numeric),样本代码;2. Clump Thickness(numeric),丛厚度;3.Uniformity of Cell Size (numeric)匀称的细胞大小;4. Uniformity of Cell Shape(numeric),匀称的细胞外形;5.Marginal Adhesion(numeric),边际粘连;6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小;7.Bare Nuclei(numeric),裸核;2 名师归纳总结 - - -
5、- - - -第 2 页,共 16 页精选学习资料 - - - - - - - - - 8.Bland Chromatin(numeric),平淡的染色质;9. Normal Nucleoli (numeric),正常的核仁;10.Mitoses(numeric),有丝分裂;11.Class(enum),分类;3.2 数据分析 由 UCI 公开数据库得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据分列下一步逗号完成,该数据是有关乳腺癌数据集, 有11 个属性,分别为 Sample code number(样本代码 ,Clump Thickness(丛厚度),Uniformity
6、 of Cell Size (匀称的细胞大小),Uniformity of Cell Shape (匀称的细胞外形),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),由于复制粘贴过来的数据没有属性,所以手工添加一行属性名;Weka分类数据需把 excel 保存为一个 csv 文件;图 1 中显示的是使用“Exploer” 打开“ 乳腺癌数据集
7、.csv.arff” 的情形 .如图 1 所示:3 名师归纳总结 - - - - - - -第 3 页,共 16 页精选学习资料 - - - - - - - - - (图 1)3.2.1 数据预处理很明显发觉,所用的数据都是(numeric)数值型的,需要将数值型离散化,将“Clump Thickness ” ,“ Uniformity of Cell Size ”,“ Uniformity of Cell Shape” ,“Marginal Adhesion ”,“Marginal Adhesion ” ,“Bare Nuclei ” ,“Bland Chromatin ” ,“ Norma
8、l Nucleoli ” ,“ Mitoses” ,“ Class”离散化;我们需要借助 Weka中名为“ Discretize” 的 Filter 来完成;在区域 2 中点“ Choose” ,显现一棵“Filter 树” ,逐级找到“weka.filters.unsupervised.attribute.Discretize”点击,即可;现在“ Choose” 旁边的文本框应当显示 “ Discretize -B 10 -M -0.1 -R first-last ” ;如图箭头所示, 点击这个文本框会弹出新窗口以修改离散化的参数;我们需将第1,2,3,4,5,6,7,8,9,10项离散化,
9、其中第一项为id,可移除;把 attributeIndices 右边改成“1,2,3,4,5,6,7,8,9,10” ;我们把这两个属性都分成10 段,于是把“bins”改成“ 10” ;其它不变;点“ OK” 回到“ Explorer”,可以看到“ Clump Thickness ” ,“ Uniformity of Cell Size ”,“ Uniformity of Cell Shape ”,“Marginal Adhesion ” ,“Marginal Adhesion ” ,“Bare Nuclei ”,“Bland Chromatin ” ,“ Normal Nucleoli ”
10、 ,“ Mitoses” , 已经被离散化成分类型的属性;其中一项如图 2 所示, 10 项属性可视化如图 3 所示:(图 2)4 经移除后剩 10 项属性,名师归纳总结 - - - - - - -第 4 页,共 16 页精选学习资料 - - - - - - - - - (图 3)3.3.1 决策树分类用“ Explorer” 打开刚才得到的 “ 乳腺癌数据集.csv.arff”,并切换到“ Class” ;点“Choose” 按钮挑选“treeweka.classifiers.trees.j48”,这是 Weka 中实现的决策树算法;得到结果如图4和图5所示:5 名师归纳总结 - - - -
11、 - - -第 5 页,共 16 页精选学习资料 - - - - - - - - - (图 4)(图 5)这个是针对第一项Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness(丛厚度)其中 102 个为正确分类,正确分类率为 26.03726%,517 个为错误分类,错误分类为73.9268%;而第九项 Mitoses 有丝分裂项也是分析 699 个数据,其中正确分类有579 个数据,正确率为82.8326%,错误分类的有 120 个,错误分类的有17.167
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022 数据 挖掘 期末 实验 报告
限制150内