数据挖掘实验报告 .doc
《数据挖掘实验报告 .doc》由会员分享,可在线阅读,更多相关《数据挖掘实验报告 .doc(21页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-!数据挖掘Weka实验报告姓名 学号 指导教师 开课学期 2015 至 2016 学年 2 学期完成日期 2015年6月12日 1.实验目的基于http:/archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境实验采用Weka平台,数据使用来自http:/archive.ics.uci.edu/ml/Datas
2、ets/Br-east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤3.1数据预处理本实验是针对威斯康辛州
3、(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1
4、-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下:1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;3.Uniformity of Cell Size(numeric)均匀的细胞大小;4. Uniformity of Cell Shape(numeric),均匀的细胞形状;5.Marginal Adhesion(numeric),边际粘连;6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小;7.Bar
5、e Nuclei(numeric),裸核;8.Bland Chromatin(numeric),平淡的染色质;9. Normal Nucleoli(numeric),正常的核仁;10.Mitoses(numeric),有丝分裂;11.Class(enum),分类。3.2数据分析由http:/archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29得到一组由逗号隔开的数据,复制粘贴至excel表中,选择数据分列下一步逗号完成,该数据是有关乳腺癌数据集,有11个属性,分别为Sample code number(样
6、本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),因为复制粘贴过来的数据没有属性,所以手工添加一行属性名。Weka分类数据需把excel保存为一个csv文件。3
7、.2.1 .csv - .arff将CSV转换为ARFF最迅捷的办法是使用WEKA所带的命令行工具。打开weka,之后出现GUI界面,如图1所示:(图1)点击进入“Exploer”模块,要将.csv 格式转换为 .arff格式,点击open file.,打开刚保存的“乳腺癌数据集.csv”,点击“Save.”,将文件保存为“乳腺癌数据集.csv.arff”如图2所示:(图2)图3中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情况.如图3所示:(图3)3.2.2 数据预处理很明显发现,所用的数据都是(numeric)数值型的,需要将数值型离散化,将“Clump Thic
8、kness ”,“Uniformity of Cell Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”,“Class” 离散化。我们需要借助Weka中名为“Discretize”的Filter来完成。在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka.filters.unsupervised.attribute.Discretize”
9、点击,即可得到如下所示的图,如图4所示:(图4)现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。 如图箭头所示,点击这个文本框会弹出新窗口以修改离散化的参数。我们需将第1,2,3,4,5,6,7,8,9,10项离散化,其中第一项为id,可移除。把attributeIndices右边改成“1,2,3,4,5,6,7,8,9,10”。我们把这两个属性都分成10段,于是把“bins”改成“10”。其它不变。点“OK”回到“Explorer”,可以看到“Clump Thickness ”,“Uniformity of Cell
10、Size ”,“Uniformity of Cell Shape”,“ Marginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei ”,“ Bland Chromatin ”,“Normal Nucleoli ”,“Mitoses”, 已经被离散化成分类型的属性。经移除后剩10项属性,其中一项如图5所示,10项属性可视化如图6所示:(图5)(图6)在进行数据搜集和整理的过程中,我们发现如果属性的类型为数值型的话,在做关联分析时将不能得到结果,可以比较图3和图5,图3是数值型,图5 是数据离散化之后的。因为关联分析无法处理数值型数据,因此,我们
11、进行了数据离散处理后使得需要分析的数据变为分类型,这样就可以关联分析得以顺利进行。因此通过预处理数据可以提高原数据的质量,清除数据噪声和与挖掘目标无关的数据,为进一步的挖掘工作莫定可靠的基础。3.3数据分类算法针对这些有关乳腺癌数据集,主要分别采用的分类方法是决策树算法、K均值算法 、朴素贝叶斯分类算法。由于该数据集有10个属性,则下文中对每个属性进行分类的步骤大致相同,由于篇幅原因,只截取其中两个属性,现在就所选截屏属性作申明,选第一项Clump Thickness (丛厚度)和第九项Mitoses(有丝分裂)。3.3.1决策树分类用“Explorer”打开刚才得到的“乳腺癌数据集.csv.
12、arff”,并切换到“Class”。点“Choose”按钮选择“tree(weka.classifiers.trees.j48)”,这是Weka中实现的决策树算法。选择Cross-Validatioinfolds=10,选择图中箭头指向选择属性,然后点击“start”按钮。得到结果如图7和图8所示:(图7)(图8)这个是针对第一项Clump Thickness丛厚度和第九项Mitoses有丝分裂项运用C4.5决策算法得到误差分析的结果,分析可知总共有699个数据进行分类,Clump Thickness(丛厚度)其中102个为正确分类,正确分类率为26.03726%,517个为错误分类,错误分类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘实验报告 数据 挖掘 发掘 实验 试验 报告 讲演 呈文
限制150内