数据挖掘聚类算法课程设计报告(共12页).doc
《数据挖掘聚类算法课程设计报告(共12页).doc》由会员分享,可在线阅读,更多相关《数据挖掘聚类算法课程设计报告(共12页).doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘聚类问题(Plants Data Set)实验报告1. 数据源描述 1.1数据特征本实验用到的是关于植物信息的数据集,其中包含了每一种植物(种类和科属)以及它们生长的地区。数据集中总共有68个地区,主要分布在美国和加拿大。一条数据(对应于文件中的一行)包含一种植物(或者某一科属)及其在上述68个地区中的分布情况。可以这样理解,该数据集中每一条数据包含两部分内容,如下图所示。植物名称(科属+名称)分布区域 图1 数据格式例如一条数据:abronia fragrans,az,co,ks,mt,ne,nm,nd,ok,sd,tx,ut,wa,wy。其中abronia
2、 fragrans是植物名称(abronia是科属,fragrans是名称),从az一直到wy是该植物的分布区域,采用缩写形式表示,如az代表的是美国Arizona州。植物名称和分布地区用逗号隔开,各地区之间也用逗号隔开。 1.2任务要求聚类。采用聚类算法根据某种特征对所给数据集进行聚类分析,对于聚类形成的簇要使得簇内数据对象之间的差异尽可能小,簇之间的差距尽可能大。2. 数据预处理 2.1数据清理所给数据集中包含一些对聚类过程无用的冗余数据。数据集中全部数据的组织结构是:先给出某一科属的植物及其所有分布地区,然后给出该科属下的具体植物及其分布地区。例如:abelmoschus,ct,dc,f
3、l,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,viabelmoschus esculentus,ct,dc,fl,il,ky,la,md,mi,ms,nc,sc,va,pr,viabelmoschus moschatus,hi,pr上述数据中第行给出了所有属于abelmoschus这一科属的植物的分布地区,接下来的两行分别列出了属于abelmoschus科属的两种具体植物及其分布地区。从中可以看出后两行给出的所有地区的并集正是第一行给出的地区集合。在聚类过程中第行数据是无用的,因此要对其进行清理。 2.2数据变换本实验是依据植物的分布区域进行聚类,所给数据集中的分布区域
4、是字符串形式,不适合进行聚类,因此将其变换成适合聚类的数值形式。具体思想如下:数据集中总共包含68个区域,每一种植物的分布区域是这68个区域中的一部分。本实验中将68个区域看成是数据对象的68个属性,这68个属性是二元类型的变量,其值只能去0或者1。步骤如下:1. 把68个区域按一定顺序存放在字符串数组(记为str)中(顺序可以自己定,确定后不能改变)。2. 为数据集中的每个数据对象设置一个长度为68字符串数组,初始元素值全为0。将数据对象的分布区域逐个与str中的所有元素比较。如果存在于str中下标i的位置,就将该数据对象的字符串数组的第i位置为1。例如,一个数据对象为:abies fras
5、eri,ga,nc,tn,va。其分布区域包含ga,nc,tn和va四个地区,将这四个地区逐个与str中全部68个元素比较。假设这四个地区分别存在于str中的第0,1,2,3位置,则将为该数据对象设置的字符串数组中第0,1,2,3位置全部置为1。 数据预处理代码(包括数据清理和数据变换):public ArrayList getRaw_DataSet() ArrayList raw_dataSet = new ArrayList();/ 定义集合存储从本地获取的数据BufferedReader bufferedReader = null;FileReader fileReader = null
6、;File dataFile = new File(this.fileName);if (dataFile.exists() / 如果数据文件存在try fileReader = new FileReader(this.fileName);bufferedReader = new BufferedReader(fileReader);String data = null;while (data = bufferedReader.readLine() != null) if (isRightData(data)raw_dataSet.add(data); catch (Exception e)
7、e.printStackTrace(); elsethis.isFileExit = false;return raw_dataSet;/ getRaw_DataSet,从本地txt文件获取数据集public ArrayList getFinished_DataSet() / 获取经过预处理,用来进行聚类的数据ArrayList finished_DataSet = new ArrayList();ArrayList temp_DataSet = this.getRaw_DataSet();for (int i = 0; i temp_DataSet.size(); i+) ArrayList
8、 eachRomItem = null;eachRomItem = this.spilt(temp_DataSet.get(i), ,);/ 除去,后的每一行数据DataItem data_Item = new DataItem(eachRomItem, true);finished_DataSet.add(data_Item);/ forreturn finished_DataSet;public boolean isRightData(String data) / 筛选出合适的数据ArrayList tempArrayList = new ArrayList();tempArrayList
9、 = spilt(data, );if (tempArrayList.size() = 1)return false;return true;/ isRightData,筛选出合适的数据public ArrayList spilt(String str, char ch) ArrayList words = new ArrayList();/ 用来存放找到的单词int beginIndex = 0;for (int i = 0; i str.length(); i+) if (str.charAt(i) != ch) if (i != str.length() - 1)continue;els
10、e words.add(str.substring(beginIndex); else String temp = str.substring(beginIndex, i);words.add(temp);beginIndex = i + 1;/ forreturn words;3. 聚类分析 3.1 算法描述本实验采用了聚类分析中常用的K均值(K-Means)算法。该算法思想如下:算法:K均值。用于划分的K均值算法,每个簇的中心用簇中对象的均值表示。输入: k:簇的属目 D:包含n个对象的数据集。输出:k个簇的集合。方法: (1)从D中任意选择k个对象作为初始簇中心; (2)repeat (
11、3) 根据簇中对象的均值,将每个对象(再)指派到最相似的簇; (4) 更新簇均值,既计算每个簇中对象的均值; (5)until 不再发生变化开始从本地读取数据文件数据预处理输入k,簇的个数在数据集中随机选取k个数据对象作为初始中心点迭代开始。将数据集中每个数据对象与k个中心点作比较,把每个对象分到与其最相似的中心点所在的簇中计算每个簇中对象的均值,作为该簇新的中心点满足迭代终止条件迭代终止,输出结果。根据上述算法,结合本实验实际情况和数据集特征给出程序的执行流程图: 否是 图2 程序执行流程针对上面的流程图,有几点说明: 1.数据预处理主要包括前述数据清理和数据变换,最终生成用于聚类分析的数据
12、集。 2.簇的个数k由用户指定,k越大聚类过程耗时越久。 3.图中“最相似”意思就是距离中心点距离最近,本实验中采用欧几里得距离,其定义如下:其中和是两个n维数据对象。在本实验中,和分别代表为i,j两个数据对象设置的字符串数组(参看2.2)中下标为1的元素值,此处n为68。 4.流程图中的终止条件指的是:前后两次中心点之间的距离(仍然用欧几里得距离)是否小于设定的值。例如,第n次迭代完成后重新生成了k个新的中心点,计算k个新中心点与k个旧的中心点距离之和并将结果与设定的值比较,若小于设定值则终止迭代,聚类完成,否则继续迭代。 3.2 算法实现图3 代码文件的组织结构上图是本实验源码的组织结构,
13、该项目包含五个Java类。每个类的功能描述如下:Cluster.java类 该类定义了簇的结构,包含簇标志,簇成员和簇中心点三个字段。该类的每一个实例对应于聚类过程中的一个簇。DataItem.java类 该类定义了数据对象的结构,主要包含数据对象名称(即植物名称)和数据对象字符串数组(即植物的分布区域)。该类的每一个实例对应于数据集中的一个数据对象。Main.java类 该类是程序的核心类,主要功能是执行聚类过程,包括中心点的选取与更新,计算各个数据对象与中心点之间的距离并把其派分到最相似的簇等。ReadData.java类 该类主要功能是生成聚类过程适用的数据集,包括读取文件,数据预处理等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 课程设计 报告 12
限制150内