数据挖掘报告(共8页).docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘报告(共8页).docx》由会员分享,可在线阅读,更多相关《数据挖掘报告(共8页).docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上哈尔滨工业大学数据挖掘理论与算法实验报告(2016年度秋季学期)课程编码 SC 授课教师 邹兆年 学生姓名 汪 瑞 学 号 16S 学 院 计算机学院 一、实验内容决策树算法是一种有监督学习的分类算法;kmeans是一种无监督的聚类算法。本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中,比较了不同初始质心产生的差异。本实验主要使用python语言实现,使用了sklearn包作为实验工具。二、实验设计1.决策树算法1.1读取数据集本次实验主要使用的数据集是汽车价值数据。有6个属性,命名和属性值分别如下:b
2、uying: vhigh, high, med, low.maint: vhigh, high, med, low.doors: 2, 3, 4, 5more.persons: 2, 4, more.lug_boot: small, med, big.safety: low, med, high.分类属性是汽车价值,共4类,如下:class values:unacc, acc, good, vgood该数据集不存在空缺值。由于sklearn.tree只能使用数值数据,因此需要对数据进行预处理,将所有标签类属性值转换为整形。1.2数据集划分数据集预处理完毕后,对该数据进行数据集划分。数据集划分方
3、法有hold-out法、k-fold交叉验证法以及有放回抽样法(boottrap)。Holdout法在pthon中的实现是使用如下语句:其中,cv是sklearn中cross_validation包,train_test_split方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可选项。该方法分别返回,训练集、测试集在原数据集中的序号以及对应的所属类别的序号。K-flod法实现较为简单。如下:xl为数据集大小,n_folds为划分若干折,一般可用10-fold验证。返回值loo中是包含两个元组的列表,这两个元组分别是train_index和test_index的列表。Boots
4、trap法实现如下,其与k-fold方法类似。1.3创建和训练决策树及评价数据集划分完毕后,就需要建立决策树并结合训练集来训练决策树。建立决策树只需要调用tree.DecisionTreeClassifier()方法即可。它有一些参数可以根据需求进行设置。Criterion选项,默认是“Gini”,表示决策树非叶节点划分依据是根据Gini指数表示划分的纯度。可选值有“entropy”,用信息增益来衡量划分的优劣。Sklearn.tree中没有支持用错分类误差法来衡量节点划分的优劣。min_samples_split选项,是指一个非叶节点继续划分所需要的最小样本数,如果该节点下的待分样本小于该值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内