数据挖掘课程设计报告.docx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据挖掘课程设计报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘课程设计报告.docx(6页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、ID3 算法的改进摘要:本文基于 ID3 算法的原有思路,再把属性的重要性程度值纳入了属性选择的度量标准中,以期获得更适合实际应用的分类划分结果。一、ID3 算法的缺乏ID3 算法使用信息增益作为属性选择度量值,其倾向于选择具有大量值的属性,但没有考虑到属性在实际应用分类中的重要程度,由于依靠取信息熵最大的属性在现实状况中却并不那么重要,因此可能会得到不太有用的划分结果。举个简洁的例子,在对淘宝用户行为进展分析时,尽管依据用户 ID 可以得到最大的信息增益,但是这并不符合分析的要求,由于,我们需要得到的是用户的购置行为,在分析中,我们会更多的考虑用户曾经扫瞄过的商品或者已经购置了的商品。在这个
2、情景中,依据信息熵来度量属性的选择就不太合理,所以需要对其进展改进。二、改进思路本次设计中在属性选择上参加了属性重要程度值:由于承受信息增益的方法会倾向于选择拥有较多可能属性值的属性,为了弥补这一缺陷,所以在选择时就参加了属性的重要程度值。属性重要程度值考虑了属性在分裂数据中所处的地 位。在处理数据的时候,会首先依据阅历或需要推断出数据集合里面的属性值的重要程度,例如,在上面淘宝用户行为分析中,我们可能会人为的赐予属性“扫瞄过的商品”最高重要程度值:0.8,而给属性“用户 ID”较低的重要程度值: 0.2。在明确了属性重要程度值以后,我们会在计算每个属性信息增益后将信息增益与属性重要程度值相乘
3、,由此来推断最终属性的选择。对于 ID3 算法的其他内容不做更改。三、具体实现以课本数据挖掘中 193 页的例 6-1 为例。例 6-1 中各属性的重要程度值即权值未知,我们可先分别假设属性age 的重要程度值为 0.1,属性income 的重要程度值为 0.6,属性 student 的重要程度值为 0.2,属性 credit_rating 的重要程度值为 0.1。在引入属性重要程度值以前,每个属性的信息增益为:Gain(age)=0.246 ,Gain(income)=0.029 ,Gain(student)=0.151 , Gain(credit_rating)=0.048。在引入属性重要
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课程设计 报告
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内