Information Gain[資訊獲利的算法]—.doc
《Information Gain[資訊獲利的算法]—.doc》由会员分享,可在线阅读,更多相关《Information Gain[資訊獲利的算法]—.doc(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、Information Gain資訊獲利的算法資訊獲利即 “測試前的資訊量” 減 “測試後的資訊量 當p或n皆不為0當p或n任一為0年齡婚姻收入購買筆記型電腦30單身高否=30單身低是=30已婚中否=30已婚低否=30已婚低否=30已婚中否30單身高否=30已婚中否=30已婚中否=30單身中是=30已婚低否=30單身中是30單身低否所有樣本P(會買)N(不會買電腦)總數412年齡PN= 3037婚姻PN單身34已婚18收入PN低15中25高12若100個顧客, 50個會買, 50個不會買, 則若100個顧客, 99個會買, 1個不會買, 則所以若是分配越平均(50,50), 則資訊量大.; 所
2、以若是分配越一致(1:99), 則資訊量小(亂度小), 分類的目的就是希望-減去如上表:分割之前, 12沒買電腦(n), 4個有買電腦(p)未分類前的資訊量為:往下分, 可依,分, 比較3個屬性, 選取Information Gain最大的來分枝 依照年齡: 將16位顧客分成兩群組 :所有樣本P(會買)N(不會買電腦)總數412年齡PN= 3037年齡=30的機率為(3+7)/16, 而p=3, N=7所有樣本P(會買)N(不會買電腦)總數412婚姻PN單身34已婚18 依照: 將16位顧客分成兩群組 :請依次列出 Information Gain 依照: 將16位顧客分成3群組 :請依次列出
3、 Information Gain所有樣本P(會買)N(不會買電腦)總數412收入PN低15中25高12結論: 由root(根節點)第一個分支的屬性應選那一個?未婚的下一個分支點為何, 假設第一個分支點為?由可分為2支, 為已婚, 另一為未婚年齡婚姻收入購買筆記型電腦30單身高否=30單身低是=30單身中是=30單身中是30單身低否請算出這一層的I(3,4)=E(age)=Gain(age)=E(收入=)Gain(收入)=已婚的下一個分支點為何, 假設第一個分支點為?年齡婚姻收入購買筆記型電腦=30已婚中否=30已婚低否=30已婚低否=30已婚中否=30已婚中否=30已婚中否=30已婚低否I(1,8)=E(age)=Gain(age)=所有樣本P(會買)N(不會買電腦)總數18年齡PN= 30E(收入=)Gain(收入)=結論: 未婚的下一個分支點,屬性應選那一個?974474d1bb91b404d3c49761a74d00ee.doc 鍵入文字 P. 4/4
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 資訊獲利的算法 Information Gain資訊獲利的算法 Gain 資訊獲利 算法
限制150内