决策树的重要性精选PPT.ppt
决策树的重要性第1页,此课件共29页哦決策樹的重要性n在商業界最常用的方法之一第2页,此课件共29页哦Decision Tree 之意義第3页,此课件共29页哦Decision Tree 之意義nIf We have much moneynANDWe are buying a gift for an adultnTHEN Buy a carnIf We have much moneynANDWe re buying a gift for a childnTHEN Buy a computer第4页,此课件共29页哦YesYesYesYesYesYesYesYesYesYesYesYesYesYesYesYesNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoNoYes有弦?用吹的?彎如弓的?演奏時要用下巴夾的?用彈的?有鍵盤的?木管樂器?有簧片?有雙簧片?銅管樂器?常用於通俗樂器中?比演奏者高?常用於通俗樂器中?有十根弦以上?打擊樂器?有弦?鼓棒?有音鎚的?曲型的?筆直的?彈奏?小提琴中提琴低音提琴大提琴不知道豎琴詩琴揚琴不知道電子樂器風琴Yes撥弦古鋼琴鋼琴YesNoYesNo第5页,此课件共29页哦名詞解釋n根節點n葉節點n內部節點第6页,此课件共29页哦決策樹本質:是一個分類器n收入n年齡n職業n分分類類器器好普通差銀行客戶銀行客戶:信用分類信用分類“信用”為 目標屬性目標屬性:第7页,此课件共29页哦決策樹n決策樹優點:可以萃取分類規則n例如:銀行新客戶的信用分類問題決 策 樹X1X2Y第8页,此课件共29页哦決策樹例子1:信用好,2:信用差收入年齡X2X1 22 2 222 2 111 1 11307万5万3万年齡1111112222222年齡30收入1122221111222 收入5万單純資料混亂資料第9页,此课件共29页哦例子:舊客戶購買之歷史資料No性別 學院購買產品1男商電腦2男人文 手機3女商電腦4女人文 手機n新客戶:女生、商學院,請問她最可能購買的產品?第10页,此课件共29页哦決策樹例子1:電腦,2:手機學院 性別1212男女學院2211 商 人文單純資料男女商人文電腦電腦手機手機性別混亂資料(混亂度高)(混亂度低)第11页,此课件共29页哦決策樹n目標屬性:購買產品類別n輸入屬性:性別、學院、年級性別年級學院購買產品購買產品第12页,此课件共29页哦混亂度n定義:一群物件的 目標屬性 混亂的程度n三種計算方式:nP1*P2 01/4nP1:這群物件目標屬性值為 1的機率nP2:這群物件目標屬性值為 2的機率nMin(P1,P2)01/2nEntropy:-P1log2 P1-P2log2 P2 01第13页,此课件共29页哦練習:計算混亂度1,1,1,11,1,1,21,1,2,2Min(P1,P2)P1*P2第14页,此课件共29页哦決策樹精神n挑選一輸入屬性,能將目標屬性的混亂度降到最低第15页,此课件共29页哦決策樹演算法n(Step1)選擇一輸入屬性,將所有objects作分類n(Step2)計算分類後之 平均混亂度 n(Step3)選擇能使混亂度降得最低的屬性,作為節點之判別屬性n(Step4)反覆(Step13),直到停止條件第16页,此课件共29页哦停止條件n當葉節點滿足下列條件 即停止n1.所有物件的目標屬性,皆為同一類n2.沒有輸入屬性可以降低混亂度第17页,此课件共29页哦決策樹模型:三階段模式n訓練階段n將決策樹訓練出來n測試階段n測試決策樹的準確性n運用階段n可對一未知資料作分類第18页,此课件共29页哦Decision Tree 之準確率n利用”測試資料”作測試第19页,此课件共29页哦練習ageincomestudentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140lowyesexcellentyes=30mediumnofairno40mediumyesfairyes40mediumnoexcellentno第20页,此课件共29页哦age?income?credit rating?fairexcellent40nonoyesyesyes3040Root NodeChild NodeLeaf Nodehmlno第21页,此课件共29页哦決策樹相關演算法nID3:(前面所教)nQuinlan 1979n輸入屬性為離散nC4.5:(IBM Mining 軟體所採用)nBreiman 1984n輸入屬性可為連續第22页,此课件共29页哦決策樹 mining 過程nA 決定想解決的問題nB 決定目標屬性與輸入屬性nC 決定資料範圍nD 資料前處理n或許需要將連續變數改為”離散”變數nE 建構決策樹,並解釋結果nF 若無法解釋,應回到 A 或 B 再思考第23页,此课件共29页哦決策樹專案 注意事項(1/2)n目標變數應為”離散(類別)”變數n值不能太多n輸入變數n關聯性太高不適合使用n預測所得高低:輸入變數為 年齡,職業,繳稅高低n預測打擊率高低:輸入變數為 年齡,守備位置,長打率,月薪第24页,此课件共29页哦決策樹專案 注意事項(2/2)n目標屬性與輸入屬性關聯性太低n例如:樂透獎n輸入:年,月,週,日n輸出:樂透號碼第25页,此课件共29页哦作業(碩專)n時間:2 週n請於 3/24(一)前,將報告 mail 給老師與上課成員n報告請用Word檔撰寫,約36頁n應說明每位組員的貢獻n若有問題詢問,每位組員皆可回答第26页,此课件共29页哦附錄第27页,此课件共29页哦下週報告(大學部)n時間:8分鐘n討論:5分鐘n請於 4/8(日)前 mail 老師與上課成員n應說明每位組員的貢獻n若有問題詢問,每位組員皆可回答第28页,此课件共29页哦報告(大學部)n下週:請報告關聯規則實作作業n外系同學如何上機練習第29页,此课件共29页哦