资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用(ppt 54页).ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用(ppt 54页).ppt》由会员分享,可在线阅读,更多相关《资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用(ppt 54页).ppt(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、LOGO資料採礦分類分析系統之建構資料採礦分類分析系統之建構與應用與應用-信用貸款違約與選股系統應用信用貸款違約與選股系統應用 指導教授:姜林杰祐指導教授:姜林杰祐 博士博士學生:陳冠名摘要摘要v本研究以資料採礦的分類方法為核心,嘗試建構一開放式的分類分析系統,其內含的分類演算法包括ID3、C4.5、貝氏分類法與記憶基礎推論法等。v為驗證本系統的有效性,本研究以銀行信用貸款資料庫為例,分類正常戶與違約戶;並將此分類工具應用於股市的分析、預測,期能以此系統發展資料趨導式的選股模型Company Logo報告大綱報告大綱v第一章、研究目的與動機。v第二章、文獻探討。v第三章、資料採礦分類分析系統開
2、發。v第四章、實例應用一。v第五章、實例應用二。v第六章、結論與未來研究。Company Logo研究動機與目的研究動機與目的 v近年來資料氾濫,如何在過度氾濫的資料中去蕪存菁,將無用的資料過濾,進而獲得有用的資訊、知識是相當重要的議題,而資料採礦即是對資料進行分析,以求在大量資料中獲取資訊的有效方法。Company Logo資料採礦方法在財金領域應用現況資料採礦方法在財金領域應用現況vPhilip Joos 等(1998)將Logit Model以及決策樹用於比利時某大型銀行資料庫進行信用分類,獲得80%以上之的準確度。vNazli Ikizler等(2000)使用決策樹C4.5演算法對銀行
3、放款資料進行分析,試圖找出令人感興趣的分類規則,此研究結果發現數條有用之分類規則,可供決策運用。vMuh-Cherng Wu等(2006)以決策樹結合濾嘴法則,應用於股市交易,獲得13%的報酬率。Company Logo資料採礦於金融業之應用資料採礦於金融業之應用 資料來源:吳振晃(2003)應用領域應用領域應用情況應用情況信用卡公司信用卡公司使用資料採礦來增加信用卡的應用,作購買授權決定,分析持卡人購買行為,並偵測詐騙行為金融服務機構分析師使用資料採礦技術,來分析大量的財務資料,建立交易模型來發展投資策略銀行銀行使用資料倉儲來促進資料採礦作業,並詳細的分析客戶資料,然後整合這些成果以形成行銷
4、策略,也可以使用資料採礦技術,識別客戶的貸款活動,調整金融商品以符合客戶需求,尋找新客源,加強客戶服務。保險公司資料採礦技術最近已提供保險業者,從大型資料庫中取得有價值的資訊以進行決策,這些資訊可讓保險業者進一步認識客戶,並可有效的偵測保險詐欺。Company Logo資料採礦方法資料採礦方法 v分群。分群。分群是針對樣本進行劃分,與分類不同的是,進行分類時使用者必須明確知道要以何種準則來對樣本進行劃分,而分群屬於非監督式學習法,使用者不需知道樣本要依何種準則進行劃分(有時也無法得知),分群演算法會自動對樣本進行劃分,在圖形辨識、市場區隔等領域都有優異的表現,主要演算法有K-平均法、K-物件法
5、等。v關聯。關聯。此演算法主要是要探究,當某一事件發生時,是否會帶動另一事件跟著發生,是一種探究因果關係的方法,最著名的應用為購物籃分析,用以發現消費者的購買行為,以Apriori演算法最為經典。v分類。分類。為一監督式學習方法,主要用於對樣本進行類別的劃分,如對銀行客戶進行信用分級、預測違約戶等都是其主要應用領域,分類包含了眾多演算法可供使用,如決策樹、類神經網路、支援向量機(SVM)、貝氏分類法、記憶基礎推論法(MBR)等都是知名的分類演算法。Company Logo決策樹決策樹ID3:以資訊理論作為屬性選擇之依據C4.5:改良自IDCompany Logo貝氏分類法貝氏分類法 貝氏定理:
6、現實中,類別C中出現X客戶的機率無法求得 再假設各屬性值相互獨立 由上述可得Company Logo記憶基礎推論法記憶基礎推論法 v步驟1 選取訓練樣本集 v步驟2 計算屬性距離絕對差:平方差:標準差:v步驟3 計算資料距離,將上述求得各屬性距離加以組合成一個值,用以代表兩資料間的距離,常用合成方式如下 總和:標準化總和:歐基里徳距離:Company Logo記憶基礎推論法記憶基礎推論法(續續)v步驟4 選取k筆鄰近資料進行表決,為了避免表決時有平手的情況,k應取單數為佳。v步驟5 表決方式選擇,判定方式以選出之k個鄰近資料進行多數決,多者即為該預測樣本歸屬之類別,常用判定方式如下:民主選舉法
7、:所選之k個鄰近樣本具有相同權重,以多者為勝。加權選舉法:依據所選之k個鄰近樣本與預測樣本的距離給予權重,距離預測樣本愈近,則權重愈大。Company Logo系統架構系統架構Company Logo決策樹流程決策樹流程 Company Logo貝氏分類法流程貝氏分類法流程 Company Logo記憶基礎推論法流程記憶基礎推論法流程 Company Logo銀行信用貸款違約分析銀行信用貸款違約分析實驗流程實驗流程決策樹分析決策樹分析貝式分類法分析貝式分類法分析記憶基礎推論法分析記憶基礎推論法分析Company Logo實驗流程實驗流程v資料獲取:資料獲取:將欲進行分析之資料載入資料表v資料前
8、置處理:資料前置處理:共有雜訊處理、資料離散化、訓練/測試樣本選取三部份雜訊處理:雜訊處理:將兩標準差以外之資料視為雜訊。資料離散化:資料離散化:以等寬裝箱法將連續型資料分為五類。訓練訓練/測試樣本選取:測試樣本選取:隨機挑選151筆資料進行訓練,75筆資料用於測試。v探勘方法選取:探勘方法選取:依使用者需求選取合適之探勘方法,系統提供方法有決策樹、貝氏分類法、記憶基礎推論法。Company Logo決策樹分析決策樹分析 v實驗設定實驗設定 參與屬性參與屬性 貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層
9、、寬緩本金、信用型態等19個屬性。目標屬性目標屬性 信用型態,0代表不違約,1代表違約。雜訊處理雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。資料離散化資料離散化 以等寬裝箱法,將連續型資料分為5類樣本選取樣本選取原本300筆資料,經過雜訊處理後剩下226筆,隨機挑選151筆為訓練樣本,75筆為測試樣本。探勘演算法探勘演算法 ID3、C4.5。中止條件中止條件 最大深度1、2、3層,及無限制。Company Logo決策樹分析決策樹分析(續續)v實驗結果實驗結果 ID3 實驗結果C4.5 實驗結果 無限制 最大深度1 最大深度2 最大深度3 樣本內準確度 10.73510.7550.933
10、8樣本外準確度 0.520.70670.53330.5733無限制 最大深度1 最大深度2 最大深度3 樣本內準確度 10.72190.74170.7616樣本外準確度 Company Logo決策樹分析決策樹分析(續續)v分類規則分類規則 Company Logo決策樹分析決策樹分析(續續)v樹狀圖Company Logo貝式分類法分析貝式分類法分析 v實驗設定實驗設定v實驗結果實驗結果參與屬性參與屬性 貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡數、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層、寬緩本金、信用型態等19個屬性 目標屬性目標屬性
11、信用型態,0代表不違約,1代表違約。雜訊處理雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。資料離散化資料離散化 以等寬裝箱法,將連續型資料分為5類 樣本選取樣本選取 原本300筆資料,經過雜訊處理後剩下226筆,隨機挑選151筆為訓練樣本,75筆。探勘演算法探勘演算法 貝氏分類法。樣本內準確度 0.7610 樣本外準確度 0.6578 Company Logo記憶基礎推論法分析記憶基礎推論法分析 v實驗設定參與屬性參與屬性 貸款金額、性別、學歷、婚姻、職業、是否雙薪、保證人、收入、年齡、子女人數、負債、信用卡、用卡狀況、建物樣式、建物坪數、建築年數、押品樓層、寬緩本金、信用型態等19個屬性
12、。目標屬性目標屬性 信用型態,0代表不違約,1代表違約。雜訊處理雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。資料離散化資料離散化 以等寬裝箱法,將連續型資料分為5類樣本選取樣本選取各類別隨機挑選30筆,共60筆資料作為訓練樣本集;挑選15筆鄰近資料作為表決資料集,隨機挑選75比為測試資料集。探勘演算法探勘演算法 記憶基礎推論法。其他其他 1.針對各距離函數及合成方式一一測試,共有九種測試組合2.判定方式採民主選舉法Company Logo記憶基礎推論法分析記憶基礎推論法分析(續續)v實驗結果實驗結果 總和總和 標準化總和標準化總和 歐基里徳距離歐基里徳距離 絕對差絕對差 0.76 0.7
13、6 0.6267 平方差平方差 0.6267 0.6267 0.56 標準差標準差 0.88 0.88 0.9333 Company Logo實例一總結實例一總結v決策樹因為有一條條的分類規則輸出,較易解釋獲得之分類結果,在實務上較受歡迎,且輸出之規則可做為未來決策判斷之用。v貝氏分類法以貝氏定理為基礎簡單易用,且只需知道各類別所包含的資料個數,即可計算出機率,因此此方法具漸增性當資料增加時不必從頭計算,只需將新舊資料各類別之資料數加總即可。v記憶基礎推論法之預測效果最優,對於小樣本也可獲得不錯的準確度,然而卻也是此方法之缺點,此法因為計算量太過龐大,不適於大樣本之預測。Company Log
14、o資料導向的選股模型建構資料導向的選股模型建構 台灣上市公司個股應用台灣大盤指數應用Company Logo台灣上市公司個股應用台灣上市公司個股應用 v此部份將資料探勘技術應用於股票市場,分析上市公司的財務資料,用以預測下一季的股票平均季報酬,進而使用這些規則來協助投資者建立選股模型。v本實驗採決策樹以及貝氏分類法進行測試,詳細如下Company Logo決策樹決策樹 v實驗設定實驗設定 參與屬性參與屬性 現金週轉率、資產週轉率、營收成長率、成本率、營業比率、股東權益報酬率、資產報酬率、財務槓桿度、資產、負債、股本、營業淨利、稅後淨利成長率、營業外收支、基本EPS、季平均報酬等16個屬性目標屬
15、性標屬性 季平均報酬,0代表低於門檻,1代表高於門檻。門檻值門檻值 目標屬性分類的依據,此實驗測試季平均報酬0%、3%、5%三種情況。雜訊處理雜訊處理 將2標準差以外的資料視為雜訊,予以刪除。資料離散化資料離散化 以等寬裝箱法,將連續型資料分為3類,詳細資料請見下列資料轉換前數值表,以及資料轉換後數值表。實驗資料實驗資料 台灣上市公司2000年第一季至2007第三季。樣本選取樣本選取 經過雜訊處理後剩下11548筆,隨機挑選7698筆為訓練樣本,3850筆為測試樣本。探勘演算法探勘演算法 C4.5 中止條件中止條件 最大深度5層,最低樣本比例1%,以及無限制。Company Logo決策樹決策
16、樹(續續)v實驗結果實驗結果 季平均報酬0%實驗結果 季平均報酬3%實驗結果 季平均報酬5%實驗結果 無限制 最大深度5 最低樣本比例1%樣本內準確度 0.5572 0.5236 0.5423 樣本外準確度 0.4932 0.5247 0.5106 無限制 最大深度5 最低樣本比例1%樣本內準確度 0.7017 0.6956 0.6945 樣本外準確度 0.666 0.6852 0.6813無限制 最大深度5 最低樣本比例1%樣本內準確度 0.7894 0.7844 0.7832 樣本外準確度 0.7542 0.775 0.7732 Company Logo決策樹決策樹(續續)v分類規則 v由
17、圖中規則可知,營收成長率、股東權益報酬率、資產週轉率等屬性較為重要,投資者在分析公司財務狀況時,可以多留意這些屬性,例如,由圖15之規則我們可知營收成長率介於1612.85 3437.00,且資產週轉率介於0.14 0.34則平均季報酬大於5%,因此在進行股票選擇時,投資者可優先考量符合此條件之公司。Company Logo貝氏分類法貝氏分類法 v實驗設定參與屬性參與屬性 現金週轉率、資產週轉率、營收成長率、成本率、營業比率、股東權益報酬率、資產報酬率、財務槓桿度、資產、負債、股本、營業淨利、稅後淨利成長率、營業外收支、基本EPS、季平均報酬等16個屬性目標屬性標屬性 季平均報酬,0代表低於門
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用ppt 54页 资料 分类 分析 系统 建构 应用 信用 贷款 违约 ppt 54
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内