资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用.pptx》由会员分享,可在线阅读,更多相关《资料採矿分类分析系统之建构与应用-信用贷款违约与选股系统应用.pptx(54页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、資料採礦分類分析系統之建構與應用-信用貸款違約與選股系統應用,指導教授:姜林杰祐 博士,學生:陳冠名,摘要,本研究以資料採礦的分類方法為核心,嘗試建構一開放式的分類分析系統,其內含的分類演算法包括ID3、C4.5、貝氏分類法與記憶基礎推論法等。為驗證本系統的有效性,本研究以銀行信用貸款資料庫為例,分類正常戶與違約戶;並將此分類工具應用於股市的分析、預測,期能以此系統發展資料趨導式的選股模型,Company Logo,報告大綱,第一章、研究目的與動機。第二章、文獻探討。第三章、資料採礦分類分析系統開發。第四章、實例應用一。第五章、實例應用二。第六章、結論與未來研究。,Company Logo,研
2、究動機與目的,近年來資料氾濫,如何在過度氾濫的資料中去蕪存菁,將無用的資料過濾,進而獲得有用的資訊、知識是相當重要的議題,而資料採礦即是對資料進行分析,以求在大量資料中獲取資訊的有效方法。,Company Logo,資料採礦方法在財金領域應用現況,Philip Joos 等(1998) 將Logit Model以及決策樹用於比利時某大型銀行資料庫進行信用分類,獲得80%以上之的準確度。Nazli Ikizler等(2000)使用決策樹C4.5演算法對銀行放款資料進行分析,試圖找出令人感興趣的分類規則,此研究結果發現數條有用之分類規則,可供決策運用。Muh-Cherng Wu等(2006)以決策
3、樹結合濾嘴法則,應用於股市交易,獲得13%的報酬率。,Company Logo,資料採礦於金融業之應用,資料來源:吳振晃(2003),Company Logo,資料採礦方法,分群。分群是針對樣本進行劃分,與分類不同的是,進行分類時使用者必須明確知道要以何種準則來對樣本進行劃分,而分群屬於非監督式學習法,使用者不需知道樣本要依何種準則進行劃分(有時也無法得知),分群演算法會自動對樣本進行劃分,在圖形辨識、市場區隔等領域都有優異的表現,主要演算法有K-平均法、K-物件法等。關聯。此演算法主要是要探究,當某一事件發生時,是否會帶動另一事件跟著發生,是一種探究因果關係的方法,最著名的應用為購物籃分析,
4、用以發現消費者的購買行為,以Apriori演算法最為經典。分類。為一監督式學習方法,主要用於對樣本進行類別的劃分,如對銀行客戶進行信用分級、預測違約戶等都是其主要應用領域,分類包含了眾多演算法可供使用,如決策樹、類神經網路、支援向量機(SVM)、貝氏分類法、記憶基礎推論法(MBR)等都是知名的分類演算法。,Company Logo,決策樹,ID3:以資訊理論作為屬性選擇之依據,C4.5:改良自ID3,Company Logo,貝氏分類法,貝氏定理:,現實中,類別C中出現X客戶的機率無法求得,再假設各屬性值相互獨立,由上述可得,Company Logo,記憶基礎推論法,步驟1 選取訓練樣本集 步
5、驟2 計算屬性距離絕對差:平方差:標準差:步驟3 計算資料距離,將上述求得各屬性距離加以組合成一個值,用以代表兩資料間的距離,常用合成方式如下 總和:標準化總和:歐基里徳距離:,Company Logo,記憶基礎推論法(續),步驟4 選取k筆鄰近資料進行表決,為了避免表決時有平手的情況,k應取單數為佳。步驟5 表決方式選擇,判定方式以選出之k個鄰近資料進行多數決,多者即為該預測樣本歸屬之類別,常用判定方式如下:民主選舉法:所選之k個鄰近樣本具有相同權重,以多者為勝。加權選舉法:依據所選之k個鄰近樣本與預測樣本的距離給予權重,距離預測樣本愈近,則權重愈大。,Company Logo,系統架構,C
6、ompany Logo,決策樹流程,Company Logo,貝氏分類法流程,Company Logo,記憶基礎推論法流程,Company Logo,銀行信用貸款違約分析,Company Logo,實驗流程,資料獲取:將欲進行分析之資料載入資料表資料前置處理:共有雜訊處理、資料離散化、訓練/測試樣本選取三部份雜訊處理:將兩標準差以外之資料視為雜訊。資料離散化:以等寬裝箱法將連續型資料分為五類。訓練/測試樣本選取:隨機挑選151筆資料進行訓練,75筆資料用於測試。探勘方法選取:依使用者需求選取合適之探勘方法,系統提供方法有決策樹、貝氏分類法、記憶基礎推論法。,Company Logo,決策樹分析
7、,實驗設定,Company Logo,決策樹分析(續),實驗結果 ID3 實驗結果C4.5 實驗結果,Company Logo,決策樹分析(續),分類規則,Company Logo,決策樹分析(續),樹狀圖,Company Logo,貝式分類法分析,實驗設定實驗結果,Company Logo,記憶基礎推論法分析,實驗設定,Company Logo,記憶基礎推論法分析(續),實驗結果,Company Logo,實例一總結,決策樹因為有一條條的分類規則輸出,較易解釋獲得之分類結果,在實務上較受歡迎,且輸出之規則可做為未來決策判斷之用。貝氏分類法以貝氏定理為基礎簡單易用,且只需知道各類別所包含的資料
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料 分类 分析 系统 建构 应用 信用 贷款 违约
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内