第5章分类技术ppt课件.ppt
《第5章分类技术ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章分类技术ppt课件.ppt(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、2008台灣培生教育出版(PearsonEducationTaiwan)第5章分类技术ppt课件 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望2008台灣培生教育出版(PearsonEducationTaiwan)規則為基礎的分類方法規則為基礎的分類方法l用if-then 子句來描述分類結果l分類規則的描述:l規則的左邊表示規則的前提假設,其條件如下:l分類規則的品質可以用以下幾種指標來評量像是覆蓋率(coverage):覆蓋率是指在資料集D 中,有多少記錄是滿
2、足規則r 的條件正確率(accuracy):指有多少滿足r 條件的資料集合也同時屬於y 類別2008台灣培生教育出版(PearsonEducationTaiwan)以規則為基礎的分類技術原理以規則為基礎的分類技術原理l以規則分類為基礎的方法所產生的規則:互斥規則(mutually exclusive rule):所有資料都儘可能至多在一個規則中被歸類出來窮盡規則(exhaustive rules):每個資料都至少有一個規則來進行分類l若規則並非戶斥的解決方法:規則的排序:這個方法中,規則集合中的規則都以優先順序為遞減的方式進行排序未排序規則的方法:這個方法允許一個測試資料觸發多個分類規則,而且
3、能夠考慮每個規則的結果,並且視為該特定類別的得票數,然後再依得票數的高低決定其歸類2008台灣培生教育出版(PearsonEducationTaiwan)規則排序的方法規則排序的方法l以規則為基礎的排序方法:根據一些判定規則品質的衡量方式來決定其順序l以別為基礎的排序方法:屬於同一個類別的規則會放在同一個規則集合R 中,然後再根據別的資訊進行排序2008台灣培生教育出版(PearsonEducationTaiwan)以規則為基礎的分類技術以規則為基礎的分類技術l直接法:直接從資料中萃取分類規則最常用來萃取規則的演算法就是逐漸覆蓋(sequential covering)演算法,這些規則是以某種
4、評估指標為主所形成,而且是以貪婪漸近(greedy fashion)的方式來成長l間接法:從其他分類模式中進行分類規則的萃取,像是決策樹以及類神經網路2008台灣培生教育出版(PearsonEducationTaiwan)逐漸覆蓋演算法之實例逐漸覆蓋演算法之實例2008台灣培生教育出版(PearsonEducationTaiwan)Learn-one-rule 函數函數l目的在於萃取分類規則,而這個分類規則可以包含很多正例,而且沒有(或是非常少)負例lLearn-one-rule函數藉由利用貪婪漸近的方式來產生規則l其本身就是一個指數型搜尋空間的問題l它一開始會產生規則r,然後再逐步的修正規則
5、,直到符合停止條件為止2008台灣培生教育出版(PearsonEducationTaiwan)Learn-one-rule 函數之規則成長策函數之規則成長策(1)l演繹法(general-to-specific):先產生一個初始的規則r:y左邊是空集合,右邊則包含目標類別規則包含所有訓練資料,所以分類品質是很差l歸納法(specific-to-general):先隨機選取一筆正例做為後續規則成長的基礎在修正的階段中,規則將不斷的移除本身的一個結合來使得它可以包含更多的正例2008台灣培生教育出版(PearsonEducationTaiwan)Learn-one-rule 函數之規則成長策函數之
6、規則成長策(2)2008台灣培生教育出版(PearsonEducationTaiwan)Learn-one-rule 函數之規則評估函數之規則評估l規則評估的指標,在於決定那一個結合應該在規則成長的過程當中被增加或是移除l正確率可衡量那些訓練資料可以被正確的歸類l利用正確率來評估的方法卻沒有考慮到覆蓋率利用統計檢定來刪除一些覆蓋率較差的規則同時考慮規則覆蓋率考量規則被用到的支持個數(support count)其中一個衡量的公式是FOIL 資訊獲利2008台灣培生教育出版(PearsonEducationTaiwan)RIPPER 演算法演算法l能處理的資料量約和訓練範例的多寡呈線性關係l適用
7、在類別中的資料量不平均的情況,也適用於雜訊值較多的資料中l所使用的驗證資料可以避免模式的過度學習l規則的成長:屬於演繹法的規則成長策略,會利用FOIL 資訊獲利來選取最好的結合,然後將它加入到前提條件中,直到所形成的規則包含反例為止l規則的建:在產生規則後,所有包含在規則中的正例與反例都會被刪除掉,接著只要是沒有滿足停止條件的話,就會增加到規則集合中2008台灣培生教育出版(PearsonEducationTaiwan)間接法的規則萃取間接法的規則萃取l每個決策樹從根節點到葉節點的路徑都是一個分類規則l規則產生:分類規則是每一條由根節點到葉節點的路徑中所萃取出來的l規則的排序:相同分類將歸到一
8、個子集合下,每個子集合的總長度將分別被計算出來,而且會依照總長度來進行遞增的排序2008台灣培生教育出版(PearsonEducationTaiwan)最近鄰近點分類法最近鄰近點分類法l可以用來決定測試資料的類別步驟一:利用歸納法從資料中形成分類模式步驟二:利用演繹法將模式應用到測試資料中l選擇k 個鄰近點的重要性k 太小,鄰近點分類技術可能會因為訓練資料的雜訊過多,有過度學習的問題k 太大,可能會因為樣本點離鄰近點太遠而產生誤判的問題2008台灣培生教育出版(PearsonEducationTaiwan)貝氏分類法貝氏分類法l貝氏理論(Bayes theorem),它是一個從資料當中結合類別
9、知識的方法。l將介紹兩個貝氏分類法:單純貝氏分類法(Nave Bayes)貝氏信念網路(Bayesian belief network,BBN)2008台灣培生教育出版(PearsonEducationTaiwan)單純貝氏分類法單純貝氏分類法(1)l單純貝氏分類法是假設在類別y 中,其屬性間具有條件獨立的特性來計算機率值l其條件獨立的公式為:l其中屬性集合X=X1,X2,Xd 包含d 個屬性l為了要分類測試資料,單純貝氏分類法要計算每個類別Y 的事後機率:2008台灣培生教育出版(PearsonEducationTaiwan)單純貝氏分類法單純貝氏分類法(2)l單純貝氏分類法的特性可以處理雜
10、訊資料的問題,而且也可以在模式建立以及分類的時候忽略掉遺漏值可以處理不相關的屬性關聯度高的屬性可能會因為沒有滿足條件獨立的假設,而使得誤判率提高2008台灣培生教育出版(PearsonEducationTaiwan)貝氏信念網路貝氏信念網路(1)l貝氏信念網路簡稱貝氏網路l提供以圖形的方式來表示隨機變數間機率關係l貝氏網路的兩個重要元素是:用直接的非循環圖表示變數間的相依關係機率表的內容為每個節點和它的父節點間的關聯性l貝氏網路如果在父節點未知的情形下,其非子孫的節點具有條件獨立的特性。圖用直接非循環圖來表示機率關係2008台灣培生教育出版(PearsonEducationTaiwan)貝氏信
11、念網路貝氏信念網路(2)l模式建立的兩個步驟:1.建立網路結構2.形成每個節點與節點關聯的機率表l貝氏信念網路的特性提供一個利用圖形模式從特定的領域當中獲取知識的方法,而這個網路可以用來表示變數間的因果關係要建立一個網路也許需要耗費大量的時間;但網路模式建立後,就可很快的增加新變數適合用來處理不完整的資料問題。而如果資料本身具有遺漏值的話,也可以藉由彙整、或是整合所有屬性的可能值,來處理這個問題資料是結合事前知識的機率,可避免模式過度學習2008台灣培生教育出版(PearsonEducationTaiwan)類神經網路類神經網路(1)l類神經網路(Artificial Neural Netwo
12、rk,ANN)的研究源起於想要模擬生物的神經系統l人類的大腦是很多的神經元細胞所組成的,這些稱為神經元(neurons)l神經元會彼此透過神經軸(axon)相互連結l神經軸用來轉換神經元至其他被刺激的神經間的脈衝l一個神經元會經由突觸(dendrites)連結至另一個神經軸l人類大腦的學習可藉由突觸在神經元間連結的重覆刺激所改變的長度而獲得學習l類神經網路是很多內部的節點間的相互連結所組成的結構2008台灣培生教育出版(PearsonEducationTaiwan)類神經網路類神經網路(2)l感知機網路,由兩種節點所組成。輸入節點表示輸入屬性;輸出節點表示輸出結果l這個生物神經系統會讓感知機網
13、路不斷的調整連結的權重值,直到輸入與輸出的對應關係符合原來的訓練資料為止2008台灣培生教育出版(PearsonEducationTaiwan)類神經網路類神經網路(3)l多層網路:允許輸入與輸出層中間再存在節點,我們稱為中間層,又稱為隱藏層多層前向式架構類神經網路2008台灣培生教育出版(PearsonEducationTaiwan)類神經網路類神經網路(4)lANN 學習演算法的目的在於決定權重w,然後得到最小的誤差值平方lANN 網路的特性如下:多層類神經網路至少有一個隱藏層具有普遍逼近(universal approximators)的性質ANN 可以用來處理多餘的特徵值類神經網對於具
14、有雜訊的訓練資料問題會非常敏感最陡坡降法可用來學習ANN 中的權重值要訓練ANN 網路是很耗時的,尤其是當隱藏層節點很多的情形,不過一旦模式建立之後,就能夠很快的針對測試資料進行歸類2008台灣培生教育出版(PearsonEducationTaiwan)支援向量機支援向量機l支援向量機(support vector machine,SVM)的分類技術起源於統計學習理論lSVM 也能夠處理高維度資料的問題l可以使用訓練範例的子集合來表示決策界限,就是支援向量(support vector)2008台灣培生教育出版(PearsonEducationTaiwan)最大邊際超平面最大邊際超平面l可找到
15、一個超平面(hyperplane),將兩個類別的資料分開B1的邊大於B2,在這個例子中,B1是具有最大邊界的超平面2008台灣培生教育出版(PearsonEducationTaiwan)線性的支援向量機:可分割的例子線性的支援向量機:可分割的例子l線性支援向機:可分割的情況支援向量機的學習方式可以正式化成以下的限制最佳化的問題:l線性資料可分割的例子2008台灣培生教育出版(PearsonEducationTaiwan)線性支援向量機:不可分割的情形線性支援向量機:不可分割的情形l支援向量機在不可分割類別問題的決策界限l不可分割資料的差額變數2008台灣培生教育出版(PearsonEducat
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 技术 ppt 课件
限制150内