记忆基础推理精选文档.ppt
《记忆基础推理精选文档.ppt》由会员分享,可在线阅读,更多相关《记忆基础推理精选文档.ppt(69页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、记忆基础推理本讲稿第一页,共六十九页報告大綱一、前言二、CaseStudy:到底誰才是鄰居?三、記憶基礎推理如何運作?四、如何增進MBR作業效能?五、CaseStudy:新聞報導分類六、反查與準度的範例七、距離的測量八、結論本讲稿第二页,共六十九页一、前言本讲稿第三页,共六十九页前言人們總是藉著過去的經驗做判斷,例如:1.當你聽到說話不捲舌,你會覺得她是台灣人,為什麼?2.當醫生要診斷一個病人時,會依據過去的經驗與眼前的症狀來做判斷及比對,為什麼?本讲稿第四页,共六十九页MBR(Memory-Basedreasoning)以上的敘述都是MBR的原理,只不過是換成了由人工智慧進行比對。根據現有的
2、資料庫,“記憶基礎推理”先找出新資料的“鄰近資料”(Neighbor),然後根據鄰近資料,對新資料進行分析和預測。本讲稿第五页,共六十九页關鍵運用(一)MBR不在乎資料的格式必備要項(1).距離函數(DistanceFunction)負責判斷兩筆資料差異到底有多大(2).組合函數(CombinationFunction)將若干相似資料的結果結合,以產生答案。本讲稿第六页,共六十九页關鍵運用(二)MBR的相關應用例子(1).詐欺案件的判斷(2).顧客回應預測(3).最佳醫療措施選擇(4).顧客反應分類(顧客抱怨單)本讲稿第七页,共六十九页MBR優點相較於其他DataMining技術時,MBR的簡
3、易使用常讓人低估了他的強大能力.只要定義出距離函數與組合函數,MBR的可以分析任何形式的資料-例如:地理區位、影像、純文字等。它能同時將新資料和舊資料結合,同時能從舊資料中分析出新的分類項和定義。本讲稿第八页,共六十九页二、到底誰才是鄰居?本讲稿第九页,共六十九页到底誰是鄰居?Tuxedo與New York的租金 一般人的概念,地理上鄰近的城市,也就是其鄰居,租金應該都差不了多少。但是妥善運用MBR後,我們將會重新認識並且定義什麼是“鄰居”。MBR考慮的觀點較為客觀,而非單純是 地理上的相關,而是包含人口數、房屋價值中位數等。本讲稿第十页,共六十九页圖8.1本讲稿第十一页,共六十九页到底誰才是
4、真正的鄰居?作法:(1).從散佈圖中找出最鄰近於目標的點(2).整合目標資訊答案:Shelter Island&North Salem 是Tuxedo的鄰居TownPopulationMedian RentRent$1500(%)NORent(%)ShelterIsland2228$8043.134.631.410.73.117North Salem5173$1150310.221.630.924.210.2本讲稿第十二页,共六十九页所以,租金是所以,租金是1.Average the most common rents of the two neighbors(use midpoint of
5、the range)(625+1250)/2,租金約是$9382.Or,pick the point midway between the two median rents:(804+1150)/2,租金約是$977本讲稿第十三页,共六十九页三、如何操作MBR?本讲稿第十四页,共六十九页MBR操作MBR有兩個明顯的分析階段:(1)學習階段-產生歷史資料庫 (2)預測階段-將MBR運用在新資料上運用MBR的三項前置準備工作:(1)選擇適當的訓練資料集。(2)找出最具效率的方式表達歷史記錄 (3)設定距離函數、組合函數和鄰近資料集的數目 本讲稿第十五页,共六十九页選擇一個歷史記錄的平衡資料集定義:
6、現有資料的子群組或是訓練資料集(TrainingSet)限制:訓練資料集必須能涵蓋大部分可能情況涵蓋大部分可能情況,如此新記錄的鄰近資料才能作為良好的預測基礎作法:建立訓練資料集時,不同類的資料記錄的數目應該要平衡。Tip:選擇資料組時,除確保約略相等的樣本數之外,每類最好有數十筆。本讲稿第十六页,共六十九页訓練資料的表示方法(一)MBR在預測效率取決於訓練資料組如何表示。現今最常用的是關聯式資料庫。需要比對每一筆資料和此筆紀錄的距離,然後才能產生出最接近的鄰近資料集。當訓練集資料集累積越多筆資料時,比對時間將急速上升。在關聯式資料庫為一筆新紀錄找尋鄰近資料集,雖需要掃描整個資料庫,但還算不會
7、耗時太久;可是如果同時為多筆新紀錄找尋他們的鄰近資料集時,需多次完整掃描整個資料庫,將會嚴重耗用電腦資源解決之道1:縮減訓練資料集,不使用整個資料庫,見圖8.2本讲稿第十七页,共六十九页訓練資料的表示方法(二)Distance()運算是可以帶進任何特定的距離機制,這個運算需要掃描整個資料庫。此步驟非常耗時,因此,同時保存最相似的最相似的表格表格(解決之道解決之道2 2),視情況加入或刪除記錄,但是這些必須透過其他的程式語言,在SQL環境下無法執行。SELECT distance(),rec.categoryFROM historical_records recORDER BY 1 ASCEND
8、ING;本讲稿第十八页,共六十九页四、如何增進MBR作業效率?本讲稿第十九页,共六十九页增進MBR作業效率減少歷史資料庫的紀錄數量,“前提”:訓練資料組的大小可以大幅的影響記憶基礎裡作業效率。作法:找出含有不同分類項的群集,則各級群的中心可當成縮減的訓練資料集。條件:不同的分類項要離的夠遠不同的分類項要離的夠遠,若有重疊或界線不明時,將使MBR產生誤差。找出“Support Records”。本讲稿第二十页,共六十九页本讲稿第二十一页,共六十九页五、CaseStudy:新聞報導分類本讲稿第二十二页,共六十九页新聞報導分類採用哪些關鍵字作為分類編碼?政府機關、工業、商業、產品、地區、主題“幾乎所
9、有的新聞稿件都有地區和主題編碼,有時甚至有三個編碼”本讲稿第二十三页,共六十九页MBR運用依照以下四個步驟改善新聞的分類編碼作業1.選擇訓練資料集2.設定距離函數3.設定鄰近資料集數量4.設定組合函數本讲稿第二十四页,共六十九页選擇測試資料組測試資料組包含了49,652件新聞。這些資料是三個月的新聞稿與100個消息來源。每一則平均有2700字(words)和八個編碼。1.沒有經過篩選,為反映真實散佈2.若能採用具有更多罕見編碼的訓練資料組會更好本讲稿第二十五页,共六十九页設定距離函數利用“相關回饋”(Relevance Feedback)的測試標準,由任何兩則新聞稿的文字內容比對他們的相似度。
10、採用最相似的新聞稿當成MBR所需要的鄰近資料本讲稿第二十六页,共六十九页利用相關回饋建立距離函數(一)相關回饋是一種能夠讓使用者在比對相似資料庫,用以進行精細分析的強大技術。作法:1.去除沒有附載有價值意義的單字 ex:it、of 2.將前20%最常出現的詞彙去除 3.剩下的字最轉存到一個可搜尋術語 的字庫中,每個字給予加權值(-log2fi)4.複合語詞的納入 ex:United States、New York 5.計算兩篇報導之間的相關回饋分數 score(A,B)為A與B各自的字的權值的加總本讲稿第二十七页,共六十九页利用相關回饋建立距離函數(二)相關回饋是利用現有函數的修正用來取代真正
11、的距離函數。公式:利用上面的公式將相關回饋分析轉換成一般的距離公式。本讲稿第二十八页,共六十九页設定組合函數(一)組合函數採用加權總值技術(WeightedSummationTechnique):每一筆鄰近資料都有一個距離倒數成正比的權值,所以越相近的資料組就有越高的加權值。表8.3為未分類新聞找出相似者相似者相似者距離距離權重權重編碼編碼10.0760.924R/FE,R/CA,R/CO20.3460.654R/FE,R/JA,R/CA30.3690.631R/FE,R/JA,R/MI40.3930.607R/FE,R/JA,R/CA本讲稿第二十九页,共六十九页設定組合函數(二)表8.4為未
12、分類新聞評分CODE1234SCORER/CA0.9240.65400.6072.185R/CO0.9240000.924R/FE0.9240.6540.6310.6072.816R/JA00.6540.6310.6071.892R/MI000.63100.631若將門檻值設為1,則此篇文章可以指派的code為 R/CA,R/FE,and R/JA本讲稿第三十页,共六十九页設定鄰近資料集數量此案例嘗試使用111個鄰近資料集數目,發現使用越多鄰近資料集數目,結果越好此例,因每則新聞會得到的分類項不只一個。較典型的問題是配置在單一編碼或分類單一編碼或分類項,此情況則較少的鄰近資料集數目,反而較好。
13、本讲稿第三十一页,共六十九页結果(一)為了測試MBR在編碼上的有效程度,我們將200則由人工(專家)及MBR編碼的新聞稿混合結果,交由一群編輯進行複審,只有過半數同意才能被當成“合格”。結果:人工編碼正確的數目比上“合格”編碼數目為88%(recall,回想);然而,人工編碼正確的數目比上人工編碼全部為83%(precision,精確),即不正確比例為17%。本讲稿第三十二页,共六十九页圖8.4利用人工作業及MBR將新聞進行分類的比較本讲稿第三十三页,共六十九页結果(二)MBR表現並不好:由MBR分配編碼的recall為80%;而precision僅為72%。問題與原因:Q:為什麼MBR表現不
14、好?A:因為資料數不足,無法讓MBR使用全由資深編輯分類的訓練組資料可能是因為原資料處理者的專業程度不足結論:MBR比其他技術能夠處理困難的問題。本讲稿第三十四页,共六十九页六、回想與準度本讲稿第三十五页,共六十九页回想與準度回想(RECALL)記憶基礎推理究竟提供了多少個正確碼。假如所提供的編碼包含了每個正確的編碼,其反查值就是100%,假如提供的編碼中沒有一個正確的,回想值就是0%準度準度(PRECISION)在記憶基礎推理所提供的編碼中,有多少是正確的?準度100代表著預測的編碼百發百中,若是提供的沒一個正確,那準度就是0本讲稿第三十六页,共六十九页回想與準度的範例-表8.5CODES
15、BY MBRCORRECT CODESRECALLPRECISIONA,B,C,DA,B,C,D100%100%A,BA,B,C,D50%100%A,B,C,D,E,F,G,H,A,B,C,D100%50%E,FA,B,C,D0%0%A,B,E,FA,B,C,D50%50%本讲稿第三十七页,共六十九页利用編碼類別測量回想與準度個人編輯對新聞編碼,回想83%準度88%記憶基礎推理,回想80%準度72%CATEGORYRECALLPRECISIONGovernment85%87%Industry91%85%Market Sector93%91%Product69%89%Region86%64%Su
16、bject72%53%本讲稿第三十八页,共六十九页七、測量距離本讲稿第三十九页,共六十九页測量距離假設你要到一個小鎮旅行,而你想知道那裡的天氣狀況如何,但是卻沒有管道獲得資訊,因為天氣預報都只報導大城市。如果你在當地沒有朋友,則通常的作法就是查詢附近大城市的天氣狀況,就以那個城市的天氣當成判斷標準,或者綜合附近三個大城市的天氣狀況。以上所描繪的正是利用記憶基礎推理找出天氣狀況的例子,而這裡的距離函數是兩個地點的距離。本讲稿第四十页,共六十九页距離函數的特性(一)妥適定義(Well-defined):兩點之間的距離永遠是可以找出來的,且大於零同位(Identity):從一點到它本身的距離一定是交
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 记忆 基础 推理 精选 文档
限制150内