相似性概念与聚类分析.ppt
《相似性概念与聚类分析.ppt》由会员分享,可在线阅读,更多相关《相似性概念与聚类分析.ppt(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、机器学习及其应用2009,南京大学相似性,概念与聚类分析于剑北京交通大学计算机学院.Email:机器学习的目的之一:概念o人们学习的目的是学习知识,因此,机器学习的一个自然期望是:从数据中学习到知识o什么是知识的最基本单位:概念Concepts are the glue that holds our mental world together。Cited from page 1 in the book entiled“The big book of concepts”,written by M.L.Murphy,2002,MITo经典概念的定义:(PlatoandAristotle)o概念的内
2、涵:必要而且充分条件(命题描述,命题可以是复合命题)o概念的外延:给出论域中符合该概念的所有样例o符合排中率(lawoftheexcludedmiddle)o要么符合这个概念,要么不符合这个概念o这种经典的概念形式称为定义法什么是概念?概念与数据分析o数据分析的一个重要的应用就是从数据中学习到概念(语义).Cited from C.Rother,V.Kolmogorov,and A.Blake,GrabCut:Interactive foreground extraction using iterated graph cuts,ACM Trans.Graph.,vol.23,pp.309314
3、,2004 相应的机器学习问题(I)o已知:既定概念和该既定概念外延的一个有限子集(即:标定样本)o期望:学习既定概念的内涵定义o机器学习:分类,回归等技术可以归为此类问题,即所谓的有监督学习相应的机器学习问题(II)o已知:样本集,但其中的样本属于哪一个概念未知(未标定样本)o期望:学习出与人类认知相符的概念.最好得到概念的内涵表示,否则,也希望得到概念的外延子集.o机器学习:聚类分析可以归为此类问题,无监督学习本次演讲的重点o如何从未标定的数据集中提取概念,即聚类分析Outlineo概念的形成(GestaltTheory)o概念的非经典定义o聚类分析o类的复杂性讨论o未来展望概念的形成o可
4、分为实体类别(naturalkinds)与抽象类别(abstractkinds)oMaxWertheimer(1923)说:o“我站在窗前,看到的是房屋,树,天空.”不可能认到一个一个的像素点这种程度.o提出了实体类别的组织原则概念的形成格式塔理论与样本的概念归属o格式塔学派整体上认识视觉,提供了根据二维数据形成概念的基本依据n邻近律n相似律n连续律n封闭律n对称律概念的形成相似律LawofSimilarity概念的形成Lawofproximity邻近律概念的形成Gestalt准则的推广性o封闭律,连续律,对称律在高维空间的推广挑战性高,比如对称性:二维与三维不同.o相似律和近邻律的推广性受数
5、据空间维数的影响相对较小,因此对于概念的研究来说,似更为重要.o另外,封闭律,连续律在概念不重叠和相切的情形下可以由相似律和近邻律来反映o概念概念“游戏游戏”内包含的对象内包含的对象不包含共有的特性不包含共有的特性马术,马术,游泳,游泳,下棋,网球等下棋,网球等都属于游戏都属于游戏概念的非经典定义经典概念的颠覆经典概念的颠覆Wittgenstein,L.(1958).Philosophical Investigations(G.E.M.Anscombe,Trans.).USA:Blackwell Publishing.Ludwig Wittgenstein概念的非经典定义EleanorRosc
6、hs的发现o上个世纪70年代,EleanorRosch的工作在认知科学领域彻底终结了经典概念的定义-“Thebigbookofconcepts”,writtenbyM.L.Murphy,2002,MITo典型样本与非典型样本概念的非经典定义ExamplesofitemsstudiedbyRosch&Mervis(1975),orderedbytypicalityoFruit:orange,apple,banana,peach,pear,apricot,plum,grapes,strawberry,grapefruit,pineapple,blueberry,lemon,watermelon,h
7、oneydew,pomegranate,date,coconut,tomato,oliveoFurniture:chair,sofa,table,dresser,desk,bed,bookcase,footstool,lamp,piano,cushion,mirror,rug,radio,stove,clock,picture,closet,vase,telephone概念的非经典定义PrototypeviewofconceptsoAsingleprototypeasacategoryrepresentationItavoidsthecontradictablefeaturesoAfeatur
8、elistasacategoryrepresentationItisnotpopularascomputationalcomplexity概念的非经典定义Exemplarviewofconcepts(MedinandSchaffer,1978)oConceptsbyrepresentedbyexemplars概念的非经典定义KnowledgeapproachofconceptsoConceptscanbeconsideredapartofgeneralknowledgeogoal-derivedcategories(Barsalou,1985)othingstoeatonadiet,thing
9、stotakefromoneshouseduringafireoItslimitation:Muchofaconceptcannotbebasedonpreviousknowledge概念的非经典定义样本如何归属于某个特定概念o样本归入与之最相似的特定概念概念,相似性与聚类分析聚类形成的划分子集内样本具有相当的同质性,即类内的样本是相似的,不同类之间的样本是不相似o如果借用经典概念,聚类分析得到的是概念的一个外延子集o由于聚类分析可以发现数据的内蕴结构,即数据自身蕴含的概念,近年来,聚类分析的应用日益增广聚类分析聚类算法与使用的概念定义o类原型聚类算法:紧致型的类o样例型聚类算法:连通型的类o
10、经典概念对应的聚类算法聚类分析Prototypebasedclustering:C(K)-MEANSRemark:The essence of K-means is the same as that of C-means.LBG or GLA also has almost the same meaning as K-means 聚类分析K-meansanditsextensionsoFuzzyC-meansoEMtypeclusteringoDeterministicannealingclusteringoFuzzyc-shellsoK-modeoPCMoConditionalfuzzyc-
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相似性 概念 聚类分析
限制150内