通过评估示例中概念的重要性来解决多示例学习问题.pdf
《通过评估示例中概念的重要性来解决多示例学习问题.pdf》由会员分享,可在线阅读,更多相关《通过评估示例中概念的重要性来解决多示例学习问题.pdf(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第 卷第期 年月计算机科学 到稿日期:返修日期:甘睿(),男,博士生,主要研究方向为数据挖掘、机器学习,:。通过评估示例中概念的重要性来解决多示例学习问题甘睿印鉴(中山大学信息科学与技术学院广州 )摘要在多示例学习问题中,训练数据集里面的每一个带标记的样本都是由多个示例组成的包,其最终目的是利用这一数据集去训练一个分类器,使得可以利用该分类器去预测还没有被标记的包。在以往的关于多示例学习问题的研究中,有的是通过修改现有的单示例学习算法来迎合多示例的需要,有的则是通过提出新的方法来挖掘示例与包之间的关系并利用挖掘的结果来解决问题。以改变包的表现形式为出发点,提出了一个解决多示例学习问题的算法 概
2、念评估算法。该算法首先利用聚类算法将所有示例聚成簇,每一个簇可以看作是包含在示例中的概念;然后利用原本用于文本检索的 ()算法来评估出每一个概念在每个包中的重要性;最后将包表示成一个维向量 概念评估向量,其第个位置表示第个簇所代表的概念在某个包中的重要程度。经重新表示后,原有的多示例数据集已不再是“多示例”,以至于一些现有的单示例学习算法能够用来高效地解决多示例学习问题。关键词多示例学习,重新表示,单示例学习,概念评估中图法分类号 文献标识码 (,),(),“”,多示例学习()这一概念,是由 等人在 研究药物活性预测问题时提出的,其目的是为了让学习系统通过分析已经被标记为适合或不适合制药的分子
3、来预测还没有被标记的新分子。其难点在于,每一个分子里面都包含了很多种低能形状(),专家们能够知道的是哪个分子适合制药,至于该分子里面哪种低能形状起决定性作用,则一无所知。一开始,等人尝试用监督学习的方法来解决问题,并把所有在适合制药的分子里面的低能形状当作是正例,不适合的分子里面的低能形状当作反例。但是,他们很快就发现这样做是行不通的,因为在一个被标记为适合的分子里面包含着很多种低能形状,而在这些低能形状集合中可能就只有一种起到决定性作用,其他的根本起不了作用。等人的做法是把不起作用的也当作正例,从而增加数据的噪音,影响了学习系统的学习效果。于是,等人把分子定义为包,分子里面的低能形状当作是包
4、中的示例。并假设,如果一个包被标记为正,那么该包至少包含一个正示例;如果一个包被标记为反,那么该包里面的所有示例都是反例。而在训练集中只给出了包的标记,并没有给出示例的标记。由此,一种新的机器学习问题诞生了。相关工作在 等人的研究之后,很多关于这一新的机器学习问题的研究陆续展开。在这些研究中,有的是以示例为出发点,通过挖掘示例与包之间的关系,并利用挖掘的结果来解决多示例学习问题。例如,多样性密度(,)算法把每包表示成由示例构成的集合,其任务就是在由示例形成的属性空间中找到具有最大多样性密度的那个点。在这里,多样性密度是一种度量,如果一个点附近出现的正包数越多,而反包示例出现得越远,那么该点的多
5、样性密度越大。找到该点后,就可以把这个点作为参照点来标记新的包。但多样性密度算法有个很大的缺点,就是效率低。要在由示例形成的属性空间中找到目标点,是一件很耗时的事情;而且在寻找的过程中,由于采用梯度下降法使得算法并不能确保找到全局最优解,寻找结果的好坏直接影响到最终的分类结果。即使是后来提出的期望最大多样性密度(,)算法,结合了算法的思想来针对多样性密度算法效率低的缺点进行了改进,但仍然需要耗费一定的时间才能获取到最终结果。随着研究的深入,有些研究者发现通过对现有的基于单示例的监督学习算法进行改进,可以使这些算法能够用于解决多示例学习问题。例如 算法就是对近邻分类算法的一种改进,该算法认为一个
6、包的标记不但由这个包的近邻来决定,还应该由把这个包当作近邻的那些包来决定。在寻找包的近邻时,该算法使用最小化豪斯多夫距离()来衡量包与包之间的距离,而不是使用传统的欧氏距离()。直到现在,算法依旧是众多经典的多示例算法中分类效果相对较好的算法之一,但是其效率不高,这也是它唯一缺点。虽然与多样性密度算法相比,该算法在效率方面有了很大的提高,但是要在一个数据集中同时查找两类近邻,也需要耗费一定的时间来计算包与包之间的距离,尤其是在数据集相对较大的情况下更为明显。本文从改变包的表现形式入手,提出了概念评估算法。首先通过聚类算法挖掘出包含在所有示例中的概念;再运用文本 检 索 中 的 ()算法评估出每
7、个概念在每个包的重要性;最后把包表示成概念重要性向量形式,不但考虑了概念在包中出现的次数,还把概念在整个数据集中的重要性也考虑进去。其具体做法如下。通过评估示例中概念的重要性解决多示例学习问题在多示例分类中,我们获取到的是一个由包构成的训练集合(,),(,),其中每个包又由多个示例构成,而,这里的表示构成包的示例集合的大小,是包的标记集合。从词袋模型入手,尝试找出解决多示例问题的算法。词袋模型()的主要思想词袋模型主要运用于自然语言处理和文本信息检索方面,大大简化了文本的表现形式。它把文本表示成一堆单词的集合,在表示过程中,每个词的出现都是独立的,并不需要考虑单词出现的先后顺序,也不用考虑文本
8、的语法和句法。由于在文本挖掘方面取得成功,词袋模型已经开始被运用到其他领域,例如图像中的对象分类。其主要思想是把图像里面的每个特征点量化到几个有代表性的关键点上面,然后利用量化的结果重新表示原图像。从这里可以看出,要想利用词袋模型解决其他领域的问题,首先要做以下两步工作:()发现关键点,一般采用聚类方法;()把所有的特征点量化到关键点上。因此我们做的第一件事情是利用聚类算法把数据集中所有示例划分为簇(这里并没有考虑各示例所在的包的标记);然后把每个包中的示例量化到这簇上。表给出了一个量化结果的例子。在这里,假设在聚类时设定了簇的数量为。每一个格子里面的数字表示在一个包中有多少个示例属于某个簇。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通过 评估 示例 概念 重要性 解决 学习 问题
限制150内