计算机-数学-外文翻译-外文文献-英文文献-模糊决策森林.doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《计算机-数学-外文翻译-外文文献-英文文献-模糊决策森林.doc》由会员分享,可在线阅读,更多相关《计算机-数学-外文翻译-外文文献-英文文献-模糊决策森林.doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、模糊决策森林Cezary Z. JanikowDepartment of Math and Computer ScienceUniversity of Missouri St. Louiscjanikowola.cs.umsl.edu摘要:过去,我们已经提出了模糊决策树,现在作为一种扩展就称本文中的方法为模糊决策森林。森林背后的想法不仅是要代表多个树,而且还要代表在每棵树的各级进行的测试选择。这样产生的树其实是一个三维树。森林允许在决策树的一些或所有的结点进行测试的多种选择。然而,有多个测试选择的主要优点是在测试数据的特征是不可靠或丢失的情况下,有选择测试决策。在本文中,我们概述了模糊决策森林
2、背后的想法,并且用特征值缺失的数据进行了大量的实验,证明了这种方法的增强能力。一 引言当今时代,面对海量的的数据,开发能够处理和挖掘数据的计算机程序显得尤为重要。对于分类任务,决策树被证明是最成功的方法之一1 6 7。用决策树的形式以及推理步骤的来获取知识,一直以准确性,效率和可理解性为人称道。决策树方法原本是为符号域和一个简单的决策过程提出的6,它有着许多方法论的进步性,如能产生二叉树处理连续数据1,新的推理过程,例如,计算决策的概率7,最后纳入模糊集和不确定性推理推论法说明噪音和不确定的状况2 8。决策树是由两个要素组成:一个自上而下的划分递归过程,生成决策树,然后从得到的树推出规则。该过
3、程开始于训练集,根据可用的变量和域通过特征的组合来表达,并划分为若干类。划分过程一次选择一个测试,通常是一个特征,然后根据测试特征将数据分成几个子集。选定的测试是为了最大限度地提高一些目标,如将不同类的样例分离7。一旦样例被完美的分类或者达到一些其他目标,递归过程就停止 7。随后的推理规则使用树来分配新的测试数据,到达一些相同的类。模糊集与逻辑被提出用来处理语言和数据有关的不确定性9。同不确定性推理相结合,模糊表达提供了更大的稳定性和鲁棒性。这种表示已纳入决策树,在树中仍然保持了其标准的优势,并且更强大和更稳定2 8。一个模糊决策树(FID)就是这样一个扩展2。 FID可以处理由符号值和连续变
4、量混合描述的数据。 FID原本要求所有域预划分成模糊集。之后又被扩展到允许预划分和未划分的变量共存3 4。然而,FID具有和所有决策树一样的传统缺点。决策树过程试图尽量减少训练数据分类的测试次数。这大大提高了综合性,但同时也减少了在数据中学习到的特征数量。认识到这个潜在的问题以后,研究人员提出了扩展,如:得到多个不同的决策树,随后表决或应用另一个决策过程再对新的数据集进行分类。模糊决策森林包含了与模糊决策树相似的思想。最后获取的知识是更高维的而且是更不好理解的。但是模糊决策森林的简单切片却减少了对简单树的描述。此外,最后得到的模糊决策树提高了分类的精度,尤其是处理特征值丢失的测试数据的时候。在
5、本文中,我们综述了模糊决策树背后的思想,然后给出了实验结果,说明它的增强能力。二 模糊决策森林建立一个决策树的过程是:每一个树结点选择一个测试,这可以最大化的使不同类的数据分离。这种单一的测试产生最小的知识决策树的过程就是一个判别学习过程的一个例子,其目的是尽量减少类描述,从而减少了测试的变量和测试特征的集合。当两个测试在一个结点提供相似的质量,其中一个需要遗弃,取舍哪一个有时候是很随机的。遗弃的那个测试减少了树中表达的知识。 在一个结点上执行的不同测试可能会导致不同的决策。保留这多个测试,用冲突的解决过程组合,增加了分类的潜力。这在两种情况下尤其重要:1与成功测试相关的特征在给定的测试数据可
6、能是有噪音或不准确的。保留选择测试提高了预测精度。2在一个给定的测试数据中,和成功测试相关的特征可能信息存在丢失。处理这个问题传统的方法是测试这个特征的所有情况然后解决由此产生的冲突7。再者,保留其他相关的测试,可以使得推理更全面和更正式。模糊决策森林通过允许在所有结点上执行选择测试来扩展模糊决策树。FDF除了以下的方面,建树过程和FID是一样的:在一个特定的结点,可以选择不止一个测试。每一个测试结果,将生成不同的子树。实际选择的测试的数量,是基于一些启发式和参数。通过选择将相似类分离是重要的;但是,潜在的选择试验次数在更深的层次将减少。如果在根结点有不止一个测试,结果得到的树其实是一个森林。
7、此外,选择测试也可以在更深的层次探索,产生了一个三维树5。通过在每一个结点选择一个测试可能会产生森林的一个部分。森林的一部分确实是一个决策树。从相同的数据中,在每个结点进行最好的选择测试生成的森林和决策树建立的树是一样的。当然,你需要一个推理过程来探索在森林保留的额外信息。FID提供了许多推理过程2。每一个推理过程需要用到路径约束匹配测试数据的所有叶子,并以一些方式结合那些叶子的类别。当数据和模糊决策森林不止一棵树匹配的时候,就会导致仅仅是更多的叶子参与最终投票。树的每个部分投出属于自己的一票。然后,每一个部分提出推理和类别。这一推论是:a)每个类的投票和(一个简单的投票),b)加权和,在部分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 数学 外文 翻译 文献 英文 模糊 决策 森林
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内