《数据挖掘中的特征选择.ppt》由会员分享,可在线阅读,更多相关《数据挖掘中的特征选择.ppt(40页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数据挖掘中的数据归约问题数据挖掘中的数据归约问题*1数据挖掘中的特征选择为什么需要数据挖掘为什么需要数据挖掘n数据爆炸问题数据爆炸问题 q自动数据收集工具和成熟的数据库技术使得大量的自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。库中以待分析。n我们拥有丰富的数据,但却缺乏有用的信息我们拥有丰富的数据,但却缺乏有用的信息n数据爆炸但知识贫乏*2数据挖掘中的特征选择数据挖掘的作用数据挖掘的作用u数据挖掘:数据挖掘:在大量的数据中挖掘感兴趣的知识在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束)
2、(规则,规律,模式,约束)u数据挖掘数据挖掘是一种从大量数据中寻找其规律的技是一种从大量数据中寻找其规律的技术。它综合了统计学、数据库技术和人工智能术。它综合了统计学、数据库技术和人工智能技术技术*3数据挖掘中的特征选择数据挖掘数据挖掘数数据据库库越越来来越越大大有价值的知识有价值的知识海量的数据海量的数据*4数据挖掘中的特征选择数据挖掘的应用数据挖掘的应用n数据分析和决策支持数据分析和决策支持q市场分析和管理市场分析和管理n客户关系管理客户关系管理(CRM),市场占有量分析,交叉销售,目标市,市场占有量分析,交叉销售,目标市场场q风险分析和管理风险分析和管理n风险预测,客户保持,保险业的改良
3、,质量控制,竞争分析风险预测,客户保持,保险业的改良,质量控制,竞争分析q欺骗检测和异常模式的监测欺骗检测和异常模式的监测(孤立点孤立点)n其他的应用其他的应用q文本挖掘文本挖掘(新闻组,电子邮件,文档新闻组,电子邮件,文档)和和Web挖掘挖掘q流数据挖掘流数据挖掘qDNA 和生物数据分析和生物数据分析*5数据挖掘中的特征选择数据挖掘数据挖掘:数据库中的知识挖掘数据库中的知识挖掘(KDD)(KDD)n数据挖掘数据挖掘知识挖掘的核心知识挖掘的核心数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式评估*6数据挖掘中的特征选择数据
4、挖掘的步骤数据挖掘的步骤u了解应用领域了解应用领域u了解相关的知识和应用的目标了解相关的知识和应用的目标u创建目标数据集创建目标数据集:选择数据选择数据u数据清理和预处理数据清理和预处理:(:(这个可能要占全过程这个可能要占全过程6060的工作的工作量量)u数据缩减和变换数据缩减和变换u找到有用的特征,维数缩减找到有用的特征,维数缩减/变量缩减,不变量的表示变量缩减,不变量的表示u选择数据挖掘的功能选择数据挖掘的功能 u数据总结数据总结,分类模型数据挖掘分类模型数据挖掘,回归分析回归分析,关联规则挖关联规则挖掘掘,聚类分析等聚类分析等*7数据挖掘中的特征选择u选择挖掘算法选择挖掘算法u数据挖掘
5、数据挖掘:寻找感兴趣的模式寻找感兴趣的模式u模式评估和知识表示模式评估和知识表示u可视化,转换,消除冗余模式等等可视化,转换,消除冗余模式等等u运用发现的知识运用发现的知识*8数据挖掘中的特征选择数据挖掘和商业智能数据挖掘和商业智能支持商业决策的支持商业决策的潜能不断增长潜能不断增长最终用户最终用户商业分析家商业分析家 数据分析家数据分析家DBA 决策支持决策支持数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探索数据探索在线分析处理(在线分析处理(OLAP)OLAP),多维分析,多维分析(MDA(MDA)统计分析,查询和报告统计分析,查询和报告数据仓库数据仓库/数据市
6、场数据市场数据源数据源论文论文,文件文件,信息提供商信息提供商,数据库系统数据库系统,联机事务处理系统联机事务处理系统(OLTP(OLTP)*9数据挖掘中的特征选择典型数据挖掘系统典型数据挖掘系统数据仓库数据仓库数据清洗数据清洗过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据集成*10数据挖掘中的特征选择数据挖掘数据挖掘:多个学科的融合多个学科的融合数据挖掘数据挖掘数据库系统统计学其他学科算法机器学习可视化*11数据挖掘中的特征选择数据挖掘的分类数据挖掘的分类u预言预言(Predication):):用历史预测用历史预测未来未来u描述(描述(Desc
7、ription):):了解数据中了解数据中潜在的规律潜在的规律*12数据挖掘中的特征选择数据挖掘的主要方法数据挖掘的主要方法u分类(分类(Classification)u聚类聚类(Clustering)u相关规则相关规则(Association Rule)u回归回归(Regression)u其他其他*13数据挖掘中的特征选择特征归约在数据挖掘中的作用特征归约在数据挖掘中的作用u因为在文本分类、信息检索和生物信息学等数据挖掘的应因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据的维数往往是很高的。用领域中,数据的维数往往是很高的。u高维的数据集中包含了大量的特征高维的数据集中包含了
8、大量的特征(属性属性)。比如一个文。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向量本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。在中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。这这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了种高维的数据给数据挖掘带来了“维灾难维灾难”(The Curse of Dimensionality)问题。问题。*14数据挖掘中的特征选择u特征选择和特征降维是两类特征归约方法。特征选择和特征降维是两类特征归约方法。*15数
9、据挖掘中的特征选择特征选择特征选择u特特征征选选择择的的一一般般过过程程包包括括:首首先先从从特特征征全全集集中中产产生生出出一一个个特特征征子子集集,然然后后用用评评价价函函数数对对该该特特征征子子集集进进行行评评价价,评评价价的的结结果果与与停停止止准准则则进进行行比比较较,若若评评价价结结果果比比停停止止准准则则好好就就停停止止,否否则则就就继继续续产产生生下下一一组组特特征征子子集集,继继续续进进行行特特征征选选择。选出来的特征子集一般还要验证其有效性。择。选出来的特征子集一般还要验证其有效性。*16数据挖掘中的特征选择n n特征选择的过程特征选择的过程(M.Dash and H.Li
10、u 1997)*17数据挖掘中的特征选择u特特征征选选择择大大体体上上可可以以看看作作是是一一个个搜搜索索过过程程,搜搜索索空空间间中中的的每一个状态都可以看成是一个可能特征子集。每一个状态都可以看成是一个可能特征子集。u搜搜索索的的算算法法分分为为完完全全搜搜索索(Complete),启启发发式式搜搜索索(Heuristic),随机搜索,随机搜索(Random)3大类。大类。*18数据挖掘中的特征选择n完全搜索分为穷举搜索与非穷举搜索两类。完全搜索分为穷举搜索与非穷举搜索两类。n(1)广度优先搜索广度优先搜索(BFS)n(2)分支限界搜索分支限界搜索(BAB)n(3)定向搜索定向搜索(BS)
11、n(4)最优优先搜索最优优先搜索(Best First Search)*19数据挖掘中的特征选择n启发式搜索启发式搜索n(1)序列前向选择序列前向选择(SFS)n(2)序列后向选择序列后向选择(SBS)n(3)双向搜索双向搜索(BDS)n(4)增增L去去R选择算法选择算法(LRS)n(5)序列浮动选择序列浮动选择(Sequential Floating Selection)n(6)决策树决策树(DTM)*20数据挖掘中的特征选择 随机算法随机算法n(1)随机产生序列选择算法随机产生序列选择算法(RGSS)n(2)模拟退火算法模拟退火算法(SA)n(3)遗传算法遗传算法(GA)*21数据挖掘中的
12、特征选择特征的评价函数特征的评价函数u特特征征的的评评估估函函数数分分为为五五类类:相相关关性性,距距离离,信信息息增增益益,一一致性和分类错误率。致性和分类错误率。u常常 用用 的的 有有 平平 方方 距距 离离,欧欧 氏氏 距距 离离,非非 线线 性性 测测 量量,Minkowski距距离离,信信息息增增益益,最最小小描描述述长长度度,互互信信息息,依依赖赖性性度度量量或或相相关关性性度度量量,一一致致性性度度量量,分分类类错错误误率率,分类正确率分类正确率 *22数据挖掘中的特征选择特征选择方法的模型特征选择方法的模型u一一般般地地,特特征征选选择择方方法法可可以以分分为为三三种种模模型
13、型,分分别别是是:过过滤滤模型、封装模型和混合模型。模型、封装模型和混合模型。*23数据挖掘中的特征选择u过过滤滤模模型型:根根据据训训练练集集进进行行特特征征选选择择,在在特特征征选选择择的的过过程程中中并并不不涉涉及及任任何何学学习习算算法法。即即特特征征子子集集在在学学习习算算法法运运行行之之前前就就被被单单独独选选定定。但但学学习习算算法法用用于于测测试试最最终终特特征征子子集集的性能。的性能。u过过滤滤模模型型简简单单且且效效率率很很高高。由由于于过过滤滤模模型型中中的的特特征征选选择择过过程程独独立立于于学学习习算算法法,这这就就容容易易与与后后面面的的学学习习算算法法产产生生偏偏
14、差差,因此为了克服这个缺点提出了封装模型。因此为了克服这个缺点提出了封装模型。*24数据挖掘中的特征选择*25数据挖掘中的特征选择u基于过滤模型的算法主要有两类:特征权重和子集搜索。基于过滤模型的算法主要有两类:特征权重和子集搜索。u这两类算法的不同之处在于是对单个特征进行评价还是对这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。整个特征子集进行评价。*26数据挖掘中的特征选择u特特征征权权重重算算法法对对每每个个特特征征指指定定一一个个权权值值,并并按按照照它它与与目目标标概概念念的的相相关关度度对对其其进进行行排排序序,如如果果一一个个特特征征的的相相关关度度权权值
15、值大大于于某某个个阈阈值值,则则认认为为该该特特征征优优秀秀,并并且且选选择择该该特特征征。该该算算法法缺缺点点在在于于:他他们们可可以以捕捕获获特特征征与与目目标标概概念念间间的的相相关关性性,却却不不能能发发现现特特征征间间的的冗冗余余性性。而而经经验验证证明明除除了了无无关关特特征征对对学学习习任任务务的的影影响响,冗冗余余特特征征同同样样影影响响学学习习算算法法的的速速度度和和准准确确性性,也也应应尽尽可可能能消消除除冗冗余余特特征征。Relief算算法法是是一一个个比比较著名的特征权重类方法。较著名的特征权重类方法。*27数据挖掘中的特征选择u子集搜索算法通过在一定的度量标准指导下遍
16、历候选特征子集搜索算法通过在一定的度量标准指导下遍历候选特征子集,对每个子集进行优劣评价,当搜索停止时即可选出子集,对每个子集进行优劣评价,当搜索停止时即可选出最优(或近似最优)的特征子集。最优(或近似最优)的特征子集。*28数据挖掘中的特征选择u封封装装模模型型:在在此此模模型型中中,学学习习算算法法封封装装在在特特征征选选择择的的过过程程中中,用用特特征征子子集集在在学学习习算算法法上上得得到到的的挖挖掘掘性性能能作作为为特特征征子子集集优优劣劣的的评评估估准准则则。在在初初始始特特征征空空间间内内进进行行多多次次搜搜索索,直至得到最佳的特征子集。直至得到最佳的特征子集。u与与过过滤滤模模
17、型型相相比比,封封装装模模型型具具有有更更高高的的精精度度,但但效效率率较较低低,运行速度慢于过滤模型。运行速度慢于过滤模型。*29数据挖掘中的特征选择*30数据挖掘中的特征选择u过过滤滤模模型型与与包包裹裹模模型型的的根根本本区区别别在在于于对对学学习习算算法法的的使使用用方方式。式。u混混合合模模型型:由于过滤模型与封装模型之间的互补性,混合模型把这两种模型进行组合,也就是先用过滤模式进行初选,再用封装模型来获得最佳的特征子集。*31数据挖掘中的特征选择*32数据挖掘中的特征选择数据降维数据降维u数据降维是指通过线性或非线性映射将样本空间从高维空数据降维是指通过线性或非线性映射将样本空间从
18、高维空间映射到低维空间。间映射到低维空间。u降维方法主要分为两类:线性或非线性。降维方法主要分为两类:线性或非线性。*33数据挖掘中的特征选择u数据降维是指通过线性或非线性映射将样本空间从高维空数据降维是指通过线性或非线性映射将样本空间从高维空间映射到低维空间。间映射到低维空间。u降维方法主要分为两类:线性或非线性。而非线性降维方降维方法主要分为两类:线性或非线性。而非线性降维方法又可分为基于核函数和基于特征值的方法。法又可分为基于核函数和基于特征值的方法。*34数据挖掘中的特征选择u线性降维方法有:线性降维方法有:u主成分分析主成分分析(PCA),独立成分分析,独立成分分析(ICA),线性判
19、别分,线性判别分析析(PCA),局部特征分析,局部特征分析(LFA)。*35数据挖掘中的特征选择u基于核函数的非基于核函数的非线性降维方法有:线性降维方法有:u基于核函数的基于核函数的主成分分析主成分分析(KPCA),基于核函数基于核函数独立成独立成分分(KICA),基于核函数的基于核函数的判别分析判别分析(KLDA)。u基于特征值基于特征值(流形流形)的非的非线性降维方法有:线性降维方法有:uISOMAP(Isometric feature mapping),局部线,局部线性嵌入性嵌入(LLE),拉普拉斯特征映射,拉普拉斯特征映射(LE)。*36数据挖掘中的特征选择成果成果u结合结合LDA与
20、二分与二分K均值聚类的特点,提出了针对高维数据均值聚类的特点,提出了针对高维数据集的自适应聚类方法。利用线性判别分析集的自适应聚类方法。利用线性判别分析(LDA)来实现来实现维归约,然后在低维数据集上执行二分维归约,然后在低维数据集上执行二分k均值聚类来生成均值聚类来生成类。低维空间的聚类结果又可以通过某种机制构造出原数类。低维空间的聚类结果又可以通过某种机制构造出原数据集上的类。然后在此基础上再利用据集上的类。然后在此基础上再利用LDA进行维归约,进行维归约,这个过程反复进行下去,不断地修正前面得到的聚类结果,这个过程反复进行下去,不断地修正前面得到的聚类结果,直到得到全局最优。直到得到全局
21、最优。*37数据挖掘中的特征选择u结合某种基于标准化互信息和遗传算法提出所谓的两阶结合某种基于标准化互信息和遗传算法提出所谓的两阶段特征选择方法。该方法首先采用标准化的互信息对特段特征选择方法。该方法首先采用标准化的互信息对特征进行排序,然后使用排序在前的特征初始化第二阶段征进行排序,然后使用排序在前的特征初始化第二阶段遗传算法的部分种群,使得遗传算法的初始种群中含有遗传算法的部分种群,使得遗传算法的初始种群中含有较好的搜索起点,使遗传算法只采用较小的进化代数就较好的搜索起点,使遗传算法只采用较小的进化代数就可搜寻到较优的特征子集。可搜寻到较优的特征子集。*38数据挖掘中的特征选择设想设想u结合某种特征选择和智能优化算法研究新型的结合某种特征选择和智能优化算法研究新型的两阶段特征选择方法。利用已有的特征选择算两阶段特征选择方法。利用已有的特征选择算法得出一个特征子集,从而为智能优化算法提法得出一个特征子集,从而为智能优化算法提供一个较好的初始的搜索起点,然后利用智能供一个较好的初始的搜索起点,然后利用智能优化算法只采用较小的进化代数就可搜寻到较优化算法只采用较小的进化代数就可搜寻到较优的特征子集。优的特征子集。*39数据挖掘中的特征选择*40数据挖掘中的特征选择
限制150内