最新心理测量中的数据挖掘PPT课件.ppt
《最新心理测量中的数据挖掘PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新心理测量中的数据挖掘PPT课件.ppt(110页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、心理测量中的数据挖掘心理测量中的数据挖掘2007.082007.08目录2013.5数据挖掘技数据挖掘技术术概述概述关联规则关联规则2决策树决策树3来华留学生跨文化来华留学生跨文化适应性测量的数据挖掘适应性测量的数据挖掘412007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.082007.08 数据挖掘的任务:数据总结:对数据进行压缩;分类和预测:建立一个分类函数或分类模型;发现关联规则:从数据库中发现那些置信度(Confidence)和支持度(Support)都大于给
2、定值的稳健(Robust)规则;2007.082007.08 聚类分析:使得属于同一个类别的个体之间的距离尽可能小,而使不同类别个体之间的距离尽可能大,把一组个体按照相似性进行归类;以及孤立点分析、演变分析等任务。2007.082007.08 1.2 数据挖掘的方法(1)分类方法:决策树前馈神经网络(BP网络、RBF网络)基于规则的方法(AQ算法、C4.5rule)支持向量机贝叶斯分类粗糙集2007.082007.08 (2)聚类方法划分聚类(k-means算法)层次聚类基于密度的聚类Kohonen聚类(自组织特征映射)2007.082007.08 (3)关联分析频繁项集挖掘算法(Aprior
3、i算法)关联规则生成算法2007.082007.08 1.3 数据挖掘过程(1)数据准备数据选择、数据预处理及数据类型转换其中的数据预处理工作至关重要,也称为数据清洗,目的是消除或减少噪声。2007.082007.08 包括数据清理、合并、离散化等。数据清理主要是删除重复记录的数据,查找错误的属性值,利用均值等方式填补缺失值,识别和删除孤立点,平滑噪声数据(脏数据)。2007.082007.08 数据离散化主要是将连续性质的属性值采用区间的标记来替代实际的数据值,即用区间标记替换连续属性的数值。2007.082007.08 (2)选择算法根据数据挖掘的目的,如数据分类、聚类、关联规则发现等,选
4、择相应的挖掘算法。2007.082007.08 (3)对模式进行评估对于冗余或无关的模式进行剔除;对于不满足实际要求的模式,返回到前面的阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至变换挖掘算法等。2007.082007.082 2、关联规则关联规则为了考察两个变量线性相关的密切程度,通常采用相关系数对变量间关系进行度量。关联规则比相关系数能够得到更多信息,可以量化相互关系中两者的出现概率,以及前者出现对后者出现的影响率。2007.082007.08 即一个事件的出现时,另一事件出现的概率有多大,如果概率较大,则前后两者的关系接近因果关系,因此比相关分析的结果更有意义。2007
5、.082007.08 相关系数的缺点:作为线性关联的度量,不便于描述非线性关系,且非线性关系与变量分布有关,计算方法也不同。2007.082007.08 对于不同类型的数据,需要采用不同的相关系数。等距变量:Pearson相关系数;两个等级变量:Spearman相关系数多个等级变量:Kendall和谐系数。采用不同方法得到的相关系数无法比较,关联规则可以在一定程度上解决该问题。2007.082007.08 2.1 2.1 关联规则方法的基本概念关联规则方法的基本概念关联规则是由Agrawal(1993)提出,最初提出的动机是针对购物篮分析问题,目的是从交易数据库中发现顾客购物的行为规则。200
6、7.082007.08 关联是指两个或多个变量的取值之间存在某种规律性,关联规则是描述两个或多个变量之间某种潜在关系的规则。2007.082007.08 实例:超市每周的交易记录称为事务,每一条事务都记录了一次交易中所销售的商品(称为项目)。因此管理者可了解本周各项目的销售量,还可发现哪些项目经常被顾客同时购买。2007.082007.08表1 样本数据D2007.082007.08 定义:项目全集 I=i1,i2,im ,是本周销售的所有项目的集合,在本例中,I=啤酒,果冻,面包,奶油,花生酱。2007.082007.08 定义:事务t是某个客户在一次交易中所购项目的集合,并且t I,在本例
7、中,t1=面包,果冻,花生酱。对应每一个事务有唯一的标识,记作tid。2007.082007.08 定义:事务集(事务数据库)D=t1,t2,tn是一系列的事务组成。定义:项目集是包含若干个项目的集合。定义:项目集维数是一个项目集中包含的项目的个数,也称为项目集长度。对于长度为k的项目集,称为k-项目集。2007.082007.08 支持度(support):设X是I中的一个项目集(即X I),D是一个事务集,那么称D中包含项目集X的事务个数与D中总的事务个数之比称为X在D中的支持度,记做support(X),support(X)=2007.082007.08 支持度用于发现频率出现较大的项目
8、集,即“某个项目集相对总事务所占的比重”。在本例中,假设项目集X=面包,花生酱,则在D中包含X的事务有t1,t2和t3,因为D中总的事务个数为5,故X在D中的支持度为60%。2007.082007.08 定义:最小支持度(minsup):由用户定义的可以接受的支持度的阈值。定义:对于项目集X,如果它的支持度不小于最小支持度,则称X为频繁项目集。2007.082007.08 只有从频繁项目集得到的关联规则才是有价值的。在本例中,假设minsup=40%,项目集X=面包,花生酱在D中的支持度为60%,因此X是频繁项目集。2007.082007.08 置信度(confidence):对于关联规则XY
9、,其中X和Y都是项目集,定义该规则的置信度为事务集合D中既包含X也包含Y的事务个数与D中包含X的事务个数之比,即项目集XY的支持度与X的支持度之比。2007.082007.08 置信度应用于在频繁项目集中发现频率较大的规则。2007.082007.08 在本例中,项目集X=面包,花生酱是频繁项目集,因此可以在其中寻找关联规则“面包花生酱”和“花生酱面包”。2007.082007.08 对于规则“面包花生酱”,Support(XY)=3/5=60%,Support(X)=4/5=80%,于是Confidence(XY)=60%/80%=6/8=3/4=0.75%,它表示这条规则的可信度,即“买面
10、包的顾客中有75%同时也买了花生酱”。2007.082007.08 对于规则“花生酱面包”,Support(XY)=3/5=60%,Support(X)=3/5=60%,Confidence(XY)=60%/60%=100%,它表示这条规则的可信度,即“买花生酱的顾客中100%同时也买了面包”。2007.082007.08 最小置信度:用户定义的一个置信度阈值,表示对于规则可以接受的最低可靠性。2007.082007.08 给定一个事务集D,挖掘关联规则就是产生支持度和置信度分别大于用户给定的最小支持度和最小置信度的关联规则。支持度用于衡量关联规则在整个数据集中的统计重要性,置信度用于衡量关联
11、规则的可信度。2007.082007.08 2.2 关联规则挖掘过程(1)挖掘频繁项目集依据用户给定的最小支持度,寻找所有的频繁项目集。2007.082007.08 (2)生成关联规则使用频繁项目集生成置信度大于等于最小置信度的关联规则。上述步骤(2)比较简单,而步骤(1)是一个NP问题,当项目数量较大时,要穷尽地搜索每一个频繁子集,是非常困难的问题,因此提出了许多算法。2007.082007.08 2.3 2.3 频繁项集挖掘算法频繁项集挖掘算法 Apriori算法:Agrawal(1994)提出,它使用宽度优先的迭代搜索方法。2007.082007.08 首先是统计所有含一个元素的项集出现
12、的频率,找出频繁1-项集集合F1,再用F1找频繁2-项集集合F2,再用F2找F3,依次循环,直到不能找到频繁k-项集为止。2007.082007.08 算法的核心部分是apriori_gen(Fk-1)函数,该函数的输入参数为(k-1)-项集集合Fk-1,输出结果为候选k-项集集合Ck。扫描数据库并计算Ck中候选k-项集的支持度。2007.082007.083 3、决策树决策树3.1 3.1 数据分类数据分类数据分类是从过去已分类的数据经验中学习各个类别的区别,建立模型,或者对未知类别的数据进行分类。决策树是一种重要的分类方法。2007.082007.08 3.2.1 3.2.1 决策树的概念
13、决策树的概念决策树是以实例为基础的归纳学习算法,采用自顶而下的递归方式,从根结点的每一条路径就是一条合取规则,整个决策树就是一组析取表达式规则。2007.082007.08 决策树由决策结点、分支和叶子组成,以树型结构(二叉树或多分支树)表示最终分类结果,生成If-Then形式的规则。其中叶结点是类名,中间结点是带有分支的属性,该分支对应该属性的某一可能值。2007.082007.08 多分支树 二叉树2007.082007.08表2 顾客购买计算机的数据库2007.082007.08 决策树的核心思想是根据对象的属性值将其进行划分,那么选择哪一个属性进行划分?接着再选择哪一个属性进行划分?因
14、为任何一个属性都可以用来对数据集进行划分,但最后形成的决策树差异很大,有的非常简洁,有的却很臃肿。因此要寻找最优的属性选择方法。2007.082007.08 3.2.2 3.2.2 分类回归树(分类回归树(CARTCART)的构造)的构造CART(Classification and Regression Tree)是一种有监督的学习算法,在使用CART 进行预测之前,必须先提供一个学习样本集对CART进行建构和评估,然后才能使用。2007.082007.08 样本集结构如下:L:=X1,X2,Xm,Y X1:=(x11,x 12,x 1t),(xm1,xm2,xmt)Y:=(y1,y2,yk
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 心理 测量 中的 数据 挖掘 PPT 课件
限制150内