数据挖掘主要算法及流程说明(共7页).doc
《数据挖掘主要算法及流程说明(共7页).doc》由会员分享,可在线阅读,更多相关《数据挖掘主要算法及流程说明(共7页).doc(7页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上数据挖掘主要算法及流程说明1 贝叶斯概率算法1) 贝叶斯概率算法主要应用于离散分类应用中,其要求属性集保持相对独立性或者具有弱关联关系。2) 贝叶斯概率算法主要是适用于分类问题,进行所属类型的判定;通过对各种属性及概率的最大似然估计判断,得到最终分类结果。3) 贝叶斯分类算法的决策依据(以二分类为例):最小误差分类,即,则将X分到类别y1,否则为y2,其相应错误分类概率为。最小风险分类:通过错误代价矩阵判定应该归属类,其代价矩阵为,风险矩阵值通过给定风险函数确定,风险函数为:,若,则将X分到类y1中,否则分到类别y2中。4) 在判定中,习惯于选择正态密度函数作为数据分
2、布的假设,计算变量X的最终所属分类为便于描述,X表示属性集,Y表示类变量。贝叶斯概率算法的主要步骤可以分成两大步:创建网络拓扑结构估计每一个属性的概率表中的概率值。其中,网络拓扑结构(有向无环图)生成,是简化贝叶斯概率算法复杂度的一个重要步骤。网络拓扑结构可以通过对主观的领域专家知识编码进行获得,其主要流程处理如下:a) 假设表示变量的全序b) For j=1,2,d doc) 令表示T中第j个次序最高的变量d) 令表示排在前面的变量集合e) 去掉集合中对变量没有影响的变量,通过先验概率进行判断。f) 在和集合中剩余的变量之间画弧,即表示彼此之间存在一定的互相影响关系。g) End for依据
3、统计数据的概率值进行结果分类判定,其主要执行步骤如下:1. 假设表示所有的属性集合,表示所有的类变量集合。2. 合计统计数据集的数量,即为N。3. For i = 1,2,m do4. For j = 1,2,n do5. 统计结果为Yi时,恰好相应属性集分别为Xj时的数目Nij。6. Pij = Nij/N(即计算的统计概率)。7. End for8. 计算后验概率,表示当前待判定的属性集合9. End for10. 选择最小概率误差结果的Yk,(k=1,2,m)表示最终分类结果注:1 在进行贝叶斯网络拓扑结构生成过程中,需要人为适当干预,确定变量中的原因变量与结果变量成分,然后从各原因变量
4、向其对应的结果变量画弧,否则计算量会达到d!之多。2 在特殊情况下,若训练样例不能保证覆盖所有属性值时,可以针对为覆盖属性指定用户概率值p,尤其适用于训练样集相对比较小的情况。3 计算后验概率时,依据贝叶斯网络拓扑结构的因果关系图,进行直接乘法操作或者判定无关而直接取先验概率。4 针对属性集中的相关属性,需要进行打捆处理,否则可能会降低贝叶斯算法的分类效果。2 神经网络算法1) 神经网络算法是一种由多个输入经计算到单个输出的处理算法,对信息的处理是非线性的。2) 神经网络算法的输入层与输出层之间可以包含多个中间层,对于不同模型的神经网络算法各神经元节点之间存在不同的连接方式。3) 神经网络算法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 主要 算法 流程 说明
限制150内