【数据分析与挖掘】期末复习笔记(不挂科)-精品文档资料整理.docx
《【数据分析与挖掘】期末复习笔记(不挂科)-精品文档资料整理.docx》由会员分享,可在线阅读,更多相关《【数据分析与挖掘】期末复习笔记(不挂科)-精品文档资料整理.docx(4页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【数据分析与挖掘】期末复习笔记(不挂科)支持度 Support 包含项集的事务数与总事务数的比值例如 s(Milk, Bread, Diaper) 2/5 频繁项集 Frequent Itemset 知足最小支持度阈值 minsup 的所有项集 8.2 关联规那么 关联规那么是形如 X- Y 的蕴含表达式, 其中 X 以及 Y 是不相交的项集 例子 Milk, Diaper- Beer 关联规那么的强度 支持度 Support (s) 确定项集的频繁程度 置信度 Confidence c 确定Y在包含X的事事务中出现的频繁程度 关联规那么挖掘问题 给定事务的集合 T, 关联规那么发现是指找出支
2、持度大于等于 minsup 并且置信度大于等于minconf的所有规那么, minsup以及minconf是对应的支持度以及置信度阈值。 8.3 先验原理 假如一个项集是频繁的 那么它的所有子集一定也是频繁的相反 假如一个项集是非频繁的 那么它的所有超集也一定是非频繁的 8.4 FP-tree挖掘频繁集 根本思想 (分治) 用FP-tree递归增长频繁集 方法 对每个项 生成它的条件形式基, 然后生成它的条件 FP-tree对每个新生成的条件FP-tree 重复这个步骤直到结果FP-tree为空 或者只含唯一的一个途径 (此途径的每个子途径对应的项集都是频繁集) 笔记 KDD KDD全称Kno
3、wledge Discovery in Database 数据挖掘与知识发现 聚类 聚类 Clustering 是把数据对象划分成子集的经过 就是将数据分组成为多个类 Cluster 。在同一个类内对象之间具有较高的相似度 不同类之间的对象之间的差异较大。 数据的属性类型 数据的属性类型有 1、标称属性。 标称属性的值是一些符号或者实物的名称 每个值代表某种类别、编码或者状态 所以标称属性又被看做是分类型的属性 categorical 。这些值不必具有有意义的序 并且不是定量的。 2、二元属性。 二元属性是一种标称属性 只有两个类别或者状态 0或者1 其中0常表示不出现 1表示出现。假如将0以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析与挖掘 数据 分析 挖掘 期末 复习 笔记 不挂科 精品 文档 资料 整理
限制150内