【数据分析与挖掘】期末复习笔记(不挂科)-精品文档资料整理.docx
-
资源ID:73267996
资源大小:15.23KB
全文页数:4页
- 资源格式: DOCX
下载积分:14.8金币
快捷下载
![游客一键下载](/images/hot.gif)
会员登录下载
微信登录下载
三方登录下载:
微信扫一扫登录
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
【数据分析与挖掘】期末复习笔记(不挂科)-精品文档资料整理.docx
【数据分析与挖掘】期末复习笔记(不挂科)支持度 Support 包含项集的事务数与总事务数的比值例如 s(Milk, Bread, Diaper) 2/5 频繁项集 Frequent Itemset 知足最小支持度阈值 minsup 的所有项集 8.2 关联规那么 关联规那么是形如 X- Y 的蕴含表达式, 其中 X 以及 Y 是不相交的项集 例子 Milk, Diaper- Beer 关联规那么的强度 支持度 Support (s) 确定项集的频繁程度 置信度 Confidence c 确定Y在包含X的事事务中出现的频繁程度 关联规那么挖掘问题 给定事务的集合 T, 关联规那么发现是指找出支持度大于等于 minsup 并且置信度大于等于minconf的所有规那么, minsup以及minconf是对应的支持度以及置信度阈值。 8.3 先验原理 假如一个项集是频繁的 那么它的所有子集一定也是频繁的相反 假如一个项集是非频繁的 那么它的所有超集也一定是非频繁的 8.4 FP-tree挖掘频繁集 根本思想 (分治) 用FP-tree递归增长频繁集 方法 对每个项 生成它的条件形式基, 然后生成它的条件 FP-tree对每个新生成的条件FP-tree 重复这个步骤直到结果FP-tree为空 或者只含唯一的一个途径 (此途径的每个子途径对应的项集都是频繁集) 笔记 KDD KDD全称Knowledge Discovery in Database 数据挖掘与知识发现 聚类 聚类 Clustering 是把数据对象划分成子集的经过 就是将数据分组成为多个类 Cluster 。在同一个类内对象之间具有较高的相似度 不同类之间的对象之间的差异较大。 数据的属性类型 数据的属性类型有 1、标称属性。 标称属性的值是一些符号或者实物的名称 每个值代表某种类别、编码或者状态 所以标称属性又被看做是分类型的属性 categorical 。这些值不必具有有意义的序 并且不是定量的。 2、二元属性。 二元属性是一种标称属性 只有两个类别或者状态 0或者1 其中0常表示不出现 1表示出现。假如将0以及1对应于false以及true 二元属性那么为布尔属性。 3、序数属性。 序数属性可能的取值之间具有有意义的序或者秩评定 但相继值之间的差是未知的。例如 学生的成绩属性可以分为优、良、中、差四个等级 某快餐店的饮料杯具有大、中、小三个可能值。然而 详细“大比“中大多少是未知的。 4、数值属性。 数值属性是可度量的量 用整数或者实数值表示 有区间标度以及比率标度两种类型。区间标度属性 区间标度属性用相等的单位尺度度量。区间属性的值有序。所以 除了秩评定之外 这种属性允许比拟以及定量评估值之间的差 比率标度属性 比率标度属性的度量是比率的 可以用比率来描绘两个值 即一个值是另一个值的倍数 可以以计算值之间的差。 5、离散属性与连续属性。 离散属性具有有限或者无限可数个值。如学生成绩属性 优、良、中、差 二元属性取1以及0和年度龄属性取0到110。如一个属性可能取值的值集合是无限的 但可以建立一个与自然数的一一对应 那么其也是离散属性。假如一个属性不是离散的 那么它是连续的。 四分位数极差(IQR) 四分位差 quartile deviation 它是上四分位数 Q3 即位于75% 与下四分位数 Q1 即位于25% 的差。 计算公式为 Q Q3-Q1 四分位差反映了中间50%数据的离散程度 其数值越小 讲明中间的数据越集中 其数值越大 讲明中间的数据越分散。四分位差不受极值的影响。此外 由于中位数处于数据的中间位置 因此 四分位差的大小在一定程度上也讲明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据可以以计算四分位差 但不合适分类数据。 四分位数是将一组数据由小到大 或者由大到小 排序后 用3个点将全部数据分为4等份 与这3个点位置上相对应的数值称为四分位数 分别记为Q1 第一四分位数 讲明数据中有25%的数据小于或者等于Q1 Q2 第二四分位数 即中位数 讲明数据中有50%的数据小于或者等于Q2、Q3 第三四分位数 讲明数据中有75%的数据小于或者等于Q3。其中 Q3到Q1之间的间隔 的差的一半又称为分半四分位差 记为 Q3-Q1 /2。