数据挖掘填空题复习资料(共2页).docx

资源ID：13528333 资源大小：20.20KB 全文页数：2页
资源格式： DOCX 下载积分：20金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要20金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

数据挖掘填空题复习资料(共2页).docx

精选优质文档-倾情为你奉上1.属性的数据性质包括：相异性，有序性，可和差性和可乘除性四个性质2.根据属性所具有的数值性质不同可将属性分为定性属性和定量属性3.根据属性值得个数不同可将属性分为离散型和连续型4.根据属性的数值性质可将属性分为四种属性类型标称，序数，区间，比率5.非对称的属性是指自由出行属性非零值才是重要的属性6.数据集的一般特性包括维度，稀疏性，分辨率7.数据集的维度是数据集中的属性数目8.稀疏数据集是指该数据集的数据对象具有的属性数目9.记录数据分为事务数据，数据矩阵，稀疏数据矩阵三大类11.基于图形的数据分为带有对象之间联系的数据，具有图形对象的数据12.常见的有序数据有时间数据，序列数据，空间数据，时间序列数据13.空间数据的一个重要特点是空间自相关性，即物理上靠近的对象趋向于在其他方面也相似14.抽样方法有简单随机抽样，分层抽样，渐进抽样15.抽样偏倚是指样本包含的不同类型的对象与它们在总体中的出现情况下不成比例16.特征选择过程可以看作由四部分组成：于集评估度量，控制新的特征子集产生的搜索策略，停止搜索判断，验证过程17.特征加权是指另一种保留或删除特征的方法，权值越大，特征越重要，它在模型中起的作用越重要18.特征创建是指由原来的属性创建新的属性，更有效地捕捉数据集中的重要信息19.三种创建新属性的方法是特征提取，特征构造，映射数据到新的空间20.将连续属性变换成分类属性过程称为离散化21.将连续和离散属性变换成一个或多个二元属性的过程称为二元化22.连续属性离散化方法分为非监督离散化，监督离散化方法，它们的区别在于使用类信息还是不使用类信息23.非监督离散化分为等宽，等频率，聚类方法27数据集中任何两个对象之间的距离构成的矩阵称为距离矩阵四、1.区别分类与回归的关键特征是类标号必须是离散属性。2.分类的两个主要目的是进行描述性建模和预测性建模。3.分类模型的误差可分为训练误差和泛化误差。4.训练误差也称再带入误差或表现误差，是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。5.一个号的分类模型不仅要能够很好地拟合训练数据，而且对未知样本也要能准确地分类。即一个号的分类模型必须具有低训练误差和低泛化误差。6.在分类模型评估的保持方法中，将被标记的原始数据划分成两个不相交的集合，分别称为训练集和检验集。在训练数据集归纳分类模型，在检验集上评估模型的性能。7.在分类模型评估的K折交叉验证方法中，吧数据分为大小相同的K份，在每次运行，选择其中一份作检验集，而其余的全作为训练集。五、1.分类规则的质量可用规则的覆盖率和准确率表示。2.规则集的两个重要性质是互斥规则和穷举规则。3.如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则是互斥的，这个性质确保每条记录至多被R中的一条规则覆盖。4.如果对属性值的任意组合，R中都存在一条规则加以覆盖，则称规则集R具有穷举覆盖。这个性质确保每一条记录都至少被R中的一条规则覆盖。5.提取分类规则的方法有直接方法和间接方法两大类。6.提取分类规则的直接方法是指把属性空间分为较小的子空间以便于属于一个子空间的所有记录可以使用一个分类规则进行分类。7.提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述。8.规则的排序方案有基于规则的排序方案和基于类的排序方案两种。9.常见的分类规则增长策略有从一般到特殊和从特殊到一般两种第六章1.关联规则挖掘的目的是用于发现隐藏在大型数据集中的有意义的联系。2.满足最小支持度和最小信任度的关联规则称为强关联规则。3.给定一个事务数据库，关联规则挖掘问题就是通过用户指定的最小支持度和最小置信度来寻找强关联规则的过程。4.关联规则挖掘问题可以划分成频繁项集产生和规则的产生两个子问题，5.可以降低产生频繁项集的计算复杂度两种方法为：减少候选项集的数目和减少比较次数。6.Apriori算法有两个知名的性能瓶颈。分别是1. 0/1负载很大，需要多次扫描事务数据库。 2. 可能产生庞大的候选集。维归约是指数据预处理的一个重要动机是减少维度区别分类与回归的关键特征是类标号必须是离散属性提取分类规则的直接方法是指把属性空间分为较小的子空间，以便于属于一个子空间的所有记录可以使用一个分类规则进行分类、提取分类规则的间接方法是指使用分类规则较为复杂的分类模型提供简洁的描述关联规则挖掘问题可以划分为频繁项集产生和规则的产生两个子问题可以降低生产频繁项集的计算复杂度两种方法为减少候选项集的数目和减少比较次数K-候选集Ck产生的方法有：蛮力方法，和Apriori算法有两个致命的性能瓶颈。1.他们分别是0/1负载很大，需要多次扫描事物数据库，2.可能产生庞大的候选集抽样偏倚是指样本包含不同类型的对象以及他们在总体重的出现情况不成比例特征选择过程可以看作有四个部分组成收集评估度量、控制新的特征子集产生可搜索策略、停止搜索判断和验证过程分类的两个主要目的是进行描述性建模和预测性建模训练误差也称在带入误差或表现误差，是在训练记录上误分类样本比例泛化误差是模型在未知记录上的期望误差预测建模有分类和回归两类，他们的区别在于分类用于预测额离散的目标变量，而回归用于预测连续的目标变量特征子集的选择方法有嵌入、过滤、和包装专心-专注-专业

注意事项

本文（数据挖掘填空题复习资料(共2页).docx）为本站会员（飞****2）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。