数据挖掘填空题复习资料(共2页).docx
《数据挖掘填空题复习资料(共2页).docx》由会员分享,可在线阅读,更多相关《数据挖掘填空题复习资料(共2页).docx(2页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1.属性的数据性质包括:相异性,有序性,可和差性和可乘除性四个性质2.根据属性所具有的数值性质不同可将属性分为定性属性和定量属性3.根据属性值得个数不同可将属性分为离散型和连续型4.根据属性的数值性质可将属性分为四种属性类型标称,序数,区间,比率5.非对称的属性是指自由出行属性非零值才是重要的属性6.数据集的一般特性包括维度,稀疏性,分辨率7.数据集的维度是数据集中的属性数目8.稀疏数据集是指该数据集的数据对象具有的属性数目9.记录数据分为事务数据,数据矩阵,稀疏数据矩阵三大类11.基于图形的数据分为带有对象之间联系的数据,具有图形对象的数据12.常见的有序数据有时间
2、数据,序列数据,空间数据,时间序列数据13.空间数据的一个重要特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似14.抽样方法有简单随机抽样,分层抽样,渐进抽样15.抽样偏倚是指样本包含的不同类型的对象与它们在总体中的出现情况下不成比例16.特征选择过程可以看作由四部分组成:于集评估度量,控制新的特征子集产生的搜索策略,停止搜索判断,验证过程17.特征加权是指另一种保留或删除特征的方法,权值越大,特征越重要,它在模型中起的作用越重要18.特征创建是指由原来的属性创建新的属性,更有效地捕捉数据集中的重要信息19.三种创建新属性的方法是特征提取,特征构造,映射数据到新的空间20.将连续属
3、性变换成分类属性过程称为离散化21.将连续和离散属性变换成一个或多个二元属性的过程称为二元化22.连续属性离散化方法分为非监督离散化,监督离散化方法,它们的区别在于使用类信息还是不使用类信息23.非监督离散化分为等宽,等频率,聚类方法27数据集中任何两个对象之间的距离构成的矩阵称为距离矩阵四、1.区别分类与回归的关键特征是类标号必须是离散属性。2.分类的两个主要目的是进行描述性建模和预测性建模。3.分类模型的误差可分为训练误差和泛化误差。4.训练误差也称再带入误差或表现误差,是在训练记录上误分类样本比例。泛化误差是模型在未知记录上的期望误差。5.一个号的分类模型不仅要能够很好地拟合训练数据,而
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 填空 复习资料
限制150内