数据挖掘复习.doc

上传人：豆****

文档编号：17613927

上传时间：2022-05-25

格式：DOC

页数：12

大小：377KB

( 4.5 )

《数据挖掘复习.doc》由会员分享，可在线阅读，更多相关《数据挖掘复习.doc（12页珍藏版）》请在淘文阁 - 分享文档赚钱的网站上搜索。

1、【精品文档】如有侵权，请联系网站删除，仅供学习与交流1.2.3.4. 数据挖掘复习.精品文档.5. 样本组织的3种方法随机分组法：样本量大的用随机分组法，把2/3样本作为学习样本构建模型，剩余1/3作为测试样本，测试模型性能。K折交叉验证法：样本量不多，交叉分组分为K组，依次从K组数据中选1组作为测试样本，其余9组作为学习样本。留一法：样本量很少，留1例作为测试样本，其余作为学习样本，依次循环。6. 关于数据的预处理二值型数据（是否归一化变成0或1）分类型和排序型就是变成0.1.2.3.4（如胃癌分期等）数值型就是血压,心率之类的具体数据对数值型数据进行归一化,就是要让数值都变化在【0,1】比

2、较大的数值：常用的几种十进计数法，用于比较大的数值，分散又比较开，可以直接把这些数值除以10的整次幂（就是10的平方，三次方之类）对于数据不多且数值不大：可以采用最小-最大归一法：把取值范围定在0,1，就可简化公式为：新值=（原值-原min）/（原max-原min）这样处理以后数据中最大值变为1最小值变为0Z分数归一法：新值=（原值-均值）/标准差此法主要用于原始数据取值范围无法知道或原始数据中的最大值或最小值与均值偏离很大最后一种对数归一法：直接计算器In原值就出来新值了，对数归一法对原始数据压缩后不引起信息的损失7. 比较性能四格六格表：灵敏度、特异度、正确率和ROC曲线。要把提供的

3、6格表合并为4格表8. 回归分类决策树模型表达规则三种模型比较性能：分别是logistic回归决策树人工神经网络5.聚类关联：如何取舍样本组织例1.预测型模型肺癌干预(手术/手术化疗)及预后（五年生存）共5万个样本，其中1.7万干预后5年内死于肺癌如何组织数据进行数据挖掘？例2.共1000个，其中315个五年内死亡如何组织数据？例3.共49个，14个5年内死亡，35个存活如何组织数据？假设：1,0000例样本中，1000例生存期小于5年，9000例生存期大于5年。问题：如何分配样本数据？ 2:1 兼顾总体分布的随机分组若有1000例样本数据，现进行10折交叉验证v 每次的训练样本量是多少？v

4、 10次训练模型是否存在差异？v 最终模型是什么？v 模型的性能参数如何选取？讨论1.学习/测试样本与病例/对照实验的区别？2.随机分组、K折交叉验证、留一法，分别对于样本总体数据的要求是否有定律？3.在随机分组过程中，需要兼顾总体分布一致性，是依据模型结果分还是依据模型原因分配？为了建立肺癌5年生存率的预后模型。收集了5,0000条数据，其中：1,7000个病例在手术后5年内死于肺癌。1. 对于该样本数据，应如何组织？2. 若病例数量收集总计为1000例，其中：315例5年内死亡，685例存活。则数据如何组织？ 3. 若上述病例只有49例，其中：14例5年内死亡，35例存活。该如何组织？为

5、了建立肺癌5年生存率的预后模型。收集样本总计为1000例，其中：315例5年内死亡，685例存活。分别针对下列情况，该样本数据，应如何组织？1. 以“病理分级”、“手术状态”、“是否化疗”等3项特征属性建立数据挖掘模型。2. 以“病理分级”、“手术状态”、“是否化疗”、“性别”、“年龄”、“婚否”、“是否吸烟”、“是否有家族史”、“职业”、“CT影像结论”、“以往病史”、“每天运动量”、“情绪反应及心理状态”、“其他用药记录”等15项特征属性建立数据挖掘模型。预测型模型的性能评价分类/预测阳性分类/预测阴性实际阳性TPFN实际阴性FPTN灵敏度=TP/TP+FN特异度=TN/TN+FP分类正确

6、率=TP+TN/TP+TN+FP+FN例：ECG(electrocardiogram)诊断试验的结果心肌梗塞ECG诊断结果合计阳性阴性出现不出现合计416(TP)104（FN）5209 (FP)171（TN）180425275700(N)灵敏度=？特异度=？分类正确率=?例4. 继续前例，干预及预后（五年生存）共5万个样本，其中1.7万干预后，5年内死于肺癌，其余3.3万存活。假定对上述数据分别建立了预测型模型A和B，试比较两个模型的性能。模型A预测为死亡预测为生存实际死亡例数13940306017000实际生存例数6600264003300050000模型B预测为死亡预测为生存实际死亡

7、例数12470 4530 17000实际生存例数5130 27870 3300050000比较模型A与B：灵敏度特异度正确率ROC模型A81.8%80.0%80.7%0.81 模型B73.4%84.5%80.7%0.79 讨论：模型A与模型B，哪个更优？假设一种干预方法，预后为二种状态，共采集5万条样本，以生存率5年为评判标准，其中17000例5年内死于此病。现测试结果如下：1.请计算：灵敏度、特异度、正确率。 2.还有什么方法可用以评价？假设前一结果为模型A的测试结果，现用模型B，学习样本/测试样本是相同的，其结果为：如何比较模型A与B的性能？正确率灵敏度特异度AUC模型 A0.8070.8

8、20.800.81模型 B0.8070.730.840.79讨论:本研究是否合理？v 背景：(1)促性腺素释放激素激发试验，静脉注射GnRH的即刻及30min和60min后分别采集血样本，以免疫化学发光法检测血清促黄体生成素(LH)水平。若LH峰值5.0IU/L，则可诊断受检者为性早熟。(2)对受检者作盆腔超声检查，测量子宫、双侧卵巢和最大卵泡内径。v 目的：以超声测量值来预测受检者的LH水平。v 验证：采集71例样本，随机分组61例为学习样本，10例为测试样本。所有样本均经超声检测相应的测量值和以免疫化学发光法实测血样的LH值。以所建模型预测10例测试样本的LH水平，得到其LH预测值。 v

9、分析：对于10例测试样本LH水平的预测值和实测值作线性回归分析，得相关系数为0.9485。v 结论：两者相关性高，可以超声测量值来预测受检者的LH水平 ? v 将基于D-score与基于F-score的混合特征选择对红斑鳞状皮肤病的诊断结果进行了实验比较，结果见表v 结论：D-score特征评价准则是一种更有效的特征辨识能力评价准则，结果优于基于F-score准则的混合特征选择方法结论可信？需排除随机分组误差的影响十折交叉验证重复N次进一步分析比较F/Dscore所获取的特征的异同数据变换例：若舒张压原始数据为：90,110,105,140,220,138,182,205,105,11

10、0 则，进行下列数据变换后的新数据是？若舒张压原始数据为：90,110,105,140,220,138,182,205,105,110 则，进行下列数据变换后的数据是？(1)十进计数法，新的取值范围为-1,1 0.09,0.11,0.105,0.14,0.22,0.138,0.182,0.205,0.105,0.11(2)最小-最大归一法，新的取值范围为0,1 0.00,0.15,0.12,0.38,1.00,0.37,0.71,0.88,0.12,0.15(3)Z-Score（均值为140.5，方差为46.1164）-1.10，-0.66，-0.77，-0.01，1.72，-0.05，0.9

11、0，1.40，-0.77，-0.66(4)对数归一化 4.50，4.70，4.65，4.94，5.39，4.93，5.20，5.32，4.65，4.70例：构建模型，乳腺癌患者预后受哪些因素影响？如何影响？数据来源：NCI提供的SEER报告，长期收集美国的癌症患者数据，有三个数据库。原始记录779999条，特征属性115项，数据收集于1973-2004年间。对于这样一批数据，如何进行预处理？ (1)来自于不同数据库，如何保证数据的一致性？(2)数据不完整，属性缺失，如何处理？(3)数据噪声如何识别？如何判别？ (4)115项特征属性如何取舍？取舍依据？(5)样本数据如何组织？分析下列数据的特

12、征属性类型：姓名 ID（记录号）性别年龄血糖、血脂、高密度值蛋白肿瘤类型肿瘤TNM分期 Logistic回归实例：糖尿病人数据n 血脂、血压、血糖：1 异常，0正常n 心血管终点事件(endpoint)：1 发生，0未发生n 有何影响？如何影响？(1)采集数据：10524条记录 15.47% 1628例发生终点事件 84.53% 8896例未 n 原始数据数据整理建立线性logistic回归模型： P39 式3.7(3)测试样本的测试结果：(4)如何解释上述回归模型？血脂 0.161，权重最小血压 0.992，最大血糖 0.444人工神经网络若干因素对癌症患者预后的影响

13、：自变量，2个1)干预方式X1：手术，手术加化疗2)原发肿瘤部位 X2：1 穿透浆膜，0 未穿透n 应变量：预后（如5年生存或死亡）n 采集数据：学习样本 1514例，测试样本787例n 设计模型，表达因素间关系如何选择模型？数据预处理？性能评价？A10B10问题：哪个模型更适合本项研究？回归树例：起始点如何选取？例3.3 根据受检者的检验结果，确定该受检者是否可以戴隐形眼镜，适合戴硬性的还是软性的隐形眼镜。P42,表3.1？不推荐：5硬性：8软性：8根结点的选择依据：同类占样本最多者分支中的样本归属不是同一个类别,需要再分叉特征属性不能重复使用有可能出现分到最后仍不能分的情况分支原则

14、：以占同类样本数的比例最高项作为分支依据层次、叶子不宜过多最终形成的结果（产生式规则） IF 泪流量=减少 THEN 不推荐ELSE IF 散光=无 THEN 推荐软性镜片（误差12.50%）ELSE IF 视力=近视 THEN 推荐硬性镜片（误差14.29%）ELSE IF 老视=未老视 THEN 推荐硬性镜片（误差0）ELSE 不推荐（误差0）分类 P62例4.5决策树分类器-信息增益：“年龄”的信息增益最大，因此，根节点为“年龄”按信息增益，可去掉“血脂”决策树分类器：不按信息增益值，以“血压”来分类两种分类方法的比较：方法1：2层，简洁，易理解、易解释；方法2：3层方法1：用到3个特征

15、属性，舍去信息增益小的、对结果无影响；方法2：用到4个特征属性决策树分类器按最大比例决策树分类器对数据敏感表达知识的形式直观、易于理解不同节点的选择，结果有差别软件可实现繁复的计算（如信息增益）应用实例: 大脑胶质瘤恶性程度判别目的：以数据挖掘的方法，根据已有的历史数据，构建预测术前大脑胶质瘤患者恶性程度的分类模型，便于制定治疗方案、降低手术风险和开支研究目标变为DM的问题：预测型分类数据采集：280个病例：169例为低度恶性、111例为高度恶性特征属性：14项数据预处理：14项特征属性：年龄（130、3160、6190）增强后强化：无、均匀、不均匀性别：男、女血供：一般、中等、丰富胶质瘤形

16、态：圆、椭圆、不规则坏死：无、有轮廓：清晰、部分清晰、不清晰出血：无、急性、慢性包膜：有、无钙化：无、有水肿：无、轻、中、重T1加权：低、低+等、低+等+高数据预处理决策树ANN（1）ANN（2）归一化年龄13031606190原值1、2、3水肿：无、轻、中、重0、1、2、30、0.333、0.667、1增强后强化：无、均匀、不均匀缺失值为1（126例）恶性程度：低度、高度1、2数据的组织：十折交叉验证法数据挖掘建立模型：决策树人工神经网络可理解性和易用性比较：决策树采用了与自然语言相近的表达方式，结果直观而容易理解ANN由于采用权值矩阵表达诊断知识，它们最不易被使用者解读。不仅如此，采

17、用MLP进行判决时涉及较为复杂的矩阵运算，因此其结果也不适于直接使用。准确性比较一：准确率都超过了80 MLP(1)对测试集的判别率最高，MLP(2)次之， ID3最低准确性比较二在隐层节点数相同时，MLP(1)C年龄”未作离散化)对测试集的准确率大体高于MLP (2)(“年龄”离散化) 这表明对MLP而言，离散化“年龄”属性降低了样本的可分性。聚类：例：数值型数据间的相似性相似性判断：式5.1原始数据结论：1、2相似程度高，这一结论可信吗？问题：年龄、血压范围、数量级不同，应归一化：0,1结论：1、3相似程度高分类（二值型）的相似性例1： Xi=0, 0, 1, 1, 0, 1, 0, 1X

18、j=0, 1, 1, 0, 0, 1, 0, 0对称型：D=3/8, S5/8非对称型： D=3/5, S2/5（忽略特征值均为0的属性）例2：（二值型-对称）式5.10 式5.11 结论：1、2相似程度高分类型（多值、非排序）的相似性式5.14例：N=1，单个属性相似 N=2，相似排序型：转为数值型后，式5.16 ，计算相似性例结论：相似程度最高，最不相似d大小说明相似程度不一样，可定量衡量混合型数据之间的相似性度量，式5.17相似度最高聚类过程例（同分类）：12个样本有两个特征属性f1、f2，类别未知，要分成两类（同分类）：随机放入A、B两类:1,4,8A0 3,7,9,10B

19、0初始，求聚类中心（均值）:CA0 (4.67, 5) CB0 (6.75, 6.25)各样本到聚类中心的距离迭代， CA1 (4.17, 3.33) CB1 (9, 7)不断逼近的过程，细微的调整、优化再迭代， CA2 (4.71, 3.14) CB2 (9.20,8.00) 结果与上次完全相同迭代结束的条件：聚类结果与上一次相同聚类中心不再变化（更易得到）本例最终聚类结果与分类学习样本不一致分类：根据已知样本构造模型、预测未知聚类：对现有现象的描述应用实例:聚类在基因表达谱知识挖掘中的应用目的：对两个公共的基因表达数据集进行研究，以发现大规模基因表达谱蕴含的信息研究目标变为DM的问题：聚

20、类数据采集：CNS数据集：NCI60数据集：数据预处理数据挖掘建立模型：贝叶斯聚类结果一：CNS数据集：生成了9 个类等等结果二：NCI60数据集分成5大类2个小类等等关联规则的分析方法例：关注提升度属性多，两两组合多，则规则多，共生现象多进一步：心超更应关注提升度例：置信度最高原则选择特征基因芯片DNA微阵列技术（高通量）102个样本，50个正常，52个前列腺癌。每个样本均含有12600个基因的表达数据哪些基因，对诊断有提示作用（特异性作用）？维度高，样本少（12600个基因，102个样本）取值：A（Absent）未表达 P（Present）表达 M（Marginal）边际表达若是，值为1，否则，为0关注有标记能力的特征：在肿瘤样本中频繁出现、在正常样本极少被观察到 102个样本，50个正常，52个前列腺癌（是A、M或P ） i=1,2,12600 正常50 前列腺癌52 设定置信度阈值为0.8找到 12（tumor） + 19（normal） 31个基因

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘复习

淘文阁 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：数据挖掘复习.doc
链接地址：https://www.taowenge.com/p-17613927.html