数据挖掘复习.doc





《数据挖掘复习.doc》由会员分享,可在线阅读,更多相关《数据挖掘复习.doc(12页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流1.2.3.4. 数据挖掘复习.精品文档.5. 样本组织的3种方法随机分组法:样本量大的用随机分组法,把2/3样本作为学习样本构建模型,剩余1/3作为测试样本,测试模型性能。K折交叉验证法:样本量不多,交叉分组分为K组,依次从K组数据中选1组作为测试样本,其余9组作为学习样本。留一法:样本量很少,留1例作为测试样本,其余作为学习样本,依次循环。6. 关于数据的预处理二值型数据(是否归一化变成0或1)分类型和排序型就是变成0.1.2.3.4(如胃癌分期等)数值型就是血压,心率之类的具体数据对数值型数据进行归一化,就是要让数值都变化在【0,1】比
2、较大的数值:常用的几种十进计数法,用于比较大的数值,分散又比较开,可 以直接把这些数值除以10的整次幂(就是10的平方,三次方之类)对于数据不多且数值不大:可以采用最小-最大归一法: 把取值范围定在0,1,就可简化公式为:新值=(原值-原min)/(原max-原min)这样处理以后数据中最大值变为1最小值变为0Z分数归一法:新值=(原值-均值)/标准差此法主要用于原始数据取值范围无法知道或原始数据中的最大值或最小值与均值偏离很大最后一种对数归一法:直接计算器In原值就出来新值了,对数归一法对原始数据压缩后不引起信息的损失7. 比较性能四格六格表: 灵敏度、特异度、正确率和ROC曲线。要把提供的
3、6格表合并为4格表8. 回归分类决策树模型表达规则三种模型比较性能:分别是logistic回归决策树人工神经网络5.聚类关联:如何取舍样本组织例1.预测型模型肺癌 干预(手术/手术化疗)及预后(五年生存)共5万个样本,其中1.7万干预后5年内死于肺癌如何组织数据进行数据挖掘?例2.共1000个,其中315个五年内死亡如何组织数据?例3.共49个,14个5年内死亡,35个存活如何组织数据?假设:1,0000例样本中,1000例生存期小于5年,9000例生存期大于5年。问题:如何分配样本数据? 2:1 兼顾总体分布的随机分组若有1000例样本数据,现进行10折交叉验证v 每次的训练样本量是多少?v
4、 10次训练模型是否存在差异?v 最终模型是什么?v 模型的性能参数如何选取?讨论1.学习/测试样本与病例/对照实验的区别?2.随机分组、K折交叉验证、留一法,分别对于样本总体数据的要求是否有定律?3.在随机分组过程中,需要兼顾总体分布一致性,是依据模型结果分还是依据模型原因分配?为了建立肺癌5年生存率的预后模型。收集了5,0000条数据,其中:1,7000个病例在手术后5年内死于肺癌。1. 对于该样本数据,应如何组织?2. 若病例数量收集总计为1000例,其中:315例5年内死亡,685例存活。则数据如何组织? 3. 若上述病例只有49例,其中:14例5年内死亡,35例存活。该如何组织? 为
5、了建立肺癌5年生存率的预后模型。收集样本总计为1000例,其中:315例5年内死亡,685例存活。分别针对下列情况,该样本数据,应如何组织?1. 以“病理分级”、“手术状态”、“是否化疗”等3项特征属性建立数据挖掘模型。2. 以“病理分级”、“手术状态”、“是否化疗”、“性别”、“年龄”、“婚否”、“是否吸烟”、“是否有家族史”、“职业”、“CT影像结论”、“以往病史”、“每天运动量”、“情绪反应及心理状态”、“其他用药记录”等15项特征属性建立数据挖掘模型。预测型模型的性能评价分类/预测阳性分类/预测阴性实际阳性TPFN实际阴性FPTN灵敏度=TP/TP+FN特异度=TN/TN+FP分类正确
6、率=TP+TN/TP+TN+FP+FN例:ECG(electrocardiogram)诊断试验的结果心肌梗塞ECG诊断结果合 计阳 性阴 性出现不出现合计416(TP)104(FN)5209 (FP)171(TN)180425275700(N)灵敏度=?特异度=?分类正确率=?例4. 继续前例,干预及预后(五年生存)共5万个样本,其中1.7万干预后,5年内死于肺癌,其余3.3万存活。假定对上述数据分别建立了预测型模型A和B,试比较两个模型的性能。模型A预测为死亡预测为生存实际死亡例数13940306017000实际生存例数6600264003300050000模型B预测为死亡预测为生存实际死亡
7、例数12470 4530 17000实际生存例数5130 27870 3300050000比较模型A与B:灵敏度特异度正确率ROC模型A81.8%80.0%80.7%0.81 模型B73.4%84.5%80.7%0.79 讨论:模型A与模型B,哪个更优?假设一种干预方法,预后为二种状态,共采集5万条样本,以生存率5年为评判标准,其中17000例5年内死于此病。现测试结果如下:1.请计算:灵敏度、特异度、正确率。 2.还有什么方法可用以评价?假设前一结果为模型A的测试结果,现用模型B,学习样本/测试样本是相同的,其结果为:如何比较模型A与B的性能?正确率灵敏度特异度AUC模型 A0.8070.8
8、20.800.81模型 B0.8070.730.840.79讨论:本研究是否合理?v 背景:(1)促性腺素释放激素激发试验,静脉注射GnRH的即刻及30min和60min后分别采集血样本,以免疫化学发光法检测血清促黄体生成素(LH)水平。若LH峰值5.0IU/L,则可诊断受检者为性早熟。(2)对受检者作盆腔超声检查,测量子宫、双侧卵巢和最大卵泡内径。v 目的:以超声测量值来预测受检者的LH水平。v 验证:采集71例样本,随机分组61例为学习样本,10例为测试样本。所有样本均经超声检测相应的测量值和以免疫化学发光法实测血样的LH值。以所建模型预测10例测试样本的LH水平,得到其LH预测值。 v
9、分析:对于10例测试样本LH水平的预测值和实测值作线性回归分析,得相关系数为0.9485。v 结论:两者相关性高,可以超声测量值来预测受检者的LH水平 ? v 将基于D-score与基于F-score的混合特征选择对红斑鳞状皮肤病的诊断结果进行了实验比较,结果见表v 结论:D-score特征评价准则是一种更有效的特征辨识能力评价准则,结果优于基于F-score准则的混合特征选择方法 结论可信? 需排除随机分组误差的影响 十折交叉验证重复N次 进一步分析比较F/Dscore所获取的特征的异同数据变换例:若舒张压原始数据为:90,110,105,140,220,138,182,205,105,11
10、0 则,进行下列数据变换后的新数据是?若舒张压原始数据为:90,110,105,140,220,138,182,205,105,110 则,进行下列数据变换后的数据是?(1)十进计数法,新的取值范围为-1,1 0.09,0.11,0.105,0.14,0.22,0.138,0.182,0.205,0.105,0.11(2)最小-最大归一法,新的取值范围为0,1 0.00,0.15,0.12,0.38,1.00,0.37,0.71,0.88,0.12,0.15(3)Z-Score(均值为140.5,方差为46.1164)-1.10,-0.66,-0.77,-0.01,1.72,-0.05,0.9
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 复习

限制150内