乳腺癌分类器及数据样本验证(Python)(共8页).doc





《乳腺癌分类器及数据样本验证(Python)(共8页).doc》由会员分享,可在线阅读,更多相关《乳腺癌分类器及数据样本验证(Python)(共8页).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上乳腺癌分类器及数据样本验证By Toby QQ:欢迎爱好者交流,并改进代码数据下载地址 uci machine learing/breast cancer 词汇:Malignancy 恶性biopsy 活组织检查benign 良性的diagnosis 诊断periodic examination定期检查 Clump Thickness 肿块厚度 Uniformity of Cell Size 细胞大小的均匀性 Uniformity of Cell Shape 细胞形状的均匀性 Marginal Adhesion 边缘粘 Single Epithelial Cell S
2、ize 单上皮细胞的大小 Bare Nuclei 裸核 Bland Chromatin 乏味染色体 Normal Nucleoli 正常核 Mitoses 有丝分裂 背景知识isconsin Breast Cancer Database (WBCD)January 8, 1991Revised Nomeber 3, 1994This is a description of the Wisconsin Breast Cancer Database, collected by Dr. William H. Wolberg, University of Wisconsin Hospitals, Ma
3、dison. The actual database is contained in another file (datacum). Samples were collected periodically as Dr. Wolberg reported his clinical cases. The database therefore reflects this chronological grouping of the data. The samples consist of visually assessed nuclear features of fine needle aspirat
4、es (FNAs) taken from patients breasts. Each sample has been assigned a 9-dimensional vector (attributes 3 to 9 below) by Dr. Wolberg. Each component is in the interval 1 to 10, with value 1 corresponding to a normal state and 10 to a most abnormal state. Attribute 1 is sample number, while attribute
5、 2 designates whether the sample is benign or malignant. Malignancy 恶性is determined by taking a sample tissue from the patients breast and performing a biopsy on it. A benign 良性的diagnosis 诊断is confirmed either by biopsy 活组织检查or by periodic examination定期检查, depending on the patients choice. All group
6、s are in the same file. We have separated the groups 感谢Wisconsin医学院的william H.Wolberg博士提供乳腺癌数据样本。所欲数据来自真实临床案例,每个案例有9个属性这就是判断乳腺癌的9个属性(翻译非全部准确) Field Attribute 1 Sample code number (病人ID) 2 Class: 2 for benign, 4 formalignant(恶性或良性分类) 3 Clump Thickness 肿块厚度 4 Uniformity of Cell Size 细胞大小的均匀性 5 Uniform
7、ity of Cell Shape 细胞形状的均匀性 6 Marginal Adhesion 边缘粘 7 Single Epithelial Cell Size 单上皮细胞的大小 8 Bare Nuclei 裸核 9 Bland Chromatin 乏味染色体 10 Normal Nucleoli 正常核 11 Mitoses 有丝分裂 数据样本示例说明:病人ID 恶性或良性(2是良性,4是恶性) 剩下的是9个属性(field3-11),每个属性用数字表示, 2, 5,1,1,1,2,1,3,1,1NOTE: 16points with missing attributes (indicate
8、d by a 0) 有16个遗失的属性,会造成统计不准确,用0表示 classifier分类器分类器是一种计算机程序。他的设计目标是在通过学习后,可自动将数据分到已知类别。应用在搜索引擎以及各种检索程序中。同时也大量应于数据分析与预测领域。分类器是一种机器学习程序,因此归为人工智能的范畴中。人工智能的多个领域,包括数据挖掘,专家系统,模式识别都用到此类程序。对于分类器,其实质为数学模型。针对模型的不同,目前有多种分支,包括:Bayes分类器,BP神经网络分类器,决策树算法,SVM(支持向量机)算法等。参考数据挖掘的各类文章,其中会对各种分类器算法的设计,性能,做出更为详细与准确的评价回到正题,
9、每个患者有11个值,患者ID,9个肿瘤的属性值和最终诊断。通过研究这些属性,找到肿瘤预测模式,根据肿瘤属性来判定肿瘤性质。对没见过面的患者(甚至不知道她的诊断结论),我们希望根据肿瘤的属性来判定是否为恶性肿瘤。为了实现,就要用分类器。分类器要使用已知类别样本进行训练。在训练过程中,分类器寻找指示分类(例如恶性或良性模式)。模式确定后,在已知的新样本数据上进行测试。在已知类别的样本上进行测试可以判定分类器准确性。在此例中,诊断结果(良性或恶性)是对患者肿瘤属性的分类结果。每个患者信息都可以用于建立一个模式的内部模型,模式用于区分良性或恶性。训练好分类器后,必须要测试分类器效果。将数据分成两个部分
10、,即分类器训练数据和测试数据。在实践中,创建两个单独的文件,大部分数据放入训练文件,剩余数据放入测试文件。现在要解决问题是:如何编写从训练数据中发现分类模式的程序?利用分治原理,每次查看患者的一个肿瘤属性,然后结合所属的类别意见作出决定。例如一个肿瘤厚度值范围1-10。较厚的肿瘤(例如大于7),可预测为恶性肿瘤,最后评估每个属性,得出判定结果,分类结果遵循遵循少数服从多数原理。举例( , 5,1,1,1,2,1,3,1,1) ,ID为 的患者,先依次判定患者9个属性,分别为5,1,1,1,2,1,3,1,1 。总结患者9个属性,其中大部分都小于中值5,最后得出患者为良性肿瘤。如何实现?对每个肿
11、瘤属性设置两个平均值。第一个平均值是女性训练数据中,良性肿瘤患者平均值;第二个平均值是训练数据中,恶性肿瘤患者平均值。9个属性都训练后,应该得到18个平均值,即9个良性肿瘤平均值和9个恶性肿瘤平均值。采用如下方法构造分类器:对每个属性的平均值,找出良性平均值和恶性平均值的中值。这个值就是分类值。分类器包括所有属性的分类值,即9个分类值。如果新样本的某个属性值低于该属性的分类值,预测为良性;反正为恶性。要得到整体的分类预测结果,需要将每个属性与该属性的分类值进行比较。根据属性值是大于或小于分类值对属性进行标记。在这例子中,小于分类值表示良性,大于分类值表示恶性。对于患者最后诊断,采用少数服从多数
12、原则。9个属性中,占主导地位的类别即为患者的最终判定结果。 算法: 变量多用复制粘贴,否则大小写很容易出错,不容易检查将全部699个例患者数据分成两个文件,训练分类器文件和测试分类器文件。采用简单方法,349个患者数据用作训练数据,350个患者数据用作测试数据。 0代表缺失的统计数据,应该忽略含0的病人(1)从训练文件中创建训练集trainingSet *打开文件*初始化训练集为空*对文件中每一行:将行内容解析成各组成部分 为患者创建元组 将元组添加到训练集列表中(2)创建分类器classifier,使用训练集中确定每个属性的分类值*函数参数是训练集。*对每个训练集中的患者元组: 如果元组代表
13、良性肿瘤,则将每个患者属性添加到良性属性总和中,对良性肿瘤患者计数 如果元组代表恶性肿瘤,则添加到恶性肿瘤属性总和中,对恶性肿瘤患者计数 最后,得到18个总和,分别为每种良性肿瘤患者属性和恶性肿瘤患者属性的总和。同时得到良性患者和恶性患者数量。*计算9个良性属性和9个恶性属性的平均值(总和/总人数)*计算9个属性的良性平均值和恶性平均值的平均值。这个中值为分类值,是该属性属于良性还是恶性的诊断标准。这9个分类值构成分类器。*trainClassifier要保存很多个人的总和和平均值。18个总和的平均值包含了很多变量,因此可用列表来进行管理。例如benignSums,benignAverage等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 乳腺癌 分类 数据 样本 验证 Python

限制150内