生物医学数据挖掘.pptx
《生物医学数据挖掘.pptx》由会员分享,可在线阅读,更多相关《生物医学数据挖掘.pptx(88页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、参考文献1、生物医学数据挖掘(第二版)上海科学技术出版社2、生物医学数据分析及其MATLAB实现 北京大学出版社3、生物信息学 科学出版社第1页/共88页第一章 概论第2页/共88页1.1 什么是数据挖掘1.1.1数据、信息和知识 数据是对客观事物特征状态的记录;数据也是信息及知识的载体。如何从大量的数据中发现和找出以隐含方式存在于其中、有意义的信息和知识。第3页/共88页1.1.2 数据挖掘的定义 数据挖掘是对大量观察到的数据进行分析,以便从中发现事先未知的联系和规律的过程。目的:让数据拥有者得到非常清晰而有用的结果(即信息和知识)第4页/共88页第5页/共88页第6页/共88页7数据挖掘分
2、类挖掘任务挖掘任务挖掘对象挖掘对象挖掘方法挖掘方法常用聚类分类分类关联回归与序列回归与序列第7页/共88页生物医学数据来源人体生理信息的种类形态形态身高、骨长、心脏、胃、肾等器官的几何形状、血管直径等身高、骨长、心脏、胃、肾等器官的几何形状、血管直径等振动振动心音、肠鸣音、呼吸音、血管音等心音、肠鸣音、呼吸音、血管音等压力压力血压、心内压、颅内压、胸腔内压、眼内压等血压、心内压、颅内压、胸腔内压、眼内压等速度速度血流速度、排尿速度、神经传导速度等血流速度、排尿速度、神经传导速度等流量流量血流量、呼吸流量、尿流量等血流量、呼吸流量、尿流量等温度温度体表温度、口腔温度、血液温度、直肠温度、其他脏器
3、温度等体表温度、口腔温度、血液温度、直肠温度、其他脏器温度等生物电生物电细胞电位、脑电、心电、胃电、肌电等细胞电位、脑电、心电、胃电、肌电等生物磁生物磁心磁、脑磁、胃磁等心磁、脑磁、胃磁等物理性质参数物理性质参数组织密度、对组织密度、对X射线的衰减系数、体内氢核分布、对超声波的声阻抗等射线的衰减系数、体内氢核分布、对超声波的声阻抗等化学成分化学成分O2、CO2、Na+等等生物量生物量酶、抗原、抗体、激素、神经递质、酶、抗原、抗体、激素、神经递质、DNA、RNA和蛋白质等和蛋白质等第8页/共88页1.2数据挖掘的应用及方法1.2.1应用1.(分类应用实例)乳腺疾病诊断2.(回归应用实例)子宫颈癌
4、患者存活率及其受各危险因子影响模型3.(时间序列分析应用实例)胰岛素依赖性糖尿病变化趋势,变化周期4.(预测应用实例)肾透析提高患者生存率5.(聚类应用实例)流行病学因素对肺癌患者临床医学状况的影响6.(关联规则分析应用实例)患者住院期间感染影响患者健康7.(序列发现,序列分析应用实例)基因比较第9页/共88页1.2.2方法从学习对象和过程的角度看分为有指导学习和无指导学习有指导学习指学习样本的归属都是已知的,确定的。例如分类无指导学习指学习样本的归属事先并不确定或已知。例如聚类第10页/共88页从学习方法的角度看,有多种数学工具可用:回归分析学统计学方法,人工神经网络,决策树等根据待解决问题
5、的类型、要求,以及数据本身的特点,确定最佳方法。第11页/共88页数据挖掘技术数据挖掘任务的完成需要相应的数据挖掘技术。目前的数据挖掘算法主要来自3个领域:统计学、机器学习(人工智能)和数据库。数据挖掘的焦点是自动或半自动的挖掘模式。有些机器算法应用于数据挖掘,比如神经网络、遗传算法等。数据库技术是数据挖掘的第三种技术来源。因为数据挖掘需要处理大量数据,如何对大量数据进行处理,需要数据库技术。第12页/共88页1.3生物医学数据挖掘的特殊性1.3.1医学数据的特殊性1.原始数据数量大,且呈多样性或异质性2.有时很难以数学方式来表达其结构及特征3.医学数据经常需要更新4.采集医学数据很难完全避免
6、噪声干扰5.生物医学数据难免会发生丢失6.医学数据可能包含冗余的、没有意义的或不一致的属性第13页/共88页1.3.2伦理、法律和社会等方面对隐私敏感的问题1.3.3医学的特殊性质第14页/共88页1.4数据挖掘的评价1.4.1样本的组织将原始样本数据组织成学习样本集和测试样本集的原则:尽可能使学习样本集和测试样本集中的样本分布和样本总体的分布一致,尽可能使学习样本集有足够多的样本。常用方法:第15页/共88页1.随机分组法:将已知数据集合随机的分为互不重叠的学习样本集和测试样本集。2.交叉验证法:将原已知数据集随机的分为K组,依次以其中的一组数据为测试样本,而以其他数据为学习样本进行训练和测
7、试。3.留一法:是交叉验证法中当K等于原始样本数据量M时的特例。第16页/共88页1.4.2有指导学习的评价(分类)被分类归于C1类被分类归于C2类被分类归于C3类实际属于C1类C11C12C13实际属于C2类C21C22C23实际属于C3类C31C32C333类分类的混淆矩阵第17页/共88页被分类归于阳性的样本被分类归于阴性的样本总计实际属于阳性的样本a,Ntpb,Nfna+b实际属于阴性的样本c,Nfpd,Ntnc+d总计a+cb+da+b+c+d特异性和灵敏度的计算第18页/共88页1.4.3无指导学习的评价无指导学习数据挖掘目标往往不清晰,但有评价指导学习数据挖掘的一些原理,可沿用于
8、评价无指导学习的性能。例如:聚类。第19页/共88页开源数据挖掘工具(平台)WekaRTanagraYALEKNIMEOrangeGGobi第20页/共88页1.5数据挖掘的过程数据挖掘软件Intelligent Miner(IBM)Clementine(SPSS)Enterprise Miner(SAS)Microsoft SQL Server2005(Microsoft)第21页/共88页1.明确分析目的2.组织及预处理数据3.探索性分析数据4.实施数据挖掘方法,并以此分析数据5.评价和比较各种方法的性能,确定最终的结果6.解释数据挖掘结果及其在本专业领域中的应用第22页/共88页第23页
9、/共88页Weka统计分析方面较弱,在机器学习方面要强得多第24页/共88页R用于统计分析和图形化的计算机语言及分析工具,支持系列分析技术,包括统计检验,预测建模,数据可视化第25页/共88页Tanagra使用图形界面的数据挖掘软件,强项是统计分析,提供了众多的有参和无参的检验方法,但缺乏高级的可视化能力第26页/共88页YALE提供图形化界面,提供了大量的运算符,包括数据处理,变换,探索,建模,评估等等环节。第27页/共88页KNIME采用类似数据流的方式来建立分析挖掘过程第28页/共88页Orange提供大量的可视化方法,可对数据和模型进行多种图形化演示,并能智能搜索合适的可视化形式,支持
10、对数据的交互式探索,弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。第29页/共88页第30页/共88页GGobi用于交互式可视化的开源软件第31页/共88页第二章 医学数据采集与准备第32页/共88页2.1数据的采集与组织2.1.1数据的采集、存储与管理数据库系统(DBMS)是存储,组织和管理数据的有效工具,由一组含有内部相关数据的数据文件和一组管理数据的软件程序组成,有时也简称为数据库(DB)。数据仓库(DW)是一个面向特定研究目的、集成来自各个不同数据库的数据并相对稳定的数据集合,它是数据挖掘直接操作和处理的对象。第33页/共88页第34页/共88页2.1.2数据的组织1.
11、数据的结构住院号住院号姓名姓名性别性别手术年龄手术年龄诊断诊断治疗方法治疗方法疗效疗效1001孙宝英孙宝英男男3先天性多指先天性多指手术矫形手术矫形优优1002吴立生吴立生男男1先天性并指先天性并指手术矫形手术矫形优优1003王启勇王启勇男男12肱骨骨折肱骨骨折手术复位手术复位良良1004何俊峰何俊峰女女3髋关节脱位髋关节脱位手术复位手术复位优优2005王春章王春章男男7斜颈斜颈手术手术良良第35页/共88页2.数据的类型数值型:由有序数字构成的数据分类型:表示对象类别归属的数据二值型:只有两种取值的数据布尔型:特殊的二值型数据排序型:特殊的分类型数据第36页/共88页胃癌TNM分期原发肿瘤的
12、部位及大小(T)1肿瘤局限于粘膜或粘膜下层2肿瘤侵及肌层3肿瘤侵及浆膜4肿瘤已穿透浆膜淋巴转移部位和数量(N)0无淋巴结转移1离癌灶最近,贴近于胃壁的第1站淋巴结有转移2远隔癌灶部位的第2站淋巴结有转移3第3站淋巴结有转移是否已有远处转移(M)0尚无远处转移1已有远处转移第37页/共88页2.2数据管理及数据管理系统的基本功能2.2.1数据管理是指对各种数据进行收集、分类、组织、编码、存储、查询和维护。(Excel Access)2.2.2Excel的基本功能1.数据的存储2.数据的排序3.数据的筛选4.数据的统计分析5.数据的分类汇总第38页/共88页2.2.3关系数据库管理系统的基本功能1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物医学 数据 挖掘
限制150内