决策树分析在中医智能诊断中的应用现状及思考.pdf
《决策树分析在中医智能诊断中的应用现状及思考.pdf》由会员分享,可在线阅读,更多相关《决策树分析在中医智能诊断中的应用现状及思考.pdf(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、上海中医药大学学报第 26 卷第 4 期2012 年 7 月专题综述决策树分析在中医智能诊断中的应用现状及思考陈潇雨1马利庄1,21 上海中医药大学中医信息科学与技术中心(上海201203)2 上海交通大学电子信息与电气工程学院计算机科学与工程系(上海200240)【摘要】根据中医样本数据的特点,从中医智能诊断系统的构成、决策树分析算法特点等角度对决策树分析算法在中医智能诊断中的应用现状及存在问题进行了总结与思考。【关键词】中医智能诊断系统;决策树分析;综述【中图分类号】R2-03【文献标志码】A【文章编号】1008-861X(2012)04-0107-03 基金项目 国 家 科 技 重 大
2、专 项 课 题 资 助 项 目(2009ZX10004-601)作者简介 陈潇雨,男,在读博士生,主要从事中医信息处理研究。中医诊断学其精髓在于“辨证论治”,辨证论治是中医理论和临床体系的重要支撑,贯穿了对疾病诊断、治疗及疗效评价的全过程。辨证以望、闻、问、切四诊为要,依照“四诊合参”原则,综合各类信息加以分析、归纳,从而达到审查病因、辨明病态、阐述病机、确定治疗原则以及判断预后转归等目的。然而,由于传统中医诊断学理论及操作技能描述中存在着大量的不确定性和模糊性,缺乏客观评价指标,严重制约了中医的普及、推广和发展,影响了中医疗效的发挥和中医学诊疗技术的科学应用。因此,以数据挖掘、人工智能等计算
3、机技术为依托,对中医四诊所收集的症状信息进行挖掘分析,获得中医症状和证候之间的客观规律,构建中医智能诊断平台,实现中医诊断的智能化与客观化,这已经成为中医诊断现代化发展的必然趋势。本文旨在对中医智能诊断平台的基本构成及决策树分析技术在其中的应用现状和存在问题进行总结,并加以阐述、分析。1中医智能诊断平台的基本构成中医智能诊断的研究肇始于 20 世纪 70 年代,并于 1977 年研制出国际上第一个基于专家经验的中医智能诊断专家系统,即“中医关幼波肝炎诊断治疗程序”1。至 1980-1990 年代,计算机技术及人工智能技术的发展为中医智能诊断的进一步发展奠定了基础,如基于模糊判别模式模拟临床经验
4、进行中医辨证2、采用神经网络模型构建的中医辨证系统3-5、基于案例推理的中医诊断系统6 等。就中医智能诊断的基本技术路线而言,其操作平台主要涉及三部分内容 数据预处理、特征属性筛选和数据挖掘分类算法。1 1数据预处理由于源自应用系统数据库或真实样本采集而得的数据通常会存在杂乱性、重复性等方面的问题,如原始数据可能来源于不同的应用数据库,而各应用系统对数据标准缺乏统一明确的定义,导致数据一致性较差;同一个样本在数据集合中多次出现,导致数据库中包含大量冗余信息;某些数据属性值缺失等,这些问题都极大降低了挖掘算法的执行效率和精确度。因此,采用行之有效的数据预处理技术清除虚假无用及缺失的数据是进行数据
5、挖掘前的必要步骤。1 2特征属性筛选特征属性筛选是指从一组特征中去除冗余或不相关的特征来降维,以便选出一些最有效的特征来有效降低空间维数的过程,其定义为从含有 N 个特征属性的集合中选出满足某种筛选条件的包含 M 个特征属性的子集。与西医临床调查研究数据相比,由于中医病例样本的采集数据来源相对较窄,且符合入选条件的病例相对较少,因此决定了中医数据分类是典型的小样本问题。且中医数据样本具有数据维数大,信息量多,不可避免地会包含大量冗余及非相关属性的信息,从而导致数据挖掘算法的效率和性能难以保证,以至于最后得到的分析结果可解释性相对较差,因此特征属性筛选是中医智能诊断过程中的重要步骤。1 3数据挖
6、掘分类算法作为一种新兴信息处理技术,数据挖掘就是通过对大量数据进行抽取、转换、分析及模型化处理,从中自动抽出隐藏的有用信息的过程,同时将这些信息以概念、规则或样本分类结果等方式表达出来,被广泛应用于人工智能、机器学习、模式识别、数理统计等领域。常用的数据挖掘701ACTA UNIVERSITATIS TRADITIONIS MEDICALIS SINENSIS PHARMACOLOGIAEQUE SHANGHAI Vol26 No4 Jul,2012分类算法较多,包括决策树分析、聚类法、朴素贝叶斯法(简单贝叶斯法)、贝叶斯网络、神经网络等。2决策树分析在中医智能诊断中的应用现状及存在问题2 1
7、应用现状中医智能诊断本质上是中医病例样本分类问题,而决策树分析作为重要的数据挖掘技术,其解决的核心问题就是数据分类问题,即根据数据的属性将数据分配到不同的组中。决策树分析采用自顶向下的分治策略,通过逐层选择决策属性的方式,实现对数据样本的分类,具有速度快、分类精度较高、分类模式相对简单等优点,适合处理离散型数据;其分类规则易于提取与表达,非常适合于表述辨证规则,提供辨证依据。决策树分析的算法较多,如经典的 ID3 算法7、改进后的 ES-ID3 算法8、C45 算法9 等。尽管各种算法在细节上有所差别,但就其总体思想而言,差别并不大,都是以自顶向下的递归迭代方式从无规则、无次序的元组中推理出树
8、形结构的分类规则,最后以 IF-THEN 的规则形式表示出来。由于中医数据属性多为离散型,并且数据维数大,信息量多,因此,作为病理模型构建及辨证规则提取的主要技术途径,决策树分析算法在中医智能诊断的研究领域得到了广泛应用。如徐蕾等10 采用基于信息熵的决策树 C4 5 算法筛选出对慢性胃炎中医辨证分型有意义的 26 个因素,并对其重要性进行排序,建立辨证模型,得到了训练集 83 60%、测试集 81 25%的模型分类符合率,且各分类证型的灵敏度和特异度较高,可应用于慢性胃炎的中医证型诊断。廖晓威等8 采用改进的 ES-ID3 决策树算法,对 600 例肝病患者进行中医辨证分型诊断,得到了 73
9、 3%的分类精确度。王彦等11 采用改进的决策树算法从 201 例肝硬化病例中自动提取相应的肝硬化状态识别规则,得到决策树分类模型,并归纳出代偿性肝硬化和失代偿性肝硬化的诊断规则,识别正确率为 84 6%。沈兰荪等12 采用决策树方法对舌色、苔色进行分类与识别,提出了舌图像的彩色校正、舌体区域分割、舌质与舌苔特征分析以及舌象裂纹分析等一系列实用算法,通过对 300 例舌图像进行舌色、苔色、苔厚的特征分析,分别获得了 8267%、94%、98%的符合率,证明了这些算法的有效性。李晓宇等13 提出采用有向无环图(DAG)和决策树结合的方法进行中医舌色、苔色的识别,提高了舌色与苔色的正确识别率。李锋
10、刚等14 应用决策树方法对新安医家的临床经验进行分析,筛选出新安医学对中风不同证型的主要诊断依据,为中风的中医临床辨证提供了重要的参考依据。翟海斌等15 利用决策树方法从 290 例血瘀证病例中自动地提取了相应的诊断规则,并对 194 例血瘀证病例进行测试,得到了 98 45%的检测正确率。刘晓谷等16 用决策树方法建立了慢性胃炎脾虚湿热证的特征性舌苔模型,结果其预测正确率为 91 67%。2 2存在问题决策树分析具有速度快、精度高、分类模式简单、分类规则易于提取与表达等优点,非常适合于表述辨证规则、提供辨证依据,因而被作为中医智能诊断的主要技术途径。但就其算法结构而言,仍存在诸多不足之处。2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 分析 中医 智能 诊断 中的 应用 现状 思考
限制150内