中医药大数据应用核心问题分析.docx
《中医药大数据应用核心问题分析.docx》由会员分享,可在线阅读,更多相关《中医药大数据应用核心问题分析.docx(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中医药大数据应用核心问题分析 中医药大数据应用的最终目标是高效保存传承名老中医经验,提高中医诊疗智能化水平。笔者认为,中医药大数据应用是以临床真实世界医疗为源,收集各医院平台及古籍文献的中医诊疗数据,利用适用中医特点的数据挖掘方法,挖掘出能够指导临床应用的医疗思路或方法,如保存与共享名老中医经验、中医临床经验智能化搜索、中医智能化诊疗、中医真实世界疗效评价及诊疗方案优化等,最终得以提升中医药疗效水平。本文从中医药诊疗数据的收集、数字化、数据挖掘方法及数理模型等方面论述,以期为建立相关关键技术提出思路和可解决方案。 1多源数据整合是中医药大数据利用的前提 中医药大数据应包括中医古籍专著、文献期刊
2、、名老中医的医案专著,医院保存的病历、社区健康档案、可穿戴设备数据及天文、地理数据等等。这些数据散在于不同空间位置,收集和整合是一个艰巨而漫长的过程,必须由点及面,从纵到横逐渐融合积累。多种来源的资料汇总非人力所及,必须依赖电脑技术。其中文本挖掘、文本搜索及网络爬虫技术是必备的关键技术。文本挖掘是指抽取有效、有用、可理解、散在于文本文件中的有价值知识并利用这些知识更好地组织信息的过程1;文本检索是指根据文本内容,如关键字、语义等对文本集合进行检索、分类、过滤2;网络爬虫是对网络页面上的资源进行定向下载的技术3。通过上述技术的综合应用,可以达到整合资源数据的目的。 2中医词库标准化是中医药大数据
3、利用的基础 21建立标准化中医分词词库。中文文本的计算机处理首先是将字读入计算机内,计算机只认识字不认识词,要想让计算机认识词,必须经过一系列的处理,这个过程叫作中文分词。中文分词依赖于关键文件中文词库。中文词库有通用版本和专业版本,以常用通用版本jieba分词(结巴分词)为例,里边有近35万个中文词,结巴词库中除常用词外,也会包括一部分专业词汇,但难以满足专业需求,各专业需要专门构建专业词库。目前,中医词库尚未发现有影响力的专业中文词库,急需建立并完善。其实,构建专业词库并不困难,技术上已经普及,其原理是让计算机读取大量中医药辞典及文献期刊,根据词频来确定入库词汇。22统一中医诊疗用语标准。
4、中医标准词是指中医药大数据应用时需要参与计算机运算和保存的词。中医分词过程得到大量的中医词汇,成为非标准词,这些词中有很多近义词、同义词,大量词汇形成维度灾难4,使计算机编程和运算及结果解释面临困难。因此,将大量的非标准词转换为有限的标准词是中医药大数据应用急需解决的关键问题之一。非标准词转换为标准词,技术上较简单,既可利用查询法,亦可利用人工智能技术中的自然语言处理技术。但非标准词与标准词“词对”间的匹配对应,涉及古今文字差异与各地表达不同,需有人工标注,无法使用计算机替代。由于人工标注工作量巨大,不可能一蹴而就,应以需求为导向逐步扩大。 3中医数字化及模型建立是中医药大数据应用的核心 世界
5、上无论宏观与微观、整体与局部,任何不能以数学为基础来表达的领域都不能成为科学。中医的科学性受到质疑,其根本问题就在于中医理论无法用数字语言来表达。因此,尽早构建中医理论数字模型是中医药科学化、现代化面临的重大问题之一,也是中医药大数据应用的关键核心技术。本课题组尝试应用范式模型解决中医数学模型问题:构建中医理论科学公式yi=f(xi)。中医理论内容丰富,但如果归纳为科学问题,最后就会形成一个问题,即通过什么方法根据不同的语言词汇(症状、舌象、脉象)组合来推测出另一部分语言词汇(药物)的组合(处方)。用公式表达,即为yi=f(xi),yi表示药物组合,xi表示症状组合,f表示函数。根据集合理论,
6、xi可以理解为从整个症状集合A中抽取的不同元素的组合,即为集合A的子集,yi可理解为药物集合B的子集。问题是yi和xi均是参与到函数f中计算的数值,如何来求这些值?如何来定义函数公式?31模糊数学方法赋值证药信息。模糊集合论是1965年美国学者创立的研究有关非精确现象的理论,适应中医诊疗特点。模糊集合理论认为,研究一门模糊领域的数学问题,首先要定义一个研究的范围,或称为讨论的领域,简称论域5。论域确定后,在论域上赋值,即形成模糊集合。中医的论域核心是藏象、阴阳五行等理论,归纳起来可以分为3类信息,即位置信息、性质信息和状态信息。位置信息包括五脏六腑、十二经脉、奇经八脉等;性质信息包括气血、阴阳
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中医药 数据 应用 核心 问题 分析
限制150内