《中医古籍文本本分析系统关键技术研究与实现.docx》由会员分享,可在线阅读,更多相关《中医古籍文本本分析系统关键技术研究与实现.docx(31页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、摘 要中国古籍是我国优秀的民族文化遗产,中医理论在长期的医疗实践中积累了大量数据,挖掘出其中蕴含的宝贵经验,是一项极有价值的研究工作。数据挖掘可以发现蕴藏在中医古籍中的潜在知识,而关联规则是数据挖掘中的一个主要研究分支,是目前的主流研究方向,侧重寻找数据之间的依赖关系以及更好的应用于特定领域中。 本文重点是对关联规则挖掘算法的研究,基于Apriori关联算法对古籍伤寒九十论进行数据挖掘,首先对收集到的古文数据进行预处理工作,其次进行关联规则算法的设计,利用Matlab将中医古籍文本数据挖掘,并通过对关联规则结果的分析,表明挖掘的结果符合中医相关理论,具有较好的临床参考价值。关键词:中医古籍;伤
2、寒九十论;关联算法;AprioriAbstractChinese ancient books are the outstanding national cultural heritage of our country. The theory of traditional Chinese medicine has accumulated a lot of data in the long-term medical practice, and it is a valuable research work to dig out the valuable experience contained th
3、erein.Data mining can discover the potential knowledge contained in ancient books of traditional Chinese medicine, and association rules, as a main research branch in data mining, is the mainstream research direction at present, which focuses on finding the dependency relationship between data and b
4、etter application in specific fields. This paper focuses on the study of association rule mining algorithm, based on the Apriori correlation algorithm of ancient books typhoid fever ninety theory of data mining, first of all the collected data preprocessing of ancient prose work, secondly for the de
5、sign of association rule algorithm, using Matlab to Chinese medical text data mining, and through the analysis of the result of the association rules, show that mining results conform to the relevant theories of traditional Chinese medicine, has good clinical reference value.Keywords: Ancient books
6、of traditional Chinese medicine; Ninety treatises on typhoid ;Association Rules; Apriori第1章 绪论1.1 课题研究的背景和意义1.1.1 研究背景随着计算机和网络为代表的信息技术迅猛发展,人们获取和利用信息的方式产生了巨大变革,文献信息载体也逐渐向数字化、网络化方向发展。中医古籍文本的数字化建设、数字化产品,以及网络化服务,将成为现代发展的主流趋势。中医古籍上起周秦,下至清代,历时2000余年,具有数量庞大、专业性强、形式多样、内容杂糅、实用性强、价值巨大等特点,记载着古代人民创造出来的丰富知识,是珍贵的
7、历史数据和具有重要价值的文化遗迹。对中医古籍的整理研究,是对传统医学的继承发展,早在西汉成帝年间就有侍医李柱国校方技,北宋嘉佑年间林亿等校正医书等,正是这些历代学者对古籍的不断整理研究,才能使很多中医古籍能够流传至今。然而,中医古籍的客观现状却不容乐观, 很多已年代湮远,有些甚至已成为孤本、善本,使得很多中医古籍只能束之高阁;另中医古籍因古籍的特殊性,不能以普通书籍印刷、传阅等传播方式广泛流传,这大大降低了中医古籍资源的使用价值。如何客观、合理地发掘遗产,发扬学术,做到“古为今用”,又能很好的保护这些不可复制的古籍文本,是图书馆古籍利用和文献保护工作中的一大难题。在计算机网络技术还未发展之时,
8、传统中医古籍的整理与研究,从版本考证、编目、校勘、训诂以及专科研究都用手工作业的方式,使得效率进展都很低,不能满足当前中医事业的快速发展。随着网络时代的到来,借助现代信息技术进行古籍整理工作已成为古籍整理得主流,近年来古籍资源的数字化,以其信息量大、检索便捷、不受时空限制兼具保护和利用古籍等特质,大大提高了古籍研究者的工作效率而倍受青睐。古籍数字化最早开始于20世纪70到80年代,人们对古籍数字化一直不断探索,中医古籍的整理与研究发生了翻天覆地的变化。 2002年以后,古籍数字化的探讨更多集中在理论方面, 并逐渐转向知识库、知识发现等古籍深度利用研究方面。随着古籍数字化的进一步发展和成熟,对中
9、医古籍的整理与研究必然会更加深入。1.1.2 研究意义(1)中医古籍文本系统开发的必要性古籍属于珍贵的文物, 每一次翻阅都会对其造成不同程度的损害, 所以它不能像一般图书那样可以大范围流通, 这大大降低了古籍资源的使用价值, 这就体现了古籍文献资源保护和利用的矛盾性, 古籍为了保护的需要, 就难以实现其文化史料价值的挖掘。古籍文献的保护和利用, 一直以来看似无法兼得, 通过实现古籍文献资源的数字化, 将这一矛盾成功化解。(2)中医古籍文本系统开发的迫切性虽然现在大家对古籍都非常的重视, 古籍的存放环境非常的严格, 古籍存放温度、湿度、空气、光照都会影响古籍文献的寿命, 针对古籍文献的文物特性,
10、 其安全性及防鼠、防虫工作也不可忽视。但是即便保存环境再严格, 古籍一旦遇上了不幸的灾难, 这对于古籍的打击来说都是毁灭性的。古籍文献资源是不可再生的, 古籍纸张每一秒钟都在老化, 数量也在不断减少, 所以古籍文献资源数字化迫在眉睫。(3)中医古籍文本系统开发的便利性现有的数字存储技术内容、形式丰富多样, 占用空间小、可长久保存, 提高检索速度, 方便用户检索。只要有网络, 读者就可以随时随地的获取所需古籍信息, 这种多方面、多层次、多形式的服务, 使古籍研究的便利性有了质的飞跃。图像扫描技术十分简单快捷, 而且保存起来也非常便捷, 这些优势都促进了古籍文献资源的保护与研究。古籍资源共享, 也
11、有利于学术研究。古籍散落在全国各地, 古籍研究者如果需要使用某本古籍, 就非常不方便。古籍资源数字化消除了这种不便, 使得读者可以随时随地获取所需古籍信息, 不用为了某些珍贵古籍而奔波, 而且能使相关的古籍学者通过网络相互探讨、研究, 资源的利用率远远高于传统纸质古籍文献。1.2 国内外研究现状1.2.1 国内研究现状据中国中医古籍总目记载,我国现存1949年以前出版的中医药古籍图书有13455种,可见中医古典文献浩如烟海,对数量巨多的中医古籍进行整理与究的工作任务十分艰巨。二十世纪90年代,有一些科研单位和一些大型图书馆开始尝试古籍书目建设,并取得了较为显著的成效。在古籍书目数字化建设的同时
12、,善本古籍的数字化建设也在进行,如1996年,上海图书馆选择古代文献中的善本古籍制成全文光盘,建立了古籍善本检索系统。随着我国计算机和网络技术的提高,古籍数字化已具雏形。20世纪90年代后期以来,古籍数字化在我国迅速发展。这一时期些人的出版单位、学术机构和商业公司介入了古籍的数字化工作,使古籍数字化的规模迅速扩大。如国家图书馆制定庞大古籍文献的数字化计划,像碑帖菁华、西夏碎金、敦煌遗珍、数字方志以及甲骨文、永乐大典等;北京大学图书馆推出了“秘籍琳琅项目:刘俊文先生开始主持“中国基本古籍库光盘工程;北京书同文数字化技术有限公司先后开发了四库全书、四部丛刊、康熙字典的电子版:国学公司开始开发国学宝
13、典等系列产品。在这一过程中,人们对数字化古籍资源的特征、古籍实现数字化的原则、形式等基本问题的认识有了明显的升华。过去长期制约古籍数字化实现的一些关键性技术经过持续的研究和试验。取得了明显进展。当前,网上可见的中文古籍数据库有近百个,大型的网络古籍数据库也是可圈可点。古籍数字化的形式也经历了光盘版、数据库版、网络版三个建设阶段,开发的重点也由早期的书目数据库的建设转向全文数据库,而且逐渐向专题特色数据库、专科数据库、地方特色数据库的建设进行转变。在理论研究的方面,古籍数字化也取得了很多实质性的进步,主要表现在古籍数字化概念已经形成;标准程式和体系结构的确立:数据库检索系统、辅助性研究支持系统的
14、完善;书目数据库的标准和规范已基本确定;技术研究更多地转向古籍数字化的高级功能,如数据挖掘、知识发现等,“我国古籍数字化工程虽然起步比欧美国家晚,但是发展至今,无论在规模和水平上都已远远超过海外。1.2.2 国外研究现状在国外,北美地区由美国图书馆协会在1980年提出了编制中国古籍善本国际联合目录,其中涉及的高校包括北美的13所,中国大陆的5所。在1991年,他们开始实施把清嘉庆以前的刻本、抄本都制成机读格式,被称为中国古籍国际联合目录.目前,该工作属于美国普林斯顿大学东业研究所的一个独立计划,称为“RIG-CRBP”(Chinese Rare Books Project中国善本图书计划)。此
15、后,“American Memory PllotProject(美国记忆导航计划)成功地将该馆21万件馆藏予以数字化处理,将所有的图书、绘画、手稿和照片全部转化成数字化图像并通过国际互联网进行传输,包括部分中文古籍图书资源。同样,英国图书馆于1993年发布了“2000年规划目标”(StrategicobjectivesfortheYear2000),计划到2000年实现馆藏文献数字化并运行于网络,为全球读者尽可能地提供检索查询服务。”日本图书馆中收藏有大量的中文古籍,在1998年,日本国立国会图书馆制定了国立国会图书馆数字图书馆计划。该计划对中国传统的文化和珍贵的典籍进行了数字化,至2003年
16、,已建立了拥有500余件中文古籍图像的数据库,其中,水乐大典、古文孝经、姓解、(天台山记等都是国内罕见的珍本古籍。目前,国外尚有很多中文古籍数字化项目正在建设当中,如日本的汉方医朽大成已经进入全文数字化第二版,韩国国立汉城大学图书馆的“奎章阁古籍扫描全文阅读系统”,法国也在进行永乐大典等相关奥籍的数字化1。1.2.3 中医古籍文本系统的研究目的中医药是我国传统医药,历史悠久,具有独特的中医理论体系、丰富的实践经验和突出的临床优势,而中医文献则是积累、传承、发展中医学术的主要载体,中医古籍对中医事业的发展有着不可估量的作用。近年来,国家越来越重视中医事业的发展,中医事业在未来中国乃至全世界必然会
17、呈现出一派欣欣向荣的发展前景。中医古籍的数字化技术也在不断更新和完善,对中医古籍的整理与研究工作是一项极其艰巨、但又极富意义和极其具有挑战性的工作。本研究试图通过建立用户的中医古籍评价指标体系,在此基础上对现有的古籍案例进行对比分析,取长补短,结合现有最新的理论和技术,提出一种以服务用户为中心的较为理想的中医古籍整理方案。中医古籍承载着中医学数千年来积累的丰富的理论知识和临床经验,是中医药学理论的源泉和实践的有力指导,中医古籍的整理和利用是推动中医药学发展的不竭动力。中医古籍文本分析系统关键技术与实现是适应时代发展趋势,传承中医文化、造福人民的盛举2。1.3 论文的研究内容和组织结构本论文的研
18、究工作重点是研究关联分析算法在中医古籍数据挖掘上的应用。本文主要由以下几个章节来组成的:第一章绪论,介绍了本论文的研究意义和相关背景,以及论文相关的国内外研究发展现状。最终给出了论文的整体组织结构。第二章相关技术,主要论述了数据挖掘技术、关联规则技术、中医古籍数据文本挖掘技术。第三章基于相关性分析对中医古籍文本进行研究。首先论述了Apriori算法的具体实现流程,然后设计了Aprioiri算法,详细介绍了使用Matlab2018b对预处理后的药方数据进行Apriori算法数据挖掘的过程,并简要分析了挖掘结果。第四章具体分析了数据挖掘的结果,对其结合中医学进行了解释,通过分析得到的关联规则结果,
19、表明通过关联规则能够得到有效的中医药数据挖掘结果,符合中医相关理论,具有较好的临床参考价值,同时叙述了对中医古籍数字化的思考与展望。第五章对论文的工作进行了总结,并对未来研究发展做了展望。第2章 相关技术2.1 数据挖掘技术概述2.1.1 数据挖掘的概念数据挖掘(Data Mining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话来说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取出隐藏在其中的、人们事先不知道的、但是又潜在有用的信息和知识的过程。数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可
20、用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。数据挖掘一般与计算机科学有关系,并且通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和形式识别等很多方法来完成上述的目标。当前,数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等3。2.1.2 数据挖掘的技术流程从数据本身来思考,经常数据挖掘需要有数据清理、数据变换、数据挖掘实施过程、形式评估和知识表示等8个步骤。(1)信息收集:根据已确定的数据分析对
21、象抽象出在数据分析中所需要的特征信息,然后选择最合适的信息收集方法,将收集到的信息存入数据库当中。对于大量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。(2)数据集成:把不同原因、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。(3)数据规约:执行多数的数据挖掘算法即使在少量数据上也需要很长的时间,而做商业运营数据挖掘时往往数据量非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但是依旧接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前实行结果相同或几乎相同。(4)数据清理:在数据库当中的数据一些是不完整的(有些感兴趣的属性缺少属性
22、值),含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),以是需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库当中。(5)数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集、甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。(8)知识表示:将数据挖掘所得到的分析信息以可视化的方
23、式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。数据挖掘过程是一个反复循环的枯燥过程,每一个步骤要是没有达到预期目标,都需要回到前面的步骤,重新调整并实行。不是每件数据挖掘的工作都需要这里列出的每一步,例如在某个工作中不存在多个数据源的时候,步骤(2)数据集成的步骤便可以省略。步骤(3)数据规约(4)数据清理(5)数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能要花在步骤(1)信息收集阶段,而至少60%以上的精力和时间是花在数据预处理4。图2-1 数据挖掘系统框图2.2 关联规则技术概述关联规则是数据挖掘研究领域的一个重要部分,是挖掘大量数据中项集之间的相互依赖性或
24、关联性。该问题由R.Agrawal等人于1993年对市场购物篮问题进行分析时首次提出,用以发现商品销售交易中的顾客购买模式。医学研究者可以从成千上万份病例中找出某些疾病的共同特征,或发现某位著名老医生的治病思路,从而为治疗疾病提供帮助。其最经典的算法是R.Agrawal等人提出的Apriori算法。Apriori算法应用的一个典型例子是购物篮分析。市场分析员要从大量的数据当中发现顾客放入其购物篮中的不同商品之间的关系。如果顾客买牛奶,他也购买面包的可能性有多大? 什么商品组或集合顾客多半会在一次购物时同时购买?比如,买牛奶的顾客有80%也同时买面包,或买铁锤的顾客中有70%的人同时也买铁钉,这
25、就是从购物篮数据中提取的关联规则。分析结果可以帮助经理设计不同的商店布局。一种战略是:通常一起购买的商品可以放近一些,以便进一步刺激这些商品一起销售,比如,如果顾客购买计算机又偏向于同时购买财务软件,那么将硬件摆放离软件陈列近一点,可能有助于增加两者的销售。另一种战略是:将硬件和软件放在商店的两端,可能诱发购买这些商品的顾客一路挑选其他商品。这种关联的发现可以有助于零售商制定营销策略,进行市场运作,以刺激内需,促进经济发展4。2.2.1 关联规则的定义(1) 项集(Itemset)。ikk=1,2,m称为数据项,数据项集是由数据库当中的个不同项组成的集合I,I=i1,i2,im。包含k个数据项
26、的项集称为k-项集,k表示项集中项的数量。(2) 事务。D为事务数据库,tk(k=1,2,n)称为事务,每项事务是由数据项集中的若干个项组成的集合,即tk=tk1,tk2,tknI,每一个事务有一个唯一的标识符tid与之对应。(3) 关联规则。若X,Y为项集,关联规则是形如XY的蕴涵式,其中XI,YI,并且XY=。表示项集X在某一事务中出现时,一定程度上也会导致项集Y在同一事务中出现。(4) 支持度。关联规则的支持度是表示规则模式出现可能性的度量,反映了规则的支持率。事务数据库中支持项目集口的事务数称为关联规则二的支持度,他可以等价与项集在数据集中出现的频率。(5) 频繁项集。频繁项集是在数据
27、集中出现频率较高的数据。设项目(Item)集合I=i1,i2,i_n,事务(Transaction)集合T=t1,t2,tn,其中,每个事物ti是一个项目集合,并满足tiI,项目就是类似2.2.1中所说的啤酒和尿布等商品,事务就是同时出现的几个项目的集合5。一个关联规则是一个如下形式的蕴涵关系:XY,其中,XI,YI且XY=公式(2- 1)X(或Y)是一个项目的集合,称为项集(Itemset),X称为前件,Y称为后件。如果项集X是事物ti的一个子集,则称ti包含X,或称X覆盖ti。X在T中的支持计数(表示位X.count)是T中包含X的事物的数目。对于关联规则XY,(n为事物数目):支持度=X
28、Y.countn公式(2- 2)置信度=XY.countn公式(2- 3)支持度用于衡量一条规则出现得有多频繁,只有出现得足够频繁的规则对我们才有用,比如。置信度用于衡量从前件推出后件的可信度,类似于概率。值得注意的是,只要一条规则的支持度达到用户要求的最小支持度(minsup)时,我们才去考虑这条规则从前件到后件的置信度。关联规则挖掘的目标就是,找出事物集合T中所有满足支持度和置信度分别高于用户指定的最小支持度和最小置信度(minconf)的规则。2.2.2 关联规则算法的分类关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直
29、接表示出来6。表2-1 关联算法分类算法名称算法核心思想Apriori关联规则最常用的也是最经典的挖掘经常项集的算法,其中核心思想是通过连接产生候选项及基支持度,然后通过剪枝生成频繁项集FP-Tree针对Apriori算法固有的多次扫描事务数据集的弊端,提出的不产生候选繁项集的方法。Apriori和FP-Tree都是追求频繁项集的算法。Eclat算法Eclat算法是一种深度优先算法,选取垂直数据表示形势,在观点格理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空间。灰色关联法阐述和确定各因素之间的影响程度或是若干个子因素(子序列)对主因素(母序列)的奉献度而进行的一种分析方法。2.2
30、.3 关联规则挖掘过程关联规则的挖掘过程可以看作包括两个阶段的过程,第一阶段是找出所有的频繁项集,即找出所有支持度大于或等于预定义的最小支持度阈值的项集。第二阶段是由频繁项集产生所期望的关联规则,即找出满足最小支持度阈值和最小置信度阈值的规则。在支持度一置信度框架之外,也可以使用附加的兴趣度相关度等来发现相关联的项之间的关联规则。1. 在事务数据库中高效地找出全部频繁项集,它要面对巨大的数据量,直接处理事务数据库,此步骤决定着挖掘过程的整体性能,也是关联规则挖掘的核心。2. 第二步任务相对较为直观容易,且开销远低于第一步。现阶段大量关联规则的研究工作都集中在第一步过程上,大部分的算法及改进算法
31、也都是针对第一步提出的7。挖掘过程见下图所示:图2-1 关联规则的基本挖掘过程2.3 中医古籍文本数据挖掘概述2.3.1 中医古籍文本数据挖掘的概念中医古籍文本数据挖掘就是利用中医古籍文本数据库从大量中医医案中抽取隐含的、未知的的中医学知识。中医古籍文本数据挖掘针对中医学知识进行挖掘,是获取中医学知识的现代技术方法,将为中医学理论研究和中医药临床诊疗提供重要的科学依据。2.3.2 中医药数据挖掘的流程(1)建立数据库数据来源,以伤寒九十论著作为对象, 设计数据库并进行数据采集。(2)数据处理对症状、方剂名称,参照中华人民共和国药典2015 年版和普通高等教育“十二五”国家级规划教材中药学进行归
32、纳整理等。(3)统计分析将所使用的组方输入到 Excel 表格中,得到病症和方剂数据库,并对全部纳入数据进行预处理,使用 Apriori 建模进行关联规则分析8。2.4 本章小节本章主要介绍了中医古籍数据挖掘领域的相关知识,具体算法见第三章。分别叙述了数据挖掘技术的概念,技术流程和中医古籍文本数据挖掘的概念流程。重点介绍了关联规则的定义,算法分类和关联规则的挖掘过程。第3章 基于相关性分析对中医古籍文本研究3.1 Apriori算法概述Apriori算法分为两步:第一步:生成全面频繁项目集:一个频繁项目集(Frequent Itemset)是一个支持度高于minsup的项集。第二步:从频繁项目
33、集中生成所有可信关联规则:一个可信关联规则(Confident Association Rule)是置信度大于minconf的规则。接下来具体介绍Apriori算法的两步。Apriori算法的第一步是简便统计所有含一个元素的项集出现的频率,来决定最大的一维项目集。在第k步,分两个阶段,首先用函数sc_candidate(候选),经过第(k-1)步中生成的最大项目集L(k-1)来生成侯选项目集Ck。而后寻求数据库计算侯选项目集Ck的支持度,为了更快速地计算Ck中项目的支持度, 利用函数count_support计算支持度9。Apriori算法描述如下:(1) C1=candidate1-item
34、sets;(2) L1=cC1|c.countminsupport;(3) for(k=2,Lk-1,k+) /直到不能再生成最大项目集为止(4) Ck=sc_candidate(Lk-1); /生成含k个元素的侯选项目集(5) for all transactions tD /办理处理(6) Ct=count_support(Ck,t); /包含在事务t中的侯选项目集(7) for all candidates cCt(8) c.count=c.count+1;(9) next(10) Lk=cCk|c.countminsupport;(11) next(12) resultset=resu
35、ltsetLk其中, D表示数据库;minsupport表示给定的最小支持度;resultset表示所有最大项目集。Sc_candidate函数的参数为Lk-1,全部当中最大k-1维项目集,最终返回含有k个项目的侯选项目集Ck。实际上,Ck是k维最大项目集的超集,经过函数count_support计算项目的支持度,而后生成Lk。 该函数是如何完成这些功能的,详细说明如下: 首先,通过对Lk-1自连接操作生成Ck,称join(连接)步,该步可表述为:Insert into Ckselect P.item1,P.item2,P.itemk-1,Q.itemk-1 from Lk-1P,Lk-1Qw
36、here P.item1=Q.item1,P.itemk-2=Q.itemk-2,P.itemk-1Q.itemk-1若用集合表示:Ck=XX|X,XLk-1|XX|=k-2公式(3- 1)然后prune(修剪)步,即对任意的cCk, 删除Ck中全部那些(k-1)维子集不在Lk-1中的项目集,得到侯选项目集Ck。详细说明如下:for all itemsetcCkfor all (k-1)维子集s of cif(s不属于Lk-1) then delete c from Ck;用集合表示10: Ck=XCk|XLk-1公式(3- 2)示例说明Apriori算法运作经过,有一数据库D, 其中有四个事
37、件记录, 分别表示为表3-1 数据库DTIDITEMST1I1,I3,I4T2I2,I3,I5T3I1,I2,I3,I5T4I2,I5如图3-1,在Apriori算法中,首先统计出一维项目集C1。预定义最小支持度minsupport=2,侯选项目集中满足最小支持度条件的项目集组合成最大的1-itemsets(繁1项),为生成最大的2-itemsets(繁2项),利用了sc_candidate函数中join步,即:L1joinL1,并经过prune步删除那些C2中子集不在L1中的项目集,生成了侯选项目集C2。查找D中4个事件,统计C2中每个侯选项目集的支持度。而后和最小支持度比较,生成L2。侯选
38、项目集C3是由L2生成。寻求自连接的两个最大2-itemsets中,第一个项目相同,在L2中满足该该的有I2,I3,I2,I5。这两个集合经过join步后, 产生集合I2,I3,I5。在prune步中,测试I2,I3,I5的子集I3,I5,I2,I3,I2,I5是否在L2中,由L2可以知道I3,I5,I2,I3,I2,I5本身就是最大2-itemsets。即I2,I3,I5的子集都是最大项目集那么I2,I3,I5为侯选3-itemset。而后寻找数据库中所有事务记录,生成最大的3-tiemsets L3。此时,从L3中不能再生成侯选4-itemset ,Apriori算法结束。 项集支持度计数
39、112123133141153 D:SUPPORT 2 TIDItems T111,13,14T212,13,15T311,12,13,15T412,15扫描D,对每一个候选计数项集支持度计数112123133 153项集11,1211,1311,1512,1312,1513,15C2 比较候选支持度计数与最小支持 度计数 由L1产生候选C2 L1 扫描D,对每一个候选计数项集支持度计数11,12111,13211,15112,13212,153 13,152C2 项集支持度计数11,13412,134 12,15213,152 比较候选支持度计数与 L2最小支持度计数 由L2产生候选C3L3
40、项集支持度计数12,13,152比较候选支持度技术与最小支持度计数C3项集12,13,15图3-1 Apriori算法具体流程3.2 中医古籍文本数据的预处理使用关联规则的挖掘方法,对大量中医古籍数据进行挖掘研究,能够证实一些己知的规律,也能够挖掘出未知的隐含在中医数据内部的联系。通过挖掘数据中的频繁项集或频繁闭项集,找到潜在有价值的规则,对于解释中医思想、揭示中医内涵、提高中医理论、拓展临床思路具有重要意义。3.2.1 基本数据预处理方法中医古籍文本的数据挖掘是对中医几千年沉没的宝贵的历史数据进行去粗取精、去伪存真的经过。经常原始收集到的数据含有噪声或存在缺失,不能直接应用于数据挖掘中。本文
41、采用的中医古籍病案数据,包含大量的古代语言的文字性描述,使得数据的预处理更加重要,需要将数据规范预处理后才能应用于数据挖掘中。数据的预处理是数据挖掘技术中最重要的基础步骤,是跟着数据挖掘的发展而发展的。迄今为止,己经研究了大量的数据预处理技术。其中比较典型和有用的是以下几种(1)数据清理。数据清理经过填写空缺的值、识别、删除孤立点、平滑噪声数据、并且解决不一致等来“清理”数据。(2)数据集成。数据集成是将多个数据源中的数据结合在一起,存放在一个一致的数据存储中。(3)数据变换。数据变换是指将数据转换成最适合于挖掘的形式,如聚集、平滑、规范化、数据概化和属性构造等。(4)数据规约。数据规约可以通
42、过聚集,删除冗余特性或聚类等方面来压缩数据。这些数据处理技术在数据挖掘之前使用,能大大提高数据挖掘的质量,使数据挖掘产生的知识更加可靠,并且可以降低现实挖掘所需要的时间。3.2.2 实验数据采集及预处理论文中所选用的数据来自成书于公元960-1279年宋朝时期的古籍伤寒90论。选取其中明确记载且症状与用药齐全的90例典型数据,如图3-2,图3-3所示,以其为基础进行数据挖掘。图3-2 伤寒90论部分目录图3-3 伤寒90论部分内容 通过查阅相关资料,在疫病数据中选择了中医药材这个主要属性来挖掘每个病例的信息,即病例和处方药物属性。经过对症状术语的规范统一,药物命名的查询统一,以及合并相同药名的
43、等第一轮处理后,得到药名病例的Excel表如表3-2所示表3-2 部分第一轮处理后的数据方剂序号方剂药名1桂枝加芍药汤证桂枝汤、赤芍药2桂枝加附子汤证桂枝汤、附子3桂枝加厚朴杏子汤证桂枝汤、厚朴、杏仁4麻黄汤证麻黄汤5 大靑龙汤 大靑龙汤6阳明可下证大承气汤7阳明蜜兑证阳明蜜兑8肾虚坞脱证女子二七天癸至,七七止,男子二八精气溢,八八止,妇人月事, 以时下,故七欲损也,男子精,欲满不欲竭,故八欲益也,如此则男妇身常无病,精气常固,虽有寒邪,易于调治,故曰二者可调,是知伤寒真气壮者易治也9蹐中出血证姜附汤10阴中伏阳证破阴丹:黄水银各一两,结沙子靑皮半两,末,?糊,丸桐子大,毎职三十丸,冷盐港送下11伤寒暴死证不可治12夜间不眠证先与猪苓汤,次投之以当归,地黄,门冬,芍药乌梅之类为汤13大柴胡汤证大柴胡汤14阳明急下证大柴胡15伤寒自解证抑阴助阳温翔16热入血室证急以一呷散投之,自次曰以小柴胡汤加生地黄17筋惕肉喁证眞武汤主之,次以淸心九竹叶汤解余毒数曰差18阳明当下证大柴胡19桂枝加葛根汤证桂枝加葛根汤,麻黄20葛根汤证葛根汤21刚挃证先以承气汤下之,次以续命汤调之22厥阴证茯苓甘草白朮桂枝汤,后投以乌梅丸23太阴证理中丸,继以五稽散24太阳中暍证瓜蒂散25指甲黑青证指甲黑青病,指甲黑青病,至此则为不治26瞪目直视证不治27 舌卷囊缩证卷舌而死28循衣摸床证不可治29
限制150内