数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf》由会员分享,可在线阅读,更多相关《数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、实践与经验现代计算机2010.10数据整合与数据挖掘技术在医疗保险信息系统的研究与应用简伟光(广州市劳动保障信息中心,广州510000)关键词:医疗保险信息系统;数据整合;数据仓库;数据挖掘;关联规则收稿日期:2010-09-27修稿日期:2010-10-15作者简介:简伟光(1973-),男,广东广州人,本科,计算机应用工程师,研究方向为电子政务和信息工程通过分析医疗保险管理信息化深入发展的需求,从技术的角度提出医疗保险信息系统数据整合及数据挖掘的总体解决方案,并对医疗保险信息系统的数据仓库的设计、数据整合的方案以及数据挖掘的技术和应用进行概要的分析和论述,并用关联规则挖掘算法实证研究医保信
2、息挖掘的可能性与必要性。利用编码、解码技术和SQL的聚集函数,实现基于SQL的FP-Growth算法,从而突破机器内存对数据挖掘的处理效率,实现对海量数据挖掘的高效挖掘。摘要:0引言随着计算机技术的不断发展,计算机管理已经逐渐步入各个行业,而职工福利待遇体系中十分重要的医疗保险行业则更为迫切地需要借助计算机对繁杂的日常事务进行处理。数据库技术的不断发展及医疗保险信息系统的应用,产生和收集数据的能力已经迅速提高。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识手段,导致了数据爆炸但知识贫
3、乏的现象。1问题提出目前,医疗保险信息系统还是由相对独立的业务子系统所组成(例如医疗保险子系统、工伤保险子系统、生育保险子系统等),各业务子系统数据彼此独立,数据结构差异较大,因此如何将这些分散的数据进行整合,形成一个整体的、统一的医保信息库,并在此基础上,利用先进的数据挖掘技术从基础性数据和医保信息中,挖掘有利于医保业务发展的相关业务规则,为管理决策、医保政策的制定、调整和医保科学化管理提供有力支持。这都是国内医疗保险业务管理亟需解决的问题。数据仓库与数据挖掘技术的产生和发展为这个问题的解决提供了理论和方法指导。对于数据仓库和数据挖掘技术在医疗保险领域中的应用,国内研究主要体现在以下两个方面
4、:一方面,如何将数据仓库和数据挖掘技术应用到医疗保险业务管理方面的应用研究;另一方面,展开数据仓库与数据挖掘技术理论研究。但总体来说,数据仓库应用已有所展开,主要应用于一般的汇总与分类统计,没有开展深层次的统计分析。对于数据挖掘在医疗保险中的应用,目前大多数的文献仍停留在理论研究的层面,具体实现的较少,针对海量数据的特定医保主题挖掘甚少。因此,从整体而言,数据仓库技术与数据挖掘技术在医保系统中的应用还处于理论研究探讨阶段。本文接下来从两个方面来论证医保信息数据整合的必要性与数据挖掘技术在医保领域应用的可行性。2数据整合技术在医疗保险信息系统中的趧趹实践与经验现代计算机2010.10应用2.1数
5、据整合技术应用的可行性医疗保险信息数据整合(Data Integration)技术有多种,本文所指的整合技术主要是数据仓库技术。医保数据仓库技术应用中有三个基本概念:ETL、OLAP和数据仓库模型。目前比较流行的数据仓库设计模型有以下三类:概念模型。它描述的是从客观世界到主观认识的映射,它是用于为一定的目标设计系统、收集信息而服务的一个概念性的工具;逻辑模型。它描述了数据仓库的主题的逻辑实现,即每个主题所对应的关系表的关系模式的定义。目前最流行的数据仓库数据模型是多维数据模型,主要包括了星形模式、雪花模式和事实星型模式三种;物理模型。数据仓库的物理模型是逻辑模型在数据仓库中的实现,例如数据存储
6、结构、数据的索引策略、数据的存储策略以及存储分配优化等。2.2数据整合技术应用的实证分析目前,医疗保险信息系统数据一般分布在不同的系统中,如果要统一医疗保险所有的业务数据,就必须提供一个完整的医疗保险数据模型,该模型应该能够自动抽取、保存现有数据,且能满足医疗保险业务管理的需要。医疗保险信息系统的数据整合(Data Integra-tion)就是按照统一的数据标准和规则,利用ETL,将分散在各个业务子系统中的各项业务数据整合到统一的医疗保险信息数据仓库中,最终形成统一的视图的过程中。数据整合的作用主要体现在:整合了不同业务系统和业务平台的数据,有效地避免数据冗余,保证数据的一致性,以及规范数据
7、的命名和使用。医保数据整合的设计工作主要包括数据仓库设计、数据集市设计和ETL(数据的抽取、转换和加载)设计三大部分,下面将逐一进行详细分析。(1)数据仓库设计医疗保险信息系统数据仓库设计包括:逻辑模型设计与物理模型设计。逻辑模型设计的指导思想是以参保人为中心,体现参保人与账户、参保人与参保险种、参保人与交易、参保人与机构的关系,它是实现统一客户视图的核心基础。数据仓库模型的设计不同于业务数据库的设计,不需要严格按照第三范式,因为数据仓库是面向一定的分析主题。由于医疗保险信息系统的数据仓库涉及了多个分析主题,因此医疗保险信息系统的数据仓库应采用事实星型模式(Galaxy Schema)进行建模
8、。数据粒度应根据分析需要设定。为了满足业务的需要,医疗保险信息系统的数据仓库支持最小粒度的详细数据的存储(即存储所有账户的历史交易明细数据,基于业务的要求,数据一般要求系统存储至少一年以上),以支持各类的查询、分析处理。物理模型设计的指导思想是提高数据仓库的性能与数据存储管理。医疗保险信息系统的数据仓库中最大数据量的表主要是账户信息表和交易明细表,而且这两个表也是数据处理最核心的表,其存储的结构和索引的策略直接关系到系统的整体性能和效率。(2)数据集市设计由于医保信息管理系统的数据仓库的数据量巨大,如果直接在上面进行数据挖掘或OLAP处理,其效率将存在很大问题,因此为提高数据挖掘和OLAP的处
9、理效率,就需要建立专门的数据挖掘数据集市和O-LAP数据集市。为了提高数据处理的效率和节省数据存储的空间,数据集市建立在数据仓库之内,由于在基础数据之上形成的汇总表或逻辑视图组成,即通常所说的逻辑数据集市(Logic Data Mart)。数据挖掘数据集市采用水平结构设计,即每个分析对象只有一条记录,与这个对象有关的属性都作为这条记录的字段,尽量减少表与表之间的关联,以提高数据挖掘处理的效率。数据挖掘数据处理主要涉及三个大表:参保人基本信息表、账户信息表和账户交易明细表,由于这三个表的数据量非常巨大,如果在这三个表上建立逻辑视图势必效率非常低,因此应根据数据挖掘数的类型和需要,将这三个表中相关
10、字段的数据抽取和倒入另外的数据表中,专门用作数据挖掘处理。数据挖掘表在设计上存在一定的数据冗余,以提高数据挖掘的效率。数据挖掘集市数据表的数据只作为临时数据,一般只保留13个月的历史数据,数据挖掘处理完后可进行清空处理,以节省数据库的空间。(3)数据仓库技术的应用在国内某市医疗保险信息系统中,数据库使用IBM Informix Dynamic Server V9.4 For Unix,数据库服务器使用HP RP8420小型机,操作系统系统使用HP-UXVII,网络存储系统使用EMC CX500,OLAP分析工趧趻实践与经验现代计算机2010.10具使用Cognos。本次数据仓库整合技术在医疗保
11、险信息系统中的应用实证研究关关键技术有以下三点:(1)数据量分析该医疗保险信息系统的个人帐户数在500万以上,账户信息表的空间约需15G左右。个人月均交易量在10500万笔左右,账户交易明细的月增长空间约为13.6G左右,也即1年的增长空间约为16.3G左右。因此在医疗保险信息系统的数据库中,需要对以上两个数据表进行分片存储处理,以提高数据处理的效率。Infomix Dynamic Server提供了非常灵活的表分段(也称为分片)存储技术,该技术可以并行地扫描多个磁盘上的数据,从而实现内部查询的并行操作,因此采用表分段存储技术可以提高查询效率。该技术使用SQL语句可以将表的各个分组或分段存储在
12、指定物理磁盘相关联的独立数据库空间中,同时也可以在相同的数据库中为表创建多个分区。Infomix数据库服务器支持以下两种数据分片方案:基于表达方式。此方案将包含所指定的值的行放在同一分段中;循环法。此方案将行一个接一个地放在分段中,并在分段系列中旋转以便均匀地分布行。以下是该医疗保险信息系统利用以上分区技术实现对个人账户信息表和账户交易明细表进行分区存储的具体实现:数据库空间的创建网络存储系统EMC CX500的每个物理磁盘空间为146G,由以上的数据分析可以知道,使用6个磁盘即可以满足该医疗保险信息系统3年交易的存储需要。为了实现数据的分区存储,共创建12个数据库空间,每两个数据库空间对应同
13、一个磁盘。账户信息表分区的实现:根据设计要求,账户信息根据开户机构号的区间进行分片存储处理。账户信息表的分片存储使用Informix数据库基于表达式的分片方案。账户交易明细表分区的实现:根据设计要求,账户交易明细表根据交易时间的区分进行分片存储处理。账户交易明细表的分片存储使用Informix数据库基于表达式的分片方案,为实现分区存储,账户交易明细表不同月份的交易数据分别存储在不同数据库空间,其CREATE TABLE语句如下:CREATE TABLE账 户 交 易 明 细 表(交 易 日 期DATE)FRAGMENT BYEXPRESSIONMONTH(交易日期)=1IN dbspace1,
14、MONTH(交易日期)=2IN dbspace2,MONTH(交易日期)=3IN dbspace3,MONTH(交易日期)=4IN dbspace4,MONTH(交易日期)=5IN dbspace5,MONTH(交易日期)=6IN dbspace6,MONTH(交易日期)=7IN dbspace7,MONTH(交易日期)=8IN dbspace8,MONTH(交易日期)=9IN dbspace9,MONTH(交易日期)=10IN dbspace10,MONTH(交易日期)=11IN dbspace11,MONTH(交易日期)=12IN dbspace12,(2)ETL的实现该医疗保险信息系统涉
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 整合 挖掘 技术 医疗保险 信息系统 研究 应用
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内