大数据环境下医保数据监测和预警平台关键技术研究9978.docx
科技专项: 科技惠民 计划类别: 科技支撑计划(社会发展) 指南代码: 3140(其他社会事业) 常州市科技技计划项项目申报报书( 科技支支撑计划划-社社会发展展 )项目名称: 大数数据环境境下医保保数据监监测和预预警平台台关键技技术研究究 承担单位: 河海大大学常州州校区 所在地区: 常常州市新新北区 单位地址: 江江苏省常常州市晋晋陵北路路2000号 邮编: 22130022 项目负责人人: 徐徐绪堪 电话: 133861113336688 主管部门: 常州州市科技技局 申报报日期:20113年44月233日常州市科学学技术局局二一三年年一、立项依依据1、本项目目国内外外科技创创新发展展概况和和最新发发展趋势势随着常州市市社会保保障信息息系统的的广泛应应用,特特别是医医保数据据爆炸式式增长,积积累了海海量的历历史数据据,数据据量更是是有1.5T之之多。这这些数据据有对医医保行业业最关键键的资金金数据,还还有尚未未被利用用的病人人信息、医医院信息息、治疗疗项目和和药方信信息等,对对这些高高关注度度民生数数据的应应用大多多停留在在录入、查查询、修修改和简简单的统统计等数数据展现现功能。而而目前对对恶意配配药等骗骗保行为为的监管管还主要要靠人工工,面对对日益膨膨胀的数数据,仅仅靠人工工检测已已明显不不能满足足需求。所所以目前前已有的的医保系系统无法法对医保保资金进进行有效效监管,也也无法获获取病人人治疗等等规律或或变化趋趋势,由由于医保保资金涉涉及范围围广、人人数多、业业务复杂杂等特点点,虽有有配药、治治疗、费费用使用用明细等等信息,但但这些信信息没有有得到充充分利用用和发挥挥效益,难难以为人人社局制制定政策策、资金金预算和和监管提提供决策策支持。1.1医保保数据高高关注度度和高敏敏感度医保数据主主要涉及及社会医医疗保险险基金征征缴和使使用,而而医疗保保险基金金是为实实施社会会医疗保保险制度度而建立立起的专专项基金金,是给给予参保保人员基基本医疗疗保障的的经济基基础。它它主要由由参保个个人及单单位所缴缴纳的医医疗保险险费组成成,并交交专门的的经办机机构统一一组织与与管理,用于补补偿参保保人员因因疾病所所需要的的医疗费费用"医医疗保险险基金是是货币形形态的后后备资金金,是职职工的“保命钱钱”。常州州医保系系统依据据的医保保政策及及各种待待遇极其其复杂,主主要包括括职工医医疗保险险、居民民医疗保保险、低低保二次次补助、大大病救助助等,。医医保数据据直接关关系到常常州广大大群众“治病救救命”的切身身利益,同同时也关关系到常常州国计计民生和和社会稳稳定,对对平稳安安全运行行保障要要求极高高。因此此研究医医保数据据监测和和预警显显得非常常必要。医保数据监监测和预预警是一一项以防防范和控控制医保保基金运运营风险险为目标标的复杂杂且长远远的课题题,其涉涉及参保保人员,各级医医疗机构构,医生生体系,定点药药店等多多方面,人人力资源源和社会会保障信信息中心心拥有所所有参保保人账户户信息,医疗机机构信息息,药店店和药品品信息等等等,同同时还维维护了所所有参保保人就诊诊、购药药等海量量实时数数据信息息。医保保数据监监测和预预警的关关键问题题在于如如何从海海量数据据中获得得有价值值的信息息,从而而指导医医疗保险险政策决决策,提提高医疗疗效果和和管理效效率。目前国内医医疗保险险信息化化已经逐逐渐完善善,数据据库和数数据仓库库技术对对医疗保保险实时时交易数数据和历历史数据据的存储储起到了了重要作作用,在在医疗保保险信息息化过程程中操作作型数据据库记录录了大量量详细的的医保相相关的交交易信息息,并通通过每日日更新至至数据仓仓库,数数据仓库库保存海海量的历历史数据据,并维维护数据据的准确确性,通通过对数数据仓库库的统计计分析等等操作可可以生成成业务报报表,然然而随着着业务需需求的不不断扩大大,对运运营决策策支持需需求日益益强烈背背景下,简单的的报表己己经不能能满足需需要,医医疗保险险机构的的决策者者和医保保基金运运营监管管人员希希望能够够从海量量数据中中获取更更多的知知识,以以辅助决决策和监监管,维维护基金金的稳定定运营。1.2最新新大数据据发展趋趋势大数据能够够成为可可用的资资源得益益于大数数据处理理技术的的出现。计计算机历历史前五五十年主主要是利利用人们们专门收收集的数数据,这这些资料料被视为为资源,而而现在计计算机开开始关注注工作流流程中顺顺带积累累的超大大规模数数据,无无处不在在的信息息设施不不停地记记录了人人们行为为的信息息痕迹,利利用大数数据技术术能够分分析这些些信息痕痕迹,从从中提取取重要信信息以减减少对环环境认识识的不确确定性,提提高工作作与生产产效率。大大数据已已成为新新时期人人类可开开发利用用的重要要资源,以以美国为为代表的的发达国国家已经经开始把把大数据据的利用用与大数数据技术术的开发发视为国国家一项项战略性性任务。目前,我们们已进入入大数据据时代,科科学研究究的主导导方式已已经从逻逻辑驱动动、实验验驱动转转向了数数据驱动动的研究究范式。数数据就像像货币、黄黄金以及及矿藏一一样,已已经成为为一种新新的资产产类别,我我们认为为,大数数据必将将在我国国国民经经济中成成为一个个重要产产业。美通社最新新发布的的大数数据市场场:20012至至20118年全全球形势势、发展展趋势、产产业分析析、规模模、份额额和预测测报告告指出,220122年全球球大数据据市场产产值为663亿美美元,预预计20018年年该产值值将达4483亿亿。20012年年,美国国政府拨拨款2亿亿美元启启动“大数据据研究和和发展倡倡议”计划。IIBM、微微软、谷谷歌等国国外ITT巨头早早已嗅到到了“大数据据时代”的商机,这这些国际际巨头借借助自己己拥有领领先技术术和丰富富资源,以以及稳定定的大客客户群,实实力雄厚厚,率先先涉足。我国互联网网数据中中心(IIDC)对对中国大大数据技技术和服服务市场场20112-220166年的预预测与分分析指出出:该市市场规模模将会从从20111年的的77660万美美元增长长到20016年年的6.17亿亿美元,未未来5年年的复合合增长率率达511.4%,市场场规模增增长近77倍。在在国内,大大数据正正在引起起越来越越多的企企业关注注。不但但阿里巴巴巴、腾腾讯等把把大数据据当成近近期的重重点项目目。作为为国内互互联网产产业的发发源地和和创新高高地,中中关村也也在抢抓抓大数据据发展机机遇,着着手布局局大数据据产业。工工信部发发布的物物联网“十二五五”规划上,把把信息处处理技术术作为四四项关键键技术创创新工程程之一被被提出来来,其中中包括了了海量数数据存储储、数据据挖掘、图图像视频频智能分分析,这这都是大大数据的的重要组组成部分分。而另另外三项信息息感知技技术、信信息传输输技术、信信息安全全技术,都与“大数据”密切相关。适逢世界走走向数据据化,迈迈入大数数据时代代的时刻刻,我们们迎来了了新的机机遇,在在这个新新一轮产产业发展展中,医医保作为为国家、省省以及常常州市重重点民生生工程领领域,我我们应该该如何应应对?如如何开发发利用大大数据抢抢占竞争争制高点点? 如如何使未未来大数数据产业业在常州州医保监监控、管管理和预预警等方方面快速速、健康康和领先先发展?大大数据在在医保领领域应用用是新一一代信息息技术的的集中反反映,是是一个驱驱动性很很强的服服务领域域,能有有效解决决大数据据及医保保领域的的技术问问题。1.3本项项目国外外技术发发展概况况数据挖掘(DattaMiininng,简简称 DDM)技技术是用用于发现现潜在数数据信息息和隐藏藏模式的的技术。该该技术最最早出现现于 220 世世纪 880 年年代后期期,是机机器学习习、模式式识别、数数据库、统统计学以以及管理理信息系系统等多多学科研研究成果果的交汇汇,其在在 900 年代代有了飞飞速的发发展,曾曾被认为为是未来来对人类类产生重重大影响响的 110大新新兴技术术之一。全全球研究究数据挖挖挖掘比比较著名名的大学学和研究究机构有有:麻省省理工学学院,AACM(ACMM Sppeciial Inttereest Grooup on Knoowleedgee Diiscooverry iin DDataa annd DDataaMinningg)等。典典型数据据挖掘系系统有:IBMM Inntellliggentt Miinerr、SASS Ennterrpriise Minner、SPSSS CClemmenttinee 及 Orraclle DDataa Miininng 等等。数据据挖掘技技术起源源于上个个世纪的的八九十十年代,在在西方发发达国家家首先得得以推广广运用。在在金融、电电信、商商业和保保险界等等拥有大大量客户户数据的的领域得得到了成成功的应应用。目目前数据据挖掘的的产品较较多,但但主要是是国外的的产品。例例如SAAS公司司的SAAS EEnteerprriseer MMineer,SPSSS 公公司的SSPSSS系列产产品,IIBM公公司的IInteelliigennt MMineer, Miccrossoftt公司的的SQLL Seerveer 220088等。数据挖掘在在国内外外医疗保保险行业业的应用用案例同同样也很很丰富。国国外的商商业保险险公司中中常使用用定向营营销为不不同的客客户制定定相应的的营销策策略,还还有客户户忠诚度度分析,客客户流失失分析,保保险产品品的交叉叉销售等等等"使使用的数数据挖掘掘技术也也多样化化。IBBM研究究中心的的Marrisaa等人基基于澳大大利亚医医疗保险险机构采采集的数数据,将将关联规规则和神神经分割割技术应应用于医医疗保险险信息系系统中,从GBB级的数数据中获获取未知知模式。MohitKumar等使用数据挖掘和机器学习技术预测和预防保险公司在处理医疗保险申诉过程中的支付错误,用以降低日益增长的医疗保险开销。还有许多数据挖掘方法研究集中在医疗保险行业的异常和欺诈检测。1.4本项项目国内内技术发发展概况况我国社会医医疗保险险起步较较晚,数数据挖掘掘技术在在保险欺欺诈检测测中的应应用较少少,同时时与国外外的医疗疗保险面面临的欺欺诈问题题也存在在诸多差差异"根根据研究究,当前前我国医医疗保险险的欺诈诈可能涉涉及的主主体有参参保人,定点医医院,定定点药店店,医保保经办机机构等多多方面,存在的的欺诈方方式多样样:如在在征缴保保费时参参保人出出现少报报或漏报报,在支支付保费费时的超超支或套套现行为为,此外外还有保保险基金金管理机机构的资资金挪用用等。目前,国内内对医保保基金的的风险相相关研究究主要集集中于由由于道德德风险带带来的基基金风险险及控制制医疗费费用增长长的具体体方法上上,采用用的手段段较为简简单,往往往是人人工控制制,辅助助以简单单规则的的数据筛筛选。缺缺乏系统统、全面面的医保保基金风风险控制制框架,缺缺乏强有有力的数数据分析析和系统统的支持持。上海市医疗疗保险信信息中心心秦德霖霖基于 SOAA 和动动态数据据仓库技技术,利利用数据据挖掘和和分析技技术,针针对基金金运行管管理的主主要环节节和基金金风险的的主要因因素,建建立对医医保基金金风险防防控基础础技术平平台。该该平台实实现实时时数据抽抽取、海海量数据据的整合合、异构构平台的的集成。上上海医保保基金风风险防控控平台的的研究,为为控制医医保基金金的风险险、保障障基本医医疗、促促进医疗疗保险可可持续发发展提供供强有力力的支撑撑。在医保管理理过程中中,存在在一种特特殊的就就医现象象,称之之为就医医聚集行行为。就就医聚集集行为通通常表现现为多张张医保卡卡过于频频繁地同同时同地地消费。就就医聚集集行为可可能是由由于某些些特殊病病症人群群如某些些慢性病病人群造造成,也也有可能能存在欺欺诈行为为。找出出这些具具有就医医聚集行行为的人人群,一一方面能能够对特特殊疾病病人群提提供针对对性的管管理和服服务,另另一方面面能有效效提高对对违规人人群的监监督力度度。复旦大学何何俊华基基于 CCBM 算法,开开发出 B/SS 结构构的一致致行为挖挖掘平台台,该平平台能够够有效地地对一致致行为进进行监控控。并将将一致行行为与参参保人费费用记录录的信息息,药品品使用情情况,医医院医生生信息等等相关联联。通过过一致行行为挖掘掘平台,在在医保管管理中能能迅速锁锁定慢性性病人群群,了解解这些特特殊人群群的医疗疗费用负负担等情情况。挖挖掘平台台为医保保管理决决策提供供参考,便便于为不不同参保保人群提提供针对对性的管管理和服服务。此此外,该该平台能能有效检检测出可可疑违规规人群,这这类可疑疑违规人人群可能能同时使使用了多多张医保保卡进行行就医,针针对这些些可疑违违规人员员,需要要对其进进行严格格监管。石萌利用数数据挖掘掘的关联联分析方方法,对对社会医医疗保险险基金收收支情况况进行了了研究,深入分分析了参参保人员员、参保保单位、医医疗单位位等各因因素对社社会医疗疗保险基基金平稳稳运行的的影响,为社会会保障部部门适时时调整基基金收缴缴政策、确确保医疗疗保险制制度的顺顺利实施施提供有有力的技技术支持持。国防科学技技术大学学朱攀利利用人工工神经网网络模型型对医保保定点医医疗机构构的信用用等级进进行学习习,并且且根据学学习过程程中出现现的问题题,对人人工神经经网络做做了改进进,克服服了医保保定点医医疗机构构信用等等级评价价网络原原有的不不足。并并以医保保信息系系统形成成的大量量数据为为基础,利用LLOF算算法对大大量数据据进行挖挖掘,找找出了医医保定点点医疗机机构的违违规行为为。翁滔滔华等通通过利用用数据挖挖掘软件件SPSSS111.0对对病毒性性肝炎的的住院费费用情况况进行分分析,并并分别给给出了病病毒性肝肝炎费用用控制的的上下限限,发现现能能起起到控制制医院的的住院费费用的作作用。黄黄晶晶等等利用数数据挖掘掘技术制制定医保保定额指指标并进进行相关关数据的的分析,结结果发现现数据挖挖掘技术术能够制制定动态态的定额额指标,加加快分析析反馈的的速度,并并做出及及时的分分析返溯溯。综上所述,国国内对医医保人群群医疗费费用的分分析研究究还处于于起步阶阶段,方方法与手手段一般般, 研研究结果果尚不科科学全面面;国外外有不少少相关的的产品,由由于国外外医保制制度与我我国的医医保制度度差别很很大,不不能直接接采用;另外,这这些系统统但大都都是专有有产品并并且价格格高,难难以集成成。国内内关于医医保人群群医疗费费用分析析的研究究,大都都采用订订立措施施制度和和传统半半手工方方式进行行。不少少单位制制定相关关规定和和制度进进行管理理,这些些规定和和制度大大都是针针对医保保政策和和现有的的医院管管理条文文,结合合医保进进行修改改的结果果;或者者,各医医院针对对控制定定额费用用情况,进进行大量量的数据据采集及及统计,制制作医保保分析报报表并利利用该报报表对当当月医保保费用进进行分析析,由于于均采用用手工与与信息系系统的结结合方式式,对于于超定额额费用考考核方面面明显滞滞后,也也难以对对医保各各方面进进行灵活活的详细细分析,进而无无法及时时分析产产生各种种异常情情况的根根本原因因,亦不不利于监监控实时时费用,没没有解决决医保病病人医疗疗费用的的不断上上涨的根根本问题题,更谈谈不上对对医保预预算和预预警。因因此,本本课题拟拟采用先先进的关关系挖掘掘模型技技术,分分析常州州医保现现状,开开发医保保数据监监测和预预警模型型。2、本项目目研究的的目的、意意义2.1 项项目研究究的目的的项目以常州州市人力力资源和和社会保保障信息息系统中中医保海海量数据据为研究究对象,以以提高医医保资金金使用效效率为目目的,通通过静态态的社会会保障知知识与动动态的社社会保障障决策相相结合方方式,借借助数据据挖掘模模型和联联机分析析理论和和算法,对对医保征征收和使使用等海海量数据据进行联联机分析析和数据据挖掘研研究,寻寻求医保保资金使使用网络络、病人人诊治规规律以及及医保资资金回溯溯和跟踪踪,对医医保中心心各定点点医疗机机构的监监管、各各种疾病病的常用用治疗方方案提供供数据支支持,以以实现对对医疗单单位和参参保人精精细化管管理。最最终为市市社会保保障部门门具体政政策的合合理制定定及市政政府的宏宏观决策策提供科科学的依依据,从从而可以以精确控控制社会会保障部部门的决决策过程程,加强强社保决决策过程程的信息息化,保保证决策策过程的的科学性性、合理理性和有有效性。2.2 项项目研究究意义常州市医保保数据涉涉及范围围广、人人数多、数数据庞大大、业务务复杂,是是市民高高关注度度和敏感感的数据据,因此此对医保保数据监监测和预预警研究究具有社社会、学学术和经经济三个个层面的的价值和和意义。(1)社会会层面医疗保险是是社会保保障制度度的重要要组成部部分,涵涵盖的参参保人总总多,其其中核心心就是医医保数据据,例如如常州市市参加职职工医疗疗保险、居居民医疗疗保险等等的参保保人数就就超过1100万万人,使使用好数数据挖掘掘对众多多的参保保人进行行有效的的管理,掌掌握参保保人的概概况,群群体特征征和变化化等信息息对于医医疗保险险机构的的管理和和决策具具有很高高的参考考价值,不不仅是国国家、省省、市等等政府部部门制定定政策预预计影响响范围和和程度,也也是一项项民生工工程,为为医保管管理决策策部门和和医疗机机构提供供科学可可行的建建议,对对科学合合理地利利用现有有医疗资资源,控控制医保保医疗费费用的上上涨,尽尽量减少少群众的的经济负负担,构构筑一个个和谐的的医、保保、患关关系,促促进关系系千家万万户的民民生与幸幸福的医医药卫生生体制改改革顺利利进行和和实现,都都具有非非常重要要的社会会和现实实意义。(2)学术术层面本项目涉及及统计学学、公共共管理、计计算机技技术等多多个学科科交叉,通通过对常常州医保保海量数数据分析析,丰富富社会经经济统计计理论,有有助于在在医保领领域探讨讨不同的的数据挖挖掘算法法和实践践应用。通通过在常常州医保保监测和和预警中中的应用用,不断断优化数数据关联联规则和和挖掘算算法,提提供较好好的数据据支撑。(3)经济济层面通过对医保保数据监监测和预预警,可可以从系系统角度度对医保保过程中中治疗、资资金合理理使用等等在线监监测,有有效避免免恶意配配药等不不合理行行为,提提高市民民治病的的治疗效效果;同同时通过过预警预预测技术术分析医医保资金金使用情情况,有有助于提提高医保保资金预预算精确确度和资资金使用用效率,最最终为常常州市医医保资金金预算和和高效使使用提供供数据支支撑,间间接地为为政府和和市民节节约医保保费用。3、本项目目研究现现有起点点科技水水平及已已存在的的知识产产权情况况河海大学常常州校区区与常州州市人力力资源和和社会保保障信息息中心双双方不断断探讨、沟沟通,明明确系统统总体目目标和思思路,并并开展了了前期调调研,掌掌握目前前常州市市医保数数据现状状和亟待待解决的的监测和和预警问问题。通过研究和和积累,课课题组已已获得获获软件著著作权88件,出出版基基于模糊糊信息的的多属性性决策方方法研究究及应用用、生生态视角角下企业业管理与与信息系系统匹配配研究两两本专著著,相关关学术论论文122篇。4、本项目目研究国国内外竞竞争情况况及产业业化前景景在商业智能能的研究究和应用用不断发发展的同同时,我我国政府府部门对对于数据据分析工工作越来来越重视视,开始始对数据据仓库技技术有了了一定的的需求。就就社保领领域而言言,相关关的研究究虽然不不多,但但已不断断的开始始出现,是是一种发发展必然然趋势,是是本项目目产业化化的基础础和前提提。预计到20014年年,我国国六十岁岁以上人人口将达达到2亿亿,20026年年将达到到3亿,成成为超老老年型国国家。与与年轻人人相比,老老年人的的患病率率和人均均医药费费用均较较高,并并且多患患有慢性性非传染染性疾病病,疗程程长、预预后差、费费用大。这这将进一一步加剧剧社会医医疗保险险的支出出压力,因因此有必必要对医医疗保险险基金运运行平衡衡做长期期的测算算,提前前进行预预警,本本项目具具有广阔阔的应用用范围。二、研究内内容1、具体研研究开发发内容和和要重点点解决的的关键技技术问题题;针对医疗保保险业务务中的各各项数据据进行分分析计算算,利用用计算机机网络技技术和数数据仓库库与数据据挖掘技技术对参参保单位位、门诊诊费用、住住院费用用等多年年数据进进行采集集、转换换、聚合合或重用用,提出出了一套套科学、合合理、符符合实际际需求的的多维数数学模型型,旨在在分析不不同病因因、不同同病种随随年龄变变化的趋趋势,掌掌握人们们随年龄龄增长的的平均健健康状况况,从而而为医疗疗保险政政策指标标的制订订提供依依据,如如下年度度基本医医疗保险险费的测测算、医医保费用用补偿比比的合理理确定、个个人帐户户随不同同年龄段段计提比比例的合合理确定定等,并并据此建建立医保保数据监监测和预预警模型型,首先先自动提提取医保保业务数数据,构构建数据据仓库,进进行多维维分析测测算,并并用各种种图表形形式来反反映结果果。这为为政府各各相关部部门确定定保障金金制度及及比例,拓拓宽医疗疗保障的的范围,为为医保资资金预算算和监管管提供直直接的科科学依据据。项目具体研研究开发发内容主主要包括括监测和和预警数数据的准准备、医医保数据据抽取与与分类、算算法选择择与改善善、医保保数据仓仓库设计计、医保保数据再再组织和和分析、监监测和预预警模型型构建以以及医保保数据展展现等。项项目总体体结构如如图1所所示。1.1监测测和预警警数据的的准备对医保数据据分析目目的是提提高医保保资金使使用效率率,通过过对海量量的医保保大数据据进行分分析,寻寻求医保保资金使使用网络络、病人人诊治规规律以及及医保资资金回溯溯和跟踪踪,为医医保资金金预算和和监管提提供科学学决策支支持,同同时也医医保中心心各医疗疗单位的的监管、各各种疾病病的常用用治疗方方案提供供数据支支持,以以实现对对医疗单单位和参参保人精精细化管管理。无无论是医医院、患患者还是是人社局局,对于于医保数数据都是是密切相相关的,按按照常州州市社会会医疗保保险政策策和制度度,确定定问题的的主题,主主要包括括医保运运行主题题、医保保监督主主题以及及医保征征收主题题三大部部分,对对医保数数据的获获取都是是针对这这三类主主题展开开收集和和组织。1.2 医医保数据据抽取与与分类从医保各个个业务系系统中抽抽取原始始的医保保住院、门门诊、药药店、征征缴等数数据,是是医保数数据监测测和预警警所需数数据的源源头,结结合知识识组织相相关理论论,以数数据单位位为基础础的知识识组织,按按照数据据来源或或者用途途等标准准进行分分类,通通过系统统层次、数数据颗粒粒度、数数据成分分描述成成静态医医保数据据网络。图1 项目目总体结结构图1.3 算算法选择择与改善善常州医保数数据有其其自身的的特点,直直接影响响对关联联规则和和算法的的选择,其其特点主主要体现现在以下下几个方方面:(1)事务务数量巨巨大,医医保发生生频率往往往较高高,随着着时间的的增长,医医保数据据也会随随之快速速增长,医医保数据据库中包包含的大大量数据据会给数数据的预预处理和和挖掘工工作带来来很大的的困难。(2)医保保开户类类型可能能多值,由由于有不不同的人人,不同同的单位位,所以以开户类类型有不不同的需需求。(3)医保保开户日日期”不是名名词性属属性,不不便进行行关联分分析。(4)不同同的属性性值具有有不同的的重要性性,如开开户类型型中,不不同的类类型,保保险公司司的盈利利情况不不一样,但但是大多多数情况况下,大大的保险险单的发发生概率率要低于于其他类类型,所所以关联联分析要要体现出出重要属属性的发发生规律律。针对以上特特点,通通过在数数据预处处理阶段段将医保保数据根根据时间间间隔进进行划分分,例如如按照季季度或者者月份进进行划分分;对于于“开户时时间”不是名名词性属属性,可可在预处处理阶段段先将数数值属性性做离散散化处理理。通过过引入权权值参数数解决出出现频率率较小的的易被忽忽略的问问题,在在关联规规则挖掘掘阶段通通过不同同的权值值来衡量量各种开开户类型型的不同同重要性性从而挖挖掘出大大保单的的关联规规则。综上所述,医医保数据据的关联联分析采采用的算算法以AApriiorii算法为为基础,在在数据处处理阶段段加以相相应改造造,在关关联规则则发现阶阶段,通通过引入入权值参参数来挖挖掘医保保数据中中潜在的的规律。 改改进后的的Aprriorri算法法的基本本思想是是:首先先找出所所有的频频集,这这些项集集出现的的频繁性性至少和和预定义义的最小小支持度度一样。然然后由频频集产生生强关联联规则,这这些规则则必须满满足最小小支持度度和最小小可信度度。然后后使用第第1步找找到的频频集产生生期望的的规则,产产生只包包含集合合的项的的所有规规则,其其中每一一条规则则的右部部只有一一项,这这里采用用的是中中规则的的定义。一一旦这些些规则被被生成,那那么只有有那些大大于用户户给定的的最小可可信度的的规则才才被留下下来。为为了生成成所有频频集,使使用了递递推的方方法。(1)L11 = finnd_ffreqquennt_11-ittemssetss(D); / 挖挖掘频繁繁1-项项集,比比较容易易(2)forr (kk=2;Lk-1 ;k+) (3)Ck = aapriiorii_geen(LLk-11 ,mmin_supp); / 调用aapriiorii_geen方法法生成候候选频繁繁k-项项集(44)foor eeachh trranssacttionn t D / 扫扫描事务务数据库库D(55)Ctt = subbsett(Ckk,t);(66)foor eeachh caandiidatte cc Ctt(7)cc.coountt+; / 统计候候选频繁繁k-项项集的计计数(88)(99)Lkk =c Ckk|c.couuntminn_suup / 满足最最小支持持度的kk-项集集即为频频繁k-项集(110) (111) retturnn L= k Lk; / 合并并频繁kk-项集集(k>>0)Aprioori候候选产生生函数AApriiorii-geen的参参数Lkk-1,即即所有大大型(kk-1)项目集集的集合合。它返返回所有有大型kk项目集集的集合合的一个个超集(Suppersset)。首先先,在JJionn(连接接)步骤,我我们把LLk-11和Lk-1相连连接以获获得候选选的最终终集合的的一个超超集Ckk:(1) iinseert innto Ckk(2) sseleect p1,pp2,pk-11,qqk-1(3) ffromm LLk-11p,LLk-11q(4) wwherre p11 = q1,ppk-2 = qqk-2,ppk-1 < qqk-1接着,在PPrunne(修修剪)步骤,我我们将删删除所有有的项目目集 ccCk,如如果c的一些些k-11子集不不在Lkk-1中中,为了了说明这这个产生生过程为为什么能能保持完完全性,要要注意对对于Lkk中的任任何有最最小支持持度的项项目集,任任何大小小为k-1的子子集也必必须有最最小支持持度。因因此,如如果我们们用所有有可能的的项目扩扩充Lkk-1中中的每个个项目集集,然后后删除所所有k-1子集集不在LLk-11中的项项目集,那那么我们们就能得得到Lkk中项目目集的一一个超集集。1.4 医医保数据据仓库设设计按照医保运运行、监监督以及及征收主主题进行行医保数数据仓库库的设计计,由于于医保数数据分布布于定点点医疗机机构、药药店等不不同的业业务系统统中,需需要通过过抽取工工具获取取和清洗洗、数据据转换、关关联分析析、知识识点获取取以及数数据仓库库构建等等过程,并并结合数数据颗粒粒度原理理,按照照医保监监测和预预警规范范进行数数据组织织,医保保数据仓仓库设计计层次结结构图如如图2所所示,通通过分类类和聚类类算法,结结合常州州市人力力资源和和社会保保障中心心实际,形形成医保保运行主主题数据据(职工工医保运运行、医医疗救助助、公务务员补助助、居民民医保、离离休、荣荣军分析析、工伤伤保险分分析、生生育保险险分析等等)、医医保监督督主题数数据(参参保人医医疗异常常、定点点单位医医疗异常常等)、社社会医疗疗保险参参保征缴缴主题数数据(社社会医疗疗保险参参保情况况、社会会医疗保保险基金金征缴情情况)等等。图2 医保保数据仓仓库设计计层次结结构图其中核心部部分是数数据关联联分析,是是建立在在医保数数据抽取取和分类类基础上上,按照照粒度聚聚类和分分类原理理,形成成动态的的医保数数据网络络。1.5 监监测和预预警模型型构建监测和预警警模型包包括两个个方面的的内容:其一是是建立监监测指标标体系,它它将直接接反应医医保数据据运行现现状,同同时可以以抽取和和挖掘形形成治疗疗方案库库;其二二是建立立预警指指标体系系,它直直接影响响着监测测和预警警模型的的敏感性性和正确确率,融融入数据据挖掘算算法进行行预警算算法模型型,并给给出科学学合理的的预警结结果。监监测和预预警模型型如图33所示。医保数据监测和预警模型监测指标体系运行指标异常指标征缴指标预测算法动态监测结果预警指标体系警情指标警兆指标警源指标动态预警报告医保预警模型治疗方案库图3 监测测和预警警模型1.5.11指标选选择原则则 监测测和预警警指标的的选择要要遵循代代表性、全全面性、可可比性、可可获得性性等几项项原则。 (1)代代表性是是指选择择的指标标具有同同类指标标的基本本特征,能能够反映映医保基基金收入入支出的的主要方方面,并并能够代代表同类类指标的的变化趋趋势。 (2)全全面性是是指选择择的指标标应该要要涉及医医保基金金运行的的各方面面,既要要涉及医医疗保险险基金内内部的因因素,也也要涉及及其外部部因素;既要有有微观的的财务指指标,也也要有宏宏观的经经济指标标。 (3)可可比性是是指预警警指标要要能够连连续计算算,使其其具有可可比性,从从而可以以连续观观察医疗疗保险基基金收支支运作的的情况。 (4)可可获得性性是指选选择的预预警指标标应该是是公开的的,便于于获取并并能够直直接用于于研究的的。1.5.22 具体体内容通过对现有有医保静静态数据据的分析析整理,并并综合了了相关专专家意见见,医保保基金运运行平衡衡的监测测和预警警指标包包含三个个方面,即即财务性性指标、客客户性指指标和成成长性指指标。在医保监测测体系中中主要通通过分析析和整理理明确医医保基金金的状态态和现状状。医保保预警体体系一般般包括以以下几个个方面:明确警警情、寻寻找警源源、分析析警兆和和预报警警度。(11)在预预警体系系中明确确警情是是第一步步。警情情是指影影响医疗疗保险基基金正常常运行的的负面扰扰动因素素不断发发展到一一定程度度,从而而表现出出来的、能能够被外外界所观观察到的的外部形形态。通通常设定定一个医医保基金金运行平平衡指标标的安全全区间,当当实际运运行数据据超过特特定的区区间,则则表明医医保基金金运行的的危机警警情出现现。警情情严重时时会引发发整个医医疗保险险制度性性危机,因因此,在在保障基基金稳定定运行的的过程中中,明确确警情是是进行医医疗保险险基金危危机预警警的前提提,而警警源是警警情发生生的根源源。(2)寻寻找警源源是预警警过程的的起点和和基础。所所谓警源源,就是是指产生生医保基基金运行行机制出出现危机机的根源源,是医医疗保险险危机警警情的策策源地。警警源主要要有以下下几种:第一类类是内生生警源,即即是医疗疗保险制制度自身身内部的的因素。如如医疗保保险水平平指标的的高低、基基本医疗疗保险支支出占国国家财政政支出的的高低、基基本医疗疗保险范范围内的的支出状状况、城城乡不同同的医疗疗保险政政策以及及缴费率率的高低低等。第第二类是是外来警警源,即即医疗保保险的外外部因素素。如医医疗保险险法制、行行政管理理体制的的有效性性、监控控机制的的完善程程度、国国内经济济发展状状况、合合理的计计划调控控以及其其他社会会政策的的配套。(3)分析警兆是预警过程中的关键环节。在警情在爆发之前必然会有相关的警兆出现,所以分析警兆及其报警的区间,便可以进行相关的预测和预报警情。(4)预警的目标是对预报系统所存在的危机程度,这就是预报警度。根据警兆的变动情况,参照警情的警限或警情等级,分析警兆的报警区间与警情的关系,结合专家的意见和经验,预报实际警情的严重程度。在对医保基金运行的平衡状况进行监测和预报警度时,一般按照以下步骤进行。首先是定量描述,也就是找出能够反映警情指标的数量特征标志。比如,有些警情指标的数量标志是变化率,以百分比作为计量单位,根据历史的经验和一定的理论分析,我们确定其可能变化的最大值和最小值,也就是说确定一个数值的波动区间,观察实际运行数据在波动区间的变化情况。第二步是在描述的基础上进行定量处理,即将警情指标可能波动的最大区间划分为若干个性质不同的二级区间,称为警限。不同的耳机区间代表不同的警限。本系统中,我们对警限采用了三个区间来表示:无警警限(R0),轻警警限(R1)和重警警限(R2),无警警限是警情变化的安全区间,我们的基金应尽量在此区间进行安全运营。对于风险预警来说,不同的二级区间,也就是各类警限是最具有根本意义的。尤其是无警警限的确定是最为困难的。对于医保基金运行平衡的预警系统来说,我们应该根据医保基金历年来的运营情况、国内和国外的比较与理论分析的情况以及专家意见来综合考虑,最终予以确定。确定了各类警限和警区之后,就可以在日常的运行中观测警情指标的实际值及其变动区间,监测其警度和警情的发展。重点解决的的关键技技术问题题(1)医保保数据仓仓库设计计,医保保主题数数据设计计要符合合常州医医保基金金管理要要求,同同时又要要符合数数据仓库库设计和和关联规规则,方方便医保保数据组组织和使使用。(2)监测测和预警警模型构构建,监监测模型型是反应应当前医医保基金金运行状状态,通通过分析析和监测测医保基基金当前前状态,借借助预测测算法和和模型,预预测医保保基金发发展趋势势,形成成适合常常州市人人力资源源和社会会保障信信息中心心的医保保数据监监测和预预警模型型。2、项目的的特色和和创新之之处;(1)从知知识组织织的视角角设计医医保数据据仓库,以以方便挖挖掘医保保数据中中潜在规规律为目目