医疗保险中小样本信息处理的两种模型.docx
医疗保险中小样本信息处理的两种模型 一、引言 商业健康保险是我国建立和发展多层次医疗保障体系的重要内容,而以报销住院费用为保险标的的保险形式是商业健康保险中最常见的形式之一。而在设计医疗保险产品时,风险分析和评估始终是必需考虑的问题之一。在很多状况下,由于种种条件的限制,只能搜集到少量的样本,即小样本。如保险中的豁免数据,健康险中的各种重大疾病患病状况数据等等。因此在数据缺乏的基础之上,如何充分利用有限的样本点来较精确的估计每次住院费用的分布对于商业健康保险产品的费用厘定有着重要的意义。 概率密度的核估计方法自Rosenblatt(1955年)和Parsen(1962年)提出以来,由于其优良的统计特性和运用简便而快速发展起来。核估计方法具有较参数估计方法适用范围广,较直方图方法估计精确且光滑性好等特点。运用核估计方法处理大样本信息,是统计学中常用的一种手段。但核估计方法来处理、解决、分析保险精算中小样本信息,在国内鲜见报道、登载。本文将核估计方法用于一个实际项目的探讨,解决了一维小样本问题。 该项目的数据资料为某市参与基本医疗保险的366363位20岁以上参保职工在2000年7月到2001年6月一年间共27365次住院的费用记录,其中男性14373人次,女性13265人次。本文通过利用核估计方法、信息扩散方法、信息扩散的参数优化方法对每次住院费用的年龄分布密度进行了估计,其详细做法是:1.利用核估计方法处理的大样本结果作为检验标准2.利用核估计方法和信息扩散方法同时处理小样本问题,并将结果加以比较,说明信息扩散方法处理小样本问题的有效性3、引入两个准则,建立优化模型,结果比较志向。 二、数学模型 1.核估计的定义和窗宽的选择 设Y1,Y2Yn是随机变量的简洁随机子样,f(y)是Y的概率密度函数,K(·)为上一个给定的概率密度函数,hn0是一个与n有关的常数,记 fn(y)=fn(y;Y1,Y2,Yn)=1nhnni=1k(y-Yihn) 则称fn为总体未知密度函数f的一个核估计,称K(·)为核函数,称hn为窗宽。 核估计方法得到的概率密度函数不仅和样本有关,还与核函数的选择以及窗宽的选择有关。本文选取标准正态密度函数为核函数,选取窗宽hn=CQn15。 2.信息扩散方法定义 在上述定义和选择的基础上,本文相关的信息扩散方法定义为: 定义1 设V是学问样本,W是基础论域,所谓关于V的一种信息扩散,就是V×W到0,1上的一个映射::V×W0,1,且满意下列三个条件:vjV,如wj是vj的观测值,则(vj,wj)=supwW(v,wj);vjV,(vj,wj)随|wj-w|数值的增加而递减;vV,w(v,w)dw=1其中,如W为离散情形,W表示W。 定义2扩散的范围被定义为欧几里得距离R。假如R是有限的,就称为有限维信息扩散。 3.信息扩散方法的参数优化问题 信息扩散的性质不仅依靠于给定的样本,也与参数的选择有亲密的关系。随着参数的改变,从几何上讲会引起曲线或曲面的波动的增加或减小,因此通过优化参数对扩散函数进行改进,这是本文一个重要工作之一。其原则是既要从肯定程度上反映给定样本的性质, 同时又希望曲线或曲面的波动性尽量的小。为此,建立如下准则: 准则1:最小波动准则 信息扩散函数参数的选择应当使患病率曲线波动最小。数学表达式为:F()=ba2pw22dw 准则2:有限偏离度准则 信息扩散所得到的患病率偏离给定样本不远。该准则作为约束条件,衡量方法是借鉴图形相像的判别方法,其数学表达式为: C()=i(fiO*fid()(i(fiO)2i(fid()2)12 其中f0i表示原始小样本在给定子域i上的住院费用对数的频数,fdi()表示经过信息扩散后得到的住院费用对数的频数。则信息扩散的优化参数模型为minF();s.t.C(),其中为相像指数。 三、项目探讨 1.大样本 将住院费用数据按性别和年龄段分成12组,分别为2029岁,3039岁,4049岁,5059岁,6069岁,73岁以上。对住院费用取取核函数K(x)=12e-x22,分性别和年龄用核估计方法对住院费用进行分析,其结果如下: 图1 女性20-29岁及30-39岁住院费用对数的核密度函数曲线 图2 女性20-29岁及30-39岁住院费用对数的核密度函数曲线(大样本) 从以上图形可以看出,利用核估计方法得到的密度函数曲线较好的保持了其核函数的连续性、光滑性和对称性。 对于女性2029岁的状况,可以发觉这个年龄段的密度曲线有着明显的双峰,而且费用较小的那个峰特殊的高。依据图2,分析其缘由可能有以下两点:处于该年龄段的很多女性由于生育或生育相关缘由而发生住院;生育住院费用的分布和非生育住院费用的分布是有区分的。整体而言,生育住院的费用比非生育住院的费用要小得多。 而女性30-39岁年龄段也因为生育住院的缘由而有两个峰,只不过这个年龄段的生育比例相对较小,故没有20-29岁年龄段表现的那么明显。 2.小样本 核估计方法 我们采纳随机抽样的方法,依据性别和年龄段分别从不同的一维大样本中抽取105条数据,在每一个子区间,平均只有7个样本点,因此该数据可作为小样本。对于该样本,采纳核估计方法计算分性别和年龄段的住院费用对数的分布状况。取核函数K(x)=12e-x22。 信息扩散方法 限制点集为w=wi=0.5+i,i=0.1,14,其中wi代表某个年龄段的住院费用对数,限制点间距为=1。取一维信息扩散函数(w,v)=e-(w-v)22,将每个记录的信息从样本点扩散到全空间,得到限制点wi处的某个年龄段住院费用对数的密度函数f(wi)。 信息扩散方法的参数优化 上面我们将参数设定为2,存在着肯定的主观性。信息扩散的性质不仅依靠于给定的样本,也与参数的选择有亲密的关系。参数确定了信息扩散函数的“胖”与“瘦”,即限制信息扩散的程度。从另一个角度讲,它体现了我们对信息点影响范围及程度的度量。如前面所述,本文依据两个准则“有限波动准则”和“最小偏离度准则”,得到了信息扩散参数优化的详细结果如下。 图3 核估计方法、信息扩散方法、优化信息扩散方法比较 图4 核估计方法、信息扩散方法、优化信息扩散方法比较 从图3、4可以看出利用核估计方法处理小样本问题,无论生育还是非生育状况,峰值和峰宽均小于大样本的状况。且对于女性2029岁年龄段,基本没有反映出其双峰的特征。这一切均是由于小样本信息量不足,一些能够体现曲线的微小特征的信息遗失的结果。但从整体来讲,利用核估计方法处理该小样本问题是有效的,获得的两条住院费用对数的分布曲线相当接近,能够反映出住院费用对数的整体分布状况。而信息扩散的效果类似于计算几何中对曲线的光顺,上图正说明白这一点,扩散所得的峰值较核估计的低。可以说,信息扩散的实质是通过集值化的手段填补样本点之间的空隙,从而达到充分利用信息的目的。即信息扩散方法是利用信息的合成避开了信息的局部化,达到了平均化信息的效果。经过参数优化后,利用信息扩散方法处理的小样本问题的住院费用对数曲线的峰值和峰宽均有所改进,更加接近作为客观近似标准的核估计大样本状况。 四、结果分析 为了更加清楚地衡量不同处理方法的有效性,本文引入了“可削减误差”的概念。若某种估计方法的肯定误差总和为Pa,另一种估计方法的肯定误差总和为P(PaP),则称(Pa-P)/Pa为相对的可削减误差。以下就是以核估计方法处理大样本的结果作为近似的客观标准,其它三种方法与之比较,得到的肯定误差和可削减误差。 表1 误差结果比较表 性别女性女性非生育 年龄段20-2930-3920293039 UIDM0.53880.27790.51060.2867 OIDM0.32673.11390.38030.1551 ker0.22730.11220.32373.1230 (UIDM)-137.36-147.68-57.74-133.09 (OIDM)-43.92-1.52-17.49-26.1 从上表的数字可知,对于该住院费用分布问题,利用核估计方法处理小样本所得结果比较志向,与大样本的平均肯定误差为0.1539。经过参数优化后,利用信息扩散方法处理小样本问题的结果与大样本的平均肯定误差为0.1694,比未经过参数优化时总体误差削减了47.56%,达到了与核估计几乎相同的效果。 注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文 第8页 共8页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页第 8 页 共 8 页