基于Tweedie和零调整逆高斯回归的索赔额模型

2010-10-21 06:25黄顺林
统计与决策 2010年4期
关键词:泊松高斯分布保单

黄顺林,张 颖,陈 娜

(1.南京财经大学 应用数学学院,南京 210046;2.中国人民大学 统计学院,北京 100872;3.南京邮电大学 通达学院,南京 210003)

0 引言

在财产保险中,保险定价、损失理赔是保险业务的核心问题,而保费定价的基础就是对所考虑险种索赔金额损失分布的精确估计,因此,财产损失分布建模,是精算师的一项极为重要的工作。一般来说,不同保险标的财产损失具有不同的分布模型,因此在早期的研究中,人们通常针对具体险种的历史损失数据,选择理论模型,然后再利用实际数据进行参数估计和拟合检验。Hogg等(1984)[1]给出了很多索赔额分布的可能选择。由于索赔额的损失分布通常是连续右偏的分布,所以常常使用伽玛分布、逆高斯分布、对数正态分布和帕累托分布来对索赔额进行量化。在应用中,韩天雄[2]根据具体险种特点,提出构造索赔额密度函数的修正方法来拟合索赔额分布,达到了比较理想的拟合效果。但是,如果统计数据中含有与索赔额相关的风险因素信息时,直接对索赔数据进行拟合就不是很有用,因为它没有把所观察到的风险因素信息考虑在内。广义线性模型将经典线性模型中的因变量的正态假设放宽为具有离散参数的指数型分布,并通过联结函数将因变量和解释变量之间的关系设定为非线性关系,从而克服了经典线性模型在应用上的局限性。广义线性模型因此在精算学的各个领域中得到广泛运用。

在对索赔额建立广义线性模型时,传统上是把索赔额分为零索赔额和非零索赔额来考虑,先对零索赔额建立以“索赔发生与否”为因变量的模型,再对非零索赔额建立模型,然后把两个模型的结果合并,来对索赔额进行预测分析。如Haberman和Renshaw(1996)[3]基于非零索赔额与风险因素的关系建立了索赔额模型,得到非零索赔额的估计和风险因素的影响,然后再考虑索赔发生的概率,最后把两者结合在一起,对索赔额进行了分析研究。之后的许多研究大多是在此基础上发展的,而把零索赔额和非零索赔额作为整体来考虑建立模型的很少,如 Jφrgensen和 de Souza(1994)[4]和 Smyth和Jφrgensen(2002)[5]基于复合泊松分布,并对期望值和离散参数分别建立与风险因素的关系,对索赔额进行了研究。

本文将以零索赔额和非零索赔额的整体作为研究对象,基于Tweedie分布族和零调整逆高斯分布建立索赔额回归模型,并以汽车第三者责任保险的损失数据为例,应用这两个回归模型。

1 Tweedie和零调整逆高斯回归模型

1.1 Tweedie回归模型

Tweedie分布族是指数散度模型中的一类,一般用Twp(θ,φ)来表示,其中,θ为规范参数,φ为离散参数。Tweedie分布族由其方差函数V(μ)=μp完全确定,p取值于 (-∞,0)∪[1,+∞)。它包括了几个常见重要分布作为其特例:p=0,1,2,3分别对应于正态分布、泊松分布、伽玛分布和逆高斯分布。在1<p<2 时,相应的 Twp(θ,φ)是一个复合泊松分布,即 y=x1+x2…+XC,C服从泊松分布,xj独立且服从伽玛分布,则y就服从Twp(θ,φ)(1<p<2)。

实际中许多保单都允许多次索赔,令Ni表示第i个风险类别的索赔次数,ωi表示第i个风险类别的风险个数,yi表示第i个风险类别的每单位索赔额随机变量,i=1,2,…,n。假设Ni服从泊松分布,每次索赔额独立且服从伽玛分布,则yi服从 Twp(θi,φi)(1<p<2)分布,其在零点有一个集中概率,在大于零时,是连续分布。

以Tweedie分布为因变量的分布建立广义线性模型:

其中xi=(xi1,…,xiq)T是由q个分类变量构成的向量,T表示转置,β是q×1阶的参数向量。

回归参数β可用极大似然法估计,其Fisher得分更新方程为:

可以看出这与加权最小二乘法的估计方程具有相同的形式,只是需要迭代使用,所以模型的极大似然估计等价于迭代加权最小二乘估计。参数估计的标准误可以从Fisher信息矩阵的逆中得到,Fisher信息矩阵为:

Δ近似服从自由度为n-q的卡方分布。因此,如果模型是适当的,则根据观察数据与模型计算的Δ值应该接近n-q。

1.2 零调整逆高斯回归模型

把索赔额分为零索赔额和非零索赔额考虑时,先对零索赔额建立以“索赔发生与否”为因变量的logistic回归模型,再对非零索赔额建立伽玛或逆高斯等回归模型,然后把两个模型的结果合并,来对索赔额进行预测分析。而零调整逆高斯回归模型把这两个模型合并在一个模型中,直接对索赔额建立预测分析模型。

假定y表示索赔额,则其分布是离散与连续相混合的。假定发生索赔的概率为π,非零索赔额的密度函数为h(y),则y的密度函数为:

若假设“索赔发生与否”这个二元随机变量服从参数为π的贝努利分布,非零索赔额服从逆高斯分布IG(μ,σ2),则索赔额服从零调整逆高斯分布。其期望和方差分别为:

以零调整逆高斯分布作为因变量的分布可建立零调整逆高斯回归模型,其π、μ和σ都可以是解释变量的函数:

其中 g1、g2、g3是联结函数,x、z、w 是由解释变量构成的向量,β、γ、λ是相应的需要估计的参数向量。模型的参数可使用Rigby和 Stasinopoulos(2005)[6]介绍的backfitting算法进行估计,利用统计软件R的gamlss模块可以实现。

2 在汽车保险定价中的应用

下面用汽车第三者责任保险的一组损失数据讨论Tweedie回归模型与零调整逆高斯回归模型在汽车保险定价中的具体应用 (数据来源http://www.statsci.org/data/general/motorins.html)。该数据包含的变量有:每年行驶里程数(5个水 平 : <1000、1000 ~15000、15000 ~20000、20000 ~25000、 >25000;用K表示);地区(7个地理区域,用Z表示);无赔款折扣等级(7个等级,用 B表示);车型(9个水平,用 M表示);保单年数,索赔次数和总索赔额。

设y表示每保单年数的索赔额,将每年行驶里程数、地区、无赔款折扣等级、车型作为解释变量来对索赔额建立Tweedie回归模型与零调整逆高斯回归模型。

首先建立Tweedie回归模型,选择对数联结函数,即

其中 β=(β0,β1,…,β28)T,x=(1,x1,x2,…,x28)T,参数 β0对应截距项,β1至β28分别是对应5个里程数、7个地区、7个折扣等级、9种车型的系数。

先用极大似然法估计参数p,调用R软件中的tweedie模块得到p=1.53。然后运用R软件中的statmod模块得到模型拟合结果。从结果(具体结果表略)中可以看出,大部分参数的估计值都是显著的,而且偏差为48217/40=1205,自由度为2157,说明模型整体拟合的效果比较理想。

以对应于地区1、年行驶里程数小于1000公里、无赔款折扣等级1、车型1为基准的保单年索赔额的估计值为713.37,其他类别保单的年索赔额为基准类别的年索赔额乘以相应的eβ^。下面考虑各个风险因素对索赔额的具体影响。除了年行驶里程数水平3,其对索赔额的影响是单调的,随着行驶里程数的增加,索赔额也相应增加。就无赔款折扣等级而言,其对索赔额的影响也近乎单调的,处在折扣的等级越高,其索赔额越低,风险也就相对较小。在折扣等级7的索赔额只有等级1得索赔额的33%。对所处地区而言,地区1的风险最大,地区7的风险最小,其他地区的索赔额相差不大。从车型看,参数估计的显著性普遍不是太显著,可认为车型对索赔额的影响不大,不过从估计的结果还是能发现,车型4的风险最小,车型5与车型8的风险相对较高,而且是比较显著的。

再对这组数据建立零调整逆高斯回归模型:

这里μ和σ的联结函数为对数联结函数,而π选用lo⁃gistic联结函数。

选用与Tweedie回归模型相同的基准类别,并运用R软件中的gamlss模块得到模型拟合结果:模型的偏差为25491,基准类别的非零索赔额估计值为749.94,索赔发生概率的估计值为:

从实际数据看,基准类别保单索赔是发生的,所以与实际相符,则索赔额的估计值为 749.94×0.998=748.21,与Tweedie回归模型的估计值相差不大。其它类别保单的非零索赔额与索赔概率可从相应的参数估计值中得到,例如对于地区5、年行驶里程数20000~25000公里、无赔款折扣等级6、车型4的保单,其非零索赔额估计值为749.94×0.84×1.62×0.38×0.52=201.65,索赔概率估计值为:

从参数估计结果看 (Tweedie回归与零调整逆高斯回归的参数估计结果表略),零调整逆高斯回归模型得出的各风险因素对索赔额的影响与Tweedie回归模型基本相同。但由于这组数据的索赔概率很高,使得零调整逆高斯模型的拟合偏差较大,所以对这组损失数据来说,Tweedie回归模型的整体拟合效果更好。

3 结束语

本文针对零索赔额和非零索赔额建立了Tweedie和零调整逆高斯回归模型,并且给出参数估计方法和拟合检验过程,结合实际案例进行了系统的理论方法论述和比较分析,对于零索赔额和非零索赔额损失分布建模问题给出了一套完整、清晰的思路。

另外,在零调整逆高斯回归模型中假定保单分为有索赔和无索赔两类,而没有考虑多次索赔的情形,在Tweedie回归模型中,假定了保单的索赔次数服从泊松分布,每次索赔额独立且服从伽玛分布的情形。在进一步的研究中我们可以把多次索赔的其他情形考虑进去,不同的索赔次数分布与每次索赔额分布的假定,都会相应产生不同的索赔额的分布,从而得到不同的回归模型。比如,索赔次数的分布可以是负二项分布、零膨胀泊松分布等,每次索赔额分布可以是逆高斯分布、对数正态分布等。在具体应用时,要根据损失数据的具体特点以及积累经验,来选取合适的模型。

[1]Hogg,R.V.,Klugman,S.A.Loss Distributions[M].New York:Wiley,1984.

[2]韩天雄.保险索赔额的分布及其应用[J].华东师范大学学报(自然科学版),1997,(4).

[3]Haberman,S.,Renshaw,A.E.Generalized Linear Models and Actuarial Science[J].The Statistician,1996,45(4).

[4]Jφrgensen,B.,de Souza,M.Fitting Tweedie’s Compound Poisson Model to Insurance Claims Data[J].Scandinavian Actuarial Journal,1994,(1).

[5]Smyth,G.K.,Jφrgensen,B.Fitting Tweedie’s Compound Poisson Modelto Insurance ClaimsData:Dispersion Modelling[J].Astin Bulletin,2002,(32).

[6]Rigby,R.A.,Stasinopoulos,D.M.Generalized Additive Models for Location,Scale and Shape(with discussion)[J].Applied Statistics,2005,(54).

猜你喜欢
泊松高斯分布保单
基于泊松对相关的伪随机数发生器的统计测试方法
一类带有两个参数的临界薛定谔-泊松方程的多重解
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
带有双临界项的薛定谔-泊松系统非平凡解的存在性
2种非对称广义高斯分布模型的构造
急用钱,试试人身险保单贴现
一种基于改进混合高斯模型的前景检测
财富投资规划保单常规检查不可少
泊松分布信息熵的性质和数值计算
一种改进的混合高斯模型背景估计方法*