汽車保險索賠次數雙泊松回歸模型運用
時間:2022-06-12 10:32:00
導語:汽車保險索賠次數雙泊松回歸模型運用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1引言
在擬合汽車保險索賠次數的模型中,泊松分布模型是擬合索賠次數的最簡單且常用的模型,具有均值與方差相等的特性。而索賠次數模型往往具有方差大于均值的性質,此時如果繼續使用泊松分布模型會低估參數的標準誤差,高估其顯著性水平,導致多余的解釋變量保留在預測模型中,最終導致不合理的保費。對于此類問題,研究人員通常利用各種不同的混合泊松模型來預測索賠次數。Ruohonen[1]提出結構函數為三參數伽瑪函數的泊松分布,同時用實際損失數據與兩參數結構函數泊松模型即負二項模型進行了比較,得到了比較滿意的結果。Panjer[2]運用廣義poisson-pascal分布(即Hofmann分布,含三個參數)來建立汽車索賠次數模型,擬合效果也比較理想。NorisonIsmail和AzizJemain[3]討論了負二項回歸模型和廣義泊松回歸模型的參數估計及其在索賠頻率預測中的應用,而DenuitMichel[4]等人應用負二項回歸、泊松-逆高斯回歸和泊松-對數正態回歸對汽車保險的索賠頻率進行了實證研究。國內關于索賠頻率模型的研究主要有孟生旺和袁衛[5]用混合Poisson模型研究了非同質風險的索賠分布。高洪忠、任燕燕[6]研究了一類更廣泛的分布,即GPSJ類分布,這類分布描述了一次風險事件多種索賠結果的情況。毛澤春和劉錦蕚[7]分析了免賠額及NCD賠付條件對索賠次數分布的影響,通過比較風險事件與索賠事件的差異引出了一類同質集合保單索賠次數的分布(Pois-son-Gamma)。毛澤春和劉錦蕚[8]引出了一類指數類混合型索賠次數的分布并研究了其散度(disper-sion)的性質,同時給出了擬合類分布的矩估計方法。徐昕、袁衛、孟生旺[9]將兩參數負二項回歸模型推廣到三參數情況,并利用新模型對Yip和Yau[10]中的汽車保險損失數據進行了擬合,得到了較好的效果,提出了解決過離散問題的一種新辦法。學者們的研究大多數集中在混合泊松分布模型上,而雙泊松分布模型也是一類離散型分布模型,具有方差大于均值的特性,但關于利用雙泊松回歸模型預測汽車保險索賠次數的文獻并不多見。本文將在下面內容中詳細介紹雙泊松回歸模型的性質及參數估計,并且利用該模型來擬合一組實際的汽車保險索賠數據,并將其結果與泊松回歸模型的擬合進行比較分析。
2泊松回歸模型性質及參數估計
為便于討論,假設共有p個分類變量,將所有保單分為n個風險類別,其中第i個風險類別在p個分類變量上的取值用xi=(xi1,xip)T表示,T表示轉置。用wi表示第i個類別包含的風險單位數(如汽車保險中的車年數)。令Yi表示第i個風險類別的索賠次數隨機變量,i=1,2…,n。如果Yi服從泊松分布,則其概率函數為:Pr(Yi=yi)=exp(-λi)λyiiyi!,yi=0,1,……泊松分布的均值與方差相等,即E(Yi)=Var(Yi)=λi。若令λi=wiexp(xTiβ),即可得到泊松回歸模型,其中β是p×1階的參數向量。容易求得泊松回歸模型的對數似然函數為:l=∑ni=1(-lnyi!+yilnλi-λi)回歸參數β的極大似然估計可以通過下述似方程組求得:lβj=∑ni=1(yi-λi)xij=0,j=1,2,……,p為了求得參數估計的標準誤差,首先需要計算Hessian矩陣,其中的元素是關于對數似然函數的二階偏導數,即Hjk=2lβjβk=-∑ni=1[λi,xijxik],j,k=1,2……,p因此信息矩陣的元素為Ijk=-E(Hjk)=∑ni=1[λi,xijxik],j,k=1,2……,p對信息矩陣對角線上的元素先求導數,然后再開方,即可得到參數估計的標準誤差。
3雙泊松回歸模型的性質及參數估計
雖然無法確定雙泊松分布是否也是一種混合泊松分布,但由于其具有方差大于均值的特征,因此也可以用于過離散數據的處理。雙泊松分布的概率函數可以表示為:Pr(Yi=0)=θ1/2e-θ2λiPr(Yi=yi)=(θ1/2e-θλi)(e-yiyyiiyi!)(eθλiyi)θyi,yi=1,2……均值和方差分別為:E(Yi│xi)=λi,Var(Yi│xi)=λi(1/θ+λi(θ-1))2此處對雙泊松分布形式不同于Yip和Yau文獻中的雙泊松回歸模型。這樣做的目的是使其均值正好等于λi,與其他分布保持一致。如果采用其他的參數形式,譬如,如果參數的形式使得雙泊松分布的均值正好為λi/θ(參見Yip和Yau),則截距項的估計值將發生變化,但索賠頻率的預測值不會受到影響。從上述方差和均值的關系可以看出,當θ在區間(0,1)之間變化時,θ越小,雙泊松分布的過離散程度越嚴重,因此我們將g=q定義為雙泊松分布的離散參數。當θ→1時,雙泊松分布退化為泊松分布。容易求得雙泊松回歸的對數似然函數為:l=∑yi=0[12lnθ-θ2λi]+∑yi>0[12lnθ-θ2λi-yi+yilnyi-lnyi!+θyiln(exp(1)θλi/yi)]對上式求偏導,可以得到模型的似然方程組為:lθ=∑yi=0[1/(2θ)-θλi]+∑yi>0[1/(2θ)-2θλi+yiln(exp(1)θλi/yi)+yi]=0lβj=∑ni=1[θ(yi-θλi)xij]=0雙泊松回歸的Hessian矩陣H的元素也很容易求得:2lβjβk=-∑ni=1(θ2λixijxik),j,k=1,2…,p因此雙泊松回歸的信息矩陣的元素為Ijk=-E(Hjk)=∑ni=1(θ2λixijxik),j,k=1,2…,p。
4模型檢驗
4.1過離散檢驗
對于索賠數據是否具有過離散的特征,通常利用兩種方法來判斷。一是在普通最小二乘回歸模型的基礎上建立的統計量(Cameron和Trivedi[11]),滿足下述條件(yi-λi)2-yiλi=αλi+ei其中的λi=exp(xiβ),ei是隨機誤差項。如果系數α的t統計量顯著,說明存在過離散特征。另外一種方法是拉格朗日乘法(LagrangeMulti-plier)檢驗(Greene[12]提出的)。LM統計量可以簡單表示為LM=(e''''e-_ny)22λ''''λ其中的λ=(λ1,…,λn)'''',λi=exp(xiβ),e=y-λ,y=(y1,…,yn)。在零假設為泊松分布的條件下,LM統計量服從自由度為1的x2分布。
4.2擬合優度檢驗
對模型擬合優度進行評價可以使用AkaikeInfor-mationCriteria(AIC)統計量和BayesianSchwartzCri-teria(BIC)統計量。AIC統計量定義為(Akaike[13]):AIC=-2l+2p其中l表示對數似然值,p為參數的個數。AIC的值越小,表明模型的擬合越好。BIC統計量定義為(Schwartz[14]):BIC=-2l+plog(n)其中的l也表示對數似然值,p為模型的參數個數,n為觀測值的個數,BIC的值越小,模型擬合越好。
5實證分析
5.1數據的描述
本節選用一組來自SASEnterpriseMiner數據庫中的汽車保險數據。原始數據中有10303個觀測值,其中大約有6%的缺失,數據包含索賠概況、駕駛記錄、保單信息、被保險人個人信息。索賠概況記錄了被保險人的索賠頻數、索賠額、索賠時間等信息;駕駛記錄包括駕駛人的分數、過去7年中是否被吊銷駕駛執照;保單信息有被保險車輛的行駛區域、行駛時間、汽車價格、顏色、用途等;被保險人的個人信息有年齡、性別、教育程度、工作類型、婚姻狀況、年收入等。選取與Yip和Yau相同的費率因子(見表1),其中收入為連續變量,其余為屬性變量,從10303個客戶中隨機抽取了4412個有效記錄。
5.2過離散檢驗
首先依據第一種方法利用統計軟件SAS的回歸模塊(即PROCREG)得到結果見下表2,很明顯預同樣,利用拉格朗日乘法(LagrangeMultiplier),利用SAS中IML模塊求得LM值為128.47816,并且顯著。從兩種檢驗方法可以判定,損失數據存在過離散問題。
5.3擬合結果
從下表3中的回歸模型擬合結果來看,雙泊松回歸模型和泊松回歸模型的參數估計值差別不大,顯著性水平因子也相同。但由前面判斷,此數據存在過離散特性,泊松回歸模型費率因子參數估計標準誤差明顯小于雙泊松回歸模型。從整體上看,無論是AIC還是BIC,對于該組索賠數據而言,雙泊松回歸模型的擬合效果要明顯優于普通泊松回歸模型。
6結語
雙泊松分布模型雖然不能歸為混合泊松模型,但雙泊松分布模型同樣具有方差大于均值特性,從本文中的實證分析也可以看出,對于處理具有過離散特征的損失數據,雙泊松分布可以看做為一種解決辦法,也同樣可以達到改善擬合結果的效果。
- 上一篇:工傷索賠法律機制完善
- 下一篇:鎮委全年安全生產指導方案