張偉科
摘要:隨著保險業(yè)的發(fā)展,保險欺詐呈現(xiàn)蔓延態(tài)勢,如影隨形,醫(yī)療保險欺詐已經(jīng)成為大數(shù)據(jù)時代研究的方向和核心。本文利用在實踐中廣泛應用的數(shù)據(jù)質(zhì)量檢驗方法Benford法則以及統(tǒng)計檢驗方法,以某保險公司醫(yī)療險理賠數(shù)據(jù)為樣本,檢驗Benford法則在識別醫(yī)療保險欺詐的有效性和可行性,并采用統(tǒng)計檢驗的實證研究方法,從而找出可能存在保險欺詐樣本的方法。
關鍵詞:Benford法則;醫(yī)療保險;保險欺詐;統(tǒng)計檢驗
一、文獻綜述
Benford法則由美國數(shù)學家、天文學家Simon Neweomb在1881年首次發(fā)現(xiàn)。到了1938年,美國GE的物理學家Frank Benford注意到同樣的現(xiàn)象,并且通過大量的數(shù)據(jù)對該觀點進行了證實。Benford法則作為一種簡單易行的數(shù)據(jù)檢測方法,已經(jīng)在經(jīng)濟審計等領域得到了廣泛的應用。Carlaw(1988)通過Benford法則對新西蘭證券交易所所有上市公司的收益數(shù)據(jù)進行了統(tǒng)計分析,結(jié)果顯示收益數(shù)據(jù)存在著認為操縱跡象。Thomas(1989)運用Benford法則分析了美國上市公司凈利潤的前兩位數(shù)字,研究顯示盈利和虧損公司對凈利潤存在著人為操縱行為。Nigrini(1977)將Benford法則應用到了稅務、會計等領域。Pericchi.L(2011)將Benford法則應用到了美國總統(tǒng)選舉是否公平的檢測。綜上所述,Benford法則在經(jīng)濟等領域中得到了大量的應用。
二、Benford法則的基本原理
經(jīng)過研究,F(xiàn)rank Benford得出這樣的一個結(jié)論:對于大量自然統(tǒng)計數(shù)據(jù),每個位置上的數(shù)字分布存在著一定的規(guī)律,呈單調(diào)下降趨勢。其首位數(shù)字是數(shù)字d2的概率分布為:
P(d2)=∑9d1=1log10(1+1d1·d2),d2=(0,1,2,3…9)(1)
這就是Benford法則。其中,首位數(shù)字是指左邊第一位非零的有效數(shù)字。
根據(jù)Benford法則,沒有人為操縱的高質(zhì)量數(shù)據(jù)各個位置上數(shù)字的分布應該遵循上述規(guī)律,并且樣本越大,這種概率分布越應該符合Benford法則。如果存在欺詐或者弄虛造假的行為,這種概率分布規(guī)律可能被打破。可以用x2擬合優(yōu)度檢驗和Pearson相關系數(shù)等方法來檢驗各個位置上數(shù)字的概率分布是否符合Benford法則。
三、實證結(jié)果與分析
本研究的數(shù)據(jù)全部來源于某人壽保險公司理賠數(shù)據(jù),包括2013年1月至2014年10月所有醫(yī)療險理賠數(shù)據(jù),其中刪除了拒賠和賠付金額為0的數(shù)據(jù)樣本。
本文將從兩個方面對保險理賠數(shù)據(jù)的準確性進行統(tǒng)計分析。首先對保險理賠數(shù)據(jù)首位數(shù)字1至9這九個自然數(shù)和第二位數(shù)字0至9這十個自然數(shù)分別利用Benford法則進行可靠性分析。然后運用非參數(shù)統(tǒng)計中的x2擬合優(yōu)度檢驗來估計每個數(shù)字出現(xiàn)的次數(shù)和Benford法則期望次數(shù)之間分布的整體擬合程度,利用z值來檢驗具體每個數(shù)字的出現(xiàn)頻率的差異程度,從而驗證保險理賠數(shù)據(jù)的首位和第二位數(shù)字的分布規(guī)律與Benford法則下的期望規(guī)律是否一致。x2檢驗的公式如下:
首先我們通過表2來觀察保險理賠數(shù)據(jù)首位數(shù)字出現(xiàn)的次數(shù)和頻率與Benford法則是否一致。
從表2可以看出,保險理賠金額首位數(shù)字的實際頻率總體上呈遞減趨勢,但是首位數(shù)字5的分布頻率稍大于數(shù)字4的實際頻率,首位數(shù)字8的實際頻率稍大于數(shù)字7的實際頻率,首位數(shù)字1的實際頻率明顯大于Benford法則的期望頻率,首位數(shù)字2的實際頻率明顯小于Benford法則的期望頻率,其他數(shù)字的頻率分布與Benford法則的期望頻率相差較小。以上差異是否在我們可以接受的范圍內(nèi),本文利用統(tǒng)計量進行擬合優(yōu)度x2檢驗和Pearson相關系數(shù)檢驗,結(jié)果如表2所示。
從表2可以看出,在0.05顯著性水平下,8個自由度的x2臨界值為15.507,而保險賠付金額首位數(shù)字的x2檢驗值為1080.19,遠大于臨界值15.507,所以我們拒絕H0假設,接受H1假設,即賠付金額的首位數(shù)字出現(xiàn)次數(shù)與Benford法則的期望次數(shù)有顯著差異,換句話說,賠付金額存在著人為操作因素,可能存在著保險欺詐。結(jié)合相關系數(shù)r=0.967,可以看出保險賠付金額首位數(shù)字與benford法則存在著顯著的相關性,但是Pearson相關系數(shù)r≤0.97,可以認為該保險理賠數(shù)據(jù)存在著欺詐。
四、結(jié)論
本文從一個全新的視角,運用Benford法則對某保險公司2013年1月至2014年10月醫(yī)療險理賠數(shù)據(jù)是否存在欺詐進行了分析研究。從x2檢驗結(jié)果和Pearson相關系數(shù)值來看:首位數(shù)字分布的x2值為1080.19,遠大于0.05顯著性水平下、自由度為8的x2分布臨界值15.507,相關系數(shù)r=0.967<0.97,因此我們可以認為該保險賠付數(shù)據(jù)首位數(shù)字是不準確的,存在著欺詐;綜合上述分析,筆者認為該保險公司醫(yī)療險賠付數(shù)據(jù)不符合Benford法則,存在著保險欺詐。
參考文獻:
[1]許滌龍;基于Benford法則的M2統(tǒng)計數(shù)據(jù)準確性研究[J],統(tǒng)計與信息論壇,2010(8)
[2]曾五一,薛梅林;GDP國家數(shù)據(jù)與地區(qū)數(shù)據(jù)的可銜接性研究[J],廈門大學學報(哲學社會科學版),2014(02)
[3]劉云霞等;關于綜合運用Benford法則和面板模型檢測統(tǒng)計數(shù)據(jù)質(zhì)量的研究[J],統(tǒng)計研究,2012(11)