柳 翠,楊 巍
(淮南師范學(xué)院,安徽 淮南 232038)
代發(fā)工資是專(zhuān)業(yè)機(jī)構(gòu)對(duì)機(jī)關(guān)事業(yè)部門(mén)、企業(yè)員工代發(fā)勞動(dòng)報(bào)酬款項(xiàng)的一種服務(wù)型業(yè)務(wù),屬于金融中間服務(wù)。代發(fā)工資均通過(guò)銀行代發(fā),此種代發(fā)勞動(dòng)報(bào)酬款項(xiàng)服務(wù),能夠?qū)崿F(xiàn)勞動(dòng)報(bào)酬款項(xiàng)及時(shí)發(fā)放,且企業(yè)不必設(shè)定專(zhuān)業(yè)人員額外耗費(fèi)用人成本[1,2]。但是,因銀行代發(fā)工資數(shù)額巨大,且銀行與多家企業(yè)合作,在代發(fā)工資時(shí),必須高精度核對(duì)代發(fā)工資數(shù)據(jù)差異,分析已代發(fā)工資數(shù)據(jù)是否與實(shí)際需代發(fā)工資數(shù)據(jù)一致,以免出現(xiàn)代發(fā)出錯(cuò)的情況。僅靠人工核對(duì),不僅費(fèi)時(shí)費(fèi)力,核對(duì)結(jié)果也容易存在誤差[3]。
邏輯回歸模型屬于回歸分析模型,被大量應(yīng)用在微生物生長(zhǎng)與經(jīng)濟(jì)領(lǐng)域中,其具有較顯著的數(shù)據(jù)分類(lèi)性能[4-6]。本文構(gòu)建了基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)模型,并通過(guò)實(shí)驗(yàn)驗(yàn)證其對(duì)代發(fā)工資數(shù)據(jù)差異核對(duì)的有效性。
因?yàn)榇l(fā)工資數(shù)據(jù)包含已代發(fā)與未代發(fā)數(shù)據(jù),想要核對(duì)代發(fā)工資數(shù)據(jù)差異,需要準(zhǔn)確區(qū)分已代發(fā)與未代發(fā)工資數(shù)據(jù)[7]。本文使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法,準(zhǔn)確分類(lèi)已代發(fā)與未代發(fā)工資數(shù)據(jù),縮小后續(xù)數(shù)據(jù)差異核對(duì)范圍[8,9]。
1.1.1 通過(guò)熵值法運(yùn)算代發(fā)工資數(shù)據(jù)屬性權(quán)重
(1)假定存在m 個(gè)需要聚類(lèi)的代發(fā)工資數(shù)據(jù)ynm,代發(fā)工資數(shù)據(jù)ynm存在n維屬性,按照實(shí)時(shí)數(shù)據(jù)建立屬性值矩陣:
(2)運(yùn)算代發(fā)工資數(shù)據(jù)第i 維屬性、第j 個(gè)代發(fā)工資數(shù)據(jù)屬性值比重。在實(shí)際使用中差異類(lèi)型代發(fā)工資數(shù)據(jù)存在差異量綱,為讓差異量綱代發(fā)工資數(shù)據(jù)存在可比性,實(shí)施代發(fā)工資數(shù)據(jù)的標(biāo)準(zhǔn)化處理,把代發(fā)工資數(shù)據(jù)壓縮至范圍[0,1]內(nèi),計(jì)算方法如下:
式中,代發(fā)工資數(shù)據(jù)屬性值比重是Nji,代發(fā)工資數(shù)據(jù)屬性值是yji。
(3)運(yùn)算代發(fā)工資數(shù)據(jù)第i維屬性熵值
式中,代發(fā)工資數(shù)據(jù)屬性熵值是Ti。如果Nji的值是0,存在Njiln Nji=0。
(4)運(yùn)算代發(fā)工資數(shù)據(jù)第i 維屬性的差異性系數(shù)
其中,代發(fā)工資數(shù)據(jù)差異性系數(shù)是pi。Ti較大,表示代發(fā)工資數(shù)據(jù)屬性的聚類(lèi)作用不顯著;Ti較小,表示代發(fā)工資數(shù)據(jù)屬性的聚類(lèi)作用顯著。 pi較大,則第i 維屬性對(duì)代發(fā)工資數(shù)據(jù)聚類(lèi)的關(guān)鍵度較顯著。
(5)運(yùn)算代發(fā)工資數(shù)據(jù)第i維屬性權(quán)值
1.1.2 設(shè)置高質(zhì)量的初始聚類(lèi)中心
K-means算法選取的相似度度量指標(biāo)是歐氏距離,已代發(fā)與未代發(fā)的代發(fā)工資數(shù)據(jù)間歐氏距離較小,表示兩者相似度較顯著,反之,相似度較?。?0]。本文使用賦權(quán)歐氏距離度量二者之間的相似度。假定代發(fā)工資數(shù)據(jù)第i 維屬性的權(quán)值是?i,則賦權(quán)后的歐氏距離表達(dá)式為按照屬性i的權(quán)值和對(duì)應(yīng)的屬性值實(shí)施合理放大與縮小,讓權(quán)值顯著的代發(fā)工資數(shù)據(jù)屬性聚類(lèi)作用更顯著,而讓權(quán)值小的代發(fā)工資數(shù)據(jù)屬性聚類(lèi)作用較弱。ya、yb分別表示兩種不同類(lèi)型代發(fā)工資數(shù)據(jù)。
K-means算法通常將標(biāo)準(zhǔn)差設(shè)成標(biāo)準(zhǔn)差測(cè)度函數(shù),再使用賦權(quán)歐氏距離設(shè)成相似性度量后,計(jì)算賦權(quán)種類(lèi)目標(biāo)價(jià)值函數(shù)為:
其中,yi是代發(fā)工資數(shù)據(jù),ya∈ yi,yb∈ yi。第j 種代發(fā)工資數(shù)據(jù)的賦權(quán)標(biāo)準(zhǔn)差是?j;代發(fā)工資數(shù)據(jù)各個(gè)類(lèi)的質(zhì)心Hi中代發(fā)工資數(shù)據(jù)的數(shù)量是r( Hi)是代發(fā)工資數(shù)據(jù)的聚類(lèi)中心。賦權(quán)種類(lèi)目標(biāo)價(jià)值函數(shù)?j值較小,表示類(lèi)中代發(fā)工資數(shù)據(jù)間相似度較顯著。
1.1.3 聚類(lèi)描述
基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)過(guò)程如下。
輸入:需聚類(lèi)的代發(fā)工資數(shù)據(jù)集Y 、聚類(lèi)種子中心數(shù)量h1、代發(fā)工資數(shù)據(jù)聚類(lèi)數(shù)量h。
輸出:h 個(gè)聚類(lèi),讓各個(gè)代發(fā)工資數(shù)據(jù)與聚類(lèi)中心的賦權(quán)歐氏矩陣之和為最小值[11-13]。
(1)通過(guò)熵值法運(yùn)算代發(fā)工資數(shù)據(jù)屬性權(quán)值。
(2)把代發(fā)工資數(shù)據(jù)集劃分成h1個(gè)子集,在各個(gè)子集中任意選取一個(gè)代發(fā)工資數(shù)據(jù)聚類(lèi)目標(biāo),將隨機(jī)選取的h1個(gè)代發(fā)工資數(shù)據(jù)設(shè)成聚類(lèi)種子中心。
(3)掃描全部代發(fā)工資數(shù)據(jù),按照代發(fā)工資數(shù)據(jù)和每個(gè)聚類(lèi)種子中心的相似度(賦權(quán)歐氏距離),把代發(fā)工資數(shù)據(jù)歸入和它最相似的類(lèi)別中。
(4)運(yùn)算代發(fā)工資數(shù)據(jù)各個(gè)類(lèi)的質(zhì)心。
(5)運(yùn)算h1個(gè)聚類(lèi)的?j,根據(jù)?j值遞增順序排列,并使用前h 個(gè)?j值相應(yīng)的質(zhì)心設(shè)置成初始聚類(lèi)中心。
(6)掃描全部代發(fā)工資數(shù)據(jù),按照它和h個(gè)初始聚類(lèi)中心的賦權(quán)歐氏距離,把它納入和自身最為相似的類(lèi)別里。
(7)運(yùn)算已代發(fā)與未代發(fā)的工資數(shù)據(jù)質(zhì)心。
(8)多次執(zhí)行第(6)步與第(7)步,直至迭代次數(shù)為最大值方可停止。
(9)運(yùn)算每個(gè)代發(fā)工資數(shù)據(jù)種類(lèi)的標(biāo)準(zhǔn)差,測(cè)試代發(fā)工資數(shù)據(jù)聚類(lèi)客觀性,如果標(biāo)準(zhǔn)差具有非數(shù)值類(lèi)數(shù)據(jù),再次聚類(lèi)。
(10)掃描全部代發(fā)工資數(shù)據(jù)和聚類(lèi)結(jié)果,把誤識(shí)率控制在最低值,保證聚類(lèi)精度。
邏輯回歸能夠分析自變量A和因變量B之間的關(guān)聯(lián)性,能夠?qū)崿F(xiàn)因變量B 的預(yù)測(cè)。通過(guò)上述聚類(lèi)形式獲取已代發(fā)工資數(shù)據(jù)后,再次使用基于邏輯回歸的代發(fā)工資異常數(shù)據(jù)分類(lèi)模型,實(shí)現(xiàn)已代發(fā)工資數(shù)據(jù)與實(shí)際需代發(fā)數(shù)據(jù)的差異核對(duì),邏輯回歸模型如下。
(1)建立一個(gè)合理的已代發(fā)工資數(shù)據(jù)與實(shí)際需代發(fā)數(shù)據(jù)間差異預(yù)測(cè)函數(shù),描述成k 函數(shù),k 函數(shù)屬于分類(lèi)函數(shù),其能夠預(yù)測(cè)輸入數(shù)據(jù)的判斷結(jié)果。使用預(yù)測(cè)函數(shù)時(shí),必須使用Sigmoid 函數(shù)[14]。Sigmoid函數(shù)屬于邏輯函數(shù):
其中,d-x是已代發(fā)工資數(shù)據(jù)差異核對(duì)誤差項(xiàng)。Sigmoid函數(shù)散點(diǎn)圖見(jiàn)圖1。
圖1 Sigmoid函數(shù)散點(diǎn)圖
把線性回歸函數(shù)導(dǎo)入Sigmoid 函數(shù)中,最后獲取k 函數(shù)的方法如下:
如圖1所示,Sigmoid函數(shù)取值于(0,1)之間,按照k 函數(shù)的定義與式(8)可知,k 函數(shù)的輸出范圍也是(0,1),且中間值是0.5,代表著已代發(fā)工資數(shù)據(jù)差異與否的機(jī)率。具體過(guò)程如下:
①kβ( y )值大于0.5,表示通過(guò)已代發(fā)工資數(shù)據(jù)與需代發(fā)工資數(shù)據(jù)對(duì)比,前者隸屬Ⅰ類(lèi);
②kβ(y)值小于0.5,表示通過(guò)已代發(fā)工資數(shù)據(jù)與需代發(fā)工資數(shù)據(jù)對(duì)比,前者隸屬Ⅱ類(lèi)。
Ⅰ類(lèi)、Ⅱ類(lèi)在本文中,可看成差異與無(wú)差異。因此,本文將Sigmoid 函數(shù)設(shè)成樣本數(shù)據(jù)的概率密度函數(shù)。kβ(y) 函數(shù)的值存在獨(dú)特性,代表結(jié)果是1的概率,所以針對(duì)已代發(fā)工資數(shù)據(jù)輸入y 的分類(lèi)結(jié)果是類(lèi)別1(Ⅰ)與類(lèi)別0(Ⅱ)的概率依次是:
(2)建立代價(jià)函數(shù)D(θ) ,可以表示模型預(yù)測(cè)值x 與已代發(fā)工資數(shù)據(jù)實(shí)際值y 間差異的函數(shù)即為代價(jià)函數(shù)。若具有很多已代發(fā)工資數(shù)據(jù)樣本,便能夠把全部代價(jià)函數(shù)取值進(jìn)行平均化,得到代價(jià)函數(shù)的均值H( θ ),H( θ )能夠判斷模型的優(yōu)劣。函數(shù)較小,表示目前模型與參數(shù)適用訓(xùn)練樣本( a,b) 。通過(guò)最大似然估計(jì)能夠獲取H( θ ):
H( θ )的最小值主要通過(guò)梯度下降法獲取,邏輯回歸模型需要獲取最適合目前已代發(fā)工資數(shù)據(jù)差異核對(duì)的模型,只有當(dāng)H( θ )為最小值時(shí)才適合。梯度下降法是現(xiàn)在較為常見(jiàn)的算法,梯度即為H( θ )對(duì)每個(gè)參數(shù)的偏導(dǎo)數(shù),偏導(dǎo)數(shù)的方向和機(jī)器學(xué)習(xí)時(shí)參數(shù)降低的方向存在直接聯(lián)系[15]。將學(xué)習(xí)率設(shè)成φ,學(xué)習(xí)率和步長(zhǎng)存在直接聯(lián)系。H( θ )的最小值為:
此時(shí),邏輯回歸模型的代價(jià)函數(shù)均值H(θ) 為最小值,表明模型對(duì)已代發(fā)工資數(shù)據(jù)差異核對(duì)的性能最佳。
為測(cè)試本模型的實(shí)際效果,使用Matlab R2010a進(jìn)行實(shí)驗(yàn)編程。實(shí)驗(yàn)環(huán)境:Microsoft Windows XP 系統(tǒng);CPU 是Intel Core22.94GHz;內(nèi)存為4GB。以某銀行代發(fā)工資數(shù)據(jù)為例,該銀行代發(fā)工資涵蓋的企業(yè)類(lèi)型依次是批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè),各個(gè)行業(yè)代發(fā)工資企業(yè)數(shù)量各為10家。
為利于測(cè)試,在銀行代發(fā)工資數(shù)據(jù)中隨機(jī)提取批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的代發(fā)工資數(shù)據(jù),各個(gè)類(lèi)型的代發(fā)工資數(shù)據(jù)提取詳情見(jiàn)表1。
表1 代發(fā)工資數(shù)據(jù)詳情
測(cè)試指標(biāo)是核對(duì)精度O、已代發(fā)工資數(shù)據(jù)聚類(lèi)錯(cuò)誤數(shù)V,計(jì)算方法為:
經(jīng)本文模型核對(duì)后,核對(duì)錯(cuò)誤數(shù)計(jì)算結(jié)果如表2所示。
表2 本文模型核對(duì)結(jié)果
如表2所示,本文模型對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果和實(shí)際差異情況一致,表示本模型可有效核對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異情況。
本文模型對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果的核對(duì)精度計(jì)算結(jié)果如圖2所示。
圖2 核對(duì)精度計(jì)算結(jié)果
如圖2 所示,本模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)代發(fā)工資數(shù)據(jù)差異的核對(duì)精度較高,精度值為1。
上述實(shí)驗(yàn)驗(yàn)證了模型對(duì)銀行已代發(fā)工資數(shù)據(jù)差異核對(duì)的有效性,為深入測(cè)試本模型的使用性能,隨機(jī)提取銀行代發(fā)工資中,批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)還未代發(fā)的工資數(shù)據(jù)與已代發(fā)的工資數(shù)據(jù),將兩種數(shù)據(jù)混合,通過(guò)本模型對(duì)其聚類(lèi),F(xiàn)-measure 屬于一種集合精度與召回率于一體的性能測(cè)試指標(biāo)。計(jì)算方法為:
其中,c屬于常數(shù),q(i,j)、s(i,j)分別是準(zhǔn)確率與召回率。F-measure 值較大,則本文模型聚類(lèi)精度較高。使用該指標(biāo)測(cè)試本文模型對(duì)已代發(fā)、未代發(fā)的工資數(shù)據(jù)聚類(lèi)效果,結(jié)果如圖3所示。
圖3 本文模型聚類(lèi)效果
如圖3 所示,該銀行使用本文模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的已代發(fā)工資數(shù)據(jù)與未代發(fā)工資數(shù)據(jù)實(shí)施聚類(lèi)時(shí),F(xiàn)-measure 值大于使用前,表明本模型可高精度聚類(lèi)代發(fā)工資數(shù)據(jù)。
測(cè)試中采用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法。測(cè)試本文模型使用該方法前后的核對(duì)精度,以表1數(shù)據(jù)為測(cè)試基礎(chǔ),以圖2計(jì)算結(jié)果為對(duì)比數(shù)據(jù),沒(méi)有使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法時(shí),本文模型的核對(duì)錯(cuò)誤數(shù)與核對(duì)精度計(jì)算結(jié)果如表3、圖4所示。
表3 未聚類(lèi)前代發(fā)工資數(shù)據(jù)差異核對(duì)錯(cuò)誤數(shù)
圖4 未聚類(lèi)前代發(fā)工資數(shù)據(jù)差異核對(duì)精度
將表2與表3、圖2與圖4進(jìn)行對(duì)比可知,使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法前,本文模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的代發(fā)工資數(shù)據(jù)差異核對(duì)錯(cuò)誤數(shù)高于使用后,核對(duì)精度值低于使用后,由此驗(yàn)證了本文模型使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法能夠優(yōu)化對(duì)代發(fā)工資數(shù)據(jù)差異的核對(duì)性能。
測(cè)試本文模型在聚類(lèi)該銀行已代發(fā)工資數(shù)據(jù)與未代發(fā)工資數(shù)據(jù)、核對(duì)代發(fā)工資數(shù)據(jù)差異時(shí)的耗時(shí)情況,以此判斷本文模型的應(yīng)用效率,結(jié)果如圖5、圖6所示。
圖5 聚類(lèi)耗時(shí)
圖6 核對(duì)耗時(shí)
由圖5、圖6 可知,該銀行使用本文模型后,對(duì)不同代發(fā)工資數(shù)據(jù)量的數(shù)據(jù)聚類(lèi)耗時(shí)均低于使用前,聚類(lèi)耗時(shí)最大值是6min;核對(duì)耗時(shí)最大值是5min,且核對(duì)耗時(shí)不受代發(fā)工資數(shù)據(jù)量的影響,可見(jiàn)本文模型能夠顯著提升銀行代發(fā)工資數(shù)據(jù)處理效率。
本文針對(duì)代發(fā)工資數(shù)據(jù)差異核對(duì)實(shí)施數(shù)學(xué)建模,構(gòu)建基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)數(shù)據(jù)模型,在某銀行實(shí)際使用后表明,模型對(duì)多種類(lèi)型企業(yè)的代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果和實(shí)際差異情況一致,且使用后與使用前相比,銀行代發(fā)工資數(shù)據(jù)的核對(duì)精度與核對(duì)效率均實(shí)現(xiàn)了提升。本文模型在代發(fā)工資之前,使用了基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法,該方法能夠優(yōu)化模型的核對(duì)性能,基于聚類(lèi)后的代發(fā)工資數(shù)據(jù),通過(guò)邏輯回歸模型提高了代發(fā)工資數(shù)據(jù)差異核對(duì)的精確度和效率。