基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)的數(shù)學(xué)建模

2021-01-12 08:26柳翠，楊巍

廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版) 2020年4期

柳翠，楊巍

（淮南師范學(xué)院，安徽淮南 232038）

0 引言

代發(fā)工資是專(zhuān)業(yè)機(jī)構(gòu)對(duì)機(jī)關(guān)事業(yè)部門(mén)、企業(yè)員工代發(fā)勞動(dòng)報(bào)酬款項(xiàng)的一種服務(wù)型業(yè)務(wù)，屬于金融中間服務(wù)。代發(fā)工資均通過(guò)銀行代發(fā)，此種代發(fā)勞動(dòng)報(bào)酬款項(xiàng)服務(wù)，能夠?qū)崿F(xiàn)勞動(dòng)報(bào)酬款項(xiàng)及時(shí)發(fā)放，且企業(yè)不必設(shè)定專(zhuān)業(yè)人員額外耗費(fèi)用人成本［1，2］。但是，因銀行代發(fā)工資數(shù)額巨大，且銀行與多家企業(yè)合作，在代發(fā)工資時(shí)，必須高精度核對(duì)代發(fā)工資數(shù)據(jù)差異，分析已代發(fā)工資數(shù)據(jù)是否與實(shí)際需代發(fā)工資數(shù)據(jù)一致，以免出現(xiàn)代發(fā)出錯(cuò)的情況。僅靠人工核對(duì)，不僅費(fèi)時(shí)費(fèi)力，核對(duì)結(jié)果也容易存在誤差［3］。

邏輯回歸模型屬于回歸分析模型，被大量應(yīng)用在微生物生長(zhǎng)與經(jīng)濟(jì)領(lǐng)域中，其具有較顯著的數(shù)據(jù)分類(lèi)性能［4-6］。本文構(gòu)建了基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)模型，并通過(guò)實(shí)驗(yàn)驗(yàn)證其對(duì)代發(fā)工資數(shù)據(jù)差異核對(duì)的有效性。

1 基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)數(shù)學(xué)模型

1.1 基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法

因?yàn)榇l(fā)工資數(shù)據(jù)包含已代發(fā)與未代發(fā)數(shù)據(jù)，想要核對(duì)代發(fā)工資數(shù)據(jù)差異，需要準(zhǔn)確區(qū)分已代發(fā)與未代發(fā)工資數(shù)據(jù)［7］。本文使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法，準(zhǔn)確分類(lèi)已代發(fā)與未代發(fā)工資數(shù)據(jù)，縮小后續(xù)數(shù)據(jù)差異核對(duì)范圍［8，9］。

1.1.1 通過(guò)熵值法運(yùn)算代發(fā)工資數(shù)據(jù)屬性權(quán)重

（1）假定存在m 個(gè)需要聚類(lèi)的代發(fā)工資數(shù)據(jù)ynm，代發(fā)工資數(shù)據(jù)ynm存在n維屬性，按照實(shí)時(shí)數(shù)據(jù)建立屬性值矩陣：

（2）運(yùn)算代發(fā)工資數(shù)據(jù)第i 維屬性、第j 個(gè)代發(fā)工資數(shù)據(jù)屬性值比重。在實(shí)際使用中差異類(lèi)型代發(fā)工資數(shù)據(jù)存在差異量綱，為讓差異量綱代發(fā)工資數(shù)據(jù)存在可比性，實(shí)施代發(fā)工資數(shù)據(jù)的標(biāo)準(zhǔn)化處理，把代發(fā)工資數(shù)據(jù)壓縮至范圍［0，1］內(nèi)，計(jì)算方法如下：

式中，代發(fā)工資數(shù)據(jù)屬性值比重是Nji，代發(fā)工資數(shù)據(jù)屬性值是yji。

（3）運(yùn)算代發(fā)工資數(shù)據(jù)第i維屬性熵值

式中，代發(fā)工資數(shù)據(jù)屬性熵值是Ti。如果Nji的值是0，存在Njiln Nji=0。

（4）運(yùn)算代發(fā)工資數(shù)據(jù)第i 維屬性的差異性系數(shù)

其中，代發(fā)工資數(shù)據(jù)差異性系數(shù)是pi。Ti較大，表示代發(fā)工資數(shù)據(jù)屬性的聚類(lèi)作用不顯著；Ti較小，表示代發(fā)工資數(shù)據(jù)屬性的聚類(lèi)作用顯著。 pi較大，則第i 維屬性對(duì)代發(fā)工資數(shù)據(jù)聚類(lèi)的關(guān)鍵度較顯著。

（5）運(yùn)算代發(fā)工資數(shù)據(jù)第i維屬性權(quán)值

1.1.2 設(shè)置高質(zhì)量的初始聚類(lèi)中心

K-means算法選取的相似度度量指標(biāo)是歐氏距離，已代發(fā)與未代發(fā)的代發(fā)工資數(shù)據(jù)間歐氏距離較小，表示兩者相似度較顯著，反之，相似度較?。?0］。本文使用賦權(quán)歐氏距離度量二者之間的相似度。假定代發(fā)工資數(shù)據(jù)第i 維屬性的權(quán)值是?i，則賦權(quán)后的歐氏距離表達(dá)式為按照屬性i的權(quán)值和對(duì)應(yīng)的屬性值實(shí)施合理放大與縮小，讓權(quán)值顯著的代發(fā)工資數(shù)據(jù)屬性聚類(lèi)作用更顯著，而讓權(quán)值小的代發(fā)工資數(shù)據(jù)屬性聚類(lèi)作用較弱。ya、yb分別表示兩種不同類(lèi)型代發(fā)工資數(shù)據(jù)。

K-means算法通常將標(biāo)準(zhǔn)差設(shè)成標(biāo)準(zhǔn)差測(cè)度函數(shù)，再使用賦權(quán)歐氏距離設(shè)成相似性度量后，計(jì)算賦權(quán)種類(lèi)目標(biāo)價(jià)值函數(shù)為：

其中，yi是代發(fā)工資數(shù)據(jù)，ya∈ yi，yb∈ yi。第j 種代發(fā)工資數(shù)據(jù)的賦權(quán)標(biāo)準(zhǔn)差是?j；代發(fā)工資數(shù)據(jù)各個(gè)類(lèi)的質(zhì)心Hi中代發(fā)工資數(shù)據(jù)的數(shù)量是r( Hi)是代發(fā)工資數(shù)據(jù)的聚類(lèi)中心。賦權(quán)種類(lèi)目標(biāo)價(jià)值函數(shù)?j值較小，表示類(lèi)中代發(fā)工資數(shù)據(jù)間相似度較顯著。

1.1.3 聚類(lèi)描述

基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)過(guò)程如下。

輸入：需聚類(lèi)的代發(fā)工資數(shù)據(jù)集Y 、聚類(lèi)種子中心數(shù)量h1、代發(fā)工資數(shù)據(jù)聚類(lèi)數(shù)量h。

輸出：h 個(gè)聚類(lèi)，讓各個(gè)代發(fā)工資數(shù)據(jù)與聚類(lèi)中心的賦權(quán)歐氏矩陣之和為最小值［11-13］。

（1）通過(guò)熵值法運(yùn)算代發(fā)工資數(shù)據(jù)屬性權(quán)值。

（2）把代發(fā)工資數(shù)據(jù)集劃分成h1個(gè)子集，在各個(gè)子集中任意選取一個(gè)代發(fā)工資數(shù)據(jù)聚類(lèi)目標(biāo)，將隨機(jī)選取的h1個(gè)代發(fā)工資數(shù)據(jù)設(shè)成聚類(lèi)種子中心。

（3）掃描全部代發(fā)工資數(shù)據(jù)，按照代發(fā)工資數(shù)據(jù)和每個(gè)聚類(lèi)種子中心的相似度（賦權(quán)歐氏距離），把代發(fā)工資數(shù)據(jù)歸入和它最相似的類(lèi)別中。

（4）運(yùn)算代發(fā)工資數(shù)據(jù)各個(gè)類(lèi)的質(zhì)心。

（5）運(yùn)算h1個(gè)聚類(lèi)的?j，根據(jù)?j值遞增順序排列，并使用前h 個(gè)?j值相應(yīng)的質(zhì)心設(shè)置成初始聚類(lèi)中心。

（6）掃描全部代發(fā)工資數(shù)據(jù)，按照它和h個(gè)初始聚類(lèi)中心的賦權(quán)歐氏距離，把它納入和自身最為相似的類(lèi)別里。

（7）運(yùn)算已代發(fā)與未代發(fā)的工資數(shù)據(jù)質(zhì)心。

（8）多次執(zhí)行第（6）步與第（7）步，直至迭代次數(shù)為最大值方可停止。

（9）運(yùn)算每個(gè)代發(fā)工資數(shù)據(jù)種類(lèi)的標(biāo)準(zhǔn)差，測(cè)試代發(fā)工資數(shù)據(jù)聚類(lèi)客觀性，如果標(biāo)準(zhǔn)差具有非數(shù)值類(lèi)數(shù)據(jù)，再次聚類(lèi)。

（10）掃描全部代發(fā)工資數(shù)據(jù)和聚類(lèi)結(jié)果，把誤識(shí)率控制在最低值，保證聚類(lèi)精度。

1.2 基于邏輯回歸的代發(fā)工資異常數(shù)據(jù)分類(lèi)模型

邏輯回歸能夠分析自變量A和因變量B之間的關(guān)聯(lián)性，能夠?qū)崿F(xiàn)因變量B 的預(yù)測(cè)。通過(guò)上述聚類(lèi)形式獲取已代發(fā)工資數(shù)據(jù)后，再次使用基于邏輯回歸的代發(fā)工資異常數(shù)據(jù)分類(lèi)模型，實(shí)現(xiàn)已代發(fā)工資數(shù)據(jù)與實(shí)際需代發(fā)數(shù)據(jù)的差異核對(duì)，邏輯回歸模型如下。

（1）建立一個(gè)合理的已代發(fā)工資數(shù)據(jù)與實(shí)際需代發(fā)數(shù)據(jù)間差異預(yù)測(cè)函數(shù)，描述成k 函數(shù)，k 函數(shù)屬于分類(lèi)函數(shù)，其能夠預(yù)測(cè)輸入數(shù)據(jù)的判斷結(jié)果。使用預(yù)測(cè)函數(shù)時(shí)，必須使用Sigmoid 函數(shù)［14］。Sigmoid函數(shù)屬于邏輯函數(shù)：

其中，d-x是已代發(fā)工資數(shù)據(jù)差異核對(duì)誤差項(xiàng)。Sigmoid函數(shù)散點(diǎn)圖見(jiàn)圖1。

圖1 Sigmoid函數(shù)散點(diǎn)圖

把線性回歸函數(shù)導(dǎo)入Sigmoid 函數(shù)中，最后獲取k 函數(shù)的方法如下：

如圖1所示，Sigmoid函數(shù)取值于（0，1）之間，按照k 函數(shù)的定義與式（8）可知，k 函數(shù)的輸出范圍也是（0，1），且中間值是0.5，代表著已代發(fā)工資數(shù)據(jù)差異與否的機(jī)率。具體過(guò)程如下：

①kβ( y )值大于0.5，表示通過(guò)已代發(fā)工資數(shù)據(jù)與需代發(fā)工資數(shù)據(jù)對(duì)比，前者隸屬Ⅰ類(lèi)；

②kβ(y)值小于0.5，表示通過(guò)已代發(fā)工資數(shù)據(jù)與需代發(fā)工資數(shù)據(jù)對(duì)比，前者隸屬Ⅱ類(lèi)。

Ⅰ類(lèi)、Ⅱ類(lèi)在本文中，可看成差異與無(wú)差異。因此，本文將Sigmoid 函數(shù)設(shè)成樣本數(shù)據(jù)的概率密度函數(shù)。kβ(y) 函數(shù)的值存在獨(dú)特性，代表結(jié)果是1的概率，所以針對(duì)已代發(fā)工資數(shù)據(jù)輸入y 的分類(lèi)結(jié)果是類(lèi)別1（Ⅰ）與類(lèi)別0（Ⅱ）的概率依次是：

（2）建立代價(jià)函數(shù)D(θ) ，可以表示模型預(yù)測(cè)值x 與已代發(fā)工資數(shù)據(jù)實(shí)際值y 間差異的函數(shù)即為代價(jià)函數(shù)。若具有很多已代發(fā)工資數(shù)據(jù)樣本，便能夠把全部代價(jià)函數(shù)取值進(jìn)行平均化，得到代價(jià)函數(shù)的均值H( θ )，H( θ )能夠判斷模型的優(yōu)劣。函數(shù)較小，表示目前模型與參數(shù)適用訓(xùn)練樣本( a,b) 。通過(guò)最大似然估計(jì)能夠獲取H( θ )：

H( θ )的最小值主要通過(guò)梯度下降法獲取，邏輯回歸模型需要獲取最適合目前已代發(fā)工資數(shù)據(jù)差異核對(duì)的模型，只有當(dāng)H( θ )為最小值時(shí)才適合。梯度下降法是現(xiàn)在較為常見(jiàn)的算法，梯度即為H( θ )對(duì)每個(gè)參數(shù)的偏導(dǎo)數(shù)，偏導(dǎo)數(shù)的方向和機(jī)器學(xué)習(xí)時(shí)參數(shù)降低的方向存在直接聯(lián)系［15］。將學(xué)習(xí)率設(shè)成φ，學(xué)習(xí)率和步長(zhǎng)存在直接聯(lián)系。H( θ )的最小值為：

此時(shí)，邏輯回歸模型的代價(jià)函數(shù)均值H(θ) 為最小值，表明模型對(duì)已代發(fā)工資數(shù)據(jù)差異核對(duì)的性能最佳。

2 實(shí)驗(yàn)結(jié)果

為測(cè)試本模型的實(shí)際效果，使用Matlab R2010a進(jìn)行實(shí)驗(yàn)編程。實(shí)驗(yàn)環(huán)境：Microsoft Windows XP 系統(tǒng)；CPU 是Intel Core22.94GHz；內(nèi)存為4GB。以某銀行代發(fā)工資數(shù)據(jù)為例，該銀行代發(fā)工資涵蓋的企業(yè)類(lèi)型依次是批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)，各個(gè)行業(yè)代發(fā)工資企業(yè)數(shù)量各為10家。

為利于測(cè)試，在銀行代發(fā)工資數(shù)據(jù)中隨機(jī)提取批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的代發(fā)工資數(shù)據(jù)，各個(gè)類(lèi)型的代發(fā)工資數(shù)據(jù)提取詳情見(jiàn)表1。

表1 代發(fā)工資數(shù)據(jù)詳情

測(cè)試指標(biāo)是核對(duì)精度O、已代發(fā)工資數(shù)據(jù)聚類(lèi)錯(cuò)誤數(shù)V，計(jì)算方法為：

經(jīng)本文模型核對(duì)后，核對(duì)錯(cuò)誤數(shù)計(jì)算結(jié)果如表2所示。

表2 本文模型核對(duì)結(jié)果

如表2所示，本文模型對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果和實(shí)際差異情況一致，表示本模型可有效核對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異情況。

本文模型對(duì)多家、多類(lèi)型企業(yè)代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果的核對(duì)精度計(jì)算結(jié)果如圖2所示。

圖2 核對(duì)精度計(jì)算結(jié)果

如圖2 所示，本模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)代發(fā)工資數(shù)據(jù)差異的核對(duì)精度較高，精度值為1。

上述實(shí)驗(yàn)驗(yàn)證了模型對(duì)銀行已代發(fā)工資數(shù)據(jù)差異核對(duì)的有效性，為深入測(cè)試本模型的使用性能，隨機(jī)提取銀行代發(fā)工資中，批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)還未代發(fā)的工資數(shù)據(jù)與已代發(fā)的工資數(shù)據(jù)，將兩種數(shù)據(jù)混合，通過(guò)本模型對(duì)其聚類(lèi)，F(xiàn)-measure 屬于一種集合精度與召回率于一體的性能測(cè)試指標(biāo)。計(jì)算方法為：

其中，c屬于常數(shù)，q(i,j)、s(i,j)分別是準(zhǔn)確率與召回率。F-measure 值較大，則本文模型聚類(lèi)精度較高。使用該指標(biāo)測(cè)試本文模型對(duì)已代發(fā)、未代發(fā)的工資數(shù)據(jù)聚類(lèi)效果，結(jié)果如圖3所示。

圖3 本文模型聚類(lèi)效果

如圖3 所示，該銀行使用本文模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的已代發(fā)工資數(shù)據(jù)與未代發(fā)工資數(shù)據(jù)實(shí)施聚類(lèi)時(shí)，F(xiàn)-measure 值大于使用前，表明本模型可高精度聚類(lèi)代發(fā)工資數(shù)據(jù)。

測(cè)試中采用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法。測(cè)試本文模型使用該方法前后的核對(duì)精度，以表1數(shù)據(jù)為測(cè)試基礎(chǔ)，以圖2計(jì)算結(jié)果為對(duì)比數(shù)據(jù)，沒(méi)有使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法時(shí)，本文模型的核對(duì)錯(cuò)誤數(shù)與核對(duì)精度計(jì)算結(jié)果如表3、圖4所示。

表3 未聚類(lèi)前代發(fā)工資數(shù)據(jù)差異核對(duì)錯(cuò)誤數(shù)

圖4 未聚類(lèi)前代發(fā)工資數(shù)據(jù)差異核對(duì)精度

將表2與表3、圖2與圖4進(jìn)行對(duì)比可知，使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法前，本文模型對(duì)批發(fā)與零售業(yè)、采礦業(yè)、建筑業(yè)、郵政業(yè)、倉(cāng)儲(chǔ)業(yè)、農(nóng)業(yè)、漁業(yè)的代發(fā)工資數(shù)據(jù)差異核對(duì)錯(cuò)誤數(shù)高于使用后，核對(duì)精度值低于使用后，由此驗(yàn)證了本文模型使用基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法能夠優(yōu)化對(duì)代發(fā)工資數(shù)據(jù)差異的核對(duì)性能。

測(cè)試本文模型在聚類(lèi)該銀行已代發(fā)工資數(shù)據(jù)與未代發(fā)工資數(shù)據(jù)、核對(duì)代發(fā)工資數(shù)據(jù)差異時(shí)的耗時(shí)情況，以此判斷本文模型的應(yīng)用效率，結(jié)果如圖5、圖6所示。

圖5 聚類(lèi)耗時(shí)

圖6 核對(duì)耗時(shí)

由圖5、圖6 可知，該銀行使用本文模型后，對(duì)不同代發(fā)工資數(shù)據(jù)量的數(shù)據(jù)聚類(lèi)耗時(shí)均低于使用前，聚類(lèi)耗時(shí)最大值是6min；核對(duì)耗時(shí)最大值是5min，且核對(duì)耗時(shí)不受代發(fā)工資數(shù)據(jù)量的影響，可見(jiàn)本文模型能夠顯著提升銀行代發(fā)工資數(shù)據(jù)處理效率。

3 結(jié)論

本文針對(duì)代發(fā)工資數(shù)據(jù)差異核對(duì)實(shí)施數(shù)學(xué)建模，構(gòu)建基于邏輯回歸的代發(fā)工資數(shù)據(jù)差異核對(duì)數(shù)據(jù)模型，在某銀行實(shí)際使用后表明，模型對(duì)多種類(lèi)型企業(yè)的代發(fā)工資數(shù)據(jù)差異核對(duì)結(jié)果和實(shí)際差異情況一致，且使用后與使用前相比，銀行代發(fā)工資數(shù)據(jù)的核對(duì)精度與核對(duì)效率均實(shí)現(xiàn)了提升。本文模型在代發(fā)工資之前，使用了基于信息熵聚類(lèi)的代發(fā)工資數(shù)據(jù)聚類(lèi)方法，該方法能夠優(yōu)化模型的核對(duì)性能，基于聚類(lèi)后的代發(fā)工資數(shù)據(jù)，通過(guò)邏輯回歸模型提高了代發(fā)工資數(shù)據(jù)差異核對(duì)的精確度和效率。