劉君亮,毛 陽
(北京交通大學(xué),北京 100044)
信用有廣義、狹義之分。廣義的信用從社會道德層面上表現(xiàn)為自覺遵守社會規(guī)則或人與人之間的約定?,F(xiàn)代市場經(jīng)濟(jì)條件下的信用概念是狹義的信用,狹義的信用是指建立在信任基礎(chǔ)上,不用馬上付款或擔(dān)保就可獲得資金、物資或服務(wù)的能力。科研信用是廣義社會信用在科研管理領(lǐng)域應(yīng)用的產(chǎn)物,主要是指從事科研活動人員的職業(yè)信用,是對科研人員在從事科研活動時遵守正式承諾、履行約定義務(wù)、遵守科研界公認(rèn)行為準(zhǔn)則的能力和表現(xiàn)的一種評價。隨著國內(nèi)科研投入逐年增加,科研項目和論文的產(chǎn)出也逐年遞增,但同時科研人員學(xué)術(shù)不端的案例也在逐漸增多,為了保障國家的科研環(huán)境和聲譽,科研誠信建設(shè)研究急需加強(qiáng)。
國內(nèi)科研信用研究多采用專家打分法、AHP 和模糊綜合評價法進(jìn)行信用評價,常用的個人信用評價模型方法研究主要集中在金融信貸領(lǐng)域,在科研人員信用研究方面較少。信用評分卡模型是一種成熟且廣泛應(yīng)用于金融風(fēng)險控制領(lǐng)域信用風(fēng)險評估的模型方法,其原理是將模型變量WOE 編碼方式離散化之后運用Logistic 回歸模型進(jìn)行的一種二分類變量的廣義線性模型。利用信用評分卡技術(shù)建立基于科研人員信用大數(shù)據(jù)的信用評價模型,從而將科研人員信用信息轉(zhuǎn)化為科研信用評價依據(jù),可以解決鐵路科研活動中的信息不對稱問題,既可以為鐵路科研項目的審核提供依據(jù),也可以促進(jìn)科研人員信用水平透明化,有利于對鐵路科研誠信問題進(jìn)行統(tǒng)一規(guī)范與治理,因此深度挖掘科研人員信用信息,開發(fā)基于信用大數(shù)據(jù)的科研人員信用評分卡模型,具有十分重要的理論和現(xiàn)實意義。
對科研人員信用數(shù)據(jù)進(jìn)行建模之前,需要解決科研人員信用量化指標(biāo)的選取問題,科研人員信用量化指標(biāo)需要用數(shù)值型指標(biāo)或分類型指標(biāo)抽象出一個科研人員的科研信用信息全貌,通過查閱國內(nèi)外文獻(xiàn)和相關(guān)政策文件,得到科研人員信用量化指標(biāo)可分為兩類,一類是科研人員科研資歷信用指標(biāo),另一類是科研人員科研歷史信用指標(biāo),具體指標(biāo)見表1。
表1 科研人員信用量化指標(biāo)
在用數(shù)據(jù)進(jìn)行建模之前還需對科研人員信用數(shù)據(jù)進(jìn)行預(yù)處理,使數(shù)據(jù)滿足建模的要求,數(shù)據(jù)預(yù)處理主要的技術(shù)環(huán)節(jié)如下。
從相關(guān)科研數(shù)據(jù)庫獲取科研人員信用指標(biāo)的相關(guān)數(shù)據(jù)。
數(shù)據(jù)清洗是指將獲取的原始數(shù)據(jù)轉(zhuǎn)化為可用作模型開發(fā)的格式化數(shù)據(jù),首先是缺失值處理。缺失值處理通常有兩種處理方法,直接刪除含有缺失值的樣本或者是根據(jù)樣本之間的相似性或者相關(guān)關(guān)系填補(bǔ)缺失值。
缺失值處理完后進(jìn)行異常值的處理。異常值是指某些樣本明顯偏離大多數(shù)樣本數(shù)據(jù),比如科研人員的年齡為0 時,通常認(rèn)為該值為異常值。異常值的檢測一般采用箱線圖。
在建立模型之前,我們通常會對數(shù)據(jù)進(jìn)行探索性數(shù)據(jù)分析,該步驟的目的是了解樣本數(shù)據(jù)的大概總體情況,即對已有的數(shù)據(jù)在盡量少的先驗假定下進(jìn)行探索。常用的探索性數(shù)據(jù)分析方法有直方圖、散點圖和箱線圖等。
把變量進(jìn)行分組處理,即分箱或者離散化,之后用WOE(Weight of Evidence)進(jìn)行編碼,作用在于對指標(biāo)進(jìn)行分箱和編碼,不僅可以避免指標(biāo)無意義的波動給預(yù)測帶來的波動,還能避免極端值的影響。WOE 的計算公式為:
其中,yi代表第i 組失信科研人員數(shù)量,ys代表所有失信科研人員數(shù)量,ni代表第i 組沒有失信科研人員數(shù)量,ns代表所有沒有失信科研人員數(shù)量,WOE 表示的含義即是“當(dāng)前分組中失信科研人員占所有失信科研人員的比例”和“當(dāng)前分組中沒有失信科研人員占所有沒有失信科研人員的比例”的差異。計算得出WOE 后自變量指標(biāo)可用WOE 值編碼取代。
理想的科研人員信用評價模型應(yīng)該是可以輸入所有的有關(guān)該科研人員信用的各方面維度的特征,并預(yù)測出科研人員所屬于的類別,即科研人員是否會失信。Logistic 回歸模型主要用來計算一組自變量與離散型因變量間的關(guān)系,應(yīng)用在個人信用評價方面有比較高的精準(zhǔn)度,常用于信用問題的二分類預(yù)測。離散型因變量是指取值為0,1,2……等離散值的變量,在個人信用評估的內(nèi)容中,因變量是取值分別為0 和1 的二元變量,通常用y 表示,當(dāng)科研人員出現(xiàn)失信行為記為y=1,沒有出現(xiàn)失信行為則記為y=0。
考慮具有m 個獨立向量的向量x=(x1,x2,x3,…,xm),設(shè)條件概率P(y=1|x)。
為根據(jù)觀測量相對于某事件發(fā)生的概率,Logistic模型可以表示為:
在x 條件下,y 不發(fā)生的概率(即y=0)的概率為:
所以,科研人員失信與科研人員不失信的概率之比為:
這個比值記為優(yōu)勢比,實際上可以認(rèn)為是失信人與非失信人的發(fā)生比。對其取自然對數(shù),則得到:
Logistic 回歸模型最終的目的是要求解β1,β2,…,βm這組權(quán)值,而β1,β2,…,βm的估計,則需要使用極大似然估計來進(jìn)行。
模型性能的驗證,是信用評分卡模型開發(fā)的十分重要的一個環(huán)節(jié),常見的技術(shù)方法是ROC 曲線。ROC曲線的全稱是受試者工作特征曲線(Receiver Operating Characteristic curve),又稱感受性曲線(sensitivity curve),是隨著檢測閾值變化的檢測概率對假報警概率的關(guān)系曲線,設(shè)某概率值P 作為閾值,如果小于閾值則判斷為“失信人”,大于閾值則判斷為“非失信人”,計算基于概率值P 的TPR 和FPR,TPR 為真陽性率,是樣本中模型正確判斷為“失信人”的人數(shù)占所有實際為“失信人”的人數(shù)的比例,F(xiàn)PR 為偽陽性率,是樣本中模型錯誤判斷為“失信人”的人數(shù)占所有實際為“非失信人”的人數(shù)的比例,接著調(diào)整閥值P,得到閾值不一樣時的TPR 和FPR,把TPR 當(dāng)作縱軸,F(xiàn)PR 為橫軸,得到的ROC 曲線圖如圖1 所示。
圖1 ROC 曲線圖
ROC 曲線朝左上角凸的越多,曲線下面積AUC(Area Under Curve)越大,就代表這個模型效果越好,可以計算ROC 曲線下面積即AUC 來量化分類模型的性能。AUC 的值在0 到1 之間,當(dāng)分類模型為一個完全隨機(jī)模型時ROC 為一條直線,此時AUC=0.5,所以通常具有實用價值的分類模型的AUC 值會大于0.5,優(yōu)秀模型的AUC 值通常為0.7 到0.9 之間,如果分類模型的AUC 值在0.9 以上,可能是異常變量使得AUC值偏高。
Logistic 回歸模型的結(jié)果是回歸式,其模型輸出結(jié)果是科研人員失信與否概率比值的對數(shù)值,不易于理解和掌握,實際應(yīng)用中必須把概率轉(zhuǎn)換為信用分?jǐn)?shù),主要方法為對科研人員失信與否概率比值的對數(shù)值進(jìn)行線性變換再加上一個常數(shù),使得最終的信用評分落在一個事先設(shè)定好的分?jǐn)?shù)范圍內(nèi),分?jǐn)?shù)越高,科研人員的信用越好,轉(zhuǎn)換公式為:
其中,p 表示科研人員失信概率,α 表示線性變換的系數(shù),通常包括一個對數(shù)值,β 表示調(diào)整常數(shù),使得最終的信用評分落在目標(biāo)分?jǐn)?shù)范圍內(nèi)。
通過以上方法建立的科研人員信用評分卡模型,可以在以下方面進(jìn)行廣泛應(yīng)用。
隨著科研人員科研信用數(shù)據(jù)的積累以及大數(shù)據(jù)模型技術(shù)和科研信用制度的融合普及,科研人員信用評分卡模型技術(shù)可更加廣泛地在鐵路科研項目和相關(guān)科研基金的審批中應(yīng)用,從科研人員信用的角度為科研項目和基金課題的審批決策提供重要的支持,對于評分低于一定級別的,可以自動拒絕其申請,只有通過信用評分的才能進(jìn)入人工審核階段,不但有助于事前降低潛在的科研失信風(fēng)險,還能提高鐵路科研項目和基金課題的審核效率。
信用評分卡模型技術(shù)基于科研人員信用大數(shù)據(jù),不僅比起傳統(tǒng)的專家打分和人工審核等主觀審核方法更加客觀,保證了信用評價的公正性,同時評價準(zhǔn)確度更加靈敏和精確,提高了鐵路科研信用風(fēng)險預(yù)警的精準(zhǔn)度。
信用評分卡模型得出的科研人員信用評分客觀透明,可以促進(jìn)科研人員信用水平透明化,提高科研人員信用意識,還能準(zhǔn)確識別風(fēng)險的原因和來源,方便科研管理者采取針對性的預(yù)防措施,有利于對鐵路科研誠信問題進(jìn)行統(tǒng)一規(guī)范與治理。