文/范宇辰 陳偉
近年,“校園貸”問題的出現(xiàn)凸顯出高校大學生對消費金融產品的強大需求以及信用教育缺失的問題。各大網貸平臺五花八門,缺乏統(tǒng)一的監(jiān)管體系。各個貸款機構為了搶奪市場,隨意調整大學生借貸政策,降低門檻等以吸引更多學生來借款,且一些不良機構利用學生的知識盲點,編寫高額利息和高額違約金的合同,使學生陷入校園貸的陷阱中。銀監(jiān)會、教育部等部門多次下發(fā)了一系列通知,規(guī)范、整治校園貸業(yè)務,“一律暫停網貸機構開展校園貸業(yè)務”。
以阿里、騰訊為首的互聯(lián)網金融機構依托其自有數(shù)據(jù)基礎紛紛切入學生信貸領域,推出“芝麻信用”、“花唄”等產品,一定程度緩解此問題,但存在覆蓋面不夠、利息較高等缺點。其他持牌正規(guī)金融機構,因為數(shù)據(jù)缺失問題無法有效評估學生征信,其優(yōu)質的消費金融產品無法服務于廣大學生群體。
此次研究在學校多維度、高精準的特殊數(shù)據(jù)環(huán)境下,探索了結合大數(shù)據(jù)、機器學習技術建立起適合大學生的信用評價體系——“油菜花信用”,從而輔助金融機構向大學生提供定制化、規(guī)范化的金融服務,控制風險、獲取利潤。同時,在校內利用信用模型的展現(xiàn)、運營幫助大學生培養(yǎng)正確的信用意識、風險意識和防范意識,疏堵結合,有效推進“校園貸”問題解決,同時為構建信用社會奠定基礎。
高校和互聯(lián)網金融機構建立模型都基于大數(shù)據(jù)基礎,機構的模型經過市場檢驗更加成熟。相較于互聯(lián)網金融機構,依托于高校大數(shù)據(jù)環(huán)境建立學生征信模型擁有諸多優(yōu)勢。
在校大學生移動支付占比近92%,信用卡持卡人數(shù)少,缺少歷史信用記錄。一般金融機構只能從移動支付和互聯(lián)網社交方面收集大學生的信息。
而高校作為學生最主要的生活場所,擁有完整且多方面的學生信息,例如學生基本信息、成績記錄、校園卡消費記錄、圖書借閱記錄、上網記錄等等。涉及維度廣泛且健全,對建立信用評估模型十分有利,而這方面的數(shù)據(jù)往往是金融機構易忽視且難以獲取的。
高校比金融機構更了解大學生,數(shù)據(jù)基礎更好。大學生的日常行為信息是客觀地被記錄,個人無法修改也無法作偽。而金融機構所采用的大學生數(shù)據(jù)真實性需要經過鑒別。在數(shù)據(jù)準確性上,高校的征信模型比金融機構自建征信模型具有更大優(yōu)勢。
金融機構自建征信模型主要用于自身業(yè)務場景需要,為其業(yè)務提供風險評估和信用分析。
高校建立征信模型是第三方獨立征信體系,為學生個人建立信用檔案,依法采集、客觀記錄其信用信息,并依法對外提供信用信息服務。作為專業(yè)化的信用信息服務平臺,不僅僅服務于金融機構,還可服務于其他任何有需要的社會機構,如招聘單位、共享經濟類互聯(lián)網企業(yè)等等,前景廣闊。
“油菜花信用”是一個基于東北財經大學學生大數(shù)據(jù)環(huán)境下的信用評分模型。數(shù)據(jù)來自于學校數(shù)據(jù)中心整合的學生基本信息數(shù)據(jù)、教務成績數(shù)據(jù)、一卡通消費數(shù)據(jù)、圖書借還數(shù)據(jù)和獎懲助貸數(shù)據(jù)等多維度數(shù)據(jù)資源,以身份、成績、消費、履約和獎懲五個維度作為衡量標準,通過使用專家打分法、邏輯回歸兩種方式建立模型,對學生在校行為進行打分評價,分數(shù)范圍從350分至950分。
信用評分模型的訓練數(shù)據(jù)和預測數(shù)據(jù)分別來自學校學工、教務、一卡通及圖書館等平臺。具體包括學生的基本信息、成績信息、消費信息、借還書信息及獎懲信息。數(shù)據(jù)在學校數(shù)據(jù)中心進行集成,經過數(shù)據(jù)清洗整合,選取部分信息完整度較高的大四學生(供158名)數(shù)據(jù)進行建模。
1. 多維評分體系
FICO評分是Fair Isaac公司開發(fā)的信用評分系統(tǒng),也是目前美國應用得最廣泛的一種,F(xiàn)ICO分數(shù)已是被公認的衡量消費者信用等級的指標。FICO 評分系統(tǒng)得出的信用分數(shù)范圍在 300~850 分之間,分數(shù)越高,說明客戶的信用風險越小,它采集客戶多維度信息,通過邏輯回歸模型計算客戶的還款能力,預測客戶在未來一年違約的概率。
參考FICO評級模型,參考信用風險領域的要素分析法等理論體系,設計多維度的指標體系,經過多次迭代測算,確定各指標權重,計算用戶信用得分。
目前指標體系包括學校財富a、履約情況b、經濟情況c、消費情況d、其他e,設定不同指標權重后,計算公式如下:
以橫軸為信用分數(shù),縱軸為人數(shù)百分比繪制評分圖,由多維評分分布圖得知,615~700得分的分布人數(shù)最多,這部分人群信用一般;550~615得分區(qū)間分布著大約12%的人群,信用較差;5%以下的人群得分小于550,信用極差;700~750得分的人群信用較好,占大約10%;750分以上信用極好,人群比例大約5%比。從目前的分析結果看,信用結果分布良好,基本符合正態(tài)分布。
2.機器學習——邏輯回歸算法
機器學習采用經典的邏輯回歸,選取158名學生的績點、圖書逾期時間、一卡通余額平均值、總消費、獲獎等級及平均逾期率作為特征向量,將學生是否有過逾期行為作為是否違約的分類依據(jù),有過違約行為為1,從未有過違約行為為0。按照3:1的比例對數(shù)據(jù)集進行隨機劃分,訓練數(shù)據(jù)占比75%(共118條數(shù)據(jù)),測試數(shù)據(jù)占比25%(共40條數(shù)據(jù))。得到測試數(shù)據(jù)的40名學生的違約概率p,然后對概率值 p 進行線性計算(350 + 600* (1-p)),得到最終的信用分數(shù)。在參數(shù)選擇上,選用L2正則化方法,訓練采用網格法進行超參數(shù)搜索,最終得到最優(yōu)的超參數(shù)C=10。由于特征向量量綱維度不同,在做分析之前統(tǒng)一對數(shù)據(jù)集進行樣本歸一化處理。處理后數(shù)據(jù)使用python語言進行編程測試。得到結果如下:
邏輯回歸評分分布仍符合正態(tài)分布,結果完全達到可用目標。
為了評估模型,用該預測結果計算了TPR與FPR值,繪制了ROC曲線并計算了AUC值。計算結果如下:
TPR值為:
圖1 TPR值表
FPR值:
圖2 FPR值表
AUC值為0.942。測試集的精準率為87.5%,召回率為78.6%,f1值為81.5%。
采用ROC曲線是因為:人群的違約情況中經常會出現(xiàn)類不平衡現(xiàn)象,而ROC有個很好的特性,測試集中的正負樣本的分布變化的時候,ROC 曲線能夠保持不變,能夠準確反應模型優(yōu)劣,如圖3所示。AUC的值就是ROC曲線下面的面積,越大模型越準確。
本項目面向大學生群體和企業(yè)機構分別采用兩種不同服務模式。
學生端:平臺主要對學生提供信用評分查詢、征信報告分析、信用管理服務、信用成長建議。學生可通過移動客戶端充分了解自己的信用信息,根據(jù)信用建議調整自己的行為,增強信用意識。
圖3 由邏輯回歸算法結果得到的ROC曲線
企業(yè)端:向企業(yè)機構提供數(shù)據(jù)服務。信用報告形式,金融機構可直接根據(jù)本平臺的分析結果對學生進行評級劃分;數(shù)據(jù)接口形式,企業(yè)機構可利用數(shù)據(jù)接口獲得相關信用數(shù)據(jù)輔助業(yè)務開展。
以合作共贏的前提下,依托高校學生征信模型,融合企業(yè)方具體場景業(yè)務需要,協(xié)助企業(yè)構建生產環(huán)境的信用服務模型。
根據(jù)已有數(shù)據(jù)結合提取的特征屬性,使用專家評分法卡、機器學習、邏輯回歸、深度學習方法進行初步的模型設計,通過調整模型參數(shù)和模型融合得到效果相對較好的模型。
引入更多的學生數(shù)據(jù)進行測試,檢驗模型的有效性,從而進一步地調整優(yōu)化模型。
利用更多合作機構的數(shù)據(jù),如信用卡數(shù)據(jù)、房屋租賃、工作等多方面的數(shù)據(jù),進一步完善和迭代模型,使準確性更高。
進入大數(shù)據(jù)、人工智能時代后,高校沉淀的海量數(shù)據(jù)究竟應該如何發(fā)揮作用,能發(fā)揮哪些作用,這些疑問需要網絡信息部門不斷探索求證。不同角度看待高校信息部門做征信研究(金融類服務)是否恰當,一定會得到不同結論。參考阿里螞蟻金服提出Techfin,對比金融機構Fintech的例子,網絡信息中心作為高校IT技術的領先者和數(shù)據(jù)的集成管理者,未來的在角色定位應該是TechX,利用新興技術(Tech)賦能其他部門(X),進一步發(fā)揮信息技術在教育教學、教育管理中的支撐引領作用,促進信息技術與業(yè)務的深度融合,為學校的學科建設、教學科研服務。