林春雨,李崇綱,許方圓,許會泉,石 磊,盧祥虎
1. 北京金信網(wǎng)銀金融信息服務(wù)有限公司 北京 100101;2. 國網(wǎng)能源研究院 北京 100101
基于大數(shù)據(jù)技術(shù)的P2P網(wǎng)貸平臺風(fēng)險預(yù)警模型
林春雨1,李崇綱1,許方圓2,許會泉1,石 磊1,盧祥虎1
1. 北京金信網(wǎng)銀金融信息服務(wù)有限公司 北京 100101;2. 國網(wǎng)能源研究院 北京 100101
近幾年,我國P2P網(wǎng)貸行業(yè)在高速發(fā)展的過程中出現(xiàn)了大量的“失聯(lián)跑路”事件。為此,基于P2P網(wǎng)貸及大數(shù)據(jù)相關(guān)概念的深入剖析,創(chuàng)新性地將平臺的風(fēng)險預(yù)警與大數(shù)據(jù)技術(shù)結(jié)合,通過對海量數(shù)據(jù)采集、Spark分布式平臺計算、機器學(xué)習(xí)建模等大數(shù)據(jù)技術(shù)的整合,構(gòu)建一個有效的P2P網(wǎng)貸平臺風(fēng)險預(yù)警模型。該模型在多維度風(fēng)險評價指標的基礎(chǔ)之上,可以實現(xiàn)對網(wǎng)貸平臺風(fēng)險的實時、精準、全面監(jiān)測,從而有效降低平臺集資詐騙、惡意跑路等惡意事件的發(fā)生頻率,維護廣大投資人的資金安全及社會穩(wěn)定。
互聯(lián)網(wǎng)金融;P2P網(wǎng)貸;大數(shù)據(jù);風(fēng)險預(yù)警;機器學(xué)習(xí)
近幾年,我國互聯(lián)網(wǎng)金融發(fā)展十分迅速。一方面,互聯(lián)網(wǎng)金融的發(fā)展可以很好地滿足中小微企業(yè)、創(chuàng)新型企業(yè)及中低收入階層個人的投融資需求,為“大眾創(chuàng)新,萬眾創(chuàng)業(yè)”營造良好的資本環(huán)境;但另一方面,互聯(lián)網(wǎng)金融在創(chuàng)新發(fā)展過程中也暴露出大量的問題及隱患。本文通過對其中的P2P網(wǎng)絡(luò)借貸平臺運營狀況進行相關(guān)調(diào)查發(fā)現(xiàn),截至2015年6月底,P2P網(wǎng)絡(luò)借貸平臺累計達到2 814家,其中問題平臺為786家,比例高達27.93%,其不僅嚴重危害了人民的財產(chǎn)安全,也有礙互聯(lián)網(wǎng)金融的健康發(fā)展。如何有效地監(jiān)測到潛在的具有高風(fēng)險的平臺就成為一項非常有意義的研究。
P2P網(wǎng)絡(luò)借貸平臺發(fā)端于英國,成熟于美國。從資金流向來看,國外的P2P網(wǎng)絡(luò)借貸資金主要流向小額信貸領(lǐng)域,借款主體主要為個人,其用途也是為了滿足個人消費需求和補充個體戶經(jīng)營的流動資金需要。對于這些借款人,P2P平臺僅需要通過個人征信報告確定其信貸違約風(fēng)險,并將可公開的信息提供給投資人,最終由借貸雙方直接達成借貸協(xié)議。因此,在完善的征信體系與政府監(jiān)管環(huán)境下,可以通過行業(yè)自律等方式有效預(yù)防問題平臺的出現(xiàn)。而在我國,P2P網(wǎng)絡(luò)借貸不僅為個人服務(wù),而且很大程度上也服務(wù)于中小微企業(yè),在風(fēng)控手段上必須依靠強化抵押與質(zhì)押品的要求以及引進有實力的融資性擔保機構(gòu)對項目進行擔保。這樣,投資人的信貸風(fēng)險不再主要取決于個體項目的違約風(fēng)險,而主要取決于平臺合作方的擔保實力與抵押品的實際抵押能力[1]。這其中還存在平臺與合作方相互勾結(jié)的風(fēng)險,因此,由第三方對P2P網(wǎng)絡(luò)借貸平臺的風(fēng)險進行監(jiān)測預(yù)警勢在必行。
目前國內(nèi)關(guān)于網(wǎng)絡(luò)借貸平臺風(fēng)險及預(yù)警的研究還處于初級階段,研究的內(nèi)容也都是從金融業(yè)務(wù)層面進行展開,比如黃葉苨、齊曉雯認為P2P面臨的風(fēng)險主要包括由于法律缺失導(dǎo)致的監(jiān)管風(fēng)險、用戶導(dǎo)致的風(fēng)險及借貸平臺自身運營與網(wǎng)絡(luò)技術(shù)帶來的風(fēng)險[2];而胡旻昱、孟慶軍基于系統(tǒng)科學(xué)理論辯證地分析了P2P平臺所面臨的風(fēng)險,他們認為環(huán)境對系統(tǒng)有“壓力”,即平臺會受到金融危機、行業(yè)法律缺失、機構(gòu)主管單位不明確等外界風(fēng)險的影響,反過來系統(tǒng)自身會對環(huán)境有“污染”,網(wǎng)貸平臺自身監(jiān)管不到位、系統(tǒng)安全漏洞、擔保機構(gòu)與征信機制不完善等都是平臺自身引發(fā)的風(fēng)險[3];余及堯等基于2013-2014年P(guān)2P網(wǎng)貸平臺樣本數(shù)據(jù),運用logistic回歸模型從企業(yè)性質(zhì)、收益率及風(fēng)控保證模式3個方面對平臺發(fā)生財務(wù)困境的影響進行研究,結(jié)果表明其與短期收益率呈顯著正相關(guān)[4];隨后馬玉娟通過分析P2P的主要風(fēng)險類型,同時綜合相關(guān)專家的評審構(gòu)建了包含信用評級、流動性、信息透明度、技術(shù)服務(wù)、品牌、杠桿率6個方面內(nèi)容的指標體系,然后結(jié)合運用主成分分析和改進的KLR信號分析法建立了風(fēng)險預(yù)警模型,最后對20家網(wǎng)貸平臺進行了綜合打分和排名,驗證了模型的可行性和準確性[5]。但是由于數(shù)據(jù)量少,對于模型的準確性結(jié)論就有一定的局限性。王楚珺、劉會芳等人認為P2P網(wǎng)貸主要存在信用評估、業(yè)務(wù)監(jiān)管及系統(tǒng)安全三大風(fēng)險,并且提出可以將大數(shù)據(jù)引入P2P的風(fēng)險控制工作[3],但是他們并沒有深入分析與研究,更沒有提出一個具體的風(fēng)險控制模型。
綜上所述,已有的相關(guān)研究主要還是集中于理論上的探索,但是P2P網(wǎng)貸平臺風(fēng)險評估是一個跨領(lǐng)域和多數(shù)據(jù)來源的復(fù)雜問題,多方面的數(shù)據(jù)采集和多角度的特征分析是最終模型能夠完成準確預(yù)警的重要保障?;诖髷?shù)據(jù)體量大、類型多、速度快、時效高的特點,可以大大擴寬用于最終模型訓(xùn)練的歷史數(shù)據(jù)特征字段,因此本文將基于大數(shù)據(jù)及相關(guān)技術(shù)完成對P2P平臺監(jiān)測預(yù)警模型的構(gòu)建。
2.1 P2P網(wǎng)絡(luò)借貸
P2P網(wǎng)絡(luò)借貸又稱為點對點借貸,指非金融機構(gòu)利用互聯(lián)網(wǎng)或移動平臺為民間借貸雙方提供的借貸信息中介服務(wù),包括信息發(fā)布、交易撮合以及為實現(xiàn)交易撮合而提供的風(fēng)險評估、信用評價、投資咨詢、交易管理及資金流轉(zhuǎn)等服務(wù)[6]。2005年3月,全球第一家P2P網(wǎng)貸公司Zopa在英國倫敦成立,接著美國兩大巨頭網(wǎng)貸公司Prosper和Lending Club先后成立,而我國第一家網(wǎng)絡(luò)貸款平臺拍拍貸在2008年上線,直到2011年,我國的網(wǎng)貸平臺迎來了高速增長時期。截至2015年6月底,全國累計平臺數(shù)量達到2 814家。P2P網(wǎng)貸在我國經(jīng)過探索創(chuàng)新,其主要運營模式主要包括3類:一是“純線上中介”模式,此模式借貸雙方通過相應(yīng)網(wǎng)絡(luò)平臺發(fā)布信息,自行配對、自主成交,而P2P企業(yè)此時只充當交易撮合平臺和資金劃轉(zhuǎn)平臺,但不參與或較少參與借貸交易,沒有線下審貸環(huán)節(jié),也不對借款提供擔保;二是“擔保賠付”模式,即P2P網(wǎng)絡(luò)借貸平臺事先承諾,當借款人延遲付款時,在一定條件下由平臺從風(fēng)險撥備中先期墊付本金和利息,或由平臺合作的擔保機構(gòu)墊付本金和利息,此舉可以有效降低違約風(fēng)險,吸引更多投資人;三是“線上+線下復(fù)合”模式,此模式將不止依附于自身網(wǎng)絡(luò)平臺,相關(guān)業(yè)務(wù)人員會直接到線下尋找投資者及借款人,并對借款人開展實地信用調(diào)查。由于激烈的行業(yè)競爭,目前國內(nèi)平臺大多將后兩種模式相結(jié)合來最大限度地爭取投資人、減少信用風(fēng)險等。
2.2 大數(shù)據(jù)內(nèi)涵
移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算技術(shù)的迅速發(fā)展,開啟了移動云時代的序幕,大數(shù)據(jù)也越來越多地被人們所了解和利用。目前,對于大數(shù)據(jù)來說并沒有一個明確的定義,李國杰等人認為大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)機器和軟硬件工具對其進行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[7];胡雄偉等人認為大數(shù)據(jù)是指數(shù)據(jù)量的大小超出了傳統(tǒng)意義上的數(shù)據(jù)尺度,一般的軟件工具難以捕捉、存儲、管理和分析的數(shù)據(jù)[8];而維基百科中將大數(shù)據(jù)定義為:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。對以上相關(guān)定義進行總結(jié)歸納,筆者認為大數(shù)據(jù)是指由于結(jié)構(gòu)復(fù)雜、種類繁多、數(shù)量龐大而無法在一定時間內(nèi)運用常規(guī)工具對其進行獲取、存儲、分析及感知的數(shù)據(jù)集合。對于大數(shù)據(jù)的特性,比較有代表性的是4V定義,即認為大數(shù)據(jù)需滿足4個特點:規(guī)模性、價值密度低、多樣性和高速性。目前,大數(shù)據(jù)在電信、智慧城市、電子商務(wù)及社交娛樂等行業(yè)已經(jīng)出現(xiàn)規(guī)?;瘧?yīng)用,隨著網(wǎng)速的進一步提升,數(shù)據(jù)將迎來新一輪爆發(fā)式增長,今后能夠快速獲取、處理、分析海量、多樣化的數(shù)據(jù)對政府及企業(yè)來說都是至關(guān)重要的。
2.3 基于Spark的分布式計算
分布式計算研究如何把一個需要巨大的計算能力才能解決的問題分解成許多小的部分,然后把各個小的部分分給若干計算機同時進行處理,最后把這些計算結(jié)果綜合起來得到最終結(jié)果[9]。之前運用較多的是傳統(tǒng)的MapReduce框架,它將一個任務(wù)的執(zhí)行過程劃分為兩個階段,即map階段和reduce階段。在map階段,每個map任務(wù)讀取一個block,并調(diào)用map函數(shù)進行處理,然后將結(jié)果寫到本地磁盤上;而在reduce階段,每個reduce任務(wù)遠程地從map任務(wù)所在節(jié)點上獲取相關(guān)數(shù)據(jù),并調(diào)用reduce函數(shù)進行數(shù)據(jù)處理,最后將結(jié)果寫入HDFS(Hadoop distributed file system,Hadoop分布式文件系統(tǒng))。但是這種方法在兩個階段計算的結(jié)果均要寫入磁盤,因此系統(tǒng)性能降低,很難滿足迭代編程的要求。為了解決迭代問題,Spark應(yīng)運而生,它是基于MapReduce的新一代大數(shù)據(jù)分析框架,吸收了前者的所有優(yōu)點,但Spark將計算的中間結(jié)果數(shù)據(jù)存儲在內(nèi)存中,通過減少磁盤I/O,使后續(xù)的數(shù)據(jù)運算效率更高。Spark的這種架構(gòu)設(shè)計對于需要重復(fù)利用計算中間數(shù)據(jù)的機器學(xué)習(xí)、交互式數(shù)據(jù)分析等工作十分適用。
2.4 文本挖掘技術(shù)
由于本文是基于大數(shù)據(jù)的建模,原始數(shù)據(jù)中包含了大量的新聞報道、社交文本等非結(jié)構(gòu)化數(shù)據(jù),必須運用相應(yīng)的文本挖掘技術(shù)對其進行排重、分詞、分類等一系列的結(jié)構(gòu)化處理。
2.4.1 文檔分布式排重
排重技術(shù)是指根據(jù)詞語的抗篡改能力及語義信息等特征生成詞語指紋,然后根據(jù)詞語指紋對不同文本進行檢測以排除相似性文檔。具體過程分為兩個層次,即粗排重和細排重,粗排重是對一篇文檔只生成一個指紋來進行初步的排重,而細排重則是在前者的基礎(chǔ)上,針對更細分的主題對文檔生成一組指紋來進行更加精準的排重。由于網(wǎng)絡(luò)信息發(fā)布主體的去中心化,相同信息(尤其是較為敏感的負面信息)會被多個主體進行報道,同時這些報道還會在論壇、微博等社交網(wǎng)絡(luò)中進行轉(zhuǎn)載和評論,致使網(wǎng)絡(luò)中出現(xiàn)大量的重復(fù)信息。因此,對其進行自動排重將會大大提高后面工作的效率及準確性。
2.4.2 自動分詞技術(shù)
自動分詞是計算機針對一段文本,按照詞性、語義等將其自動切分成單個詞匯的過程。人們通過大腦識別文本中的詞匯是依賴于對語言的理解和積累而形成的思維,但對于機器來說顯然是不具備此種思維的,因此利用機器進行準確分詞是比較困難的,其涉及的主要問題包括分詞規(guī)范、歧義詞切分及新詞識別。經(jīng)過相關(guān)學(xué)者的探索,目前主要的自動分詞方法包括機械分詞算法、基于統(tǒng)計的分詞算法及基于知識的分詞算法。其中基于知識的分詞算法是通過計算機模擬人類對句子的認知過程來達到分詞的目的,但是這種方法目前還處于研究階段。另外兩種方法相對已經(jīng)比較成熟,但各有優(yōu)缺點,基于統(tǒng)計的分詞方法通過判斷相鄰字同時出現(xiàn)的頻率將共現(xiàn)頻率高的字當成一個詞匯分離出來,但在實踐中發(fā)現(xiàn)這種方法準確率較低。本文采用的分詞技術(shù)是機械分詞算法,它利用一定策略將待分詞文本與預(yù)先準備的語料庫進行匹配來達到分詞的目的,雖然這種方法使用簡單、實用性強,但是其語料庫詞匯往往會少于實際應(yīng)用中遇到的詞匯量。為了解決這一問題,筆者研究團隊制作了近10萬個詞的基礎(chǔ)分詞詞典,同時通過定期與客戶交流建立客戶詞典來進行有效補充。本文將利用自動分詞技術(shù)來抽取新聞、社交等文本信息中各類主題的關(guān)鍵詞,以達到文本分類的目的。
2.5 機器學(xué)習(xí)
1997年Mitchell T M給出了一個機器學(xué)習(xí)的經(jīng)典定義,即計算機利用經(jīng)驗改善系統(tǒng)自身性能的行為[10]。人類具有學(xué)習(xí)能力,其學(xué)習(xí)行為背后具有非常復(fù)雜的邏輯判斷過程,機器學(xué)習(xí)正是以此過程中人腦對信息的處理機制為理論依據(jù),利用計算機來模擬實現(xiàn)人類獲取知識的過程,再通過不斷地創(chuàng)新、重構(gòu)已有知識,最終提升計算機處理問題的能力[11]。在大數(shù)據(jù)環(huán)境下,只有運用機器學(xué)習(xí)的方式才能幫助人們從各式各樣的海量數(shù)據(jù)中挖掘出其中所蘊藏的價值。因此,本文試圖利用機器學(xué)習(xí)法對預(yù)處理后的大量特征字段進行反復(fù)的訓(xùn)練,以找出真正與平臺高風(fēng)險相關(guān)的指標及精準的預(yù)警模型。
通過全面分析當前P2P網(wǎng)貸平臺出現(xiàn)風(fēng)險的原因,本文總結(jié)提出以下4條假設(shè)。
3.1 H1:運營數(shù)據(jù)異常程度與平臺風(fēng)險呈正相關(guān)
P2P平臺的運營數(shù)據(jù)主要包括借貸人數(shù)、借貸金額、預(yù)期收益率及平臺標的信息等。上述運營數(shù)據(jù)在行業(yè)內(nèi)通常會有一個合理的取值區(qū)間,當某些數(shù)據(jù)脫離此區(qū)間太遠時,平臺可能會產(chǎn)生相關(guān)問題。例如平臺預(yù)期收益率遠遠高于行業(yè)平均水平,而平臺中顯示的標的數(shù)量卻很少,則此時該平臺很有可能出現(xiàn)“資金池”現(xiàn)象。平臺運營數(shù)據(jù)是與其風(fēng)險關(guān)聯(lián)最為直接的指標,數(shù)據(jù)越偏離合理區(qū)間,其面臨的風(fēng)險就越大。
3.2 H2:網(wǎng)絡(luò)負面輿情數(shù)量與平臺風(fēng)險呈正相關(guān)
網(wǎng)絡(luò)輿情是指由于各種事件刺激而產(chǎn)生的,并通過互聯(lián)網(wǎng)傳播和形成的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合[12]。網(wǎng)絡(luò)輿情來自于現(xiàn)實世界,同時又會從正面或負面反作用于現(xiàn)實世界,尤其是一些涉及民生、政風(fēng)等負面敏感事件,網(wǎng)絡(luò)會迅速將其變?yōu)槿駸嶙h的公共話題。因此,基于網(wǎng)絡(luò)輿情傳播的及時性與廣泛性等特點,將有關(guān)P2P平臺的負面輿情比例作為其風(fēng)險預(yù)警指標是十分有效的。
本文是通過各大新聞及行業(yè)協(xié)會網(wǎng)站、論壇、微博等搜集P2P平臺的相關(guān)文本信息,然后通過文本分類整理出其中所包含的負面信息(非法、虛假宣傳、投訴等),這些負面信息可以及時、全面地揭示平臺當前存在的問題,問題越多,面臨的風(fēng)險也就越大。
3.3 H3:平臺及相關(guān)法人信用狀況與平臺風(fēng)險呈負相關(guān)
P2P平臺發(fā)生風(fēng)險形成跑路的原因有兩種:一種是自身運營不當,一種是惡意集資詐騙?,F(xiàn)實過程中,很多平臺以無風(fēng)險、高收益等虛假宣傳來吸引客戶進行投資理財,實則是建立資金池以便自用。以上便涉及了平臺及法人的信用問題,通過查詢平臺關(guān)聯(lián)企業(yè)及相關(guān)法人的信用信息和涉訴信息來對其信用度進行判斷,其信用度越高、涉訴牽連越少,平臺風(fēng)險就越低。
3.4 H4:平臺背景實力與平臺風(fēng)險呈負相關(guān)
P2P平臺的背景實力主要包括其注冊與實繳資本金數(shù)量、合作擔保及資金托管機構(gòu)、關(guān)聯(lián)企業(yè)背景等。一些擁有國資上市公司背景的平臺一般不存在跑路、非法集資等惡性事件,另外其在資金和管理團隊方面具有一定的優(yōu)勢,能夠較好地應(yīng)對平臺中產(chǎn)生的逾期與壞賬。所以,平臺背景實力越強,其擁有的風(fēng)險將越低。
在接下來的建模過程中,將會針對每一條假設(shè)建立相應(yīng)指標字段,從而對其進行驗證。
整個模型構(gòu)建過程:首先是運用不同的方法對大量原始數(shù)據(jù)進行采集;然后需要對其進行缺失值修補、異常值檢測等一系列的數(shù)據(jù)預(yù)處理,使原始數(shù)據(jù)格式規(guī)范統(tǒng)一,以滿足訓(xùn)練模型的要求;接著將處理后的數(shù)據(jù)分成訓(xùn)練樣本和測試樣本兩部分,將訓(xùn)練樣本帶入多種模型進行機器學(xué)習(xí),同時利用測試樣本來驗證不同模型的準確性,并通過增減原始字段及進一步的預(yù)處理來不斷優(yōu)化改進模型的準確性;最后則是平臺功能實現(xiàn)的展示。具體流程如圖1所示。
4.1 數(shù)據(jù)采集
平臺自身的運營不善及相關(guān)人員的惡意欺詐是P2P網(wǎng)貸平臺重要的風(fēng)險構(gòu)成因素,這兩個因素在平臺的日常運營、誠信記錄、涉訴情況及相關(guān)網(wǎng)絡(luò)輿情等方面均會有所表現(xiàn),因此這些信息可以作為風(fēng)險預(yù)警的判斷依據(jù),信息集合如圖2所示。
本文經(jīng)過深入研究,最終確立了與P2P平臺風(fēng)險大小緊密相關(guān)的六大特征集合(如圖2內(nèi)環(huán)所示),即企業(yè)基本特征、運營狀況特征、模式與制度特征、平臺誠信記錄、運營者信用信息及平臺宣傳信息,這六大特征集合完整地描述了相關(guān)平臺的背景實力、風(fēng)險保障、標的及利率、企業(yè)與個人信用、網(wǎng)絡(luò)新聞、社交輿情、涉訴等內(nèi)容。這些信息的來源(如圖2中環(huán)所示)主要包括工商注冊信息、平臺網(wǎng)站信息數(shù)據(jù)、宣傳信息數(shù)據(jù)、征信數(shù)據(jù)、銀行數(shù)據(jù)及其他數(shù)據(jù)。針對不同的數(shù)據(jù)來源還需要運用不同的方法(如圖2外環(huán)所示)進行采集,對于網(wǎng)絡(luò)中的結(jié)構(gòu)化數(shù)據(jù)及公開的文本數(shù)據(jù),可利用相關(guān)軟件對其進行自動采集,如P2P平臺的運營數(shù)據(jù)、新聞報道及微博、論壇等社交信息;而針對網(wǎng)絡(luò)中一些特殊的非結(jié)構(gòu)化數(shù)據(jù)或者非互聯(lián)網(wǎng)的數(shù)據(jù),則選用人工調(diào)研搜集的方式,如平臺規(guī)模及背景實力等;最后對于其他機構(gòu)已經(jīng)搜集整理好的數(shù)據(jù),則采用數(shù)據(jù)庫導(dǎo)入或?qū)拥姆绞絹碇苯荧@取。
圖1 模型建立流程
圖2 P2P網(wǎng)貸平臺的特征選取和數(shù)據(jù)采集
本文實際采集了100家正常平臺和100家問題平臺的上述所有特征集合數(shù)據(jù),并結(jié)合經(jīng)過專家評分后的專家?guī)鞌?shù)據(jù)共同作為模型訓(xùn)練時的數(shù)據(jù)源。
4.2 數(shù)據(jù)預(yù)處理
最初采集到的數(shù)據(jù)結(jié)構(gòu)類型各異,同時存在大量的缺失、異常等問題,因此需要對其進行一系列的預(yù)處理才能用于之后的數(shù)據(jù)挖掘與建模工作之中。本文主要的預(yù)處理過程包括以下幾步。
4.2.1 文本信息處理
對于原始數(shù)據(jù)中大量的新聞報道等非結(jié)構(gòu)化數(shù)據(jù),需要進行語義分析及文本分類,將其轉(zhuǎn)換為相應(yīng)數(shù)值指標。轉(zhuǎn)換過程為:通過關(guān)鍵詞自動提取及人工判斷,選出可以區(qū)分不同主題(平臺非法性、平臺投訴類、平臺虛假宣傳類)的關(guān)鍵詞,然后運用這些關(guān)鍵詞制定相應(yīng)的檢索表達式,以實現(xiàn)對相關(guān)信息的自動分類檢索,最后將有關(guān)某家平臺的各個主題內(nèi)信息數(shù)量除以所有相關(guān)信息量,得出輿情投訴率等數(shù)值型指標。
4.2.2 缺失值處理
在對平臺運營數(shù)據(jù)采集的過程中出現(xiàn)了一些數(shù)據(jù)缺失現(xiàn)象,針對此問題,主要采用字段均值及擬合函數(shù)的方法來解決,而針對個別存在大量數(shù)據(jù)缺失的字段,則選擇直接棄用。
4.2.3 異常值檢測
在運營數(shù)據(jù)采集過程中還會出現(xiàn)少量的異常值,如果不對其進行有效處理,則會嚴重影響模型分析效果。本文對于異常值的處理綜合采用了以下幾種方法:通過距離方法來檢測,即設(shè)立一個閾值,將數(shù)據(jù)中與平均值之間的距離(歐式距離)大于這個閾值的點設(shè)為異常點;通過聚類分析,相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而位于這些聚類集合之外的數(shù)據(jù)對象則被認為是異常數(shù)據(jù);利用擬合函數(shù)法對數(shù)據(jù)進行平滑處理以發(fā)現(xiàn)異常點。
4.2.4 數(shù)據(jù)一致性處理
在原始數(shù)據(jù)中,經(jīng)常會出現(xiàn)數(shù)據(jù)單位及類型不一致的現(xiàn)象,例如:有些平臺綜合利率采用月利率計算,有些則用年利率計算,此時就需要對其單位進行統(tǒng)一,解決方法是在程序里使用正則匹配等方法來統(tǒng)一數(shù)據(jù)單位和數(shù)據(jù)類型。
4.2.5 數(shù)據(jù)轉(zhuǎn)換
最后,由于采集到的數(shù)據(jù)包含多種結(jié)構(gòu)類型,因此需要各個特征字段計算口徑統(tǒng)一才能用于模型的建立。針對不同的字段特征將選用以下幾種方法進行處理。
(1)歸一化
歸一化是一種簡化計算的方式,即將有量綱的表達式變換為無量綱的表達式,使數(shù)值的絕對值變?yōu)槟撤N相對值關(guān)系。由于建立的指標取值區(qū)間相差較大,因此利用此方法對其進行歸一化處理。歸一化轉(zhuǎn)換的方式包括線性函數(shù)轉(zhuǎn)換、對數(shù)函數(shù)轉(zhuǎn)換和反正切函數(shù)轉(zhuǎn)換3種,本文針對不同字段特征選擇不同的函數(shù)形式進行轉(zhuǎn)換。
(2)數(shù)據(jù)泛化
數(shù)據(jù)泛化是一個從相對低層概念到更高層概念且對數(shù)據(jù)庫中與任務(wù)相關(guān)的大量數(shù)據(jù)進行抽象概述的一個分析過程。本文主要是運用主成分分析法對大量的原始特征字段進行降維處理,排除一些相關(guān)性較強的無用字段,以提高建模過程的運行速率與最終模型的準確性。
4.3 模型構(gòu)建與優(yōu)化
本文將基于Spark分布式計算平臺,利用機器學(xué)習(xí)方法選取多種模型來對訓(xùn)練樣本集進行訓(xùn)練,并通過測試樣本集對其準確性進行檢驗,最終通過對原始數(shù)據(jù)字段及預(yù)處理的反復(fù)調(diào)整以期得出一個最優(yōu)的P2P平臺風(fēng)險預(yù)警模型。在建模過程中,特征字段選取、模型選擇及結(jié)論解釋3部分內(nèi)容將是本部分研究的主要關(guān)注點。
4.3.1 特征字段選取
針對預(yù)處理之后大量的可用特征字段,需要通過相關(guān)性分析和卡方檢驗等方法逐一驗證這些特征與平臺欺詐事件的相關(guān)性,將對P2P網(wǎng)貸平臺風(fēng)險影響不顯著的無效字段進行有效剔除,以保證分析結(jié)果的準確性及模型運算效率。
4.3.2 模型選擇
能根據(jù)實時的數(shù)據(jù)集進行學(xué)習(xí)并不斷修正優(yōu)化自身的判斷能力,是對優(yōu)質(zhì)模型的基本要求。由于模型輸出的風(fēng)險指標主要用于判斷P2P平臺存在欺詐的風(fēng)險性,因此輸出變量是二項分布,且風(fēng)險指標必須是序數(shù)型變量。可用于該種情況的分析模型包括邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等。系統(tǒng)為每一種備選模型進行建模,通過對比并最終選擇出最佳的風(fēng)險預(yù)警模型。
4.3.3 結(jié)論解釋
P2P平臺風(fēng)險評估系統(tǒng)主要用于輔助系統(tǒng)使用者進行決策。而系統(tǒng)使用者進行決策后,往往需要向質(zhì)疑者提供充分的解釋。因此結(jié)論解釋功能尤為重要。例如當系統(tǒng)面向某個平臺的某個風(fēng)險指標較高,系統(tǒng)使用者或者對象平臺直接質(zhì)疑系統(tǒng)的準確性時,就需要給出合理的解釋。而最佳的解釋依據(jù)應(yīng)當為原始數(shù)據(jù)集合中的一般性統(tǒng)計結(jié)果。在機器學(xué)習(xí)的大多模型中,由于模型包含非線性的傳遞函數(shù),這使得模型通常具有較強的學(xué)習(xí)能力,但亦將輸入和輸出的直接聯(lián)系模糊化,增加了結(jié)論解釋的難度。在眾多的模型中,貝葉斯網(wǎng)絡(luò)是結(jié)論解釋能力較強的模型。其利用樸素貝葉斯理論的可逆推性,在輸出的結(jié)果與原始數(shù)據(jù)中的一般統(tǒng)計性結(jié)果中建立線性聯(lián)系,使得其結(jié)果較容易使用一般統(tǒng)計性結(jié)果進行描述。
圍繞以上3個核心問題,在整個模型構(gòu)建與優(yōu)化的過程中,通過不斷地對比分析及交叉驗證不同模型各個方面的表現(xiàn),以最終建立一個最佳的平臺風(fēng)險預(yù)警模型。
4.4 預(yù)警平臺功能展示
整個建模過程最終的目的是搭建出可以面向用戶的P2P風(fēng)險監(jiān)測預(yù)警平臺。該平臺可以實現(xiàn)兩方面的功能:對P2P平臺所面臨的風(fēng)險進行實時全面的評分,并針對其風(fēng)險狀況生成詳細的風(fēng)險分析報告,以為其風(fēng)險的后續(xù)應(yīng)對工作提供必要的建議措施;多維度地展現(xiàn)行業(yè)整體風(fēng)險情況,如將平臺按地區(qū)、時間、類型等不同內(nèi)容進行風(fēng)險分類統(tǒng)計,以清晰直觀的方式滿足不同用戶的多樣化需求。
由于P2P行業(yè)在我國發(fā)展時間比較短,因此相比傳統(tǒng)金融機構(gòu),其在不斷的摸索創(chuàng)新過程中會面臨更加多樣的風(fēng)險。而本文的創(chuàng)新之處正是在于將模型的建立與大數(shù)據(jù)相結(jié)合,借助于先進的自動文本采集、Spark分布式計算、文本挖掘等技術(shù)來建立更加全面的指標體系,最終利用機器學(xué)習(xí)的方法對采集到的多維度歷史數(shù)據(jù)進行反復(fù)的訓(xùn)練與改進,以構(gòu)建出一個準確、有效的P2P網(wǎng)貸平臺風(fēng)險預(yù)警模型?;谝陨夏P痛罱ǖ念A(yù)警平臺通過數(shù)據(jù)每日自動更新,便可實現(xiàn)對網(wǎng)貸企業(yè)的實時監(jiān)測預(yù)警,并從多種角度展現(xiàn)其風(fēng)險狀況。該平臺不但可以用來協(xié)助政府監(jiān)管機構(gòu)開展相關(guān)工作以有效地預(yù)防平臺跑路、詐騙等問題事件的發(fā)生,還可以為廣大的平臺投資者提供投資風(fēng)險警示以保障其資金安全。
致謝
本研究得到首都經(jīng)貿(mào)大學(xué)金融學(xué)院周曄老師、余穎豐老師以及北京大學(xué)常國珍博士的幫助,謹致謝意!
[1] 陳文等. P2P中國式高收益?zhèn)顿Y指南. 北京: 機械工業(yè)出版社, 2015Chen W,et al. P2P Chinese High-Yield Bond Investing for Dummies. Beijing: China Machine Press, 2015
[2] 黃葉苨, 齊曉雯. 網(wǎng)絡(luò)借貸中的風(fēng)險控制. 金融理論與實踐, 2012(4): 101~105 Huang Y N, Qi X W. Risk control of the P2P lending. Financial Theory & Practice, 2012(4): 101~105
[3] 胡旻昱, 孟慶軍. P2P網(wǎng)貸平臺發(fā)展中的風(fēng)險及其系統(tǒng)分析. 武漢金融, 2014(6): 45~48 Hu M Y, Meng Q J. Risk of the developing P2P lending and its system analysis. Wuhan Finance, 2014(6): 45~48
[4] 余及堯. 互聯(lián)網(wǎng)金融財務(wù)困境預(yù)警與監(jiān)管對策——基于2013-2014年P(guān)2P網(wǎng)貸平臺樣本數(shù)據(jù)分析. 福建金融, 2015(2): 42~47 Yu J Y. Internet financial early-warning and regulatory measures--based on P2P lending platform in 2013-2014 sample data analysis. Fujian Finance, 2015(2): 42~47
[5] 馬玉娟. 互聯(lián)網(wǎng)金融風(fēng)險預(yù)警研究——以P2P網(wǎng)絡(luò)借貸模式為例(碩士學(xué)位論文). 錦州:遼寧工業(yè)大學(xué), 2015 Ma Y J. The warning research on internet financial risks--the study of P2P lending (master dissertation). Jinzhou: Liaoning University of Technology, 2015
[6] 黃旭, 王素珍, 趙洋. P2P 平臺: 發(fā)展與監(jiān)管.中國金融, 2014(5): 90~93 Huang X, Wang S Z, Zhao Y. P2P platform: the development and regulation. China Finance, 2014(5): 90~93
[7] 李國杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考. 中國科學(xué)院院刊, 2012(6): 647~657 Li G J, Cheng X Q. Big data research: the future of science and technology and economic and social development of major strategic areas--research status and scientific thinking of big data. Bulletin of Chinese Academy of Sciences, 2012(6): 647~657
[8] 胡雄偉, 張寶林, 李抵飛. 大數(shù)據(jù)研究與應(yīng)用綜述(上). 標準科學(xué), 2013(9): 29~34 Hu X W, Zhang B L, Li D F. Overview of big data research and application (part A). Standard Science, 2013(9): 29~34
[9] 黎連業(yè), 王安, 李龍.云計算基礎(chǔ)與實用技術(shù).北京: 清華大學(xué)出版社, 2013 Li L Y, Wang A, Li L. Cloud Foundations and Practical Technology. Beijing: Tsinghua University Press, 2013
[10] Tom Mitchell. Machine Learning. New York: McGraw Hill Higher Education, 1997
[11] 陳康, 向勇, 喻超. 大數(shù)據(jù)時代機器學(xué)習(xí)的新趨勢. 電信科學(xué), 2012, 28(12): 88~95 Chen K, Xiang Y, Yu C. The new trend of big data era of machine learning. Telecommunications Science, 2012, 28(12): 88~95
[12] 高承實, 陳越, 榮星等. 網(wǎng)絡(luò)輿情幾個基本問題的探討. 情報雜志, 2011(30): 52~56 Gao C S, Chen Y, Rong X,et al. Some basic problems on network opinion research. Journal of Intelligence, 2011(30): 52~56
林春雨,男,現(xiàn)任北京拓爾思信息技術(shù)股份有限公司高級副總裁、助理研究員,負責公司大數(shù)據(jù)中心建設(shè)和云服務(wù)運營工作,在社會化媒體的技術(shù)運營和管理上有豐富的實戰(zhàn)經(jīng)驗,其同時兼任北京金信網(wǎng)銀金融信息服務(wù)有限公司總經(jīng)理,為各地金融監(jiān)管機構(gòu)提供非法集資監(jiān)管服務(wù)。另外,作為國家信息安全專項輿情云服務(wù)項目組長、中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書長,為多個國家部委、省級客戶、大型企事業(yè)單位提供過相關(guān)高端輿情服務(wù),并通過聯(lián)盟和產(chǎn)業(yè)對接,積極推動大數(shù)據(jù)的發(fā)展。
李崇綱,男,北京金信網(wǎng)銀金融信息服務(wù)有限公司常務(wù)副總經(jīng)理,拓爾思信息技術(shù)股份有限公司高級顧問,中國計算機學(xué)會大數(shù)據(jù)專家委員會委員,中關(guān)村互聯(lián)網(wǎng)金融協(xié)會副秘書長,中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟專家組成員。專注于大數(shù)據(jù)在政府、金融等行業(yè)領(lǐng)域的應(yīng)用,擁有10多年網(wǎng)絡(luò)數(shù)據(jù)挖掘分析、互聯(lián)網(wǎng)大數(shù)據(jù)分析經(jīng)驗,擔任多家政府企業(yè)輿情管理咨詢顧問,是國內(nèi)首款輿情監(jiān)測系統(tǒng)的設(shè)計者,長期跟蹤互聯(lián)網(wǎng)大數(shù)據(jù)行業(yè)變化。目前主持開發(fā)國內(nèi)首個大數(shù)據(jù)防控金融信用風(fēng)險與智能決策支持系統(tǒng)。
許方圓,男,國網(wǎng)能源研究院能源決策支持技術(shù)研發(fā)中心中級工程師,主要從事智能電網(wǎng)技術(shù)和政策的分析研究,近年來主要研究方向為需求側(cè)響應(yīng)實施與應(yīng)用、電力系統(tǒng)中的數(shù)據(jù)挖掘應(yīng)用、全球能源互聯(lián)網(wǎng),發(fā)表論文10余篇。
許會泉,男,北京金信網(wǎng)銀金融信息服務(wù)有限公司研發(fā)總監(jiān),負責公司互聯(lián)網(wǎng)金融、機器學(xué)習(xí)、大數(shù)據(jù)產(chǎn)品研發(fā)、管理工作,在計算機系統(tǒng)架構(gòu)設(shè)計、大數(shù)據(jù)應(yīng)用、輿情產(chǎn)品應(yīng)用等方面具有豐富的實戰(zhàn)經(jīng)驗,近年負責主持研發(fā)了公司金融大數(shù)據(jù)打非監(jiān)測預(yù)警云平臺、互聯(lián)網(wǎng)金融風(fēng)險模型等多個大數(shù)據(jù)產(chǎn)品。
石磊,男,北京金信網(wǎng)銀金融信息服務(wù)有限公司互聯(lián)網(wǎng)金融行業(yè)數(shù)據(jù)分析師,主要負責研究行業(yè)目前所具有的非法集資風(fēng)險特征,并基于大數(shù)據(jù)對相關(guān)企業(yè)風(fēng)險進行監(jiān)測與評判,擁有豐富的理論及實戰(zhàn)經(jīng)驗。
盧祥虎,男,北京金信網(wǎng)銀金融信息服務(wù)有限公司機器學(xué)習(xí)算法工程師,目前從事P2P風(fēng)險預(yù)警建模相關(guān)的算法設(shè)計工作,在機器學(xué)習(xí)算法領(lǐng)域具有一定的理論與實戰(zhàn)經(jīng)驗,擅長機器學(xué)習(xí)中數(shù)學(xué)算法的優(yōu)化與改進等。
Lin C Y, Li C G, Xu F Y,et al. A model of pre-warning based on the big data technology for P2P lending platform. Big Data Research, 2015037
A Model of Pre-Warning Based on the Big Data Technology for P2P Lending Platform
Lin Chunyu1, Li Chonggang1, Xu Fangyuan2, Xu Huiquan1, Shi Lei1, Lu Xianghu1
1. Beijing JinXinWangYin Financial Information Service Co., Ltd., Beijing 100101, China;
2. State Grid Energy Research Institute, Beijing 100101, China
In recent years, P2P lending industry in China has appeared a lot of escape events in the process of its rapid development. Bases on deep analysis of the related concepts for P2P lending and big data, combining innovatively the risk pre-warning of platform with big data, an effective risk pre-warning model of P2P lending platform was constructed according to the collection of huge amounts of data, big data technology including Spark distributed computation and machine learning. Based on the establishment of multi-dimensional risk assessment, the model can be achieved on real-time, accurate, comprehensive monitoring for the risk of P2P lending, thus effectively reducing the frequency of financial fraud, escape malicious event, so as to the majority of investors’ money to maintain security and social stability.
internet financial, P2P lending, big data, risk pre-warning, machine learning
10.11959/j.issn.2096-0271.2015037
2015-09-30
林春雨,李崇綱,許方圓等. 基于大數(shù)據(jù)技術(shù)的P2P網(wǎng)貸平臺風(fēng)險預(yù)警模型. 大數(shù)據(jù), 2015037