陳 林,謝彥嫵,李 平,李 強(qiáng)
(電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,四川 成都 611731)
民間金融對中國經(jīng)濟(jì)發(fā)展具有重要作用[1]。P2P網(wǎng)絡(luò)借貸(Peer to Peer Lending)正是近年來重要的民間金融之一。它是借貸雙方通過互聯(lián)網(wǎng)信息平臺(tái)直接達(dá)成資金借貸交易,而不再依靠銀行等傳統(tǒng)金融機(jī)構(gòu)。2005年第一家P2P網(wǎng)絡(luò)借貸平臺(tái)Zopa在英國誕生,2007年“拍拍貸”、“人人貸”等網(wǎng)絡(luò)借貸平臺(tái)網(wǎng)站將該模式引入我國。據(jù)零壹財(cái)經(jīng)數(shù)據(jù)報(bào)告,截止2016年11月30日,國內(nèi)P2P借貸平臺(tái)約4800余家,但其中正常運(yùn)營的僅有1613家,占比33.6%,問題平臺(tái)達(dá)到3163家。網(wǎng)絡(luò)行業(yè)表現(xiàn)出如此高比例的問題平臺(tái),其原因之一就是社會(huì)信用體系不健全,同時(shí)也沒能有效解決借款者的信用風(fēng)險(xiǎn)識(shí)別問題。由于借貸交易通過互聯(lián)網(wǎng)進(jìn)行,投資者更難核實(shí)借款者信息的真實(shí)性,信息不對稱問題可能比傳統(tǒng)信貸更為嚴(yán)重。如何有效識(shí)別P2P網(wǎng)絡(luò)借款者的信用風(fēng)險(xiǎn),仍然是整個(gè)行業(yè)持續(xù)健康發(fā)展亟待解決的關(guān)鍵問題之一。與此同時(shí),建立科學(xué)的客戶信用評估模型,準(zhǔn)確、有效地預(yù)測客戶可能發(fā)生的欺詐行為意義十分重大[2]。
在P2P網(wǎng)絡(luò)借貸模式下,投資者判斷借款者的信用風(fēng)險(xiǎn),規(guī)避借款者的逆向選擇和道德風(fēng)險(xiǎn)的主要途徑是依靠借款者在借貸平臺(tái)上展示的信息。這些信息主要包括借款者的個(gè)人特征信息與財(cái)務(wù)信息[3]、社會(huì)資本信息[4-6]、以及借款者為了借款而展示的借款陳述信息[7-8]。借款者的這些信息又可以分為硬信息(hard information)和軟信息(soft information)[9-10]。硬信息指能夠被驗(yàn)證的客觀信息,例如借款者的身份證號(hào)碼、信用報(bào)告、收入信息等信息。軟信息則指不能被直接驗(yàn)證的信息,如借款者的社會(huì)資本、借款陳述文本、還款意愿等信息。在銀行等傳統(tǒng)金融機(jī)構(gòu)的借貸領(lǐng)域,一般通過硬信息度量還款能力,進(jìn)而評估借款人的違約風(fēng)險(xiǎn)。由于借款人的還款意愿也是產(chǎn)生違約風(fēng)險(xiǎn)的根源之一,所以甄別借款人的還款意愿一直都是違約風(fēng)險(xiǎn)評估面臨的重要挑戰(zhàn)之一。
目前,P2P網(wǎng)絡(luò)借貸的違約成本低,較小的借款金額使得借款者能否按時(shí)還款,更多取決于其還款意愿,而非還款能力。所以還款意愿的識(shí)別對于保護(hù)投資人的利益尤為重要。心理學(xué)研究表明,自然語言中運(yùn)用的詞匯能在一定程度上反映出作者的自我認(rèn)知和社會(huì)地位[11]。所以,人們也早已認(rèn)識(shí)到描述性文本信息在經(jīng)濟(jì)領(lǐng)域中有著重要作用,例如,關(guān)于組織認(rèn)同的描述性信息能幫助企業(yè)家獲取所需的經(jīng)濟(jì)資源[12],企業(yè)家的商業(yè)計(jì)劃書在不確定性較高的金融交易中起到關(guān)鍵的信息橋梁作用[13],上市公司的信息披露之間的相似度與股權(quán)資本成本之間存在正相關(guān)關(guān)系[14]?;谕瑯拥牡览?,借款者對借款項(xiàng)目的描述信息或許能為投資者識(shí)別借款者的違約風(fēng)險(xiǎn)提供有用的線索。因?yàn)榻杩铌愂鐾ㄟ^對借款者現(xiàn)狀的表述和未來還款行為的塑造,也許在某種程度上會(huì)蘊(yùn)含著借款者為了展示或者隱藏自己還款能力和還款意愿的相關(guān)信息。所以,本文從借款陳述文本中提取文字特征信息、還款能力和還款意愿信息、對資金需求緊急程度的情感特征等信息,并檢驗(yàn)它們對識(shí)別借款者違約風(fēng)險(xiǎn)的作用。
當(dāng)前對借款陳述的研究主要集中于借款陳述對借款成功率的影響。例如Larrimore等[15]分析了借款陳述中表現(xiàn)的誠信、成功、勤奮、經(jīng)濟(jì)困難、道德和宗教特征對借款成功的影響;Herzenstein等[16]從文本長度、人性化細(xì)節(jié)等能間接反映借款者財(cái)務(wù)狀況的變量出發(fā),分析對借款成功率的影響;廖理等[17]從語言長度與語言內(nèi)容兩個(gè)維度分析了借款陳述在P2P借貸市場的作用,語言長度越長,借款成功率越高,如約還清率越高;涉及某些話題(創(chuàng)業(yè)、家庭、急迫、誠信)影響借款成功率但與如約還清率無關(guān)。還有研究將借款陳述中的借款用途、總單詞數(shù)、單詞的平均音節(jié)數(shù)等作為控制變量,研究性別、種族等其它因素對網(wǎng)絡(luò)借貸的影響[18],以及外貌對成功借款的影響[19]。
綜上所述,現(xiàn)有研究還少有通過借款陳述信息提取有助于識(shí)別借款者違約風(fēng)險(xiǎn)的相關(guān)變量,與本文關(guān)注的違約風(fēng)險(xiǎn)相關(guān)的主要研究有Gao Qiang和Lin Mingfeng[8]、廖理和吉霖等的研究。Gao Qiang和Lin Mingfeng從文本的可讀性、反映的積極態(tài)度、客觀性和欺詐線索四個(gè)維度分析它們與違約之間的關(guān)系。廖理等[17]則主要分析了文本長度與違約風(fēng)險(xiǎn)之間的關(guān)系,認(rèn)為文本越長,違約的風(fēng)險(xiǎn)越小。不過廖理等[17]的這個(gè)結(jié)論與Gao Qiang和Lin Mingfeng[8]的觀點(diǎn)并不一致,在Gao Qiang和Lin Mingfeng研究中,文本越長可能代表文本的可讀性下降,從而違約的可能性越高。
Gao Qiang和Lin Mingfeng[8]使用文本分析軟件(Linguistic Inquiry and Word Count)處理英文的借款描述,廖理等[17]則通過編程實(shí)現(xiàn)對特定詞語的查詢得到研究變量。然而與違約風(fēng)險(xiǎn)息息相關(guān)的還款能力、還款意愿等借款者主動(dòng)表述的信息還沒有得到重視。這可能受限于目前語言分析軟件還無法處理復(fù)雜的語言內(nèi)容和情感。所以,本文基于國內(nèi)網(wǎng)貸平臺(tái)“人人貸”的借款項(xiàng)目數(shù)據(jù),通過人工識(shí)別的方法,從借款陳述文本中提取反映借款者還款能力的收入信息、信用狀態(tài)的補(bǔ)充說明信息以及對資金需求緊急程度的情感信息,然后檢驗(yàn)這些信息變量對識(shí)別借款者違約風(fēng)險(xiǎn)的顯著性。本文研究與Gao Qiang和Lin Mingfeng[8]和廖理等[17]的研究相比,關(guān)注于他們沒有考慮的信息變量,即從借款陳述文本中發(fā)現(xiàn)是否存在能反映潛在違約風(fēng)險(xiǎn)的還款能力、還款意愿和對資金需求的情感等信息。人工識(shí)別的方法雖然處理的樣本數(shù)量有限,但更能識(shí)別模糊性的信息,并且也為未來進(jìn)一步通過編制程序分析借款陳述中的模糊信息提供校對標(biāo)準(zhǔn)。
全文內(nèi)容安排如下:第一部分是引言;第二部分是借款陳述文本分析所涉及的變量定義、變量的統(tǒng)計(jì)特征和研究問題假設(shè)提出;第三部分是研究假設(shè)的驗(yàn)證和穩(wěn)健性分析;最后部分是研究結(jié)論的總結(jié)分析。
我們擬從借款陳述文本中提取如下三類信息變量:
第一類信息:文字特征信息。主要從借款陳述的文本長度、語句中是否含有錯(cuò)別字、是否為了增加長度進(jìn)行重復(fù)的語句粘貼三個(gè)維度描述文字特征信息,借款陳述例子見表1。Gao Qiang和Lin Mingfeng[8]的研究結(jié)論:文本越長,可讀性下降,意味著違約可能性增加。這可能是因?yàn)榻杩钫哂捎谧陨砦幕降南拗?,產(chǎn)生了較長的、重復(fù)性的、或者有錯(cuò)別字的借款陳述。但Gao Qiang和Lin Mingfeng結(jié)論是基于英文文本的結(jié)果。而廖理等[17]結(jié)論正好相反,即借款陳述文本越長,違約可能性越小。但是廖理等[17]未關(guān)注到錯(cuò)別字、重復(fù)這樣的語法錯(cuò)誤現(xiàn)象。因此,本文在繼續(xù)考慮文本長度的同時(shí),增加考慮錯(cuò)別字和重復(fù)語句信息是否對判斷違約風(fēng)險(xiǎn)有顯著作用。
表1 借款陳述中的文字特征信息示例
文字特征信息可能反映了借款者的受教育程度,而已有研究表明教育程度與個(gè)人信用水平相關(guān)。簡潔、準(zhǔn)確的借款陳述文本體現(xiàn)的是良好的教育水平,從而違約可能性更低。所以,與Gao Qiang和Lin Mingfeng[8]的研究類似,本文希望在中文語言環(huán)境下驗(yàn)證如下假設(shè):
假設(shè)1:借款陳述文本越長、有錯(cuò)別字、有重復(fù)語句,則借款者違約風(fēng)險(xiǎn)越大。
第二類信息:表現(xiàn)還款能力和還款意愿的信息。P2P借貸平臺(tái)為了保護(hù)借款者的個(gè)人隱私,在網(wǎng)站上進(jìn)行信息展示的時(shí)候盡可能地隱藏了借款者的詳細(xì)個(gè)人信息,只保留了借款者收入水平類別和公司行業(yè)類別信息。但借款者在借款陳述中可以自愿提供其它更為詳細(xì)的信息來證明自己的還款能力或者還款意愿。比如對工作狀況的補(bǔ)充,包括公司名稱、主營業(yè)務(wù)、公司地址、兼職副業(yè)等,以及對收入狀況的補(bǔ)充說明,包括具體收入金額、家庭成員收入、多種收入來源等(見表2)。
表2 還款能力與還款意愿的信息示例
另一方面,為了表達(dá)更強(qiáng)烈的還款意愿,借款者還可能對自己的信用狀態(tài)進(jìn)行說明,以及出現(xiàn)承諾性的保證語言,借此向投資者表達(dá)自己是一個(gè)值得信任的人。為此,本文將驗(yàn)證如下兩個(gè)假設(shè):
假設(shè)2:借款陳述文本存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小。
假設(shè)3:借款陳述文本存在還款意愿信息,則借款者違約風(fēng)險(xiǎn)越小。
第三類信息:情感特征信息。我們從兩個(gè)方面挖掘借款陳述中的情感特征信息。一方面是在借款陳述中,是否使用了第一人稱“我”、“我們”、“本公司”等表述,基于已有的研究結(jié)論表明,一個(gè)惡意欺詐的人一般會(huì)規(guī)避使用第一人稱表述,以逃避某種“罪惡”感[20]。另一方面,如果借款人在借款陳述中表現(xiàn)出對資金的需求很強(qiáng)烈,則可能表明其經(jīng)濟(jì)狀態(tài)比較差,從而將來違約的可能性較高?;蛘叱鲇谄墼p的因素,而急于想借到錢,因而在借款陳述中更多使用“謝謝”、“感謝”等感謝性語言和“拜托”、“幫忙”等請求性表達(dá)(見表3)。因此,本文還將驗(yàn)證如下兩個(gè)假設(shè):
假設(shè)4:借款陳述文本中存在第一人稱表述,則違約風(fēng)險(xiǎn)越小。
假設(shè)5:借款陳述文本中表現(xiàn)出對資金需要意愿越強(qiáng),則借款者違約風(fēng)險(xiǎn)越大。
表3 借款陳述中的情感特征信息示例
被解釋變量為借款項(xiàng)目的逾期狀態(tài),用二元變量default表示,即借款者在規(guī)定時(shí)間內(nèi)正常還款,default=0;借款者在規(guī)定時(shí)間內(nèi)未還款,逾期30天(含)以內(nèi)以及逾期超過30天由人人貸進(jìn)行墊付,default=1。
因?yàn)榻杩罱痤~、借款利率、借款期限及由平臺(tái)給出的借款人信用分?jǐn)?shù)已是借貸中用于評估信用風(fēng)險(xiǎn)的主要變量,所以本文將這四個(gè)變量設(shè)置為控制變量。除此外,利率和信用分?jǐn)?shù)還用于控制不同時(shí)期平臺(tái)的利率定價(jià)機(jī)制和審核機(jī)制對違約率的影響,因?yàn)?,借款利率是在不同時(shí)期的利率定價(jià)機(jī)制下形成的。
最后,根據(jù)前一節(jié)關(guān)于借款陳述文本中的信息變量介紹,被解釋變量、解釋變量和控制變量如表4所示。
表4 被解釋變量、解變量和控制變量
本文以“人人貸”的“信用認(rèn)證標(biāo)”借款項(xiàng)目為研究樣本?!靶庞谜J(rèn)證標(biāo)”借款是“人人貸”平臺(tái)對借款用戶的個(gè)人信用資質(zhì)進(jìn)行審核后,推薦在平臺(tái)上的借款項(xiàng)目。該類借款項(xiàng)目沒有其他機(jī)構(gòu)擔(dān)保,屬于純信用借款,因此對借款者的違約風(fēng)險(xiǎn)識(shí)別尤為重要。
“人人貸”平臺(tái)成立于2010年5月,是我國最早發(fā)展P2P借貸的平臺(tái)之一。由于初期P2P行業(yè)也還處于發(fā)展時(shí)期,所以2010年的借款標(biāo)的數(shù)據(jù)較少。2011年開始逐步增加,但2011年期間違約的信用借款項(xiàng)目特別多。由于樣本數(shù)據(jù)是通過第三方公司網(wǎng)絡(luò)爬蟲獲取,所以在對2011年至2015年期間的信用借款項(xiàng)目數(shù)據(jù)進(jìn)行整理后得約兩萬余條數(shù)據(jù)完整的信用借款項(xiàng)目信息。由于我們將個(gè)人信用評分(score)作為主要的控制變量之一,而平臺(tái)所展示的個(gè)人信用評分(score)總是借款人的最新信用分?jǐn)?shù),而沒有借款人過去的變化分?jǐn)?shù)。因此就不能用這個(gè)最新的信用評分(score)去解釋一個(gè)借款者過去所有的借款項(xiàng)目。為了解決這個(gè)問題,我們就選擇同一個(gè)人的最后一筆借款作為研究樣本,以保證個(gè)人信用評分(score)能在時(shí)間上與借款項(xiàng)目相對應(yīng)。這樣,剔除掉同一個(gè)借款人的多筆借款,而保留最后一筆借款,最后得到8453條借款項(xiàng)目信息。這些樣本中,按照逾期還款就算違約的界定,發(fā)現(xiàn)其中有逾期還款的借款人約占三分之二。
選擇個(gè)人信用評分(score)作為對借款者信用風(fēng)險(xiǎn)度量的控制變量后,不再需要將借款者的個(gè)人其它信息如性別、婚姻狀態(tài)、學(xué)歷、收入作為控制變量,因?yàn)槠脚_(tái)給出的信用評分已經(jīng)考慮了借款者的上述信息。如果再加入這些信息,會(huì)受到嚴(yán)重的多重共線性影響。另一方面,由于個(gè)人信用評分(score)是由平臺(tái)根據(jù)借款者個(gè)人與資產(chǎn)信息評出的,所以選擇個(gè)人信用評分(score)作為主要控制變量,也在一定程度上代表了平臺(tái)的評價(jià)水平,對平臺(tái)的評價(jià)政策的差異性進(jìn)行控制。
自然語言表達(dá)的豐富多變使得要計(jì)算機(jī)自動(dòng)理解其中蘊(yùn)含的情感語義比較困難[21],研究的時(shí)間較短,很多技術(shù)和方法不夠成熟[22],而中文比英文在語言結(jié)構(gòu)以及句式類型更加復(fù)雜,導(dǎo)致針對英文文本情感分析的一些方法在對中文文本情感分析的應(yīng)用并沒有取得理想的結(jié)果。所以對借款陳述的語義識(shí)別,由研究團(tuán)隊(duì)通過人工識(shí)別分析完成。由于人工識(shí)別和核對有較大的工作量,所以暫時(shí)處理了部分樣本,分別選擇了1500名違約的借款信息和1500名未違約的借款信息進(jìn)行人工識(shí)別。確定這些樣本的借款陳述文本中是否存在錯(cuò)別字、是否有重復(fù)語句、是否有對工作和收入的補(bǔ)充信息、是否有信用狀況補(bǔ)充說明或者還款保證、第一人稱的使用、請求性的語言等信息變量。
人工識(shí)別和核對雖然也會(huì)面臨語義理解問題,但由于識(shí)別人本身有較高的教育水平,也能準(zhǔn)確識(shí)別語言語義。例如,如果僅僅依靠程序識(shí)別感謝性語言,程序設(shè)計(jì)可能只考慮到“謝謝”或“感謝”這樣的詞匯。但人工識(shí)別的情況下,能將“感激”等同義詞也歸為感謝性的表達(dá)。所以,人工識(shí)別自然也能識(shí)別“麻煩”、“幫助”、“幫幫我”、請”、“希望”等詞語為表示請求性的語氣??傊?,本文希望在準(zhǔn)確語義識(shí)別的基礎(chǔ)上,研究這些語義信息是否能反映借款者的違約狀態(tài)。
進(jìn)一步,考慮樣本中逾期還款的比例約占三分之二。從人工識(shí)別的3000條樣本數(shù)據(jù)中,分別得到三組樣本。每組樣本數(shù)據(jù)為800條,由480條違約數(shù)據(jù)和320條未違約數(shù)據(jù)組成。這三組樣本,按照借款時(shí)間逐一從3000條樣本中選取。一組用于假設(shè)檢驗(yàn)測試,下文稱為測試樣本組。另外兩組用于穩(wěn)健性檢驗(yàn),下文分別稱為穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2。表5、表6、表7分別列出了測試樣本組、穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2的統(tǒng)計(jì)特征。
表5 測試樣本組變量的統(tǒng)計(jì)特征
表6 穩(wěn)健檢驗(yàn)樣本組1的統(tǒng)計(jì)特征
續(xù)表6 穩(wěn)健檢驗(yàn)樣本組1的統(tǒng)計(jì)特征
表7 穩(wěn)健檢驗(yàn)樣本組2的統(tǒng)計(jì)特征
根據(jù)表5、表6、表7的描述性統(tǒng)計(jì)結(jié)果可知,借款金額平均在四萬元左右,最少的借款額只有三千元,這體現(xiàn)了P2P網(wǎng)絡(luò)借貸的小額性質(zhì)。借款利率均值為12.9%左右,遠(yuǎn)高于銀行的存款利率,對投資者有較大的吸引力;借款期限平均在11個(gè)月左右,體現(xiàn)了P2P網(wǎng)絡(luò)貸款短期借款的特征;借款者信用分?jǐn)?shù)平均在80分左右,說明信用認(rèn)證標(biāo)的大多數(shù)借款者的信用評分并不高。
為了初步考察研究問題所涉及被解釋變量和解釋變量之間的關(guān)系,以及分析變量之間是否存在嚴(yán)重相關(guān)性,表8給出了各個(gè)變量的相關(guān)系數(shù)矩陣和顯著性水平。由表8可知,情感特征變量中的請求性表達(dá)(please)、還款意愿和能力補(bǔ)充信息變量(explain和earning)、是否有重復(fù)語句變量(repeat)、借款陳述中的文字長度變量(len)與違約狀態(tài)(default)存在顯著的相關(guān)性。這是進(jìn)一步選擇它們作為違約的解釋變量的基礎(chǔ)。除此外,控制變量借款金額(money)、利率(rate)、期限(maturity)和信用評分(score)也與被解釋變量違約狀態(tài)(default)存在顯著的相關(guān)性,表明它們作為控制變量的合理性。從表8還可知,盡管一些解釋變量之間、控制變量之間也存在顯著的相關(guān)性,但這是由它們內(nèi)在的經(jīng)濟(jì)含義所決定的。例如,借款金額、利率一定跟信用評分相關(guān),評分越高,理所當(dāng)然借款金額就越高、利率越低。所以信用評分與金額存在正相關(guān)性,信用評分與利率存在負(fù)的相關(guān)性。但是它們之間相關(guān)系數(shù)值并不大,遠(yuǎn)小于一般判斷可能會(huì)導(dǎo)致嚴(yán)重多重共線性的參考標(biāo)準(zhǔn)(0.8)[23]。
表8 測試樣本組的相關(guān)系數(shù)
說明:***,**,*分別代表1%,5%和10%的顯著性
當(dāng)然,從相關(guān)性表中也發(fā)現(xiàn)一些有趣的現(xiàn)象,例如信用評分(score)和期限(maturity)存在顯著的負(fù)相關(guān),似乎表明信用越好的人,借款期限越短。其實(shí)這也符合邏輯,因?yàn)镻2P網(wǎng)絡(luò)借款的利率較高,信用評分較高的人,往往可能只是通過P2P借貸進(jìn)行短期的周轉(zhuǎn),而不愿意承擔(dān)長期的高利率。
總之,基于上述相關(guān)性分析,一方面表明控制變量與解釋變量的選擇邏輯是合理的,另一方面也可排除變量之間存在嚴(yán)重多重共線性的可能,這是進(jìn)一步建模分析的基礎(chǔ)。
對假設(shè)1~5的驗(yàn)證,分別運(yùn)用以下五個(gè)Probit模型,在驗(yàn)證樣本組數(shù)據(jù)下,得到的結(jié)果見表9。
模型1:
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β5*len+β6*error+β7*repeat+ε
(1)
模型2:
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β8*work+β9*earning+ε
(2)
模型3:
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β10*explain+β11*assure+ε
(3)
模型4:
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β12*first+β13*thank+β14*please+ε
(4)
模型5:
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β5*len+β6*error+β7*repeat+β8*work+β9*earning+β10*explain+β11*assure+β12*first+β13*thank+β14*please+ε
(5)
首先,根據(jù)表9中的參數(shù)結(jié)果可知,控制變量信用評分(score)、借款金額(money)、借款利率(rate)與預(yù)期的符號(hào)一致,并且顯著。即表明信用評分越高,違約的可能性越低;借款利率越高,風(fēng)險(xiǎn)越高,違約的可能性也越高;同理,借款金額越高,風(fēng)險(xiǎn)敞口也就越大,所以違約的可能性越高。不過,借款期限(maturity)卻沒有和違約概率有顯著的正相關(guān),其系數(shù)反而是負(fù)的。這可能是因?yàn)槠谙夼c利率之間的相關(guān)性導(dǎo)致,即期限越長,利率通常越高,對此我們在模型1的基礎(chǔ)上,分別單獨(dú)只選擇借款利率(rate)或者借款期限(maturity)作為控制變量,得到的結(jié)果都顯著地與違約概率成正向關(guān)系。雖然可能同時(shí)把它們放在一起不合適,但并不影響解釋變量的系數(shù)符號(hào)和顯著性。
表9 模型1-5的參數(shù)估計(jì)結(jié)果
模型1對文字特征信息與違約之間關(guān)系的假設(shè)檢驗(yàn)表明,借款陳述文本的字?jǐn)?shù)越多,或者存在重復(fù)語句,借款者違約的可能性越大。這個(gè)結(jié)果與Lin和Gao的結(jié)果是一致的,因?yàn)樵谒麄儗杩铌愂龅姆治鲋?,字?jǐn)?shù)越多表明文本的可讀性較差,違約的可能性較高。但另一方面,錯(cuò)別字對借款違約的解釋作用與預(yù)期相反,但與相關(guān)性分析一致?;蛟S是通過計(jì)算機(jī)輸入文字,由于輸入法的原因,無法反應(yīng)借款者真實(shí)的文化水平。
在模型2中,借款陳述中關(guān)于工作信息和收入信息的披露沒有對違約狀態(tài)有顯著的解釋效果。但正如上面對控制變量的討論,當(dāng)我們剔除了借款期限(maturity)后,進(jìn)一步控制期限和利率之間的相關(guān)性后,即通過如下模型:
P(default=1)=α+β1*money+β2*rate+β4*score+β8*work+β9*earning+ε
(6)
則發(fā)現(xiàn),對收入信息的披露在10%的置信水平下(β10=-0.226),與違約概率是負(fù)相關(guān)的,即有收入信息披露的借款人,違約概率會(huì)更低一些。但工作信息披露與違約的關(guān)系仍然不顯著,且與預(yù)期的符號(hào)也不一致,這可能是由于平臺(tái)的信用評分已經(jīng)包含了借款者的工作信息,只是對投資者而言不可見。另外,可能因?yàn)樵谏婕笆杖胄畔r(shí),不可避免將涉及到工作信息。由于收入信息更容易量化,所以,平臺(tái)的信用評分也可能包括借款者的收入信息,如果投資者再補(bǔ)充收入信息,在信用評分影響的基礎(chǔ)上,應(yīng)該進(jìn)一步降低違約率,所以,在(6)式中加入收入信息和信用評分交叉項(xiàng):
P(default=1)=α+β1*money+β2*rate+β4*score+β8*work+β9*earning+γ1*score*earning+ε
(7)
此時(shí)β9=1.643,而γ1=-0.019,顯著水平都為5%,其它變量的顯著性與符號(hào)未發(fā)生改變,也就正好驗(yàn)證當(dāng)加入收入補(bǔ)充信息的時(shí)候,能更顯著的降低違約概率。由于我們將收入信息作為還款能力信息的代理變量,所以上述結(jié)果驗(yàn)證了假設(shè)2,即借款陳述文本存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小。
其次,從表9中模型3的結(jié)果,能看出如果有對自己歷史信用狀況的解釋說明,則有更低的違約概率。能客觀說明自己的信用狀況,表明借款者還款意愿上的誠實(shí)性,因?yàn)榫哂衅墼p想法的借款者,一般更不愿意提供更多的信息,或者往往傾向于隱藏對自己不利的信息,所以提供了對自己過去信用狀況說明的借款者就顯得更加可信,因此違約概率更低。單獨(dú)分析保證性的還款意愿信息的系數(shù),并不能對違約狀況具有解釋作用,如果借款者對過去信用狀態(tài)做出相應(yīng)的解釋,而后給出保證性的承諾,是否更可信呢?于是在模型3的基礎(chǔ)上加入對信用解釋說明和還款保證說明的交叉項(xiàng):
P(default=1)=α+β1*money+β2*rate+β3*maturity+β4*score+β10*explain+β11*assure+γ2*explain*assure+ε
(8)
在(8)式的回歸結(jié)果中,其它變量符號(hào)與顯著性未改變,但交叉項(xiàng)系數(shù)γ2=-0.764,顯著水平為10%,正如上述分析,此時(shí)違約可能性更低,也就是借款人更可信,也即驗(yàn)證了假設(shè)3。
最后,借款者為了獲得借款而做出請求性、感謝性的表達(dá),表明了對資金的需求愿望越強(qiáng)。而從表9中模型4的結(jié)果可知,對資金需求的急切性越高,其違約的概率也就越高,因此驗(yàn)證了假設(shè)5。但是,無法驗(yàn)證假設(shè)4,是否使用第一人稱的表述與違約與否的關(guān)系不顯著。進(jìn)一步的,根據(jù)表9中模型5得出的結(jié)果,也對上述結(jié)論進(jìn)行了驗(yàn)證。下一步將在另外兩組樣本基礎(chǔ)上分析上述結(jié)論的穩(wěn)健性。
首先相關(guān)性分析表明:穩(wěn)健檢驗(yàn)樣本組1和穩(wěn)健檢驗(yàn)樣本組2中的解釋變量、控制變量與被解釋變量關(guān)系與預(yù)期基本一致,各變量之間的相關(guān)性較小。然后,分別對這兩組樣本運(yùn)用Probit模型分析,模型結(jié)果見表10(穩(wěn)健檢驗(yàn)樣本組1)和表11(穩(wěn)健檢驗(yàn)樣本組2)。
表10的結(jié)果與檢驗(yàn)樣本組的結(jié)論一致,而表11的結(jié)果在收入信息(earning)與被解釋變量之間的顯著性發(fā)生了改變。我們分析這可能是由于穩(wěn)健樣本組2中樣本的信用評分可能更多包含收入信息、工作信息所導(dǎo)致相關(guān)性的結(jié)果。所以,當(dāng)對穩(wěn)健樣本組2去掉信用評分和工作信息變量,只保留收入信息變量時(shí):
P(default=1)=α+β1*money+β2*rate+β3*maturity+β9*earning+ε
(9)
此時(shí),可知收入信息仍然顯著地影響違約狀況,β9=-0.191顯著水平是10%。
綜上所述,在本文樣本的范圍內(nèi),運(yùn)用Probit模型得出的關(guān)于借款陳述文本中提取的文字特征變量、反映還款能力和還款意愿信息變量、以及反映主觀對資金需求的強(qiáng)烈程度的變量與借款者違約狀態(tài)之間的關(guān)系是穩(wěn)健的。
表10 模型1-5的參數(shù)估計(jì)結(jié)果
表11 模型1-5的參數(shù)估計(jì)結(jié)果
續(xù)表11 模型1-5的參數(shù)估計(jì)結(jié)果
本文從“人人貸”網(wǎng)絡(luò)借貸平臺(tái)的借款項(xiàng)目陳述文本中提取了文字特征信息、反映還款能力和還款意愿的信息以及對資金需求的情感特征信息,并檢驗(yàn)這些變量對識(shí)別借款者違約風(fēng)險(xiǎn)的可行性。研究發(fā)現(xiàn):(1)借款陳述文本的字?jǐn)?shù)越多,存在重復(fù)語句,借款者違約的可能性越大;(2)借款陳述文本中存在還款能力信息,則借款者違約風(fēng)險(xiǎn)越小;(3)借款陳述文本中同時(shí)存在表示還款意愿的保證性語言以及對自己信用狀態(tài)補(bǔ)充說明的信息,則借款者違約風(fēng)險(xiǎn)越?。?4)借款者在情感上表現(xiàn)出對資金需求的急切性越高,其違約風(fēng)險(xiǎn)越高;(5)借款陳述文本中存在第一人稱表述,沒有表現(xiàn)出與違約風(fēng)險(xiǎn)的顯著關(guān)系;(6)錯(cuò)別字對借款違約的解釋作用不顯著。這些結(jié)論雖然是在人工識(shí)別有限數(shù)據(jù)樣本的基礎(chǔ)上得到,但它們?nèi)匀粸檫M(jìn)一步通過程序軟件實(shí)現(xiàn)文本挖掘算法來分析借款者的信用水平指明了研究方向。
另一方面,上述結(jié)論背后的一些深層次邏輯關(guān)系還有待進(jìn)一步研究。例如文本長度影響違約狀態(tài),長文本究竟是反映借款者的教育水平、收入水平從而影響借款者還款能力,還是反映了欺詐的信息從而代表還款意愿影響違約狀態(tài)。同理,資金需求的緊急程度是否也代表欺詐性的線索,還是代表還款能力線索還有待進(jìn)一步分析。還有為什么存在第一人稱表述沒有表現(xiàn)出像心理學(xué)方面研究的一致結(jié)論。除此外,其它一些外部因素,如宏觀政策、平臺(tái)的信息披露政策等是否對結(jié)論有影響,有在待后續(xù)研究中進(jìn)行控制。
總之,P2P網(wǎng)絡(luò)借貸真正有別于傳統(tǒng)的借貸,首先要在信用風(fēng)險(xiǎn)評估上面有突破,而不再是僅僅依靠傳統(tǒng)的財(cái)務(wù)信息和歷史信息。傳統(tǒng)信貸領(lǐng)域,有經(jīng)驗(yàn)的信貸員能在面談后大致估計(jì)出一個(gè)借款人的可信程度。如何讓計(jì)算機(jī)通過人工智能程序?qū)崿F(xiàn)并超過“有經(jīng)驗(yàn)的信貸員”的信用風(fēng)險(xiǎn)評估能力,都離不開文本和語義的識(shí)別技術(shù)。