◎雷濤
目前大數(shù)據(jù)在互聯(lián)網(wǎng)金融領(lǐng)域主要解決三個(gè)問題:(一)解決運(yùn)營交易成本過高的問題。網(wǎng)銀降低了20萬個(gè)網(wǎng)點(diǎn)成本,而阿里主要是把信用和抵押進(jìn)行置換。(二)提供流動性,解決資產(chǎn)與負(fù)債流動性不匹配的問題。P2P就是將存款進(jìn)行轉(zhuǎn)讓,比如眾籌。(三)拓展4000萬中小微企業(yè)市場?;ヂ?lián)網(wǎng)金融出現(xiàn)以后,把市場體量做大了,不只服務(wù)于現(xiàn)有客戶,還可以把碎片化的需求和供給進(jìn)行整合,進(jìn)而細(xì)化滲透到中小企業(yè)市場。同時(shí),我們還關(guān)注到了金融高端客戶市場,即理財(cái)?shù)倪\(yùn)營市場。海外金融機(jī)構(gòu)提到,對于每一位高端客戶,與其接觸的次數(shù)及準(zhǔn)確接觸的能力都是非常有限的。那么,怎樣把理財(cái)內(nèi)容和手段精準(zhǔn)提供給每一位高端客戶,這是大數(shù)據(jù)可以解決的問題之一。
大家都在談互聯(lián)網(wǎng)的優(yōu)勢,覺得互聯(lián)網(wǎng)很美妙。但是要研究互聯(lián)網(wǎng),一定要面對互聯(lián)網(wǎng)自身的問題,其中最具挑戰(zhàn)的就是信息過載問題。在互聯(lián)網(wǎng)上,信息以WebPage的形式呈現(xiàn),等待人們?nèi)c(diǎn)擊,那么互聯(lián)網(wǎng)經(jīng)濟(jì)的主體必然是注意力經(jīng)濟(jì)。例如,2013年1月,財(cái)經(jīng)金融類網(wǎng)站總訪問次數(shù)381539萬,訪問時(shí)長9122萬小時(shí),即10413年。如何從這些過載的信息中獲取被稀釋了的數(shù)據(jù)價(jià)值?這是當(dāng)前互聯(lián)網(wǎng)經(jīng)濟(jì)面對的最具挑戰(zhàn)的一個(gè)問題。
是不是互聯(lián)網(wǎng)就是終極形態(tài)?我們給出了一個(gè)經(jīng)濟(jì)范疇的定義,即這樣的模式怎么去掙錢?;ヂ?lián)網(wǎng)早期最簡單的業(yè)務(wù)形態(tài)是2B,即企業(yè)向客戶出售產(chǎn)品或服務(wù),以直接賺取金錢為目的。衡量指標(biāo)就是產(chǎn)量等概念。第二個(gè)時(shí)代就是2C,即互聯(lián)網(wǎng)經(jīng)濟(jì)下,企業(yè)盡可能多地發(fā)展用戶,不以直接從用戶處賺取金錢為目的,希望通過后向收費(fèi)或者發(fā)掘用戶終身價(jià)值等方式賺取利潤。這個(gè)時(shí)代,像谷歌、Facebook等公司主要是經(jīng)營用戶,衡量指標(biāo)是用戶體量。
未來我們看到的將是2D的業(yè)務(wù)形態(tài),也就是大數(shù)據(jù)經(jīng)濟(jì)。數(shù)據(jù)將是未來企業(yè)的重要資產(chǎn)。企業(yè)通過數(shù)據(jù)創(chuàng)造新的商業(yè)模式,或直接通過數(shù)據(jù)售賣以及利用數(shù)據(jù)提供增值服務(wù)獲得巨大利潤。在這一時(shí)代,海量用戶和良好的數(shù)據(jù)資產(chǎn)將成為未來核心競爭力與收入的重要來源。這個(gè)數(shù)據(jù)未必是靠人的點(diǎn)擊。比如,你可能與運(yùn)營商沒有任何交易往來,但是手機(jī)的傳感器在持續(xù)記錄你的位置信息,這個(gè)信息在不斷地跟基站通訊,你的行為就已經(jīng)被運(yùn)營商捕捉了。所以2D更多的是以數(shù)據(jù)為驅(qū)動力的生意模式。這種生意模式可以把附加值擴(kuò)展得很大。
以上是對互聯(lián)網(wǎng)經(jīng)濟(jì)形態(tài)的分析。具體說,就是大數(shù)據(jù)更多的是幫助金融企業(yè),包括傳統(tǒng)銀行獲得金融IQ,即接觸市場和用戶的權(quán)利和能力。我們認(rèn)為,傳統(tǒng)銀行的數(shù)據(jù)價(jià)值遠(yuǎn)大于互聯(lián)網(wǎng)公司。其實(shí),金融企業(yè)很多先下的數(shù)據(jù)沉睡在數(shù)據(jù)庫里,而這些數(shù)據(jù)的價(jià)值遠(yuǎn)遠(yuǎn)大于阿里數(shù)據(jù)的價(jià)值。
大數(shù)據(jù)可以幫助金融企業(yè)解決信息不對稱,及營銷、定價(jià)、風(fēng)險(xiǎn)和欺詐問題。從我們做過的案例中發(fā)現(xiàn),主要體現(xiàn)在以下三個(gè)方面:
(一)市場營銷。包括交叉銷售、二次銷售方面。體現(xiàn)在如何進(jìn)行客戶挽留、客戶價(jià)值評估等。例如給保險(xiǎn)公司做了全量的數(shù)據(jù)處理后,就可以實(shí)現(xiàn)很多財(cái)險(xiǎn)和壽險(xiǎn)的匹配。還包括客服投訴評估和產(chǎn)品投放評估等。
(二)信貸和風(fēng)險(xiǎn)。主要是信用分配、風(fēng)險(xiǎn)評估、實(shí)施授權(quán)、風(fēng)險(xiǎn)干預(yù)和欺詐識別等。
(三)預(yù)測與估價(jià)。包括周期行為分析、量化分析、流失分析、催收分析等。
實(shí)現(xiàn)路徑的關(guān)鍵點(diǎn),就是“去IOE”(替代IBM小型機(jī)、Oracle數(shù)據(jù)庫、EMC存儲)。完備數(shù)據(jù)是核心,處理一千倍以上數(shù)據(jù)規(guī)模,需要顛覆性的系統(tǒng)架構(gòu)才能解決。我們?yōu)橐患掖笮凸煞葜沏y行做完備數(shù)據(jù),幫助客戶看到過去需要通過業(yè)務(wù)規(guī)則、銀行家的經(jīng)驗(yàn)形成的業(yè)務(wù)判斷,現(xiàn)在通過機(jī)器學(xué)習(xí)的方式,發(fā)現(xiàn)了很多新規(guī)則。比如異常交易、欺詐等,很多都是通過數(shù)據(jù)本身的特性發(fā)現(xiàn)的。科技創(chuàng)新本身帶來的深刻變革就發(fā)生在今天?,F(xiàn)在太多銀行用僵化的表結(jié)構(gòu)、或用字段的方式去對客戶、市場、業(yè)務(wù)規(guī)則做描述,而新的互聯(lián)網(wǎng)的思路用一張表就處理完成。這種新的結(jié)構(gòu),完全依賴于云計(jì)算新的方式。
另外,金融業(yè)本身也在發(fā)生業(yè)務(wù)革新。銀行屬性從記賬式的賣方更多轉(zhuǎn)向風(fēng)險(xiǎn)、欺詐、定價(jià)的買方屬性。而這些特點(diǎn)很多都是非線性的,需要大量的計(jì)算能力。業(yè)務(wù)驅(qū)動加之科技目標(biāo)驅(qū)動,使得新的基礎(chǔ)設(shè)施部署成為必然。
舍恩伯格的《大數(shù)據(jù)時(shí)代》有一個(gè)核心的概念——全量。大數(shù)據(jù)首先要數(shù)據(jù)全量在線?,F(xiàn)在太多系統(tǒng)都是孤立的,銀行的對公、對私,還有卡業(yè)務(wù)都是分開的,當(dāng)把所有業(yè)務(wù)糅合在一起時(shí),就會發(fā)現(xiàn)很多客觀規(guī)律。有一個(gè)保險(xiǎn)公司的案例,這家保險(xiǎn)公司以前只能做抽樣,對高端人群、某一個(gè)險(xiǎn)種人群的調(diào)查,通過在兩千個(gè)維度里抽取一些維度,比如收入,進(jìn)行建模,建模之后進(jìn)行試用,再考察結(jié)論?,F(xiàn)在有了大規(guī)模的計(jì)算能力,就不進(jìn)行干預(yù),完全讓機(jī)器自己去找規(guī)律,讓機(jī)器學(xué)習(xí)出在兩千個(gè)維度里到底什么是建模的規(guī)則,這完全是黑箱建模的思路。
黑箱建模讓我們發(fā)現(xiàn)了很多以前不知道的規(guī)律。比如,實(shí)現(xiàn)機(jī)器學(xué)習(xí)以后,能發(fā)現(xiàn)反洗錢有1000多條在線規(guī)則。對于保險(xiǎn)用戶,在9000多萬用戶里有百分之零點(diǎn)幾的用戶年收入四萬多,但是買了七萬多的保險(xiǎn)產(chǎn)品。那么相應(yīng)的銷售人員是以怎樣的保險(xiǎn)理財(cái)理念去推銷產(chǎn)品的?有怎樣的經(jīng)驗(yàn)?這是需要發(fā)掘的。
在無假設(shè)條件下,通過機(jī)器學(xué)習(xí)能發(fā)現(xiàn)用戶特征。這些工具、方式、方法,可以幫助金融客戶非常清晰地了解以前未知的市場和用戶。
現(xiàn)在大數(shù)據(jù)又?jǐn)U展到另外一個(gè)范疇,自然語義內(nèi)容、視覺內(nèi)容、行為關(guān)系網(wǎng)絡(luò)等復(fù)雜的關(guān)系。這些內(nèi)容在以前的數(shù)據(jù)結(jié)構(gòu)上很難處理,現(xiàn)在有了大規(guī)模的計(jì)算平臺,大數(shù)據(jù)可以讓系統(tǒng)用新的組織方式,如矩陣、向量進(jìn)行處理。這個(gè)數(shù)據(jù)非常稀疏,但是有很大的社會屬性和經(jīng)濟(jì)價(jià)值,它會通過評估關(guān)系的鏈條來描述出很多個(gè)體的社會屬性,也就是個(gè)體的社會資本?,F(xiàn)在供應(yīng)鏈金融規(guī)模比較大,但是需要靠專業(yè)領(lǐng)域技巧去識別供應(yīng)鏈。其實(shí)銀行根據(jù)轉(zhuǎn)賬記錄建立一個(gè)大的社交網(wǎng)絡(luò)就可以傳播這些鏈條,就可以把一些細(xì)碎的、小型供應(yīng)鏈通過計(jì)算模式挖掘出來。
要精確,還是要混雜?
一家保險(xiǎn)公司,怎樣評估它的產(chǎn)品?品牌是很模糊、很難量化的,我們用了十多億條微博數(shù)據(jù)和論壇數(shù)據(jù)來畫一條曲線,也就是在這個(gè)周期之內(nèi)品牌的波動,就可以把品牌感知量化,把產(chǎn)品投放也量化。
要群體,還是要個(gè)體?
銀行做數(shù)據(jù)業(yè)務(wù)做了10多年,實(shí)際上就是群體和個(gè)體的差異。互聯(lián)網(wǎng)數(shù)據(jù)完全瞄向個(gè)體,數(shù)據(jù)結(jié)構(gòu)也是精準(zhǔn)于個(gè)體,而傳統(tǒng)的數(shù)據(jù)面向經(jīng)營指標(biāo)、面向群體。宏觀意義上來看,假如小明去了100次書店,以前要回答的問題是他第101次買不買書,即業(yè)績和經(jīng)營指標(biāo)的問題;而現(xiàn)在我們關(guān)心的是他第101買什么書,需要將什么樣的內(nèi)容推薦給他。這不是一個(gè)概率問題,而是一個(gè)模糊的程度問題。量化這個(gè)程度,我們要基于個(gè)體描述,而不是基于群體的共性描述。
要決策,還是要工具?
很多人認(rèn)為大數(shù)據(jù)是決策性的,筆者認(rèn)為,大數(shù)據(jù)實(shí)際上更多的是一個(gè)自動化的匹配工具。我們?yōu)橐患冶kU(xiǎn)公司計(jì)算了9000萬用戶在每一個(gè)險(xiǎn)種上的流失概率。當(dāng)結(jié)論上升到領(lǐng)導(dǎo)的時(shí)候,這個(gè)決策必須是宏觀的,周期很長,幾個(gè)月后反饋回來可能就有偏差了。而大數(shù)據(jù)的動作是直接把數(shù)據(jù)下沉,9000萬個(gè)用戶的所有流失概率全部分給5萬個(gè)保險(xiǎn)代理人,每個(gè)人通過專門的程序就可以看到由他負(fù)責(zé)的客戶到底在做什么樣的動作。把權(quán)限和能力全部推到一線,而不是上升、匯總到總部做決策。所以大數(shù)據(jù)更多的是一個(gè)自動進(jìn)行的過程,而不是分析決策的過程。