錢(qián)禹坤
感覺(jué)日頭才剛剛落下,清晨的一縷微光便迎面而來(lái),黑夜只延續(xù)了短短的一瞬間。這是一個(gè)失眠者的直觀感受,阿燦總覺(jué)得自己才剛睡下,便被這一道晨輝吵醒。他下意識(shí)地將臂膀環(huán)抱一旁,落了空。
方才清醒,已是離了婚的男人。
又是難熬的一天,阿燦深知這痛還會(huì)延續(xù),可他并不后悔,下決定的是他自己,他依從了數(shù)據(jù)的結(jié)論。人會(huì)犯錯(cuò),數(shù)據(jù)不會(huì)。對(duì)此,他深信不疑。
阿燦是這座城市的“數(shù)字化城鎮(zhèn)”的項(xiàng)目主管之一,負(fù)責(zé)數(shù)據(jù)挖掘部分。也就是在項(xiàng)目進(jìn)行的中段,一周之前,項(xiàng)目底層算法搭建進(jìn)入了實(shí)測(cè)階段,阿燦獨(dú)自一人留在了開(kāi)發(fā)間,調(diào)出了他親自建模的“人際網(wǎng)絡(luò)”模型。
實(shí)測(cè)樣例數(shù)據(jù),他選擇從自己開(kāi)始,再方便不過(guò)。
輸入了自己的唯一編碼,程序啟動(dòng),在分布式的大數(shù)據(jù)集群下,程序只需半分鐘便可得出結(jié)論:
一張關(guān)系網(wǎng)圖展開(kāi),中間是他自己,網(wǎng)絡(luò)分支指向了所有與他自己關(guān)聯(lián)密切的人群。再清晰不過(guò)的一張網(wǎng)圖,因?yàn)樗仓?,在這個(gè)城市里,與自己關(guān)聯(lián)的人群屈指可數(shù),除了妻子,便是項(xiàng)目組為數(shù)不多的幾名成員。關(guān)系圖伴隨著兩組數(shù)字徐徐展開(kāi),數(shù)字分別代表了個(gè)人的孤獨(dú)指數(shù)與所關(guān)聯(lián)人群的親密指數(shù)。這都是數(shù)據(jù)的力量,所有與之相關(guān)的消費(fèi)行為、網(wǎng)絡(luò)行為、個(gè)人軌跡等數(shù)據(jù)作為基數(shù),經(jīng)過(guò)集群計(jì)算,反復(fù)機(jī)器演練學(xué)習(xí),得出結(jié)論。
妻子的孤獨(dú)指數(shù)忽然吸引了阿燦的目光,較之上一次測(cè)試有了明顯的下降,這很不正常。阿燦下意識(shí)地選中了妻子的節(jié)點(diǎn),新的網(wǎng)圖展開(kāi),不禁心頭一顫,那個(gè)陌生男人的面龐呈現(xiàn)了出來(lái)。他不認(rèn)識(shí)這個(gè)男人,可他們之間的親密指數(shù)卻幾何倍增長(zhǎng),遠(yuǎn)遠(yuǎn)超過(guò)了正常范圍。阿燦依然心存僥幸,可當(dāng)他調(diào)取出他自己與這個(gè)陌生男人之間的親密指數(shù)時(shí),數(shù)據(jù)狠狠給了他一巴掌,是0。這意味著什么阿燦再清楚不過(guò),妻子在這個(gè)男人與阿燦之間,完美的規(guī)避了所有可能的交集,阿燦所及之處這個(gè)男人幾乎全部避開(kāi),無(wú)須再調(diào)出更多軌跡細(xì)節(jié),結(jié)論已經(jīng)明了,這讓阿燦渾身都顫抖起來(lái)。但阿燦就是阿燦,一個(gè)合格的數(shù)據(jù)工程師,憤怒解決不了任何問(wèn)題,他選擇相信數(shù)據(jù):新的算法啟動(dòng),這是一個(gè)更加高級(jí)的智能推薦算法,它會(huì)給阿燦一個(gè)決定,而這個(gè)新算法也確實(shí)在瞬間便給出了那個(gè)決定——“這段婚姻持續(xù)的可能為1%”。
這個(gè)結(jié)論讓這段婚姻戛然而止,阿燦以數(shù)據(jù)為證,一周的時(shí)間便了結(jié)了一切。他還記得離婚登記處前妻子含淚的目光,寫(xiě)滿了怨恨與不舍??砂N沒(méi)有在意,因?yàn)樗艺\(chéng)于他的數(shù)據(jù)……
很遺憾,一篇科普,我選擇以一則故事作為開(kāi)端,因?yàn)榘N的故事近乎真實(shí),那絕不是一則科幻小品,它就實(shí)實(shí)在在地存在于我們的現(xiàn)實(shí)生活。
有人不禁要問(wèn)起,數(shù)據(jù)真的可以做到故事所表達(dá)的一切嗎?答案是殘酷的,當(dāng)然可以。數(shù)字時(shí)代并不是悄然來(lái)襲,而是洶涌澎湃、踏浪而來(lái)。數(shù)據(jù)技術(shù)在短短的幾年間增長(zhǎng)了數(shù)倍。大數(shù)據(jù)絕不僅僅是一個(gè)理念,它已經(jīng)遍布于我們的周圍,無(wú)處不在。除非你選擇做一名隱士,丟掉智能手機(jī)和你的身份、歸隱山林,否則,你已經(jīng)結(jié)結(jié)實(shí)實(shí)地為這座城市,充當(dāng)了一枚數(shù)據(jù)傳感器,智能手機(jī)出賣(mài)了你的軌跡、出賣(mài)了你的行為習(xí)慣……就算是沒(méi)有它的存在,無(wú)處不在的物聯(lián)網(wǎng)傳感設(shè)備已然遍布于每一座城鎮(zhèn)的角落,真正的獨(dú)立也只能是你頭腦里的一則臆想,沒(méi)有人能躲過(guò)智能技術(shù)的魔掌。
我們還是回到阿燦的故事吧,孤獨(dú)指數(shù)為何物?人與人之間的親密度真的可以被量化嗎?那就跟隨我的步伐,讓我?guī)氵M(jìn)入到瘋狂的數(shù)據(jù)空間:
隨著現(xiàn)代化技術(shù)的發(fā)展,人與人之間的物理距離在縮短,而人與人之間的心理距離卻是在加大。有關(guān)資料顯示,大學(xué)生孤獨(dú)感表現(xiàn)得尤為強(qiáng)烈,孤獨(dú)感已構(gòu)成大學(xué)生心理問(wèn)題的一個(gè)重要方面,會(huì)嚴(yán)重影響到學(xué)生的學(xué)習(xí)與生活。我曾有幸參與過(guò)這樣一個(gè)關(guān)于國(guó)內(nèi)高校師生的數(shù)據(jù)挖掘項(xiàng)目的建設(shè),為高效地開(kāi)展對(duì)大學(xué)生孤獨(dú)感群體的心理輔導(dǎo)等相關(guān)工作做輔助決策。那么項(xiàng)目中,如何精準(zhǔn)的定位學(xué)生中的高孤獨(dú)感群體成為至關(guān)重要的一環(huán)。
數(shù)據(jù)挖掘應(yīng)用從底層的數(shù)據(jù)選擇與篩選開(kāi)始:
將全校學(xué)生每個(gè)月的一卡通食堂消費(fèi)記錄、門(mén)禁記錄、建筑出入記錄等包含學(xué)生校園生活所有方面的記錄進(jìn)行篩選去噪,并進(jìn)行有效的重組合并。將缺失嚴(yán)重的數(shù)據(jù)進(jìn)行刪除,以免干擾。匯總每位同學(xué)的背景信息,獲得其同班以及同宿舍的同學(xué)名單,從而構(gòu)造全面的學(xué)生生活交友圈;
再來(lái)看分析方法:
在校園生活中,學(xué)生一般結(jié)伴出行,因此往往一卡通的消費(fèi)記錄、門(mén)禁記錄等在時(shí)間和地點(diǎn)上是相近的,所以統(tǒng)計(jì)在一段時(shí)間內(nèi)一位同學(xué)消費(fèi)或圖書(shū)館宿舍的進(jìn)出的前后與他是同班或者是同宿舍同學(xué)的總數(shù)量,經(jīng)過(guò)函數(shù)處理生成相應(yīng)的孤獨(dú)指數(shù)。以食堂的吃飯數(shù)據(jù)為例:對(duì)于每一條刷卡記錄,找出該記錄同一食堂的消費(fèi)記錄,距離該刷卡記錄時(shí)間最近的前后共N條消費(fèi)記錄(N越小,對(duì)于定義兩個(gè)學(xué)生是“不期而遇”的概率越嚴(yán)格,具體的指數(shù)N 由食堂的平均人流量決定),判斷這幾條記錄中的刷卡學(xué)生是否為該學(xué)生的舍友同鄉(xiāng)或者同學(xué)。如果是,可以近似認(rèn)為該學(xué)生并不是單獨(dú)一個(gè)人出來(lái)吃飯,而是與同學(xué)結(jié)伴出行。若學(xué)生與他人結(jié)伴吃飯的次數(shù)占所有的吃飯次數(shù)比例越高, 則越能表明該學(xué)生喜歡與人結(jié)伴出行,則孤獨(dú)感越低;
最后我們來(lái)看評(píng)分方法:
孤獨(dú)指數(shù):
將每位同學(xué)的同鄉(xiāng)同班同宿舍同學(xué)食堂結(jié)伴次數(shù)匯總,再根據(jù)食堂刷卡記錄得到相應(yīng)同學(xué)就餐總次數(shù),從而獲得結(jié)伴就餐次數(shù)的相應(yīng)比例K,比例越大,說(shuō)明就餐過(guò)程中有人陪伴的次數(shù)和人數(shù)更多,再將比例K通過(guò)函數(shù)形成相應(yīng)的介于0和1之間食堂孤獨(dú)指數(shù)。同樣的計(jì)算方法可以用在圖書(shū)館,宿舍,體育館等數(shù)據(jù)結(jié)果上。
這個(gè)地方會(huì)涉及一個(gè)相對(duì)煩瑣的數(shù)學(xué)概率公式,我們暫且不表。再來(lái)看親密指數(shù):
從每位同學(xué)的就餐記錄找出與他經(jīng)常結(jié)伴吃飯的同班或同宿舍同學(xué),并根據(jù)不同結(jié)伴同學(xué)的就餐次數(shù)生成相應(yīng)每位就餐伴侶的親密度。
親密度=一起就餐次數(shù)/學(xué)生總就餐次數(shù)。
兩個(gè)指數(shù)描述完,一定會(huì)有人提出疑問(wèn),之前沒(méi)有表明的具體實(shí)現(xiàn)邏輯算法究竟是什么。我要說(shuō)的就是,大可不用去關(guān)心它,偉大的計(jì)算機(jī)技術(shù)發(fā)展至今日,短短的數(shù)十行代碼便可解決以上所有數(shù)學(xué)計(jì)算,再結(jié)合與之相對(duì)應(yīng)的計(jì)算機(jī)挖掘算法包與A.I.自學(xué)習(xí)引擎,關(guān)系網(wǎng)便可躍然屏幕之上,與阿燦所經(jīng)歷的一致,一所學(xué)校的每一位學(xué)生孤獨(dú)指數(shù)、親密度、行為軌跡一目了然,別說(shuō)找出幾個(gè)關(guān)系網(wǎng)了,就是你要我預(yù)測(cè)出每一條關(guān)系的未來(lái),也依然有瘋狂的代碼庫(kù)作為支撐,預(yù)測(cè)的準(zhǔn)確度取決于數(shù)據(jù)基礎(chǔ)的豐滿度。
作為一名高校生,也許你會(huì)心存僥幸,應(yīng)該還沒(méi)有那么多的數(shù)據(jù)暴露出去。很遺憾,隨著物聯(lián)網(wǎng)技術(shù)在這些年的飛速發(fā)展,關(guān)于你的數(shù)據(jù)會(huì)越來(lái)越健全,機(jī)器的預(yù)測(cè)能力也會(huì)越來(lái)越強(qiáng)大。當(dāng)然,數(shù)據(jù)的應(yīng)用范疇,依然是存在邊界的,一條安全紅線保障數(shù)據(jù)的使用安全,就算是我有這個(gè)能力,紅線依然是不能碰的。孤獨(dú)指數(shù)的應(yīng)用依然是向善的,它是為了更早地介入每位學(xué)生的心理健康問(wèn)題。想要做到阿燦那樣的預(yù)測(cè)與監(jiān)控,是完全不被允許的。
但這不禁讓我開(kāi)始思考,道德準(zhǔn)則是數(shù)據(jù)的安全紅線,只要嚴(yán)格遵守,就可以得到有效的保障。但是跨越了這個(gè)局限呢,放眼整個(gè)世界,能夠保障這條紅線就真的都能不被擅自剪斷嗎?我不知道,腦子里開(kāi)始浮現(xiàn)出斯諾登、棱鏡門(mén)……于是才有了阿燦的故事。
《大數(shù)據(jù)時(shí)代》這本書(shū)就曾為我們描述過(guò)這樣一個(gè)經(jīng)典的案例:
一天一位男性顧客怒氣沖沖地來(lái)到一家折扣連鎖店“塔吉特”。向經(jīng)理投訴因?yàn)樵摰昃谷唤o他還在讀高中的女兒郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。但隨后這位父親與女兒進(jìn)一步溝通發(fā)現(xiàn)自己女兒真的已經(jīng)懷孕了……
這里用到的就是大數(shù)據(jù)“關(guān)聯(lián)規(guī)則+預(yù)測(cè)推薦”技術(shù)。也許數(shù)據(jù)技術(shù)的初衷是好的,但我們不得不提出疑問(wèn),在數(shù)據(jù)與人性之間、在技術(shù)與人類該享有的私密之間,如何權(quán)衡。當(dāng)然我們都可以如阿燦一樣,去相信數(shù)據(jù)的能力,它背后的強(qiáng)大技術(shù)已經(jīng)完全可以取代一個(gè)人的主觀抉擇,就像是阿燦認(rèn)為的那般——人會(huì)出錯(cuò),數(shù)據(jù)不會(huì)。不知不覺(jué)間,我們都淪為奴役,在數(shù)據(jù)的掌控下,按部就班,絕不犯錯(cuò)。但冥冥中似乎又有另一個(gè)聲音在呼喚,那聲音從遠(yuǎn)處而來(lái),逐步走近,緊跟著幻化成影像,那畫(huà)面是阿燦妻子,那張哀怨與不舍的面龐。聲音就來(lái)自于這個(gè)出了軌的可憐女人,她嘴中反復(fù)念叨著一個(gè)數(shù)字1%、1%、1%……
是啊,如果阿燦愿意相信數(shù)據(jù),可為什么他偏偏去相信了那百分之九十九的可能,而主觀地回避了那百分之一的概率。這樣的一個(gè)疑問(wèn)看起來(lái)很傻,但卻是問(wèn)題的實(shí)質(zhì),如果數(shù)學(xué)上的小概率事件是絕無(wú)可能,那數(shù)字存在的意義又是什么。機(jī)器從未給出阿燦一個(gè)絕對(duì)的定論,那百分之一的可能表達(dá)的意義其實(shí)更加值得挖掘。
我們與阿燦都忘卻了一件事。
這樣一個(gè)概率的結(jié)論,算法背后的根本原因是什么,我們都選擇了回避。回到大數(shù)據(jù)本質(zhì)去思考,我曾多次在某些公開(kāi)場(chǎng)合給人們講過(guò)這樣一個(gè)故事去解釋數(shù)據(jù)的意義:某天我經(jīng)過(guò)一個(gè)熱鬧的路邊攤,迎面走來(lái)一個(gè)人跟我打了個(gè)招呼,說(shuō)好久不見(jiàn),然后就離開(kāi)了,這是數(shù)據(jù)的局部采集,我曾誤以為他認(rèn)錯(cuò)了人。直到第二天,我又再一次經(jīng)過(guò)這里,那個(gè)人又出現(xiàn)了,說(shuō)了同一番話再次離開(kāi)。然后是第三天,發(fā)生了同一件事,數(shù)據(jù)得到了積累,我終于有了足夠的數(shù)據(jù)基礎(chǔ)去計(jì)算它背后的意義——我遇到了一個(gè)傻子,他每天留在這里對(duì)每一個(gè)路過(guò)的人打招呼。數(shù)據(jù)在我的大腦中經(jīng)過(guò)了清洗計(jì)算,得出本質(zhì),這也是最常見(jiàn)的數(shù)據(jù)提煉的場(chǎng)景,原本無(wú)意義的邂逅經(jīng)過(guò)轉(zhuǎn)換變換成知識(shí)??纱髷?shù)據(jù)時(shí)代來(lái)了,我大腦的計(jì)算能力得到提升,我開(kāi)始考慮加入更多的數(shù)據(jù),我發(fā)現(xiàn)那是一個(gè)路邊攤,一群喝醉了酒的家伙留在每一天的記憶里,我把他們提煉了出來(lái),再次計(jì)算,這回也許是更加精準(zhǔn)了,他們是同一群人,同樣的醉態(tài)、同樣的偷偷掩笑……結(jié)論忽然不再一樣了,我是被某種“玩笑”算計(jì)了。
雖然這個(gè)例子并不算多真實(shí),但它還是從某種層面上解釋了大數(shù)據(jù)背后的意義:一定要更加全面去思考,大數(shù)據(jù)引領(lǐng)的不是一種技術(shù),而是一種思維模式,讓數(shù)據(jù)的現(xiàn)象去解釋某種因果關(guān)系。
所以1%的結(jié)論如果背后的數(shù)據(jù)僅僅是妻子這一次出軌事件,似乎太過(guò)于武斷了。試問(wèn)這天下間有多少家庭發(fā)生過(guò)同類的事件,如果每一次的“出軌”都直接影響了離婚率,這是不是有點(diǎn)兒不符常理了,所以大數(shù)據(jù)的背后一定還隱藏著阿燦所不愿去提及的更多數(shù)據(jù)本質(zhì)的存在。阿燦太過(guò)于理性了,這天下間會(huì)有更多的阿燦存在,他們?cè)敢庀嘈偶夹g(shù)的能力,然后逐漸失去人的本性。這才是1%結(jié)論的根本。
阿燦妻子的不舍與怨恨再次浮現(xiàn)腦海,揮之不去,那怨恨也許是對(duì)阿燦選擇的憤懣,可那不舍又是什么?
1%的概率算是個(gè)小概率事件嗎?
公元383年,前秦王苻堅(jiān)率領(lǐng)百萬(wàn)大軍揮師南下,東晉謝玄僅帶8萬(wàn) “北府兵”應(yīng)敵,淝水遭遇,卻成就了個(gè)歷史上最經(jīng)典的“淝水之戰(zhàn)”,以少勝多的經(jīng)典戰(zhàn)役。這其中的概率自不必詳說(shuō)。從長(zhǎng)遠(yuǎn)看,淝水之戰(zhàn)使得漢族中原文化得以延續(xù),可以說(shuō)正是淝水之戰(zhàn)才保住了中華文化的最核心部分。這讓我不禁感嘆,但凡要是給科技樹(shù)胡亂捯飭一把,真難以想象現(xiàn)如今的中國(guó)會(huì)是什么樣子;美洲大陸的發(fā)現(xiàn)也是由于哥倫布錯(cuò)誤估計(jì)了由歐洲向西航行到達(dá)印度的距離。對(duì)于這位資深的航海家來(lái)說(shuō),也是一件無(wú)心插柳的絕對(duì)小概率事件,但這樣的小概率事件卻直接影響了歐洲乃至整個(gè)世界的經(jīng)濟(jì)格局;再不濟(jì),我們?cè)賮?lái)看看復(fù)仇者聯(lián)盟的英雄們,藝術(shù)工作者們?yōu)榱私o故事一個(gè)深遠(yuǎn)的意義,同樣限定了一個(gè)小得不能再小的概率——一千四百萬(wàn)分之一,那是正義翻盤(pán)的可能,答案我們都已明了,他們做到了。
所以我們也就知道了,阿燦和這個(gè)世界上更多如阿燦一樣的我們,在技術(shù)的時(shí)代丟失的究竟是什么,那就是一份勇敢與堅(jiān)持,人性所獨(dú)有的那些寶貴的東西……
讀到這里,也許有人會(huì)關(guān)心阿燦最后的結(jié)局,但我無(wú)法給出,哪怕那是我寫(xiě)出來(lái)的故事,我沒(méi)法預(yù)測(cè)故事的結(jié)局,更無(wú)法想象得到技術(shù)的終極。也許是我錯(cuò)了,我就像是一件古舊的瓷器,無(wú)法接受新時(shí)代的召喚,但心中的另一個(gè)聲音經(jīng)年不散——數(shù)據(jù)背后真正的含義是懦弱地沉浮其中,還是應(yīng)該勇敢地堅(jiān)守,堅(jiān)守的是那份我們?cè)?jīng)相信過(guò)的那份初心,哪怕,它只有1%的概率。
【責(zé)任編輯:艾 珂】