■文/朱廷劭
當心理學遇上大數(shù)據(jù),究竟能擦出怎樣的火花?通過分析用戶生態(tài)化的行為數(shù)據(jù)開展無侵擾的心理學研究,其結(jié)果更具有可推廣性。
心理學作為一門研究心理現(xiàn)象及其規(guī)律的科學,具有悠久的歷史。19世紀中葉以前,心理學研究以思辨式為主,很難稱之為科學。德國心理學家威廉·馮特于1879年在德國萊比錫大學創(chuàng)建了世界上第一個專門的心理學實驗室,把實驗法引進心理學,科學心理學由此誕生。
目前,科學心理學的研究建立在客觀數(shù)據(jù)的基礎(chǔ)之上。然而,由于條件所限,長期以來心理學研究的樣本規(guī)模都十分有限,一般多采用抽樣的方式,再把局部樣本的研究結(jié)果推廣到總體上,這就使研究結(jié)論的有效性不可避免地受到樣本代表性的影響。此外,傳統(tǒng)方法大多依賴于用戶自陳,數(shù)據(jù)收集過程也比較緩慢。
大數(shù)據(jù)理論與技術(shù)的出現(xiàn),特別是移動互聯(lián)網(wǎng)的普及,極大地拓展了數(shù)據(jù)采集的廣度和深度,使研究人員有可能針對極大規(guī)模用戶開展研究,進行全時全程的跟蹤記錄,并實現(xiàn)數(shù)據(jù)顆粒度的靈活變化,從而使心理學研究的數(shù)據(jù)基礎(chǔ)更全面、堅實。利用大數(shù)據(jù)信息采集與處理技術(shù),可以實現(xiàn)對個體和群體外部表現(xiàn)數(shù)據(jù)的實時采集,彌補傳統(tǒng)研究方法時效性不足的缺點。
基于此,研究人員利用網(wǎng)絡(luò)大數(shù)據(jù)開展多個層面的研究,利用機器學習模型根據(jù)用戶網(wǎng)絡(luò)行為進行心理特征的識別。利用預測模型,使研究人員通過分析用戶生態(tài)化的行為數(shù)據(jù)開展心理學的相關(guān)研究成為可能,這種無侵擾的心理研究使結(jié)果更具有可推廣性。
人格(personality)是心理科學領(lǐng)域中的重要研究課題,涵蓋了個體穩(wěn)定的行為模式與內(nèi)部心理過程,能夠解釋存在于人與人之間的穩(wěn)定的個性化差異,并且能夠與個體、人際、社會等多個研究層面上的結(jié)果變量同時保持著穩(wěn)定的預測關(guān)系。心理學家已經(jīng)建立了許多關(guān)于人格的理論和模型,具有代表性的理論有卡特爾人格特質(zhì)理論、艾森克三因素理論、塔佩斯大五人格理論和特里根七因素理論。其中,大五人格模型(Fivefactor model或Big-Five)是目前使用最廣泛的人格模型之一,它將人格分為5個因子:開放性(Openness)、盡責性(Conscientiousness)、外傾性(Extroversion)、宜人性(Agreeableness)和神經(jīng)質(zhì)(Neuroticism)。傳統(tǒng)的人格測量方法主要是通過自陳量表的方式來進行。但是,由于自陳量表需要用戶人工填寫,難以實現(xiàn)針對大規(guī)模用戶的實時測量,亟待改善。
近年來,隨著社交網(wǎng)絡(luò)和社會媒體的興起,有研究開始嘗試利用用戶的網(wǎng)絡(luò)留痕預測其人格,并已經(jīng)獲得了理想的預測效果。2013年,英國劍橋大學的米夏爾·科辛斯基(Michal Kosinski)、戴維·史迪威(David Stillwell)和微軟研究院的托雷·格雷佩爾(Thore Graepel)利用臉書(Facebook)的“l(fā)ike”(類似于關(guān)注、點贊)這一屬性,抽取用戶行為特征矩陣,實現(xiàn)了對用戶大五人格指標的自動識別。2015年,英國劍橋大學的吳又又和科辛斯基、史迪威發(fā)現(xiàn),隨著納入特征矩陣的“l(fā)ike”數(shù)目的增多,對用戶人格識別的準確度甚至能超過家人對他/她的了解程度。
我們利用新浪微博,通過機器學習建立了基于用戶的微博行為的人格預測模型。我們引入動態(tài)行為的概念,提出兩種提取動態(tài)行為的時序特征方法,從而挖掘能夠預測人格的復雜行為模式。通過在線的微博用戶實驗,被試填寫人格問卷的形式,我們獲取了547個用戶的人格得分,并利用微博API下載用戶的在線微博數(shù)據(jù)。利用兩種特征提取方法,分別提取了845和795個特征。對于第一個特征集(845個特征),在大五人格每個維度,我們分別訓練了連續(xù)預測模型和分類模型,連續(xù)模型的相關(guān)性系數(shù)為0.48~0.54,分類模型的精確度(Accuracy)在84%~92%;對于第二個特征集(795個特征),訓練的連續(xù)預測模型,其預測的人格數(shù)值與真實用戶填寫問卷獲取的人格得分的相關(guān)性系數(shù)為0.5~0.63。
研究發(fā)現(xiàn),利用微博行為對人格進行預測的最佳觀察周期(出現(xiàn)最優(yōu)的模型精度的時間段)一般會出現(xiàn)在90到120天之間。但是,對不同的人格維度,利用微博行為來預測人格存在著難度水平的差異。例如,預測用戶的開放性維度相對容易(模型的預測精度隨著觀察周期的延長快速提高,30天后達到收斂),而預測用戶的宜人性維度則相對困難(模型的預測精度隨著觀察周期的延長緩慢提高,并且預測精度的變化趨勢不穩(wěn)定)。這與既有研究的結(jié)論保持一致。
利用網(wǎng)絡(luò)數(shù)據(jù),根據(jù)抑郁預測模型獲取家庭暴力前后的抑郁程度
研究結(jié)果表明,利用用戶的網(wǎng)絡(luò)行為來預測用戶的人格特征是可行的,這為改善人格測量方法提供了新的視角。由于研究所收集的行為均是客觀的,同時模型的預測精度較高,因此基于網(wǎng)絡(luò)行為分析的人格預測方法能夠克服傳統(tǒng)人格測量方法的不足(如數(shù)據(jù)追蹤困難、資源消耗巨大、測驗效率低下等),從而為人格研究提供有力的研究工具,并且為其他相關(guān)研究領(lǐng)域提供有益的借鑒。
由于網(wǎng)絡(luò)數(shù)據(jù)具有時間可回溯性,我們可以利用心理計算模型獲取任意時間點的用戶心理特征指標,通過生態(tài)化識別(Ecolouical Recognition,ER)大大擴展了傳統(tǒng)的心理學研究范疇,使開展跨時空的心理學研究成為可能。
家庭暴力(domestic violence)廣泛存在于世界各國的家庭之中,全世界大約三分之一的婦女在一生中曾經(jīng)遭受親密伴侶的身體和/或性暴力或者非伴侶的性暴力。家庭暴力不僅帶來身體損害,更造成精神傷害。身體損害指家庭成員以毆打、捆綁、殘害等方式,對受害者的身體健康造成的危害。比身體傷害更為普遍、更難以恢復的是對受虐者的精神傷害。其中,抑郁、自殺意念是家庭暴力受害者經(jīng)常出現(xiàn)的兩大心理癥狀。
在對家庭暴力的影響,尤其是對受害者心理的影響研究時,常用的研究法包括量表法、個案法或兩者相結(jié)合的方式。這些測量方式存在一定的不足,使得結(jié)果代表性較差,無法進行實時檢測,很難獲取被試以往時刻的心理狀態(tài)。因此,若想要更加簡單、高效地測量個體心理特征的變化,需要尋找更為直接的測量方法。
為了研究家庭暴力對受害者抑郁程度的影響,我們對受害者初次受到家庭暴力前后抑郁程度的變化進行了分析。取受害者受到初次報告家庭暴力的時間點,將受害者與對照組在此時間點前后一個月的微博文字與行為數(shù)據(jù)代入心理計算模型,比較受害者與對照組在受到家庭暴力前后抑郁程度變化,以印證家庭暴力對于受害者抑郁的影響程度。
結(jié)果表明,家庭暴力受害者在首次經(jīng)歷家庭暴力之后,抑郁程度顯著升高;身體暴力與精神暴力均會造成受害者短時間抑郁程度的增加;夫妻間家庭暴力受害者、受虐兒童在家庭暴力過后的一個月內(nèi),抑郁程度均顯著增加;而目睹親人家庭暴力的受害者在家庭暴力發(fā)生一個月內(nèi)抑郁程度沒有顯著變化。
由于網(wǎng)絡(luò)可以記錄大量的用戶行為數(shù)據(jù)與文本數(shù)據(jù),我們得以追蹤家庭暴力受害者首次遭遇家庭暴力之前的心理狀態(tài),并以此為基線進行家庭暴力前后的心理狀態(tài)對比。利用計算模型可以跨時計算微博用戶任意時刻的心理特征,并且可以快速對其在相關(guān)時間內(nèi)的心理特征進行計算,快速進行追蹤研究。
2018年3月17日英國BBC報道,英國劍橋大學的心理學講師亞歷山大·科甘(Aleksandr Kogan)通過一款用于科研目的的Facebook的心理測試小程序收集了約27萬用戶數(shù)據(jù)并轉(zhuǎn)手賣給了第三方,其中就包括“著名”的Cambridge Analytica公司。這家公司因為輔助特朗普贏得2016年美國大選而名聲大噪。他們通過選民的Facebook數(shù)據(jù)計算出其心理特點,進而有針對性地為特朗普投放競選廣告。
人們在震驚之余,開始認真思考在以社交網(wǎng)絡(luò)為代表的大數(shù)據(jù)時代,人工智能該如何合理應用。這些問題在學術(shù)界也已有若干討論與共識,這次Facebook事件讓我們更加關(guān)切數(shù)據(jù)使用中的倫理問題。
網(wǎng)絡(luò)產(chǎn)生的海量用戶行為數(shù)據(jù),雖然是隱私泄露的重大隱患,但也是科學研究的資源寶庫。合理分析利用這些數(shù)據(jù),能夠獲得大量關(guān)于人類行為與心理的新知,不僅能有力地促進心理學、社會學等基礎(chǔ)學科和人工智能技術(shù)的發(fā)展,更能為解決諸如社交問題、心理健康問題、學習效率問題、自殺問題等實際挑戰(zhàn)帶來新的曙光。社交網(wǎng)絡(luò)行為數(shù)據(jù)由大眾自發(fā)產(chǎn)生,也應當被用于旨在增進大眾福利的探索與實踐。
在Facebook事件曝光之后,不僅公眾反應強烈,互聯(lián)網(wǎng)巨頭們也紛紛表態(tài)強調(diào)對用戶隱私的保護,表達了“隱私是基本人權(quán)”“數(shù)據(jù)是個人資產(chǎn)”“保護信息安全是公司責任”等原則性觀點,歐盟GDPR法令也于2018年5月25日正式生效。同時,人們也意識到數(shù)據(jù)得到合理利用而不被浪費的重要性。那么,怎樣利用這些數(shù)據(jù)才是可以接受的?就操作層面而言,關(guān)鍵是保障用戶對數(shù)據(jù)被使用的知情權(quán)與選擇權(quán)。
目前,學術(shù)界經(jīng)過一段時間的討論和實踐,達成了基本共識:基于網(wǎng)絡(luò)行為心理的研究同樣應當遵守人類被試研究的一般倫理原則,使用需要用戶授權(quán)的數(shù)據(jù)必須征得用戶的知情同意,并嚴格按照經(jīng)由倫理委員會審核批準的程序進行,尤其不能將研究數(shù)據(jù)用于倫理委員會批準范圍之外的目的(如轉(zhuǎn)賣給第三方)。對那些開放的無須用戶授權(quán)的網(wǎng)絡(luò)數(shù)據(jù),在用于科研時也應同時滿足以下標準:(1)用戶對數(shù)據(jù)公開是知情的;(2)數(shù)據(jù)收集后應匿名處理;(3)研究中不存在與用戶的互動和溝通;(4)在公開發(fā)表物中不得出現(xiàn)能夠識別用戶個人身份的信息。
技術(shù)發(fā)展為人們的生活帶來極大的便利,人工智能的發(fā)展和應用更是人類技術(shù)與產(chǎn)業(yè)進步的希望所在。我們不可能也不應該因噎廢食,因存在個人隱私泄露的風險而廢止相關(guān)網(wǎng)絡(luò)數(shù)據(jù)的分析和利用。我們真正需要做的,是用制度和規(guī)則來規(guī)范對網(wǎng)絡(luò)平臺用戶數(shù)據(jù)的使用,使之在法律和道德的框架之內(nèi)有序運行,這樣才能避免類似丑聞再次發(fā)生,保證網(wǎng)絡(luò)行為數(shù)據(jù)這一由大眾產(chǎn)生出的寶藏最終服務(wù)于增進大眾的福祉、促進人類進步。