国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)學(xué)習(xí)的大五人格預(yù)測*

2018-09-10 11:14:38鄭敬華郭世澤
關(guān)鍵詞:多任務(wù)范數(shù)人格

鄭敬華,郭世澤,高 梁,趙 楠

(1 電子工程學(xué)院, 合肥 230037; 2 北方電子設(shè)備研究所, 北京 100083; 3 中國科學(xué)院心理研究所, 北京 100101) (2017年3月2日收稿; 2017年5月4日收修改稿)

人格是心理學(xué)概念,研究的是人性的內(nèi)容,指的是人類心理特征的整合與統(tǒng)一,是相對穩(wěn)定的組織結(jié)構(gòu),并在不同時間、地域影響著人的內(nèi)隱心理特征和外顯行為模式。目前應(yīng)用最廣、最可靠、最主流的人格特質(zhì)模型是心理學(xué)界公認(rèn)的大五人格模型,該模型通過5維向量(N,A,E,C,O)描述人格[1],分別代表神經(jīng)質(zhì)、宜人性、外向性、盡責(zé)性和開放性。每個維度從不同側(cè)面描述一個人的人格。

當(dāng)前,隨著新型信息技術(shù)的快速發(fā)展和社交網(wǎng)絡(luò)的大范圍應(yīng)用,利用社交網(wǎng)絡(luò)進(jìn)行用戶人格預(yù)測已經(jīng)成為研究熱點(diǎn)。國外研究者主要是利用Facebook、Twitter等社交網(wǎng)絡(luò)對用戶人格進(jìn)行預(yù)測,國內(nèi)主要通過新浪微博、人人網(wǎng)等社交平臺對用戶進(jìn)行人格預(yù)測。

國內(nèi)外研究學(xué)者對社交網(wǎng)絡(luò)用戶的大五人格預(yù)測,大都采用回歸或分類等機(jī)器學(xué)習(xí)算法。不同點(diǎn)主要在于針對不同的社交網(wǎng)絡(luò),提取多樣的屬性數(shù)據(jù)。主要可分為兩類:

一類是從社交網(wǎng)站提取的行為特征,包括靜態(tài)特征、動態(tài)特征和文本特征。靜態(tài)特征是指隨時間不變化或者變化慢的數(shù)據(jù)特征,如性別、年齡、粉絲數(shù)、朋友數(shù)等;動態(tài)特征是指隨時間容易變化的數(shù)據(jù)特征,如轉(zhuǎn)發(fā)、收藏、點(diǎn)贊等;文本特征是指提取文本中的數(shù)據(jù)特征,如@數(shù)、鏈接數(shù)、第一人稱使用率等。

Ortigosa等[2]對Facebook用戶社交數(shù)據(jù)采用樸素貝葉斯和C4.5算法,對5種人格維度進(jìn)行預(yù)測建模。Wald等[3]通過對Twitter用戶進(jìn)行人格分析,采用邏輯回歸、多層感知器、隨機(jī)森林和SVM等方法,最終得出結(jié)論,不同的方法在進(jìn)行人格預(yù)測時,結(jié)果相差不大,實(shí)驗(yàn)AUC指標(biāo)結(jié)果在0.7左右。Li等[4]采用基于5折交叉驗(yàn)證算法訓(xùn)練SVM模型和PaceRegression模型,并且在模型訓(xùn)練過程中,為改善SVM性能,使用網(wǎng)絡(luò)搜索算法進(jìn)行參數(shù)調(diào)整。Wald等[5]對Facebook用戶采用線性回歸、RepTree以及決策表等算法進(jìn)行人格預(yù)測,可預(yù)測出約74.5%的用戶。這些方法通過提取社交網(wǎng)絡(luò)用戶的靜態(tài)特征、文本特征以及動態(tài)特征中的一類或者多類特征,進(jìn)行訓(xùn)練,利用監(jiān)督學(xué)習(xí)方法進(jìn)行分類和回歸,進(jìn)行用戶的人格預(yù)測。并且也有結(jié)果表明,使用監(jiān)督學(xué)習(xí)方法中不同的分類算法,最終效果相差不大[6]。

另一類是通過發(fā)布的文本內(nèi)容的語義進(jìn)行預(yù)測。通過語義分析出用戶的情感、觀點(diǎn)、意見以及人格魅力等信息[7]。但是通過文本信息研究的與人格特質(zhì)相關(guān)的語料庫的不同,嚴(yán)重限制人格的預(yù)測結(jié)果,很多研究者針對某一語料庫進(jìn)行的預(yù)測結(jié)果準(zhǔn)確率能達(dá)到83%,然而當(dāng)擴(kuò)大語料庫,準(zhǔn)確率會迅速降到55%[8]。針對這一情況,Iacobelli等[7]通過使用一種大規(guī)模的語料庫,采用回歸及排序算法對各種文本特征提取進(jìn)行比較,從分類準(zhǔn)確率與基準(zhǔn)回歸算法相比提高的百分比以及排序算法的誤差3個角度進(jìn)行驗(yàn)證,預(yù)測結(jié)果都有很大提高。

綜上所述,雖然通過社交網(wǎng)絡(luò)對用戶進(jìn)行人格預(yù)測已取得很多研究成果,但其研究方法僅僅局限于單任務(wù)機(jī)器學(xué)習(xí),即只是對某一種任務(wù)數(shù)據(jù)集進(jìn)行訓(xùn)練,進(jìn)而學(xué)習(xí)該任務(wù)的相關(guān)信息。然而,人格是從不同角度不同方面對個體進(jìn)行的刻畫,比如大五人格模型是從5個方面闡述人格:神經(jīng)質(zhì)特性從個體對事物的消極情緒的傾向反映其情緒化程度的調(diào)節(jié)能力;宜人性從個體對他人的態(tài)度方面反映其與人相處及協(xié)作的能力;外向性從個體人際互動的數(shù)量及頻率反映其對刺激的需求及獲得愉悅的能力;盡責(zé)性從個體控制、管理和調(diào)節(jié)自身沖動的方式,反應(yīng)其在目標(biāo)導(dǎo)向行為上的組織和堅持能力;開放性從個體的想象力及求知欲反映其智慧水平。

大五人格模型涵蓋人格描述的主要方面,而且這5個維度之間往往不是完全孤立的,而是存在著某些關(guān)聯(lián)性。在社交網(wǎng)絡(luò)用戶的大五人格預(yù)測方面存在以下兩個問題:第一,從統(tǒng)計結(jié)果上看,一些人格維度之間存在一定的相關(guān)性。如宜人性得分較高的個體,其開放性得分也偏向較高。而另一些維度之間則更多表現(xiàn)為相互獨(dú)立,如責(zé)任感與神經(jīng)質(zhì)之間、宜人性與開放性之間。這種人格維度之間的客觀規(guī)律導(dǎo)致現(xiàn)有的人格預(yù)測模型不夠理想。第二,現(xiàn)實(shí)中,獲取大量而有效的社交網(wǎng)絡(luò)用戶的人格數(shù)據(jù),是非常困難的,這樣不可避免造成訓(xùn)練樣本的缺乏。

因此,為了完整全面地對個體的人格進(jìn)行預(yù)測,必須充分考慮5種人格維度之間可能存在的相關(guān)性。另一方面,訓(xùn)練樣本不充分,極易造成模型的過擬合現(xiàn)象。針對這兩種情況,可以將5種人格維度預(yù)測看成5類任務(wù),通過并行學(xué)習(xí)這5類任務(wù),充分利用任務(wù)之間的相關(guān)信息,這種思想正是多任務(wù)學(xué)習(xí)方法的核心;而多任務(wù)學(xué)習(xí)在提高小樣本問題的學(xué)習(xí)性能上提出了合理的解決方案。

但是多任務(wù)學(xué)習(xí)前提是基于所有任務(wù)之間都存在相關(guān)性這一很強(qiáng)的假設(shè),而微博用戶大五人格的5個維度之間還存在上面提到的第2個問題,即五種人格維度中并不是所有任務(wù)都存在相關(guān)。因此為了避免不相關(guān)任務(wù)帶來不好的效果,本文引入魯棒多任務(wù)學(xué)習(xí)模型預(yù)測新浪微博用戶人格,既共享多個任務(wù)之間的相關(guān)信息,又能識別出不相關(guān)任務(wù)。魯棒的多任務(wù)學(xué)習(xí)目標(biāo)就是尋找任務(wù)和特征之間的關(guān)聯(lián)矩陣W。首先,通過正則化優(yōu)化方法將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)換為優(yōu)化問題;其次,引入混合范數(shù)、跡范數(shù)和L1/L2范數(shù)作為正則項(xiàng)約束,一個用于約束相關(guān)性,一個用于識別不相關(guān)任務(wù);最后,通過求解正則約束的優(yōu)化問題取得關(guān)聯(lián)矩陣W的最優(yōu)解。本文通過對獲取的994名新浪微博被試者的微博數(shù)據(jù)樣本進(jìn)行訓(xùn)練,采用多任務(wù)學(xué)習(xí)方法,創(chuàng)建人格預(yù)測模型,并與單任務(wù)學(xué)習(xí)算法進(jìn)行比較,結(jié)果顯示多任務(wù)學(xué)習(xí)方法明顯優(yōu)于單任務(wù)學(xué)習(xí)效果。

1 相關(guān)工作

目前基于社交網(wǎng)絡(luò)預(yù)測分析人格過程中用到的機(jī)器學(xué)習(xí)都是單任務(wù)的分類或回歸算法,即將5種人格維度預(yù)測當(dāng)作獨(dú)立的5個分類或回歸任務(wù),分別進(jìn)行建模。這樣在訓(xùn)練數(shù)據(jù)不充足的情況下,極易造成過擬合而導(dǎo)致較差的泛化性能。同時由于五種任務(wù)之間存在著相關(guān)性,因此采用多任務(wù)學(xué)習(xí)方法,即充分利用任務(wù)之間的相關(guān)信息,又解決了小樣本帶來的訓(xùn)練過擬合現(xiàn)象。

1.1 多任務(wù)學(xué)習(xí)方法

現(xiàn)實(shí)生活中,許多問題都是相關(guān)的,同樣,機(jī)器學(xué)習(xí)領(lǐng)域,在解決分類或回歸問題時,大部分也都是針對多個相關(guān)的任務(wù)。1997年Caruana首先提出多任務(wù)學(xué)習(xí)的方法[9],目的是通過學(xué)習(xí)與目標(biāo)任務(wù)相關(guān)的多個任務(wù)實(shí)現(xiàn)對目標(biāo)任務(wù)的學(xué)習(xí)。并考慮到不同任務(wù)之間的差異性,同時利用多個任務(wù)之間的數(shù)據(jù)特征,解決獨(dú)立學(xué)習(xí)任務(wù)數(shù)據(jù)規(guī)模小的問題,為目標(biāo)任務(wù)提供更加精確的知識?,F(xiàn)在很多研究也證明了這一點(diǎn)[9-12],因此現(xiàn)在多任務(wù)學(xué)習(xí)算法成為眾多領(lǐng)域研究熱點(diǎn)[13-16]。

多任務(wù)學(xué)習(xí)從任務(wù)挖掘上來講,主要有兩種:

第一種是從數(shù)據(jù)樣本特征中挖掘具有相同特征的任務(wù)。如Argyriou等[10]基于訓(xùn)練數(shù)據(jù)特征之間的相關(guān)性,利用矩陣的L1,2范數(shù)進(jìn)行正則化表示,約束學(xué)習(xí)任務(wù)的低秩結(jié)構(gòu),將訓(xùn)練數(shù)據(jù)特征劃分為不同的子任務(wù),從而使多個任務(wù)共享同一個低維子空間,實(shí)現(xiàn)特征之間潛在信息的共享。文獻(xiàn)[16]基于訓(xùn)練數(shù)據(jù)特征之間的相關(guān)性,通過使用線性SVMs和多任務(wù)學(xué)習(xí)方法,提出一種高效的非線性數(shù)據(jù)分類器LSVM-MTL模型,充分利用相關(guān)任務(wù)中包含的有用信息,改善了每個任務(wù)的SVM的分類性能。

第二種是從目標(biāo)任務(wù)中挖掘具有相關(guān)性的任務(wù)。如白朔天等[17]采用多任務(wù)回歸的方法采集社交媒體中用戶行為數(shù)據(jù),分析用戶5種人格維度與網(wǎng)絡(luò)行為之間的關(guān)系,通過訓(xùn)練模型,采用最小平方和損失和Frobenius泛數(shù)進(jìn)行建模,確定使預(yù)測值和標(biāo)注值之差最小的傳遞矩陣,實(shí)現(xiàn)社交網(wǎng)絡(luò)數(shù)據(jù)和人格維度之間的模型創(chuàng)建。

多任務(wù)學(xué)習(xí)的方法研究主要集中在模型上,提出不同的模型假設(shè),總結(jié)出新的多任務(wù)學(xué)習(xí)方法,包括共享變量、共享子空間以及共享模型參數(shù)等,將這些共享的有價值信息,作為每個任務(wù)學(xué)習(xí)的輔助信息,以此提升學(xué)習(xí)效果。具體從實(shí)現(xiàn)方法上來講,主要有兩種:

第一種方法是加入正則項(xiàng)進(jìn)行約束學(xué)習(xí)。正則項(xiàng)(也稱作懲罰項(xiàng))約束方法,通過引入關(guān)聯(lián)矩陣的不同種類的范數(shù)約束任務(wù)之間特征的相關(guān)性,將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)化為優(yōu)化問題,取得其最優(yōu)解。Evgeniou和Pontil[18],提出均值正則化多任務(wù)學(xué)習(xí),在核空間使用范數(shù)約束獲得任務(wù)之間的共享結(jié)構(gòu),通過假設(shè)每個任務(wù)都近似,最小化獨(dú)立部分,使得學(xué)習(xí)到的結(jié)果都與公共部分相似,進(jìn)行任務(wù)之間關(guān)聯(lián)性建模,其參數(shù)模型為

式中:L(·)是損失函數(shù);W=[w1,…,wT]為模型參數(shù)矩陣,對應(yīng)T個任務(wù);ξit為添加的松弛變量;w0為模型參數(shù)的平均值。該模型的假設(shè)前提是所有模型參數(shù)均服從正態(tài)分布,且都在均值附近,vt為各任務(wù)模型參數(shù)與均值之間的距離。模型第3項(xiàng)用來控制模型復(fù)雜度的正則項(xiàng),最后一項(xiàng)是用來約束任務(wù)的模型參數(shù)與模型均值的距離,這樣就使得所有任務(wù)盡可能得相似,從而將單任務(wù)的SVM算法轉(zhuǎn)移為多任務(wù)SVMs算法。最后通過模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的實(shí)驗(yàn),論證了多任務(wù)SVM模型比單任務(wù)SVM要好很多。

第二種方法是貝葉斯方法,通過對參數(shù)W的協(xié)方差矩陣的貝葉斯學(xué)習(xí)實(shí)現(xiàn)參數(shù)的更新和估計,利用協(xié)方差矩陣的相關(guān)系數(shù)確定多個任務(wù)之間的相關(guān)關(guān)系。Zhang和Yeung[12]提出一種新的貝葉斯擴(kuò)展模型用于解決協(xié)方差矩陣估計過程中出現(xiàn)的問題。

多任務(wù)學(xué)習(xí)的過程就是每個任務(wù)分別學(xué)習(xí)各自的結(jié)果,但是在學(xué)習(xí)過程中被聯(lián)合在一起,使得信息之間可以傳遞共享。其核心就是挖掘數(shù)據(jù)特征與任務(wù)構(gòu)成的參數(shù)關(guān)聯(lián)矩陣之間的相關(guān)性,可以通過數(shù)據(jù)特征之間、任務(wù)之間、約束條件和損失函數(shù)、樣本之間的連接結(jié)構(gòu)和任務(wù)殘差等方面,作為信息傳遞渠道,共享有價值的信息,將多個不同的學(xué)習(xí)任務(wù)納入一個決策模型中,從而提高預(yù)測精度。

1.2 魯棒多任務(wù)學(xué)習(xí)方法

多任務(wù)學(xué)習(xí)主要是基于多個任務(wù)之間是相關(guān)的這一很強(qiáng)的假設(shè),而這一假設(shè)忽略了任務(wù)中的離群任務(wù)的存在。魯棒的多任務(wù)學(xué)習(xí)(robust multi-task learning,RMTL)方法[19-23]將這些不相關(guān)的任務(wù)作為異常來處理。一般魯棒多任務(wù)學(xué)習(xí)方法都是將任務(wù)分成相關(guān)任務(wù)和異常任務(wù)兩種情況進(jìn)行處理,通過將參數(shù)模型進(jìn)行分解,分解為結(jié)構(gòu)項(xiàng)和異常項(xiàng)進(jìn)行多任務(wù)建模,然后通過添加正則化項(xiàng)進(jìn)行約束,求解多任務(wù)學(xué)習(xí)最優(yōu)解。

文獻(xiàn)[20]考慮到一些異常任務(wù),將參數(shù)模型分解為兩部分,W=P+Q,即將關(guān)聯(lián)矩陣W分成兩個部分,表示通常的相關(guān)任務(wù)和異常的任務(wù),分別是低秩結(jié)構(gòu)P和組稀疏結(jié)構(gòu)Q,P用來捕捉相關(guān)任務(wù)信息,Q用來檢測異常任務(wù)信息。因此正則化項(xiàng)也相應(yīng)分解為兩部分,并使用不同的正則項(xiàng)來約束相關(guān)任務(wù)和異常任務(wù),模型如下所示

ρ1‖P‖2,1+ρ2‖Q‖1,2).

文獻(xiàn)[21]提出一種魯棒的多任務(wù)回歸學(xué)習(xí)方法,添加兩項(xiàng)正則項(xiàng)用于處理高維稀疏數(shù)據(jù)造成的總誤差(sparse gross errors),響應(yīng)矩陣Y∈Rn×q,協(xié)方差矩陣X∈Rn×p,其回歸模型:

Y=XΘ*+W+G*

式中:Θ*∈Rp×q為預(yù)測值和響應(yīng)值之間的未知線性關(guān)系;W∈Rn×q為噪聲矩陣;G*為相對于sparse gross errors的矩陣。采用Frobenius范數(shù)、L1范數(shù)以及L2范數(shù)進(jìn)行建模計算,從誤差角度對多任務(wù)回歸進(jìn)行建模,提高模型的魯棒性。

文獻(xiàn)[22]將權(quán)重矩陣分解為兩部分,同時使用Lasso方法處理相關(guān)任務(wù),使用group Lasso方法處理異常任務(wù),采用加速梯度算法來解決多任務(wù)學(xué)習(xí)的優(yōu)化問題,提高算法的魯棒性。

也有研究者通過任務(wù)協(xié)方差矩陣建模,Yu等[19]提出一種基于t過程的魯棒的貝葉斯多任務(wù)學(xué)習(xí)框架,t過程是高斯過程的一種推廣,能夠?qū)惓H蝿?wù)很好地分辨出來,使用廣義t噪聲模型作為似然函數(shù)與廣義t過程先驗(yàn)結(jié)合,從而提高算法的魯棒性。

對任務(wù)協(xié)方差矩陣建模的過程中,往往會使用到非參數(shù)方法,從而使得該方法計算量非常的大。因此本文將基于正則項(xiàng)約束求解方法解決魯棒的多任務(wù)學(xué)習(xí)問題。

2 基于RMTL的微博用戶大五人格預(yù)測建模

2.1 問題描述

假設(shè)有T個目標(biāo)任務(wù),屬于空間X×Y,其中X?Rd,Y?R,這里T=5,對應(yīng)于大五人格的5種人格維度預(yù)測,即(O,A,E,C,N)5個任務(wù)。對于每一個任務(wù),有n個數(shù)據(jù),則對于任務(wù)t,其訓(xùn)練數(shù)據(jù)樣本表示如下所示:

{(xt1,yt1),(xt2,yt2),…,(xtn,ytn)},

式中:(xti,yti)表示任務(wù)t中用戶i的實(shí)例對,其中xti表示第i個用戶的樣本向量,yti表示用戶i的任務(wù)t的標(biāo)簽,是一個值。那么T個任務(wù)的訓(xùn)練數(shù)據(jù)樣本表示如下所示:

{{(x11,y11),…,(x1n,y1n)},…,

{(xT1,yT1),…,(xTn,yTn)}}

因此,新浪微博用戶大五人格預(yù)測的目標(biāo)就是學(xué)習(xí)5個函數(shù),如下

fi,f2,…,fT,ft(xit)=Xitwt≈yit.

(1)

式中:t=1,2,…,5,每個函數(shù)代表一種人格維度的預(yù)測模型。

對于每種人格預(yù)測任務(wù)來說,學(xué)習(xí)的目標(biāo)最終轉(zhuǎn)化為參數(shù)wt的優(yōu)化求解,如下

wt=argminL(Xt,yt,wt)+λΩ(wt).

(2)

式中:wt∈Rn為模型參數(shù);L(·,·)為訓(xùn)練數(shù)據(jù)集上的損失函數(shù);Ω(wt)為參數(shù)wt的正則化項(xiàng);λ為正則化參數(shù),用于平衡損失函數(shù)和正則化項(xiàng)。在單任務(wù)學(xué)習(xí)中,添加正則化項(xiàng)的目的是使模型避免數(shù)據(jù)過擬合,保證模型得到最小化訓(xùn)練誤差。

本文提出的基于多任務(wù)學(xué)習(xí)的新浪微博的大五人格預(yù)測問題,相當(dāng)于并行學(xué)習(xí)5種人格預(yù)測,因此輸入矩陣X、輸出矩陣Y以及關(guān)聯(lián)矩陣W分別如下所示:

這樣基于多任務(wù)學(xué)習(xí)方法的大五人格預(yù)測的目標(biāo),則表示為

f(X)=WX≈Y.

(3)

多任務(wù)學(xué)習(xí)目的就是學(xué)習(xí)模型參數(shù)矩陣W,矩陣中行表示每個任務(wù)的特征向量,列表示某種特征屬性。同樣利用損失函數(shù)和正則化項(xiàng)進(jìn)行建模,尋找參數(shù)矩陣W中列之間的關(guān)系或者行之間的關(guān)系,從而實(shí)現(xiàn)多個任務(wù)之間的并行學(xué)習(xí),同時避免訓(xùn)練過程中的過擬合現(xiàn)象,提高模型的泛化性能。

2.2 模型建立

基于多任務(wù)正則化方法的新浪微博大五人格預(yù)測目標(biāo)如公式(3)所示,最終通過添加正則化約束,實(shí)現(xiàn)多個任務(wù)之間特征相關(guān)性的學(xué)習(xí),將目標(biāo)轉(zhuǎn)化為優(yōu)化求解公式

(4)

(5)

(6)

社交網(wǎng)絡(luò)用戶大五人格預(yù)測學(xué)習(xí)過程中,其中大五人格模型是使用統(tǒng)計學(xué)方法研究出來的人格特質(zhì)理論,能夠全面描述人的人格特征,且五維度內(nèi)部之間的關(guān)系穩(wěn)定且僅存在一定的相關(guān)性。采集的新浪微博用戶的人格標(biāo)簽數(shù)據(jù)顯示(如圖1),宜人性較高的得分個體其盡責(zé)性的分也偏向較高;神經(jīng)質(zhì)特征得分較高的個體,其宜人性特征得分偏向較低;而神經(jīng)質(zhì)與開放性以及開放性與宜人性之間并不存在顯著相關(guān),也就是說新浪微博用戶大五人格從得分?jǐn)?shù)據(jù)上看,既存在著相關(guān)性,也存在不相關(guān)性,因此使用一般的多任務(wù)正則化模型難以實(shí)現(xiàn)預(yù)測的效果的提高,相反可能會帶來更差的效果。

針對這種現(xiàn)象,采取能夠識別異常任務(wù)存在的魯棒多任務(wù)學(xué)習(xí)方法,進(jìn)行社交網(wǎng)絡(luò)用戶大五人格的建模,將參數(shù)模型進(jìn)行分解,分解為一個結(jié)構(gòu)項(xiàng)和一個異常項(xiàng)。正則化項(xiàng)也對應(yīng)地分解為兩項(xiàng),分別是結(jié)構(gòu)信息和異常結(jié)構(gòu)信息,既能識別模型的共性,共享隱藏的信息,也能檢測出不相關(guān)任務(wù)信息,避免不相關(guān)任務(wù)之間的相互影響。

因此對于T個任務(wù)的模型關(guān)聯(lián)矩陣W,W=[w1,w2,…,wt]∈Rd×t,將被分為兩部分W=P+Q,P用于約束低秩,挖掘任務(wù)之間的相關(guān)性,Q用于約束組稀疏,識別出不相關(guān)任務(wù),其中:

P=[p1,p2,…pt]∈Rd×t

Q=[q1,q2,…qt]∈Rd×t

采用最小平方損失函數(shù)和核范數(shù)、L1/L2范數(shù)進(jìn)行建模,則微博用戶大五人格預(yù)測模型的目標(biāo)函數(shù)可表示為

ρ1‖P‖*+ρ2‖Q‖1,2.

(7)

式中:Wi為第i個任務(wù)的模型參數(shù);Xi為第i個任務(wù)的訓(xùn)練數(shù)據(jù)集;Yi為第i個任務(wù)標(biāo)簽數(shù)據(jù);ρ1,ρ2是正則化參數(shù);ρ1用于控制低秩正則項(xiàng)矩陣P,ρ2用于控制矩陣Q的L1,2范數(shù)。

矩陣P的核范數(shù)表示為

(8)

式中:r是矩陣P的秩,σi(P)為矩陣P的奇異值,核范數(shù)能夠?qū)崿F(xiàn)矩陣的稀疏表示,因此可以挖掘任務(wù)的相關(guān)性。

圖1 人格維度之間的關(guān)系Fig.1 Relationship between the Big-Five personality dimensions

矩陣Q的L1,2范數(shù)表示為

(9)

即為矩陣列向量的L2范數(shù)之和。L1,2范數(shù)能夠?qū)崿F(xiàn)變量組水平上的稀疏性,具有變量組選擇能力,利用L1,2范數(shù)目的是辨別出異常任務(wù)。因此針對結(jié)構(gòu)項(xiàng)矩陣P與異常任務(wù)矩陣Q,對應(yīng)使用核范數(shù)與L1,2范數(shù)進(jìn)行約束學(xué)習(xí),將多任務(wù)學(xué)習(xí)問題轉(zhuǎn)化為求解正則約束的優(yōu)化問題。

2.3 模型求解

近端梯度求解正式針對minf(x)+h(x)形式的優(yōu)化問題求解。對于式(7),

設(shè)平滑項(xiàng)

(10)

設(shè)非平滑項(xiàng)

h(W)=ρ1‖P‖*+ρ2‖Q‖1,2.

(11)

近端梯度算法得到迭代公式為

(12)

對于凸函數(shù)h(W),其近端算子為

(13)

因此對于式(12),即變?yōu)?/p>

ρ1‖Pw‖*+ρ2‖Qw‖1,2.

(14)

加速近端梯度算法求解步驟:

輸入:Xi:第i個任務(wù)的訓(xùn)練數(shù)據(jù)矩陣;

yi:第i個任務(wù)的人格標(biāo)簽向量。

1:初始化γk,β∈(0,1)

2:γ=γk

3:do

5: break if

6:更新步長γ=βγ

7:whileγk+1=γWk+1=Z.

本文將采用加速近端梯度算法進(jìn)行多任務(wù)學(xué)習(xí)優(yōu)化求解[20]。加速近端梯度算法通過在搜索步長的過程中增加一步外插值操作,其算法是:

Zk+1=Wk+θk(Wk-Wk-1),

(15)

(16)

3 實(shí)驗(yàn)驗(yàn)證

3.1 數(shù)據(jù)采集

實(shí)驗(yàn)采用中科院心理所征集的新浪微博用戶數(shù)據(jù),并通過在線填寫大五人格問卷,通過篩選確定有效的問卷結(jié)果,然后選取新浪微博活躍用戶,最終確定1 604名有效新浪微博用戶數(shù)據(jù)。其中大五人格問卷采取的是目前國際上心理學(xué)界都認(rèn)可的NEO大五人格問卷。篩選有效數(shù)據(jù)的方法是:首先過濾掉填寫有規(guī)律的問卷以及全是一種選擇的問卷,然后確定新浪微博活躍的用戶,其活躍狀態(tài)表現(xiàn)為用戶的狀態(tài)數(shù)大于50,在采集微博數(shù)據(jù)前3個月都發(fā)布過微博。

在得到1 604名新浪微博用戶微博數(shù)據(jù)以及人格標(biāo)簽數(shù)據(jù)之后,首先要進(jìn)行數(shù)據(jù)預(yù)處理。

微博數(shù)據(jù)特征的處理:

1)將性別特征固定為0或1值;

2)將用戶昵稱以及自我描述,計算其長度值;

3)將所在地域信息,數(shù)值化,首先要制定一系列的數(shù)值對應(yīng),如北京對應(yīng)001,天津?qū)?yīng)002。

4)將其他非數(shù)值類型轉(zhuǎn)換為數(shù)值型,如是否認(rèn)證,將ture轉(zhuǎn)換為1,將false轉(zhuǎn)化為0。

微博內(nèi)容的處理:

5)將所有微博內(nèi)容為空、僅僅是超鏈接的微博、轉(zhuǎn)發(fā)的微博以及圖片、視頻的微博內(nèi)容過濾掉;

6)提取微博文本信息特征,首先將同一個用戶的所有微博整合在一起,然后通過中科院心理所的文心處理系統(tǒng)(http:∥ccpl.psych.ac.cn/textmind/)將文本內(nèi)容提取出文本特征,包括第一人稱單/復(fù)數(shù)代名詞、第二人稱單/復(fù)數(shù)代名詞、第三人稱單/復(fù)數(shù)代名詞、情感詞、正/負(fù)向情緒詞、心理詞匯、@數(shù)、表情數(shù)等102個維度。

最終確定994名被試者的微博數(shù)據(jù)及大五人格數(shù)據(jù),其中391名男性,平均年齡24.6歲,分布在全國各地19省市。這994名新浪微博用戶的大五人格得分分布情況如圖2所示。數(shù)據(jù)具有一定的代表性和真實(shí)性。

3.2 特征分析

本實(shí)驗(yàn)共挖掘新浪微博用戶114個特征,包括靜態(tài)特征、行為特征和文本特征3類,其中靜態(tài)特征包括性別、地址、昵稱、是否認(rèn)證、自我描述等7類,行為特征包括發(fā)狀態(tài)數(shù)、粉絲數(shù)、關(guān)注數(shù)、收藏數(shù)、互粉數(shù)等5類,文本特征包括發(fā)布的微博文本信息中提取出的102維特征。實(shí)驗(yàn)中,對994名新浪微博用戶的114維微博特征和5維的人格特征進(jìn)行相關(guān)性分析,分析結(jié)果如表1所示。可以看出新浪微博用戶的大五人格在社交網(wǎng)絡(luò)中的表現(xiàn)以及與每種人格維度相關(guān)的數(shù)據(jù)特征。

神經(jīng)質(zhì)特質(zhì)表現(xiàn)的是個體的情緒不穩(wěn)定性,心理學(xué)上認(rèn)為神經(jīng)質(zhì)得分高的個體常常表現(xiàn)為易煩惱、安全感差以及好自憐。神經(jīng)質(zhì)得分高的個體往往表現(xiàn)為缺乏責(zé)任感、偏內(nèi)向、無情、懷疑心重且不易合作。該類個體上升為人格障礙時,表現(xiàn)為情緒不穩(wěn)定和沖動控制缺乏,易發(fā)生暴力或恐嚇行為,尤其在受到他人批評時。

新浪微博用戶與神經(jīng)質(zhì)正相關(guān)的特征有:第三人稱單數(shù)、自我描述長度、收藏數(shù)等,與神經(jīng)質(zhì)負(fù)相關(guān)的特征有互粉數(shù)。也就是說神經(jīng)質(zhì)得分較高的用戶,在新浪微博中更多使用第三人稱形式,喜歡收藏,同時自我描述的字?jǐn)?shù)相對較多,而互粉數(shù),即與其他用戶互相關(guān)注的數(shù)目較少。

宜人性特質(zhì)表現(xiàn)的是個體對他人的態(tài)度方面,心理學(xué)上認(rèn)為宜人性得分高者,表現(xiàn)得信任他人,坦率真誠,關(guān)心他人,樂于助人,不具攻擊性,謙遜,富有同情心。

圖2 新浪微博用戶大五人格得分分布圖Fig.2 Big-Five personality score distributions of Sina Microblog users

新浪微博用戶與宜人性正相關(guān)的特征有:積極情緒詞,與宜人性負(fù)相關(guān)的特征有臟話。也就是說宜人性得分較高的用戶更加傾向于使用積極的情緒詞,如愉快、信任等等,而不喜歡說臟話。可以看出宜人性得分高的人比較樂觀,友好和善。

外向性特質(zhì)表現(xiàn)的是個體的人際關(guān)系方面,心理學(xué)上認(rèn)為外向性得分高的個體常常表現(xiàn)為喜歡與人接觸,熱情、合群、有說服力、快節(jié)奏生活并且喜歡尋求刺激。

新浪微博用戶與外向性正相關(guān)的特征有:粉絲數(shù)、收藏數(shù)、互粉數(shù)、第二人稱復(fù)數(shù)、@數(shù)、驚嘆、縮寫、表情等等,與外向性負(fù)相關(guān)的特征有微博信息中英文單詞比例。也就是說外向性得分較高的用戶,關(guān)注他的以及互相關(guān)注的用戶數(shù)目較多,喜歡收藏,多使用第二人稱復(fù)數(shù)形式,喜歡引起好友的注意,縮寫形式以及表情的使用較多,驚嘆語氣詞使用較多??梢娦吕宋⒉┩庀蛐缘梅指叩挠脩魪V交朋友,互動能力較強(qiáng),善于傳遞正能量。

表1 新浪微博用戶數(shù)據(jù)特征與大五人格相關(guān)系數(shù)

*. 在0.05水平上顯著相關(guān);**. 在0.01水平上顯著相關(guān)。

盡責(zé)性特質(zhì)表現(xiàn)的是個體對自身各種情緒的控制能力,心理學(xué)上認(rèn)為盡責(zé)性得分高的個體自信、高效、有條理、有很強(qiáng)的責(zé)任心、追求成功、不懼困難、邏輯性強(qiáng)、不易沖動。

新浪微博用戶與盡責(zé)性正相關(guān)的特征有:分號、粉絲數(shù)等,與盡責(zé)性負(fù)相關(guān)的特征有收藏數(shù)。也就是說盡責(zé)性得分較高的用戶,粉絲多,不喜歡收藏,在微博中,不喜歡使用分號形式。與盡責(zé)性強(qiáng)相關(guān)的特征較少,這也與盡責(zé)性個體自身的控制能力強(qiáng)相一致。

開放性特質(zhì)表現(xiàn)的是個體的認(rèn)知風(fēng)格,心理學(xué)上認(rèn)為神經(jīng)質(zhì)得分高的個體極富想象力、追求美、崇尚自然、敏感、喜歡嘗試、求知欲強(qiáng)、不循規(guī)蹈矩。

新浪微博用戶與開放性正相關(guān)的特征有:粉絲數(shù)、狀態(tài)數(shù)、發(fā)表微博長度、第一人稱單數(shù)、第三人稱單復(fù)數(shù)、焦慮、情緒詞等多種特征相關(guān)。也就是說開放性得分較高的用戶粉絲多,發(fā)狀態(tài)頻率較高,微博內(nèi)容的篇幅較長,傾向于使用第一人稱和第三人稱形式,并且更多地使用情緒詞以及焦慮詞進(jìn)行表達(dá)??梢娦吕宋⒉╅_放性得分高的用戶朋友多,交流多,談?wù)摰脑掝}涉及到各個方面,而且能夠大方的表達(dá)自己的情緒,這與開放性人格特點(diǎn)是一致的。

3.3 實(shí)驗(yàn)結(jié)果

使用獲取的新浪微博用戶人格標(biāo)簽數(shù)據(jù)以及微博數(shù)據(jù)集進(jìn)行驗(yàn)證。將五種人格維度的預(yù)測作為五類任務(wù),訓(xùn)練數(shù)據(jù)采用同樣的數(shù)據(jù)集,也就是說數(shù)據(jù)樣本為994,數(shù)據(jù)集維度為114,同時學(xué)習(xí)5種任務(wù)。采取本文引入的魯棒多任務(wù)學(xué)習(xí)方法(RMTL),不基于任何假設(shè)的多任務(wù)學(xué)習(xí)框架,通過對預(yù)測模型使用混合結(jié)構(gòu)范數(shù)進(jìn)行建模,自動挖掘不同類別之間的內(nèi)在關(guān)系,并識別出不相關(guān)任務(wù),采用最小平方損失和與混合范數(shù)(核范數(shù)和L1/L2范數(shù))進(jìn)行建模。

實(shí)驗(yàn)中選取了4種經(jīng)典的單任務(wù)學(xué)習(xí)方法,包括樸素貝葉斯(NB)、邏輯回歸(LR)、隨機(jī)森林(RF)以及RepTree算法進(jìn)行對比,并且與使用最小平方損失和與Lasso范數(shù)進(jìn)行計算建模的經(jīng)典多任務(wù)學(xué)習(xí)方法(MTL)進(jìn)行比較,采用5折交叉驗(yàn)證,從預(yù)測模型的準(zhǔn)確率、精確率以及召回率進(jìn)行了對比。

對數(shù)據(jù)集進(jìn)行訓(xùn)練的過程中,通過隨機(jī)分配訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)比例,最終當(dāng)訓(xùn)練比為0.7的時候,模型效果最佳。并通過與其他5種經(jīng)典的單任務(wù)學(xué)習(xí)方法以及傳統(tǒng)多任務(wù)學(xué)習(xí)方法的對比,可以看出,對于小規(guī)模訓(xùn)練數(shù)據(jù)集的情況,采取魯棒多任務(wù)學(xué)習(xí)方法(RMTL)預(yù)測結(jié)果優(yōu)于傳統(tǒng)的單任務(wù)學(xué)習(xí)算法。

同時將魯棒的多任務(wù)學(xué)習(xí)與傳統(tǒng)的基于所有任務(wù)都具有相關(guān)性假設(shè)的多任務(wù)進(jìn)行對比,我們采用最小平方損失和與Lasso范數(shù)進(jìn)行多任務(wù)計算建模[24],其模型為

最終驗(yàn)證魯棒的多任務(wù)學(xué)習(xí)模型性能優(yōu)于Lasso范數(shù)建模的多任務(wù)學(xué)習(xí)模型。

魯棒多任務(wù)學(xué)習(xí)算法主要包括2個重要的參數(shù):ρ1和ρ2,前者用于控制組結(jié)構(gòu)的低秩約束,后者是控制組稀疏約束,針對任務(wù)聚類和異常任務(wù)同時存在的情況設(shè)計。在實(shí)驗(yàn)過程中,經(jīng)過訓(xùn)練得到正則化參數(shù),當(dāng)ρ1=400,ρ2=-20的時候,模型效果最佳,預(yù)測準(zhǔn)確率最高。

圖3是幾種方法的正確率、精確率和召回率的圖形結(jié)果。這是基于新浪微博用戶的數(shù)據(jù),在提取出相同的特征基礎(chǔ)上,進(jìn)行訓(xùn)練的結(jié)果??梢钥闯鲈谡_率、精確率以及召回率上,本文提出的基于魯棒多任務(wù)學(xué)習(xí)預(yù)測新浪微博用戶的大五人格方法優(yōu)于其他幾種方法。魯棒多任務(wù)學(xué)習(xí)方法有效利用5種任務(wù)之間的關(guān)聯(lián)信息,同時避免不相關(guān)信息帶來的干擾,在訓(xùn)練數(shù)據(jù)樣本小的環(huán)境下,提高了模型的預(yù)測性能。

圖3 6種方法比較Fig.3 Comparison among the six methods

3.4 結(jié)果分析

社交網(wǎng)絡(luò)用戶的人格數(shù)據(jù)獲取非常困難,實(shí)驗(yàn)中,基于994名新浪微博用戶的大五人格數(shù)據(jù),提取出微博的靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)以及文本數(shù)據(jù),共114維特征。在訓(xùn)練樣本數(shù)量少,維度低的情況下,使用傳統(tǒng)的單任務(wù)學(xué)習(xí)方法,極易會造成結(jié)果過擬合現(xiàn)象,因此泛化性能不高。同時由于5種任務(wù)之間存在著一定的相關(guān)性,而傳統(tǒng)的單任務(wù)學(xué)習(xí)方法并沒有充分利用其關(guān)聯(lián)信息。多任務(wù)學(xué)習(xí)方法正好彌補(bǔ)了這兩個缺陷。但是多任務(wù)學(xué)習(xí)是基于多個任務(wù)之間都存在相關(guān)這樣很強(qiáng)的假設(shè)前提的,而5類人格預(yù)測任務(wù)之間并不都是存在著很強(qiáng)的相關(guān)性,因此使用一般的多任務(wù)學(xué)習(xí)在并行學(xué)習(xí)5個維度的人格預(yù)測任務(wù)過程中,由于不能識別存在的異常任務(wù),造成預(yù)測結(jié)果不佳。所以使用魯棒的多任務(wù)學(xué)習(xí)方法對新浪微博用戶進(jìn)行大五人格預(yù)測,取得了較高的結(jié)果,既能有效利用任務(wù)之間的相關(guān)信息,又能識別出異常任務(wù),因此提高了模型的泛化性能。

4 結(jié)束語

隨著社交網(wǎng)絡(luò)在現(xiàn)實(shí)生活中的盛行,并且由于社交網(wǎng)絡(luò)中用戶行為數(shù)據(jù)的便于記錄、獲取、存儲與分析,因此將人格理論與社交網(wǎng)絡(luò)相結(jié)合的研究也越來越受到研究者的重視。但是這一方面的研究僅僅出于初步階段,大部分還都是采用單任務(wù)建模的方法,忽略了多個任務(wù)之間的潛在聯(lián)系,因此本文,提出了采用多任務(wù)學(xué)習(xí)的思路預(yù)測社交媒體用戶的人格變量,并通過真實(shí)的新浪微博用戶的數(shù)據(jù)進(jìn)行了驗(yàn)證,同時通過在相同數(shù)據(jù)集上采取傳統(tǒng)的單任務(wù)學(xué)習(xí)方法進(jìn)行比較,實(shí)驗(yàn)證明多任務(wù)學(xué)習(xí)方法的預(yù)測效果更優(yōu)于傳統(tǒng)單任務(wù)方法,也優(yōu)于傳統(tǒng)的假設(shè)所有任務(wù)都相關(guān)的多任務(wù)學(xué)習(xí)方法。

社交網(wǎng)絡(luò)預(yù)測用戶人格研究還存在很大的研究空間,不同的社交網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)的不同,造成了預(yù)測模型的差異,可以在建模過程中合理利用多任務(wù)之間的共享信息,并且在數(shù)據(jù)特征提取方面還需要更進(jìn)一步的研究,本實(shí)驗(yàn)也將會繼續(xù)擴(kuò)大實(shí)驗(yàn)規(guī)模,采集更多的社交網(wǎng)站用戶數(shù)據(jù),比如采集微博的動態(tài)數(shù)據(jù),也就是一些隨著時間變化的數(shù)據(jù)特征,并且考慮提取視頻和圖片信息,同時考慮更多的多任務(wù)學(xué)習(xí)方法,修改預(yù)測模型,更大幅度地提高預(yù)測模型精度及泛化性能。

猜你喜歡
多任務(wù)范數(shù)人格
共產(chǎn)黨人的人格力量
遠(yuǎn)去的平凡背影,光輝的偉大人格
基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
論君子人格的養(yǎng)成
電測與儀表(2016年5期)2016-04-22 01:13:46
一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
未知環(huán)境下基于粒子群優(yōu)化的多任務(wù)聯(lián)盟生成
女性| 三都| 平阳县| 同心县| 融水| 岳西县| 黄梅县| 修水县| 家居| 来凤县| 和林格尔县| 淮南市| 库尔勒市| 鱼台县| 林口县| 德庆县| 金秀| 佳木斯市| 南华县| 明星| 祁门县| 宜黄县| 开阳县| 云梦县| 阿拉善盟| 和政县| 宜良县| 邵东县| 阿拉善右旗| 佳木斯市| 赣榆县| 青海省| 汕尾市| 宿迁市| 商洛市| 临汾市| 泰州市| 濮阳市| 景泰县| 达孜县| 苍溪县|