舒曉敏 馬曉寧
摘 要:傳統(tǒng)的微博用戶人格分析將人格分為五類,但未考慮人格類別之間潛在的關(guān)聯(lián)性。為此基于多標(biāo)簽集成分類方法(RAkEL)進(jìn)行改進(jìn),構(gòu)建RAkEL-PA模型。RAkEL-PA模型使用標(biāo)簽集合中不同的隨機(jī)子集訓(xùn)練相應(yīng)的Label Powerset(LP)分類器,然后集成所有分類結(jié)果作為最終分類結(jié)果。在微博用戶文本消息數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,RAkEL-PA模型的兩個(gè)不同策略對(duì)用戶人格分類準(zhǔn)確率較高。RAkEL-PA模型充分考慮多個(gè)人格之間的相關(guān)性,以提高用戶人格分類魯棒性。
關(guān)鍵詞:大五人格;人格分析;多標(biāo)簽學(xué)習(xí);RAkEL-PA;微博文本
DOI:10. 11907/rjdk. 201356?????????????????????????????????????? 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP303 ??? 文獻(xiàn)標(biāo)識(shí)碼:A?????? 文章編號(hào):1672-7800(2020)011-0025-04
Research on User Personality Analysis Model Based on Weibo Text
SHU Xiao-min,MA Xiao-ning
(College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)
Abstract:Traditional personality analysis of Weibo users divides personality into five categories without considering the potential correlation among personality categories. The multi-label ensemble classification method (RAkEL) is improved to construct the RAkEL-PA model. The RAkEL-PA model uses different random subsets in the label set to train the corresponding Label Powerset (LP) classifier, and then ensembles all the classification results as the final classification result. The effectiveness of RAkEL-PA in personality analysis has been verified experimentally on Weibo users text messages. The experimental results show that the accuracies of the two different strategies of RAkEL-PA are higher for user personality classification. RAkEL-PA fully considers the correlation between multiple personalities and improves the robustness of user personality classification.
Key Words: big-five personality; personality analysis; multi-label learning; RAkEL-PA; Weibo text
0 引言
心理學(xué)把個(gè)體人格研究與社交網(wǎng)絡(luò)結(jié)合,用社交網(wǎng)絡(luò)中用戶行為數(shù)據(jù)對(duì)用戶人格進(jìn)行分析與預(yù)測(cè)[1],如工作績(jī)效預(yù)測(cè)[2]、青少年網(wǎng)絡(luò)成癮誘因分析[3]、抑郁癥預(yù)測(cè)[4]、人格與情緒表達(dá)關(guān)系[5]等,價(jià)值巨大。
文獻(xiàn)[6]統(tǒng)計(jì)地理位置、發(fā)布頻率等移動(dòng)互聯(lián)網(wǎng)用戶特征,將人格分類看作三分類和五分類問題實(shí)驗(yàn);文獻(xiàn)[6,7,8]分別采用新浪微博、Facebook、Twitter和YouTube數(shù)據(jù)集進(jìn)行人格識(shí)別;文獻(xiàn)[9,10]采用二進(jìn)制粒子群算法和半監(jiān)督算法建立社交網(wǎng)絡(luò)用戶人格分析模型;文獻(xiàn)[11]將人格分類問題轉(zhuǎn)化為二分類問題;Rosen等[12]針對(duì)用戶個(gè)體網(wǎng)站內(nèi)容分析用戶人格;Ross等 [13]通過研究用戶數(shù)據(jù)得出外向型與組成成員個(gè)數(shù)關(guān)系密切。
以上方法都是將五維人格看作不相干任務(wù)執(zhí)行,而事實(shí)上五個(gè)維度之間有一定關(guān)聯(lián)[1,6-8,11,14]。本文通過對(duì)多標(biāo)簽集成方法—隨機(jī)k標(biāo)簽集(Random k-LabELsets,RAkEL)[10]進(jìn)行改進(jìn),構(gòu)建基于微博文本的RAkEL-PA(RAkEL-Personality Analysis)模型,綜合考慮五維人格相關(guān)性,彌補(bǔ)前人工作的空白。
1 研究流程
人格模型泛指大五人格模型(Big-Five Model),包括外向性(Extraversion,E)、神經(jīng)質(zhì)(Neuroticism,N)、宜人性(Agreeableness,A)、責(zé)任型(Conscientiousness,C)和開放性(Openness,O)五個(gè)維度[1]。
本文研究流程:①獲取數(shù)據(jù):在微博上發(fā)放大五人格量表問卷,志愿者填寫問卷以及微博userID,采用userID通過爬蟲獲取志愿者微博文本數(shù)據(jù);②特征提?。簭奈⒉┪谋局刑崛∨c人格相關(guān)度高的特征,創(chuàng)建人格分析模型的特征屬性;③建立模型:構(gòu)建RAkEL-PA模型;④評(píng)估模型:采用分類準(zhǔn)確率Accuracy和損失函數(shù)Hammingloss兩個(gè)指標(biāo)進(jìn)行評(píng)估。
2 RAkEL-PA模型構(gòu)建
2.1 數(shù)據(jù)獲取
2.1.1 獲取用戶五維人格得分
在問卷星網(wǎng)站上制作大五人格量表[1]作為調(diào)查問卷。制作5個(gè)分量表,每個(gè)分量表包括5個(gè)選項(xiàng)(非常不符合、不太符合、不確定、比較符合、非常符合)12個(gè)題目,分別記2、4、6、8和10分,其中有題目反向計(jì)分,滿分為100分。將問卷發(fā)放到微博,志愿者填寫問卷,根據(jù)得分標(biāo)注用戶五維人格標(biāo)簽。
2.1.2 微博用戶數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理
利用userID使用Python語言編寫微博爬蟲程序,爬取用戶3個(gè)月微博文本數(shù)據(jù)。刪除僅含圖片、表情等無用數(shù)據(jù)。
2.2 特征提取
本文使用CCPL開發(fā)的中文心理分析系統(tǒng)TextMind[14],產(chǎn)生已驗(yàn)證的76個(gè)微博文本特征[14],如表1所示。另外,表情符號(hào)更能反應(yīng)用戶情緒,所以本文統(tǒng)計(jì)微博消息中含有的表情符號(hào),并統(tǒng)計(jì)每條消息的影響力,如表2所示。
由于特征量化為數(shù)值后差異巨大,必須對(duì)其先歸一化[11]。將每個(gè)特征進(jìn)行[0,1]區(qū)間歸一化,如公式(1)所示。
其中,[f]和[f*]分別為文本特征的原始值和歸一化值,[fmin]和[fmax]分別為所有用戶相應(yīng)特征的最小值和最大值。
2.3 RAkEL-PA模型構(gòu)建
2.3.1 多標(biāo)簽分類方法
多標(biāo)簽學(xué)習(xí)方法主要有算法自適應(yīng)和問題轉(zhuǎn)換方法兩種[15]。前者主要包括支持向量機(jī)[7]和多標(biāo)簽[k]近鄰算法(ML-kNN)[16];后者主要有Binary Relevance(BR)[5]和Label Powerset(LP)。
2.3.2 基于微博文本的RAkEL-PA模型構(gòu)建
LP方法優(yōu)點(diǎn)是考慮標(biāo)簽相關(guān)性,但也存在不足[17],因此將大量標(biāo)簽的集合隨機(jī)分成很多小的標(biāo)簽集,采用LP為每個(gè)小標(biāo)簽集訓(xùn)練多標(biāo)簽分類器,將所有LP分類器決策集成得到RAkEL的最后結(jié)果。本文基于微博文本的用戶人格分析模型,構(gòu)建基于人格分析的不相交子集策略RAkELd-PA和基于人格分析的重疊子集策略RAkELo-PA。
確定RAkELd-PA標(biāo)簽集[k]的大小,將標(biāo)簽集合[L]隨機(jī)分成[m=Mk]個(gè)不相交的[k]標(biāo)簽集[Rj],[j=1,2…m]。用LP學(xué)習(xí)[m]個(gè)多標(biāo)簽分類器[hj],[j=1,2…m]。每個(gè)分類器[hj]學(xué)習(xí)一個(gè)單標(biāo)簽分類任務(wù),包含訓(xùn)練集中所有[Rj]的子集類值。該策略中不同標(biāo)簽集中的標(biāo)簽不相交,所以標(biāo)簽數(shù)越多性能越好[18]。
RAkELd-PA模型訓(xùn)練過程和分類過程分別如圖1和圖2所示。
RAkELo-PA中[Lk]表示[L]中所有不同[k]標(biāo)簽集的集合。[Lk]大小由二項(xiàng)式系數(shù)[Lk=Mk]決定。與RAkELd-PA不同的是,已知標(biāo)簽集[k]的大小以及期望的分類器數(shù)量[m≤Lk],RAkELo-PA通過從[Lk]隨機(jī)采樣選擇[m]個(gè)[k]標(biāo)簽集[Ri],[i=1,2…m]。當(dāng)[mk>M]時(shí)標(biāo)簽集會(huì)重疊。
在RAkELo-PA模型上訓(xùn)練過程和分類過程分別如圖3和圖4所示。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)集和特征提取
本文共收到258份問卷,經(jīng)過篩選(如:每個(gè)問題答案相同)得到有效問卷169份。使用爬蟲得到用戶在微博上的文本消息。利用文心軟件提取文本特征,如表1和表2所示,并進(jìn)行歸一化處理。標(biāo)簽數(shù)[M]為人格的五個(gè)維度。因此標(biāo)簽集界限是[25]=32,而實(shí)際標(biāo)簽集數(shù)量范圍為此邊界的5%~44%[17]。本文標(biāo)注的標(biāo)簽集中有8種標(biāo)簽集出現(xiàn)次數(shù)最多,將集中60%的數(shù)據(jù)作為訓(xùn)練集,其余作為測(cè)試集。
3.2 模型評(píng)價(jià)指標(biāo)
本文使用分類準(zhǔn)確度Accuracy(A)和Hammingloss(H)評(píng)估多標(biāo)簽分類效果。
用[D]表示一個(gè)多標(biāo)簽數(shù)據(jù)集,[D]表示樣本個(gè)數(shù),[xi]表示第[i]個(gè)樣本,[yi?L]表示[xi]的標(biāo)簽集,[i=1,2…D]。本文通過學(xué)習(xí)一個(gè)多標(biāo)簽分類器[h]預(yù)測(cè)實(shí)例[xi]的標(biāo)簽集[zi],即[zi=h(xi)]。
分類準(zhǔn)確度(A)[18]定義如下:
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 RAkELd-PA模型實(shí)驗(yàn)結(jié)果分析
在RAkELd-PA實(shí)驗(yàn)中,標(biāo)簽集[k]取2、3和4。[k]值不同模型數(shù)[m]也不同。
如圖5所示:k=2時(shí),模型的A值最高;k=3和k=4時(shí),A值略低于k=2時(shí),而LP的A值保持不變。原因是同時(shí)具有兩種人格特質(zhì)的人較多。隨著[k]值增大,[m]變小,參與訓(xùn)練的分類器個(gè)數(shù)變少,導(dǎo)致RAkELd-PA性能變差。
如圖6所示:k=2時(shí),模型H值最小;k=3和k=4時(shí),H值略高,可見隨著[k]值增大,H值也在變大,而LP的H值不變。該模型的H最大值和LP的H值接近,說明隨著[k]值接近M,模型性能與LP性能相當(dāng)。
3.3.2 RAkELo-PA模型實(shí)驗(yàn)結(jié)果分析
RAkELo-PA模型使用[k](2~4)的所有有意義值進(jìn)行實(shí)驗(yàn)。在k=2和k=3時(shí),[m]范圍為1~10,k=4時(shí),[m]范圍為1~5。RAkELo-PA模型的分類決策計(jì)算方式采用多數(shù)投票規(guī)則。
如圖7所示:①k=2(同時(shí)具有兩種人格特質(zhì))時(shí),A值在m=8時(shí)最高,與文獻(xiàn)[9]得出的結(jié)論一致,即A和C、C和E、C和O、O和E分別具有很強(qiáng)的相關(guān)性;②k=3時(shí),A值在m=8時(shí)最高,文獻(xiàn)[11]也表明,C、A、E,E、C、O,O、A、C分別有強(qiáng)相關(guān)性;③k=4時(shí),A值在m=4時(shí)最高,與k=2和k=3相比,同時(shí)具有4種人格特質(zhì)的人相對(duì)較少,所以A值略低于k=2和k=3時(shí)的A值,而LP的A值不隨[m]和[k]的改變而改變。
如圖8所示:隨著[m]值增大,模型的H值在減小。k=2,m=7、8、9時(shí),H值最小;k=3,m=8時(shí),H值最小;k=4,m=3時(shí),H值最小。LP分類器的H值不隨[m]和[k]的改變而改變??梢钥闯觯P偷腍值均比LP小,說明該模型性能比LP好。
4 結(jié)語
針對(duì)傳統(tǒng)人格分析方法未考慮五個(gè)人格維度之間的潛在相關(guān)性導(dǎo)致個(gè)體人格分類準(zhǔn)確率較低問題,提出RAkEL的改進(jìn)模型RAkEL-PA實(shí)現(xiàn)個(gè)體人格分類。實(shí)驗(yàn)結(jié)果表明,具有雙重人格特質(zhì)和三重人格特質(zhì)的人較多,說明五維人格之間存在依賴性。該模型考慮了五維人格之間的相關(guān)性,提高了微博用戶人格分類的準(zhǔn)確率,從而驗(yàn)證了RAkEL-PA模型對(duì)人格分類的有效性。后續(xù)考慮獲取更多微博用戶數(shù)據(jù),在更大數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以進(jìn)一步驗(yàn)證該模型的有效性。
參考文獻(xiàn):
[1] 張磊,陳貞翔,楊波. 社交網(wǎng)絡(luò)用戶的人格分析與預(yù)測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào),2014,37(8):1877-1894.
[2] JUDGE T A, ZAPATA C P. The person–situation debate revisited: effect of situation strength and trait activation on the validity of the big five personality traits in predicting job performance[J].? Academy of Management Journal, 2015, 58(4): 1149-1179.
[3] ZHOU Y, LI D, LI X, et al. Big five personality and adolescent internet addiction: the mediating role of coping style[J].? Addictive behaviors, 2017, 64(8): 42-48.
[4] ALLEN T A, CAREY B E, MCBRIDE C, et al. Big five aspects of personality interact to predict depression[J].? Journal of? personality, 2018, 86(4): 714-725.
[5] 劉真亦.? 不同人格傾向微博用戶的情緒表達(dá)分析[D]. 杭州:浙江大學(xué),2019.
[6] 孫啟翔. 基于移動(dòng)互聯(lián)網(wǎng)社交行為的用戶性格分析和預(yù)測(cè)[D]. 北京:北京理工大學(xué),2016.
[7] FARNADI G,SITARAMAN G,SUSHMITA S,et al. Computational personality recognition in social media[J]. User Modeling and User-Adapted Interaction, 2016, 26(2-3): 109-142.
[8] 楊潔. 基于用戶情感和網(wǎng)絡(luò)關(guān)系分析的人格預(yù)測(cè)模型[D]. 上海:東華大學(xué),2016.
[9] 毛雨. 基于社交網(wǎng)絡(luò)的用戶人格分析研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2019.
[10] 鄭赫慈. 網(wǎng)絡(luò)空間中人格分析的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2019.
[11] XUE D, HONG Z, GUO S, et al. Personality recognition on social media with label distribution learning[J].? IEEE Access, 2017, 5(142): 13478-13488.
[12] ROSEN P A, KLUEMEPER D H. The impact of the big five personality traits on the acceptance of social networking website[C]. AMCIS 2008 proceedings: AMCIS, 2008: 223-229.
[13] ROSS C, ORR E S, SISIC M, et al. Personality and motivations associated with facebook use [J].? Computers in Human Behavior, 2009, 25(2): 578-586.
[14] LIMA A C E S, DE CASTRO L N.? A multi-label, semi-supervised classification approach applied to personality prediction in social media[J].? Neural Networks, 2014, 58(12): 122-130.
[15] BAI S, HAO B, LI A, et al. Predicting big five personality traits of microblog users[C]. Proceedings of the 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 01. IEEE Computer Society, 2013: 501-508.
[16] ZHANG M L, ZHOU Z H.? ML-KNN: a lazy learning approach to multi-label learning[J].? Pattern Recognition, 2007, 40(7): 2038-2048.
[17] TSOUMAKAS G,KATAKIS I, VLAHAVAS I.? Random k-labelsets for multilabel classification[J].? IEEE Transactions on Knowledge & Data Engineering, 2011, 23(7): 1079-1089.
[18] TSOUMAKAS G, VLAHAVAS I. Random k-labelsets: an ensemble method for multilabel classification[C]. European conference on machine learning, Springer, Berlin, Heidelberg, 2007: 406-417.
(責(zé)任編輯:杜能鋼)
收稿日期:2020-04-11
基金項(xiàng)目:中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(3122014C018);中國(guó)民航大學(xué)科研啟動(dòng)基金項(xiàng)目(09QD02X)
作者簡(jiǎn)介:舒曉敏(1992-),女,中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)檩浨榉治?、文本分析、機(jī)器學(xué)習(xí);馬曉寧(1979-),男,博士,中國(guó)民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)樾畔踩?、網(wǎng)絡(luò)輿情分析、機(jī)器學(xué)習(xí)、文本分析。本文通訊作者:舒曉敏。