朱宇
(四川大學計算機學院,成都 610065)
基于社交文本的人格研究綜述
朱宇
(四川大學計算機學院,成都 610065)
隨著計算機網(wǎng)絡技術的飛速發(fā)展和社交媒體工具的普及,人們越來越頻繁地在社交網(wǎng)絡上利用文本信息進行自我表達和展現(xiàn),這些信息對人們的人格分析有著很大的研究價值。通過這種研究,可以更好地促進人們對自己心理健康的認識和維護,也可以促進服務商為人們提供更準確、個性化的服務。故從相關的研究基礎、主流方法、研究現(xiàn)狀及不足三個方面對基于社交文本的人格分析研究進行綜合闡述和總結。
社交網(wǎng)絡;文本分析;人格分析;分類模型
社交網(wǎng)絡已成為人們生活的一部分,并且在和人們相互影響的基礎上飛速發(fā)展,因此,探求人和社交網(wǎng)絡之間的聯(lián)系,越來越受到業(yè)界的關注?!叭烁瘛北闶锹?lián)系人和社交網(wǎng)絡的重要因素之一,因為人格對于一個人來說,是相比于商品喜好、個人信息更為深入的認知,例如,我們可以通過一個人在社交網(wǎng)絡上體現(xiàn)的人格,推斷出這個人的根本的喜好范圍、與他人的個性相似度,從而給出更為精確的推薦。
人格不能被直接觀測到,而要通過有效、明確的行為指示器(如行為樣本)來測量。所以,人格測試的結果由與人格相關的行為指示器的測量方法確定。自我陳述技術是目前最廣泛使用的方法,然而它有著明顯的參與者召集問題和資源的消耗問題。而由于社交網(wǎng)絡的巨大普及性,人們在社交網(wǎng)絡平臺上進行大量的自我展現(xiàn),我們便可以通過獲取用戶的社交網(wǎng)絡平臺上展現(xiàn)出的各種文本信息去研究他們的人格特質(zhì)。
1.1 人格與人格特質(zhì)
人格心理學是為心理學的分支之一,它可以被簡
單定義為:是一門研究一個人特有行為模式的心理學。人格譯自于“Personality”一詞,也被譯作“性格”,心理學界把它譯作“人格”。不過“人格”卻不單包括傳統(tǒng)意義上的性格,它還包括價值觀、態(tài)度、個人記憶、社會關系、習慣和技能等。準確來說,“人格”可定義為一個人擁有一致性的行為特征的集合。人格的組成特征因人而異,因此每個人都有其帶來的獨特性,正是獨特性使不同人面對同一情況下可能有不同的反應。人格可以用人格特質(zhì)理論進行描述和分析。術語“人格特質(zhì)”,代表了個體和個體之間表現(xiàn)出的差異,這種差異又反映了個體間人格的差異。人格特質(zhì)是以連續(xù)性的度量出現(xiàn)的,例如,每個人都擁有著真誠的人格特質(zhì)(本質(zhì)相同),但在該特質(zhì)上體現(xiàn)的程度卻因人而異(在量上有差異)[1]。
1.2 人格與文本的關系
大多數(shù)的人格特質(zhì)名稱都會被編碼到自然語言中去,這是從自然語言中尋找人格特質(zhì)的基本設想。具體講,自然語言中包含了這一語言使用者的人格維度[2]。美國心理學家Alloport和Odbert[3]從1926年版的《韋氏國際字典》中挑出了17953個“能區(qū)分人類行為差異”的術語。他們把所選出的詞分為:能清楚表示真正人格特質(zhì)的術語,對人格特點進行評價的詞,描述人目前活動、心理和心境暫時狀態(tài)的術語,以及不能歸為上述三組的詞。此后Norman[4]也進行了類似工作,并將挑出的詞分為三組:描述穩(wěn)定特質(zhì)的,描述暫時狀態(tài)的,以及描述社會角色、社會關系和社會效應的術語。此后近40年中,眾多心理學家采用上述兩個詞表對人格特質(zhì)維度進行了研究,并引發(fā)了“人格心理學中的一場靜悄悄的革命”[5]。Tupes和Christal[6]在這之后提出了“大五”人格維度模型,并得到很多心理學家的驗證。研究者發(fā)現(xiàn),該模型中的五個人格特質(zhì),可以涵蓋人格描述的所有方面。具體來說,這五種人格特質(zhì)可以分別用以下五對形容詞描述:外向的-內(nèi)向的、隨和的-強硬的、自律的-散漫的、神經(jīng)質(zhì)的-情緒穩(wěn)定的、思想開放的-保守的?!按笪濉比烁衲P徒?jīng)過眾多學者的研究發(fā)展和使用,已被認為是最可靠、最主流的人格模型[7]。
傳統(tǒng)文本人格分析方法為,在人格特質(zhì)模型的基礎上,使用傳統(tǒng)的自然語言處理方法并結合文本分類算法進行研究,本節(jié)主要介紹目前主流研究的方法流程。
2.1 文本預處理
文本預處理主要是為了從文本樣本數(shù)據(jù)中提取出規(guī)范、有價值的內(nèi)容,避免不相關或者屬于噪聲的信息對分析結果帶來的負面影響。與文本人格分析相關的文本預處理的方法主要有:分詞處理——將那些語言中沒有分隔符(如英語中的空格)的文本(如中文、日文和韓文)中的文字和標點按照相應的語法和特定語義規(guī)則進行切分,得到一些單詞或詞組作為句子的基本特征用于人格分析;停用詞(Stopword)處理——過濾掉那些語言中出現(xiàn)頻率很高,但同其他詞語而言,幾乎沒有實際含義的功能詞(例如英語中的“is”、“a”、“the”,漢語中的 “的”、“那個”);文本的規(guī)范化——刪去文本數(shù)據(jù)中可能含有的與內(nèi)容無關的字符 (如html標記),規(guī)范化一些語言中可能存在的半角、全角的編碼不一致問題。
2.2 文本表示
用于分析處理的文本數(shù)據(jù)都是非結構化的,所以需要通過一些文本的表示方法,將這種非結構化的數(shù)據(jù)轉(zhuǎn)化為結構化數(shù)據(jù),讓計算機能夠直接處理。目前,與本文相關的常用的文本方式有兩種:
(1)布爾模型。假設有文本D,由詞語t1t2t3…tn組成。按照布爾模型[8],文本D可由1×n維向量表示,dJ=(t1j,t2j,t3j,…,tnj),其中,若第 i個詞語 ti在文本 dj中出現(xiàn),則tij的值為1,否則為0。然而,這種表示方法只能提供一些文本中最基本的語義信息,它只能表示詞語在文本中是否出現(xiàn),但無法提供出現(xiàn)次數(shù)甚至詞語的語義權重等信息。
(2)向量空間模型。向量空間模型解決了布爾模型的問題,在向量空間模型中,上述文本D的向量與布爾向量相似,可表示為 dJ=(w1j,w2j,w3j,…,wnj),其中,wij的值為實數(shù),表示對應的詞語ti在文本dj中的權重。權重的計算方式有多種方式:布爾法、詞頻法和TF-IDF法等[8-10]。向量空間模型由Salton等人[9]提出,讓文本和詞語之間的關系遵循基于語法、上下文信息等設計出的權重規(guī)則。這樣,根據(jù)文本向量之間的距離來獲得文本的相似性,就可以得到文本特征之間的相關性,從而提高語義分析的準確度。
2.3 特征提取和選擇
經(jīng)過文本預處理、文本結構化等步驟后,我們會得到一個含有大量與語義相關和不相關的文本表示,這是一個高維稀疏的特征空間,若不作處理,它將為文本分析在訓練、分類或預測過程中帶來巨大的計算量。而且在這些特征中,有很多特征往往與人格分析沒有太多相關性,甚至會帶來噪聲、對模型的分類預測性能造成嚴重影響。特征提取和選擇則能從這些高維的特征集合中,選取與人格分析目標高相關的一部分特征作為分類特征,作為最能代表文本所體現(xiàn)人格特質(zhì)的特征子集合。目前主流的特征提取和選擇方式有兩種:結合人工構造的人格詞典,采用DF(文檔頻率)、TF-IDF等方法[13-16];通過 N-Gram語言模型獲得適合進行下一步分類學習所需要的特征集合[17-19]。
2.4 常用分類模型
(1)樸素貝葉斯分類。樸素貝葉斯分類方法(Na?ve Bayes Classifier)[11]基于這種獨立假設:文本中每個特征都是獨立的,與其他特征都不相關。在這種假設的基礎上,算法通過貝葉斯公式計算出文本中每個特征屬于該類別的概率。模型參數(shù)估計使用最大似然估計。其優(yōu)勢在于只需要少量訓練文本就可以估計出必要的參數(shù),且訓練速度較快,現(xiàn)實應用的準確率和效率都不差。其缺點在于,由于其特征獨立的假設,忽略了文本特征之間的相似度。
(2)支持向量機。支持向量機(Support Vector Machine,SVM)[12]的核心思想是,利用核函數(shù)將特征向量從低維空間映射到高維空間,然后根據(jù)概率統(tǒng)計構造一個或多個超平面,用于分類任務。這些超平面會被放置在使接近該超平面的兩類向量的距離最遠的位置,完成分類過程,而這些向量被稱為支持向量。一般來說,支持向量與該超平面距離越遠,分類的效果越好。支持向量機方法主要用于解決二分類問題,后來被改進用于解決多分類問題。
目前,利用文本分析人格特質(zhì)的研究,主要分為基于詞典和基于語言模型兩種方法。
3.1 基于詞典的研究
基于詞典的研究主要借助人工構建的詞典進行。文獻[13][14]主要使用的詞典為LIWC(語言查詢和詞語計數(shù)工具)詞典和MRC(醫(yī)學研究委員會)所提供的詞典對文本進行人格相關的特征提取。其采用的人格量表是NEO-FFI(一種60題的大五人格量表)。該研究將詞語按語法分為功能詞、聚合詞、評估詞、評價詞四種類別,并將文本用不同類別的詞語在相應集合組中出現(xiàn)的相對頻率組成的向量來表示,并用SVM進行預測分類。文獻[15]采用了兩種方法進行研究及比較:方法一為關鍵詞匯預測法,首先獲取相關研究中總結的人格詞典并利用WordNet擴充該詞典,然后用TF-IDF結合詞袋模型進行文本的分析;方法二為變型的貝葉斯方法,結合由問卷得到的用戶實際人格得分進行機器學習進行分析,并將學習過程中獲得的高相關性詞匯作為方法一詞典的擴充。文獻[16]的方法為結合大五模型理論獲取詞典SC-LIWC中每個詞項對應的性格因素值,通過查詢獲取微博文本中詞項對應的性格因素值,并基于LDA模型分析微博文本中蘊含的用戶性格。
這類研究的不足之處在于,對文本的語義研究建立在人工所構建詞典的基礎上,通過對文本中詞語的類型決定該詞語對不同人格特質(zhì)的貢獻。這樣在分析中,僅僅對文中的詞語以割裂的方式單獨進行分析,忽略了詞語在句子中與前后詞語的聯(lián)系。這種聯(lián)系不僅僅會造成語義分析的偏差,甚至起到相反的分析效果。例如,在文本表達中,“我有信心”和“我很有信心”所表達的意思雖相近,但程度由明顯差別,而“我有信心”和“我沒有信心”則完全是相反的意思。然而,這兩種情況在上述分析中,因為只考慮“信心”在句中的出現(xiàn)次數(shù),模型在分析時無法體現(xiàn)這三個句子意思的差別,造成很大的誤差。
3.2 基于語言模型的研究
基于語言模型的研究則主要是基于N-Gram語言模型。文獻[17][18]在用N-Gram方法建立語言模型、獲得特征后,通過頻率、實際人格得分區(qū)分度、離群程度、置信度四個標準對特征進行篩選。然后使用SVM和貝葉斯模型分別進行了建模和相互比較,此外還比較了對人格得分不同的群體區(qū)分方法下的分類準確率。文獻[19]則在當時相關研究的基礎上,側(cè)重于從文本的句法特征入手研究作者的人格。研究使用N-Gram語言模型,抽取了文本句子中的名詞短語、主語、賓語以及其它語法關系作為句法特征進行建模。
這類研究的不足之處在于,由于N-Gram語言模型是根據(jù)相互之間沒有任何遺傳屬性的離散單元詞而構建,從而不具備連續(xù)空間中的語義記錄,當系統(tǒng)模型針對某一詞語或詞序列調(diào)整參數(shù)時,相似意義的詞語和詞序列也會發(fā)生改變,這就一定程度上造成了上述研究中模型的不可重復性和不精確性。另外,這一方法在需要相當規(guī)模的已標注數(shù)據(jù)的同時,對比傳統(tǒng)語義分析的方法而言準確率也沒有顯著優(yōu)勢。
人格作為一個表示個體根本差異的重要心理學概念,具有對個體特質(zhì)的全面描述和對個體行為很強的預測作用。人格有著很大的研究價值,可以讓人們更好地了解自我、心理醫(yī)生更好地了解病人、服務商能夠為客戶提供更為個性化、高效的服務等。由于人格特質(zhì)是研究人格的重要工具,而人格特質(zhì)在語言中的表現(xiàn)非常明顯,研究者們越來越傾向于使用人們在社交網(wǎng)絡中發(fā)布的文本信息進行對人格的研究分析。本文從相關研究基礎、主流方法、研究現(xiàn)狀及不足三個方面對這類研究進行了綜合闡述??梢钥吹?,隨著社交網(wǎng)絡和機器學習技術的飛速發(fā)展,基于社交網(wǎng)絡文本的人格分析盡管有著很多問題和挑戰(zhàn),但同時也有著巨大的價值和廣闊的前景。
參考文獻:
[1]許燕.人格心理學[M].開明出版社,2012.
[2]王登峰,方林,左衍濤.中國人人格的詞匯研究[J].心理學報,1995,24(4):400-406.
[3]Allport G W,Odbert H S.Trait Names:A Psycho-Lexical Study[J].Psychological Monographs,1936,41(1,whole No.211).
[4]Norman W T.2800 Personality Trait Descriptors:Normative Operating Characteristics for A University Population[R].Ann Arbor:Department Of Psychology,University of Michigan,1967.
[5]Goldberg L R.The Development of Markers for the Big-Five Factor Structure[J].Psychological Assessment,1992,4(1):26-42.
[6]Tupes E C,Christal R C.Recurrent Personality Factors Based on Trait Ratings[M].(Tech.Rep.No.ASDTR-61-97).Lackland Air Force Base,TX,U.S.Air Force,1961.
[7]張磊,陳貞翔,楊波.社交網(wǎng)絡用戶的人格分析與預測[J].計算機學報,2014,37(8):1877-1894.
[8]Chang K C,Garcia-Molina H,Paepcke A.Boolean Query Mapping Across Heterogeneous Information Sources[J].Knowledge and Data Engineering,IEEE Transactions on,1996,8(4):515-521.
[9]Salton G,Fox E A,Wu H.Extended Boolean Information Retrieval[J].Communications of the ACM,1983,26(11):1022-1036.
[10]Lee J H.Properties of Extended Boolean Models in Information Retrieval[C].Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Springer-Verlag New York,Inc.1994:182-190.
[11]Rish I.An Empirical Study of the Naive Bayes Classifier[C].IJCAI 2001 Workshop on Empirical Methods In Artificial Intelligence. Vol 3.2001:41-46.
[12]Suykens J A,Vandewalle J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[13]S.Argamon,S.Dhawle,M.Koppel,J.Pennbaker.Lexical Predictors Of Personality Type.In Proc.Joint Annu.Meeting Interface Classification Soc.North Amer.,2005.
[14]F.Mairesse,M.A.Walker,M.R.Mehl,R.K.Moore.Using Linguistic Cues for the Automatic Recognition of Personality In Conversation And Text.J.Artif.Intell.Res.,Vol.30,pp.457-500,2007.
[15]張曉珍,運用文字探勘技術在社群行為上之人格預測,臺灣國立交通大學,2013.
[16]湯文清,微博用戶的興趣及性格分析,上海大學,2015.
[17]J.Oberlander,S.Nowson.Whose Thumb Is It Anyway?Classifying Author Personality from Weblog Text.In Proc.Annu.Meeting Assoc.Comput.Linguistics,2006,pp.627-634.288 IEEE Transactions On Affective Computing,VOL.5,NO.3,July-September 2014
[18]S.Nowson,J.Oberlander.Identifying More Bloggers:Towards Large-Scale.In Proc.Int.Conf.Weblogs Social Media,2007.
[19]K.Luyckx,W.Daelemans.Using Syntactic Features To Predict Author Personality From Text.In Proc.Digit.Humanities,2008,pp. 146-149.
Survey of Personality Research Based on Social Text
ZHU Yu
(College of Computer Science,Sichuan University,Chengdu 610065)
With the rapid development of computer network technology and the popularization of social media tools,more and more people use the text information to express themselves on social network.This information has great value in the research on personality analysis.This research can better promote people′s understanding and maintenance of their mental health and can promote service providers to provide more accurate,personalized service.Therefore,carries out a summary of the social text based on the personality analysis with the three aspects,related research foundation,mainstream methods,research status and the problems.
Social Network;Text Analysis;Personality Analysis;Classification Model
1007-1423(2017)09-0061-04
10.3969/j.issn.1007-1423.2017.09.016
朱宇(1988-),男,四川簡陽人,碩士,研究方向為人機交互
2017-02-15
2017-03-20