国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時代心理學(xué)文本分析技術(shù)
——“主題模型”的應(yīng)用*

2018-05-14 05:54任志洪林秀彬升賴麗足江光榮
心理科學(xué)進展 2018年5期
關(guān)鍵詞:心理學(xué)編碼文本

曹 奔 夏 勉 任志洪 林秀彬 徐 升賴麗足 王 琪 江光榮

(1華中師范大學(xué)心理學(xué)院暨湖北省人的發(fā)展與心理健康重點實驗室,青少年網(wǎng)絡(luò)心理與行為教育部重點實驗室,武漢 430079)

(2福州大學(xué)應(yīng)用心理學(xué)系,福州 350108)

(3 Department of Counseling Psychology,University of Wisconsin-Madison,Wisconsin 53703,USA)

人的語言活動包含復(fù)雜的心理過程,并且語言也參與諸如知覺、記憶和思維等許多復(fù)雜的心理活動(王甦,汪圣安,2006),因此詞匯和語言是人們將自己的內(nèi)心想法和情感轉(zhuǎn)化成其他人能理解的內(nèi)容最普遍且可靠的方式,是認知、人格、臨床和社會心理學(xué)家試圖了解人類的重要媒介(Tausczik &Pennebaker,2010)。通過語言文字研究人類的心理活動,伴隨著心理學(xué)發(fā)展的整個過程。

但利用傳統(tǒng)方法對大文本進行研究面臨困境,需要新的研究手段。比如,長期以來心理咨詢領(lǐng)域積累的大量咨詢逐字稿文本沒有被利用(Greenberg&Newman,1996),從上世紀40年代羅杰斯第一次對心理咨詢過程進行錄音以來,對心理咨詢評估的方法就沒有什么改變(Weusthoff et al.,2016)。此外,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們在社交網(wǎng)絡(luò)中發(fā)表了大量包含各種思想、情感、觀點的文本信息,這些文本包含著豐富的心理學(xué)含義(樂國安,董穎紅,陳浩,賴凱聲,2013)。面對大規(guī)模富含研究價值的文本數(shù)據(jù),使用傳統(tǒng)的心理學(xué)研究處理方法將帶來巨大的人力與時間消耗(朱廷劭,2016)??上驳氖?隨著計算機文本挖掘技術(shù)及其與統(tǒng)計技術(shù)的結(jié)合,所發(fā)展的計算機化文本分析技術(shù)(Computerized Text Analysis)為研究者提供了新的文本研究工具,使得大規(guī)模的文本數(shù)據(jù)研究變得可行(Graesser,McNamara,&Kulikowich,2011;Tausczik&Pennebaker,2010)。

“主題模型” (Topic Model)是計算機化文本分析的重要方法之一,也被稱為隱含的狄利克雷分布(Latent Dirichlet Allocation,LDA;Blei,Ng,&Jordan,2003;Griffiths,Steyver &Griffiths,2007),由于對大文本具有強大的分析與建模能力,目前在計算機科學(xué)、語言學(xué)、管理科學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,在心理學(xué)領(lǐng)域也有諸多的研究與應(yīng)用(Kosinski,Wang,Lakkaraju,&Leskovec,2016;Lee et al.,2017)。本文在對主題模型的原理進行闡述的基礎(chǔ)上,對國內(nèi)外心理學(xué)領(lǐng)域利用主題模型開展的研究及其局限進行系統(tǒng)梳理,并對未來的研究方向作展望。

1 主題模型

1.1 主題模型的發(fā)展

計算機化文本分析主要基于兩個層面,第一個層面是基于詞頻統(tǒng)計與情感傾向分析對文本特征進行提取,這種分析方法的思想認為人的詞語語言的使用是其特質(zhì)和心理過程的反映,通過對詞語的量化統(tǒng)計來探索語言詞語的使用和心理過程之間的關(guān)系。目前在心理學(xué)領(lǐng)域應(yīng)用較廣的是Pennebaker等人在上世紀 90年代開發(fā)的“語言探索與字詞計數(shù)”軟件(Linguistic Inquiry and Word Count,LIWC;Pennebaker,Chung,Ireland,Gonzales,&Booth,2007),LIWC在人格特征、注意指向、思維方式、親密關(guān)系、社會關(guān)系、情緒與心理健康等眾多研究領(lǐng)域有著大量的應(yīng)用(Tausczik &Pennebaker,2010)。參照LIWC和我國臺灣學(xué)者編制的能夠處理繁體中文文本的CLIWC,國內(nèi)研究者高銳等人(2013)開發(fā)了“文心” (TextMind)中文語義分析系統(tǒng),其詞庫、文字和符號等處理方法專門針對簡體中文語境,詞庫分類體系也與LIWC兼容一致(朱廷劭,2016)。雖然基于詞頻統(tǒng)計和情感傾向的文本分析方法取得了很多成果,但是以心理詞典為基礎(chǔ)的文本分析只是在處理詞語的階段,對文本的分析也只能受限于詞典所創(chuàng)建的詞匯類別,并且詞典也無法理解語境、反話、同義詞對于語義的影響,更無法從句子、段落等更高的意義單元來理解文本(Pennebaker,Mehl,&Niederhoffer,2003;Imel,Steyvers,&Atkin,2015)。

為了從更高的意義單元理解文本,獲取準確的語義信息,需要結(jié)合文本背景信息探索文本語義結(jié)構(gòu),這也是計算機化文本分析的第二個層面,這種方法源于Deerwester,Dumais,Furnas,Landauer和Harshman (1990)提出潛在語義分析(Latent Semantic Analysis,LSA),該方法認為可以從整個語言的統(tǒng)計分布中學(xué)習(xí)單詞的含義,并提出了類似于“主題”的“人工概念” (artificial concept)。目前 LSA 在心理學(xué)領(lǐng)域有諸多應(yīng)用,例如它是語義空間研究的主要方法之一(魯忠義,孫錦繡,2007),但由于一個詞語只能屬于一個人工概念,LSA無法解決“一詞多義”的問題(Deerwester et al.,1990;Abdi &Williams,2010)。并且LSA提取的人工概念可理解性較差,最為重要的是LSA無法加入文本元數(shù)據(jù)(作者信息、文本發(fā)表時間、學(xué)術(shù)論文間的引用、論文發(fā)表會議名稱等)和領(lǐng)域知識(其他文本研究領(lǐng)域的研究成果,如人工定義的語義概念的層次結(jié)構(gòu)),這就使得LSA的靈活性差,應(yīng)用范圍相對狹小(丁軼群,2010)。

第一個真正意義上的主題模型是概率性潛在語義分析(Probabilistic Latent Semantic Analysis/Indexing,PLSA/PLSI;Hofmann,1999),它借鑒了LSA方法的長處,并且LSA的三個問題在PLSA中都得到了解決,PLSA圖模型圖1所示。

圖1 PLSA示意圖

圖中的白色圓圈代表隱藏著的隨機變量,一般是指主題等潛在語義結(jié)構(gòu),灰色的圓圈代表我們可觀測到的文本,M代表文檔數(shù),N代表文檔的長度,d代表文檔,z代表隱含的主題,w代表單詞,在PLSA中文本生成過程如下:

(1)隨機選擇一個文檔d~p (d);

(2)根據(jù)p (z|d)選擇一個隱含的主題;

(3)根據(jù)主題選擇w~p (w|z),直至文檔中所有單詞重復(fù)上述過程。

由于 PLSA模型中單詞可以以概率的形式在多個主題中存在,所以一詞多義的問題得到了解決(Hofmann,1999)。此外PLSA以貝葉斯網(wǎng)絡(luò)為理論基礎(chǔ),元數(shù)據(jù)和領(lǐng)域知識可以作為額外的隨機變量添加至模型中,并且 PLSA提取的主題比人工概念更容易理解(Cohn &Hofmann,2001)。但由于在PLSA中隱含的主題中p (z|d)的參數(shù)沒有生成的方法,而是直接以模型參數(shù)的方式表達,所以PLSA 并沒有被認為是完整的概率性文本生成模型(徐戈,王厚峰,2011)。直至 Blei,Ng和Jordan (2003)提出隱含的狄利克雷分布(Latent Dirichlet Allocation,LDA),第一個完整的概率性語義生成模型正式出現(xiàn),現(xiàn)在主題模型一般都指LDA模型。

1.2 主題模型的含義

LDA模型通常也被稱為語義模型(Semantic Model),以及在LDA模型基礎(chǔ)上的擴展模型。它是利用無監(jiān)督的機器學(xué)習(xí)(Unsupervised learning)程序在一系列文檔中發(fā)現(xiàn)隱含語義結(jié)構(gòu)的一種統(tǒng)計模型,隱含語義結(jié)構(gòu)由一組相關(guān)的主題構(gòu)成,而文本以概率抽樣的方式從該潛在語義結(jié)構(gòu)中生成(Blei et al.,2003;Griffiths et al.,2007)。LDA 模型可以用貝葉斯網(wǎng)絡(luò)進行表達,具體如圖2所示。

圖2 LDA模型示意圖

圖中圓圈的含義與圖1相同,φ代表主題k中詞項的概率分布,θd代表文檔 d的主題概率分布,兩者還作為多項式分布的參數(shù)分別生成主題和單詞。M代表文檔數(shù),N代表文檔的長度,K代表主題數(shù)。wd,n代表第d篇文檔中的第n個單詞,zd,n代表第d篇文檔中的第n個主題。α和β是狄利克雷分布的參數(shù)。文本由抽樣的方式從LDA模型生成,文本集合D中長度為N的某文本d生成過程如下:

(1)從泊松分布Poisson (ξ)隨機抽樣長度為N的文檔d,

(2)從狄利克雷分布 Dirichlet(α) 中抽樣文本和各主題之間的聯(lián)系θd,

(3)對文本d中的每一個單詞wd,n∈,n{1,2,…,Nd}依次進行如下操作:

a 從多項分布Multinomial (θd)抽樣單詞wd,n的主題zd,n;

b 從多項分布 Multinomial (wd,n|zd,n,φ)中抽取單詞wd,n。

可以看出在文本生成之前會有一個表示文本和主題關(guān)系的θd先生成,它是一個代表K個主題的K維向量,其中的元素值之和為1,每個元素值表示該主題在文本中出現(xiàn)的概率,接著是文本中單詞wd,n的生成,先抽取單詞wd,n所屬的主題zd,n,然后再從該主題中抽取單詞 zd,n,然后重復(fù)以上過程直至抽取文檔中的所有單詞。主題模型的參數(shù)有多種估計方法,如變分貝葉斯推斷(Variational Bayesian Inference,VB;Blei,Ng,&Jordan,2003),目前最常用的方法是Gibbs抽樣法。

1.3 主題模型的優(yōu)點

1.3.1 突出的數(shù)據(jù)降維能力

有效的計算機化文本分析技術(shù)需要能夠?qū)ξ谋具M行高質(zhì)量的降維,LDA是常用的降低大數(shù)據(jù)集維數(shù)的方法之一,其他的降低數(shù)據(jù)維數(shù)的方法還包含主成分分析(Principal Component Analysis,PCA)以及奇異值分解(Singular Value Decomposition,SVD)等(Kosinski,Matz,Gosling,Popov,&Stillwell,2015;Park et al.,2015)。由于大數(shù)據(jù)集中通常存在著比用戶數(shù)更多的變量,在這種情況下減少數(shù)據(jù)的維度就顯得十分的必要,因為大多數(shù)統(tǒng)計分析要求變量數(shù)小于樣本量,并且即使是樣本量大于變量的情況,降低數(shù)據(jù)維度會降低數(shù)據(jù)過度擬合的風(fēng)險,提高統(tǒng)計檢驗力;其次,通過對數(shù)據(jù)進行分組,可以消除數(shù)據(jù)中的多重共線性和冗余(redundancy)問題;第三,一個小的維度或集群的數(shù)據(jù),比成百上千的獨立變量更容易對問題進行解釋;最后,降低維度數(shù)能夠減少進一步分析所占用的內(nèi)存以及計算時間(Kosinski et al.,2016)。另外和 PLSA模型一樣,主題模型解決了一詞多義的問題,并且對數(shù)據(jù)的降維也自動解決了多詞一義的問題。

1.3.2 靈活的模型擴展能力

由于主題模型以貝葉斯網(wǎng)絡(luò)為理論基礎(chǔ),因此元數(shù)據(jù)和領(lǐng)域知識可以作為額外的隨機變量添加至模型中,也能夠把不同的主題模型合并形成一個新的主題模型(丁軼群,2010)。自第一個LDA模型提出來以后,眾多研究人員根據(jù)不同研究的需要,在主題模型中成功加入了各種元數(shù)據(jù)信息從而構(gòu)建出了不同的主題模型,如相關(guān)主題模型(Blei &Lafferty,2005)、時間主題模型(Wang,Blei,&Heckerman,2012)等,這些擴展模型極大的豐富了主題模型的應(yīng)用范圍。

另外研究人員通過在 LDA模型中加入單詞之間的關(guān)系、語法知識等信息,在一定程度上能夠克服詞袋模型(bag of words)帶來的問題。詞袋模型將文本看作是獨立詞語的集合,而不考慮詞語出現(xiàn)的順序,也不考慮文本的句法和語義信息,雖然極大的提高了文本分析的效率,但是也存在明顯的缺陷,因為詞匯的分布順序、詞的結(jié)構(gòu)以及語法信息都會影響對詞匯含義的理解(Wallach,2006)。將這些詞匯信息加入到主題模型能夠幫助我們獲取更準確的語義。例如 Andrews和 Vigliocco(2010)提出隱含馬爾科夫主題模型(Hidden Markov Topic Model,HMTM),通過關(guān)注句子之間順序和一般語法關(guān)系,從語言中獲取語法和語義相關(guān)性,從而對語義做出更為有效的推斷。Body-Graber和 Blei (2009)將語法樹結(jié)構(gòu)加入到主題模型中構(gòu)建了語法主題模型(Syntactic Topic Models,STM)。雖然不同的擴展模型之間存在差異,但它們都應(yīng)用于文本主題識別以及文本主題之間關(guān)系的研究(丁軼群,2010)。

總的來說,LDA模型在目前看來是一種較為優(yōu)秀的計算機化文本分析方法。一方面,LDA模型在一定程度上克服了基于詞頻統(tǒng)計和情感傾向分析的計算機化文本分析方法的局限性;另一方面,由于LDA模型在LSA以及PLSA的基礎(chǔ)上發(fā)展而來,能夠從更高的語義層面進行文本分析的同時,也在一定程度上克服了LSA及PLSA的不足。

2 主題模型在心理學(xué)文本分析領(lǐng)域的具體應(yīng)用

由于主題模型強大的文本分析能力,目前在文本分析領(lǐng)域有著豐富的研究與應(yīng)用。近年來,主題模型在心理學(xué)文本分析領(lǐng)域的應(yīng)用也逐漸增多,我們可以將目前主題模型在心理學(xué)領(lǐng)域的應(yīng)用,分為利用心理咨詢文本研究和網(wǎng)絡(luò)行為數(shù)據(jù)研究。接下來結(jié)合具體研究應(yīng)用分別進行介紹。

2.1 心理咨詢領(lǐng)域的研究

在心理咨詢領(lǐng)域,主題模型被用作無監(jiān)督或監(jiān)督的學(xué)習(xí)模型(John Lu,2010)。主題模型本身是一種無監(jiān)督機器學(xué)習(xí)的統(tǒng)計模型,無監(jiān)督的機器學(xué)習(xí)是指通過數(shù)據(jù)內(nèi)在的一些屬性和聯(lián)系,將數(shù)據(jù)自動分類;此外機器學(xué)習(xí)還有監(jiān)督學(xué)習(xí)(Supervised Learning)和半監(jiān)督學(xué)習(xí)(Semi- Supervised Learning)。監(jiān)督學(xué)習(xí)是指在知道數(shù)據(jù)包含類別情況下,我們可以先對一部分數(shù)據(jù)(訓(xùn)練數(shù)據(jù))標(biāo)注類別,并將此通過算法推廣到剩余數(shù)據(jù)中;半監(jiān)督學(xué)習(xí)是指利用大量的無標(biāo)注數(shù)據(jù)來改進監(jiān)督學(xué)習(xí),利用觀察數(shù)據(jù)(包括已標(biāo)識數(shù)據(jù)和未標(biāo)識數(shù)據(jù))及相關(guān)的知識對未標(biāo)識的觀察數(shù)據(jù)的標(biāo)識做出適當(dāng)合理的推斷,從而訓(xùn)練出更好的分類器(陳凱,朱鈺,2007)。

作為無監(jiān)督學(xué)習(xí)模型,主題模型主要用于探索性資料分析,該模型利用提供的咨詢逐字稿的文本,來探索、發(fā)現(xiàn)和總結(jié)文本中討論的主題類型;而監(jiān)督學(xué)習(xí)模型,主要是利用主題模型來預(yù)測一些變量,例如利用標(biāo)記主題模型(Labeled Topic Model)將行為編碼分配至不同的咨詢文本之中(Weusthoff et al.,2016)。

2.1.1 心理咨詢文本的探索性研究

主題模型的分析結(jié)果通常描述了咨詢過程中咨詢師和來訪者之間的會談主題,它通過統(tǒng)計單詞之間的共現(xiàn)(co-occurrence)關(guān)系將單個單詞與主題相關(guān)聯(lián),和其他單詞共同出現(xiàn)的詞往往被放在同一主題中,即主題由單詞列表的形式呈現(xiàn)。Atkins等人(2012)第一次利用主題模型對約有650萬字的夫妻治療逐字稿進行主題抽取,研究發(fā)現(xiàn)諸如“家人、關(guān)系、經(jīng)濟、性、工作、交通”六個主題會在夫妻治療中經(jīng)常出現(xiàn)。與此類似,Imel等人(2015)利用主題模型對 1,533次咨詢會談進行相似主題提取,模型確定了咨詢過程中發(fā)生的一些主題,例如關(guān)系類主題(包含家庭角色、性、親密關(guān)系等子類別)、治療類主題(包含行為模式、藥物、目標(biāo)設(shè)定等子類別)、情緒類主題(包括焦慮、抑郁、享受等子類別)及其他類別。

利用主題模型可以發(fā)現(xiàn)咨詢過程中的特定內(nèi)容,例如特定干預(yù)或重要話題、藥物和酒精使用等(Weusthoff et al.,2016)。由于在不同的會談水平,如談話輪(talk turns)或整個會談(session),主題模型的結(jié)果會以概率分布的形式呈現(xiàn),因此可識別具有特定內(nèi)容(例如特定干預(yù)或重要主題)的單個談話輪,例如Gaut,Steyvers,Imel,Atkins和Smyth(2017)使用主題模型對咨詢逐字稿談話輪水平進行主題抽取,發(fā)現(xiàn)主題模型能夠較好的提取關(guān)于“物質(zhì)使用”等主題。

在擁有健康體魄的基礎(chǔ)上,應(yīng)對兒童進行各種訓(xùn)練,使其適應(yīng)抗戰(zhàn)建國的需要。1938年,賴學(xué)文和林仲愷都強調(diào)對兒童進行精神訓(xùn)練、體魄訓(xùn)練、技能訓(xùn)練、生活訓(xùn)練、知識訓(xùn)練等。其中,精神訓(xùn)練是培養(yǎng)兒童以愛護民族國家為重,培養(yǎng)其愛國觀念,啟發(fā)其民族意識;體魄訓(xùn)練以體育鍛煉為主,培養(yǎng)兒童身強體健,精神煥發(fā);技能訓(xùn)練主要是讓兒童熟練應(yīng)付抗戰(zhàn)時期的基本技能,比如防毒、消防、救護、宣傳、偵查等等;生活訓(xùn)練是培養(yǎng)兒童在生活中形成守紀律、尚禮貌、吃苦耐勞、互相合作的品德;知識訓(xùn)練是給兒童灌輸戰(zhàn)時知識,明了國內(nèi)的形勢、抗戰(zhàn)的局勢,認識國際關(guān)系以及國際現(xiàn)狀等[18]。

另外可以利用主題模型比較不同心理治療方法的語言相似性(Rubin,Chambers,Smyth,&Steyvers,2012)。Imel等人(2015)利用主題模型對4種不同療法的咨詢逐字稿(N = 1,553)主題提取結(jié)果對每個會談進行比較,這 4種療法分別是藥物療法、心理動力學(xué)療法、認知行為療法和人文/存在療法,結(jié)果發(fā)現(xiàn)盡管每種療法內(nèi)部存在某些差異,但是相同的治療方法在語言上傾向于相似。

2.1.2 行為編碼

標(biāo)記主題模型是一般主題模型的一種擴展形式,可以利用它來預(yù)測行為編碼(Atkins,Steyvers,Imel,&Smyth,2014;Gaut et al.,2017)。目前對于心理治療的有效成分的研究并不直接依靠咨詢過程中的語言,而是主要依靠來訪者或治療師的自我報告或者行為編碼系統(tǒng)來量化會談信息。一方面利用編碼手冊對咨詢文本進行編碼相當(dāng)耗時,并且擴大咨詢會談評估規(guī)模意味著更大的人力投入,例如隨著咨詢文本長度的增加,人工編碼耗時也會成倍的增加。另外一方面建立一套編碼系統(tǒng)通常面臨幾個限制,首先由于人工編碼會花費大量的時間和精力;其次人工編碼經(jīng)過了事先定義,難以發(fā)現(xiàn)文本中新的內(nèi)容;并且非標(biāo)準化編碼系統(tǒng)無法擴展到更大的數(shù)據(jù)集;從編碼者角度來看,編碼者的主觀性難以避免,并且他們評定消極色彩的文本時情緒可能會受到干擾,評分者信度也難以保證(Tucker &Rosenberg,1975;Tausczik&Pennebaker,2010;Atkins et al.,2012;Gaut et al.,2017);此外,行為編碼系統(tǒng)一般不能跨文化直接使用,這也阻礙了人工編碼系統(tǒng)的運用和推廣(Zimmermann,Baucom,Irvine,&Heinrichs,2015)。由于主題模型的結(jié)果并不是直接能夠得到的編碼,但主題與行為或內(nèi)容編碼(如癥狀)或潛在的背景編碼相對應(yīng),因此可以利用標(biāo)記主題模型學(xué)習(xí)單詞與主題之間的相關(guān),并利用編碼表示咨詢談話輪或會談的內(nèi)容,這樣可以在一定程度上能夠代替人工編碼,節(jié)省人工編碼的人財物消耗。

目前利用標(biāo)記主題模型進行行為編碼有諸多研究,越來越多的研究結(jié)果表明利用標(biāo)記主題模型等方法能夠有效的預(yù)測咨詢會談中的行為編碼(Tanana,Hallgren,Imel,Atkins,&Srikumar,2016)。Atkins等人(2014)基于動機式訪談技巧編碼手冊(MISC,Motivational Interviewing Skills Code;Miller,Moyers,Ernst,&Amrhein,2008),利用人工編碼的方式對 899個動機式訪談的會談隨機抽取的148個進行編碼,然后利用標(biāo)記主題模型學(xué)習(xí)一部分被編碼的會談。使用ROC曲線(AUC)下的面積來評估標(biāo)記主題模型正確識別人造編碼的能力,其中 AUC取值范圍為 0.5(機會性能)至 1(完美預(yù)測),模型結(jié)果(AUC = 0.75)明顯優(yōu)于機會性能(AUC = 0.5),在幾個編碼上(如 Complex Reflections,Information Giving)模型的可靠性與人相當(dāng),但對于其他編碼(如Change Talk,Sustain Talk)人的可靠性明顯優(yōu)于模型的性能,如果將人工編碼誤差考慮進去,在某些編碼項目上標(biāo)簽主題模型的編碼方法會對人工編碼的方法產(chǎn)生很大的挑戰(zhàn)。Gaut等人(2017)利用標(biāo)記主題模型學(xué)習(xí)咨詢會談中的“焦慮、抑郁、憤怒、低自尊、情緒易感染”五個癥狀類主題,將標(biāo)準機器學(xué)習(xí)分類器?套索邏輯回歸(Lasso Logistic Regression,LLR)作為對標(biāo)記主題模型進行比較的基準模型,結(jié)果顯示兩種模型的編碼預(yù)測結(jié)果都優(yōu)于隨機編碼水平,標(biāo)記主題模型顯示出比 LLR模型更高的預(yù)測精度,并且準確度接近受訓(xùn)的人工編碼者。

2.2 社交媒體與心理健康

網(wǎng)絡(luò)對我們的生活造成了不可逆轉(zhuǎn)的影響,每天數(shù) 10億的用戶在網(wǎng)絡(luò)上留下的痕跡會產(chǎn)生海量數(shù)據(jù),將這些數(shù)據(jù)記錄保存下來可以用于探究用戶在互聯(lián)網(wǎng)使用中的相關(guān)心理因素(朱廷劭,汪靜瑩,趙楠,劉曉倩,2015)。很多心理障礙患者需要長期持續(xù)的支持系統(tǒng)來提供幫助,利用網(wǎng)絡(luò)進行社交對于與心理障礙長期斗爭的人來說具有獨特的價值,他們會在社交網(wǎng)絡(luò)上發(fā)表自己的言論并尋求各種信息,因此社交媒體被認為是一些心理健康調(diào)查資料來源的新場所(de Choudhury,Gamon,Counts,&Horvitz,2013)。主題模型也因此也被用于探索他們的語言使用特點、捕捉他們行為和心理特征。

2.2.1 探索心理健康內(nèi)容

利用不同心理障礙人群在社交媒體上發(fā)布的信息,可以獲得他們關(guān)注的問題,也能夠幫助我們獲得關(guān)于不同心理障礙的見解。對抑郁癥患者在社交網(wǎng)絡(luò)上發(fā)布的信息進行主題提取,Preotiuc-Pietro等(2015)發(fā)現(xiàn)抑郁癥患者的語言內(nèi)容清晰的與郁抑癥癥狀標(biāo)準相映射;劉郁文(2017)使用主題模型對中國臺灣地區(qū)三個醫(yī)療網(wǎng)站和一個線上同儕支持性論壇上關(guān)于抑郁癥的文本資料進行文本分析,發(fā)現(xiàn)醫(yī)患之間主要討論的是抑郁癥狀、藥物使用、治療方式和家庭相關(guān)的4個主題,同儕之間的討論則與負面情緒發(fā)生原因、壓力來源、非藥物治療、同儕支持與鼓勵以及醫(yī)療資訊共享五個主題相關(guān)。Mitchell,Hollingshead和Coppersmith (2015)通過對174個精神分裂癥患者在Twitter上發(fā)表的內(nèi)容進行主題建模,發(fā)現(xiàn)精神分裂癥患者Twitter內(nèi)容會包含其他心理健康問題,這與我們知道的精神疾病之間通常存在著共病的認識相一致。

另外通過將文本內(nèi)容與元數(shù)據(jù)統(tǒng)一起來進行主題建模,能夠幫助我們在獲得某一類精神障礙患者言談主題的同時也能夠更好地理解他們的活動模式。Ji等人(2014)使用阿斯伯格綜合癥論壇的29,947個帖子,并將972個用戶信息以及1,939個帖子和作者之間的關(guān)系的線程結(jié)構(gòu)(Thread Structure)作為元數(shù)據(jù)構(gòu)建主題模型。之后,模型結(jié)果發(fā)現(xiàn),他們對心理健康和社會福利等問題有較多的擔(dān)憂,會更多的討論如何生活得更好的策略等。另外由于元數(shù)據(jù)的加入,主題提取結(jié)果也提供了更多有利于深入理解癥狀的細節(jié),比如,涉及具體個人衛(wèi)生相關(guān)的主題(例如如何刮胡子,這對于阿斯伯格綜合癥患者而言是困難的,因為他們可能會被剃須刀產(chǎn)生的聲音和震動嚇倒)。

2.2.2 識別精神障礙

主題模型對于社交媒體中的文本進行分析,能夠發(fā)現(xiàn)包含心理障礙的各類疾病,此外利用主題模型的提取結(jié)果能夠有效區(qū)分健康人群和精神障礙患者。Paul和Dredze (2014)對2011年至2013年的1.44億條Twitter消息自動提取健康主題,結(jié)果表明主題模型可以發(fā)現(xiàn)許多身心疾病(如焦慮、抑郁癥、流感、腸應(yīng)激綜合征等),這些疾病與真實監(jiān)測和調(diào)查數(shù)據(jù)顯著相關(guān)。Preotiuc-Pietro等人(2015)對選取的包含抑郁癥、PTSD患者以及健康人群(對照組)的 1,145名 Twitter用戶的內(nèi)容進行主題提取,利用提取主題結(jié)果構(gòu)建標(biāo)簽訓(xùn)練了三個標(biāo)準機器學(xué)習(xí)的二進制分類器,使用ROC曲線(AUC)下的面積評估標(biāo)記主題模型正確區(qū)分不同精神障礙的能力,抑郁癥組和控制組、PTSD組和控制組、抑郁癥組和PTSD三組的AUC值分別是0.871、0.883、0.801。Nguyen,Phung,Dao,Venkatesh和Berk (2014)通過抓取在線抑郁社區(qū)及控制組社區(qū)的網(wǎng)絡(luò)文本,利用 LIWC及主題模型對這兩個文檔集進行分析,利用 LIWC比較兩個人群的使用區(qū)別,并構(gòu)建一個主題數(shù)為50的主題模型分別對文本進行主題抽取。為比較哪些特征對抑郁癥社區(qū)有更好的預(yù)測力,文中使用正規(guī)化的回歸模型Lasso分別對1,000名抑郁患者和1,000名控制組被試進行區(qū)分,發(fā)現(xiàn) LIWC和主題模型提取結(jié)果都能有效的區(qū)分這兩類人,但是主題模型結(jié)果(93%)略優(yōu)于LIWC的結(jié)果(88%)。

有些精神障礙(例如,抑郁癥)是隨著時間而變化的連續(xù)結(jié)構(gòu),而不僅僅只是診斷有或者沒有這種障礙,Schwartz等人(2014)利用 n-gram主題模型(Wang,McCallum,&We,2007)的結(jié)果及詞語使用對28,749位Facebook用戶的不斷更新的狀態(tài)構(gòu)建回歸模型并預(yù)測用戶的抑郁癥狀與時間變化之間的關(guān)系,利用模型來估計用戶在不同季節(jié)的抑郁變化,發(fā)現(xiàn)與文獻研究一致(Golder &Macy,2011),用戶的抑郁程度從夏季到冬季的時間段內(nèi)通常會提高。

2.3 人格計算

主題模型也被應(yīng)用于人格研究之中。人格是心理科學(xué)領(lǐng)域的一個基本研究范疇,目的是探索共同的心理現(xiàn)象在個體身上表現(xiàn)的差異性,傳統(tǒng)人格測量一般通過自陳式量表或者投射測驗的方法進行,早期研究發(fā)現(xiàn)詞匯使用具有穩(wěn)定的個體差異且人格與自陳式報告可靠相關(guān)(Pennebaker &King,1999)。但由于自陳量表需要人工填寫,難以有效實現(xiàn)針對大規(guī)模用戶的實時測量,因此需要進一步完善(朱廷劭,2016),社交媒體上的文本數(shù)據(jù)通常是個體在自然的社會環(huán)境中書寫的關(guān)于自己真實生活內(nèi)容的表達(Back et al.,2010),因此社交媒體上的語言是研究人格特征的一個非常豐富的數(shù)據(jù)庫,近年來利用社交媒體針對大規(guī)模人群的人格研究內(nèi)容十分豐富(Hughes,Rowe,Batey,&Lee,2012;Quercia,Lambiotte,Stillwell,Kosinski,&Crowcroft,2012;Schwartz et al.,2013;Ortigos,Carro,&Quiroga,2014),并且有研究比較人類和利用計算機模型的人格判斷的準確性,結(jié)果表明計算機預(yù)測(r = 0.56)比參與者的Facebook好友使用人格問卷預(yù)測(r = 0.49)結(jié)果更準確(Wu,Kosinski,&Stillwell,2015)。

在人格研究領(lǐng)域主題模型最初用于探索主題使用和人格之間的關(guān)系。Schwartz等人(2013)第一次利用 LDA提取的主題特征來構(gòu)建大五人格特征的函數(shù),發(fā)現(xiàn)諸多關(guān)于人格特征與主題使用之間的聯(lián)系,例如情緒穩(wěn)定的人提到更多的體育和生活活動,外向的人更多的和派對相關(guān)聯(lián)等。隨著研究的發(fā)展,人格主題模型也被不斷提出來。Liu,Wang和Jiang (2016)建立PT-LDA模型用來預(yù)測社交網(wǎng)絡(luò)用戶的個性特征,模型假設(shè)主題的選擇決定了人格類型。Hu,Liu,Zhang和Xu (2017)提出一個新的人格主題模型,和 PT-LDA相反,該模型假設(shè)人格類型(Personality)決定了主題的選擇,主題是服從高斯分布的人格特點(Personality Traits)的集合,人格特點又通過服從多項分布的單詞來表現(xiàn),模型利用MyPersonality dataset進行測驗,結(jié)果表明該模型對于人格有良好的預(yù)測。

2.4 主題模型的擴展

近年來面對不同的需要,結(jié)合具體文本背景信息的主題模型在心理學(xué)領(lǐng)域有著諸多應(yīng)用。例如許多語義認知心理學(xué)理論認為概念通過特征來表示,但由于人類提取特征的經(jīng)驗過程依賴于明確判斷,這限制了利用特征表示概念的范圍,Steyvers,Smyth和Chemuduganta (2011)將De Deyne等人(2008)研究的特征規(guī)范(feature norms)添加到主題模型中,模型結(jié)果表明利用特征信息能更準確的推斷文檔中的新概念。Steyvers等(2011)利用人工定義的語義概念的層次結(jié)構(gòu)與主題模型相結(jié)合,從而構(gòu)建了概念層次結(jié)構(gòu)主題模型,該模型結(jié)果表明當(dāng)有額外的背景信息時,模型結(jié)果的解釋能力增強。Griffiths,Steyvers和Tenenbaum (2007)通過對1967年以來的《心理評論》(Psychological Review)中所有的文章摘要構(gòu)建層次主題模型,準確地還原了 40年間在該期刊上發(fā)表文章的主題之間的層次化關(guān)系以及研究主題。Priva和Austerweil (2015)對《認知》(Cognition)期刊中1980~2014年間發(fā)表的3,014篇文章的摘要進行主題建模,并加入文章發(fā)表時間元數(shù)據(jù),以此跟蹤道德認知、語言加工、青少年發(fā)展等5個研究主題隨著時間的變化的冷熱程度,此外還發(fā)現(xiàn)認知心理學(xué)的研究隨著時間的推移,從注重建立抽象理論轉(zhuǎn)向更多實驗研究。

總之,目前在心理學(xué)領(lǐng)域,研究人員利用主題模型開展了較為豐富的研究。這些研究探索了大規(guī)模的心理咨詢文本、社交媒體數(shù)據(jù);結(jié)合具體文本背景信息的主題模型在心理學(xué)領(lǐng)域也有著諸多應(yīng)用。這些研究拓展了心理學(xué)的研究范圍,豐富了文本分析研究方法的研究內(nèi)容,在一定程度上克服了傳統(tǒng)文本分析方法難以開展大文本分析的局限。

3 主題模型自身局限、改進及應(yīng)用促進

3.1 主題模型自身局限及改進

作為一種實用的計算機化文本分析方法,主題模型雖然在眾多領(lǐng)域得到了應(yīng)用,但是它并不是一種可以開箱即用的工具,主題模型配置的復(fù)雜性和主題質(zhì)量問題是目前主題模型使用者遇到的一個普遍性問題。首先,對于非專家而言,主題模型很多配置可能難以理解。參數(shù)設(shè)置上,對于狄利克雷分布參數(shù)α和β的取值一般為α = 50/K,β = 0.01,其中K代表主題數(shù),這樣取值是為了起到平滑數(shù)據(jù)的作用,在一些情況下,也可以使用語料對α和β進行經(jīng)驗貝葉斯估計(徐戈,王厚峰,2011)。對于主題數(shù)的確定,經(jīng)驗的取值方法一般是設(shè)置為20、50、100、200等數(shù)值,然后在每個主題下提取 10個關(guān)鍵詞(劉郁文,2017),但對于不同的文本如何確定合適的主題數(shù)并沒有明確的解決方法。

另外為生成高質(zhì)量的主題,使用者先要對文本做很多預(yù)處理,例如刪除停止詞、抽取短語(Chunking)(Lee et al.,2017)。針對這些問題,領(lǐng)域?qū)<以诓粩鄡?yōu)化算法、擴展主題模型形式的基礎(chǔ)上,也在為使用主題模型的用戶提供更便利的操作方法來幫助用戶,如果對主題模型提取的結(jié)果不滿意,用戶在不重新配置或者重新建模的基礎(chǔ)上也可以通過一些優(yōu)化策略來改進結(jié)果。例如允許用戶直接在主題下面添加、刪除或者突出顯示單詞(Hu,Boyd-Graber,Satinoff,&Smith,2014),也可以在主題中調(diào)整單詞的權(quán)重、合并或者分割主題并創(chuàng)建新的主題(Choo,Lee,Reddy,&Park,2013),Lee,Kihm,Choo,Stasko 和 Park (2012)則允許用戶將文檔重新分配給其他主題。在對以往主題模型操作改進方法進行總結(jié)的基礎(chǔ)上,Lee等人(2017)通過設(shè)計實驗考察了非專家對主題模型的感知及對主題模型結(jié)果的優(yōu)化策略的選擇,幫助非專家更好的使用主題模型。

最后,由于中文的特殊性,中文分詞是中文自然語言處理的固有問題。李湘東、高凡和丁叢(2017)比較了目前最廣泛使用的三種中文分詞方法在LDA模型下對文本分類性能的影響,研究結(jié)果顯示三種方法都能有效的進行分詞,但是對于不同的文本三種方法在分詞的準確性上有著差異,并且不同的中文分詞方法對文本分類的結(jié)果有一定影響。

3.2 主題模型的應(yīng)用問題及促進

在心理咨詢領(lǐng)域,利用主題模型的一個重要的限制可能是轉(zhuǎn)錄工作帶來的。在使用主題模型之前研究人員需要轉(zhuǎn)錄成千上萬份的會談逐字稿,這是一項耗時耗力的工作。但從長遠來看這項工作是值得的,因為大型咨詢文本數(shù)據(jù)庫的建立對于心理咨詢研究的潛在影響是不可估量的,并且隨著自動化語音識別技術(shù)的發(fā)展,轉(zhuǎn)錄需要人工參與的部分可能會越來越少。

另外,利用網(wǎng)絡(luò)數(shù)據(jù)進行研究一個重要的問題是對倫理隱私的保護。互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,使得網(wǎng)絡(luò)上的個人隱私和非隱私之間的界限似乎變得十分模糊,并且前所未有的數(shù)據(jù)挖掘、數(shù)據(jù)預(yù)測以及更全面的監(jiān)控技術(shù)的發(fā)展,使得對個人隱私的保護也變得更為困難(薛孚,陳紅兵,2015)。利用主題模型對各類心理健康問題的識別、監(jiān)控和預(yù)測,或進行人格計算等研究,都需要挖掘相關(guān)的網(wǎng)絡(luò)數(shù)據(jù),在互聯(lián)網(wǎng)信息技術(shù)發(fā)展帶來的變革中,研究者需要在風(fēng)險和創(chuàng)新之間找到一個平衡點,規(guī)避數(shù)據(jù)隱私倫理問題。

總之,主題模型自身以及應(yīng)用上目前還存在著諸多局限,尤其在漢語語言背景下,這些局限限制了主題模型在心理學(xué)研究領(lǐng)域的使用范圍。目前研究者也在不斷地在對這些局限進行改進,以提高主題模型的質(zhì)量及使用范圍。另外在目前信息與技術(shù)高速發(fā)展的時代,也需要我們心理學(xué)研究者與其他領(lǐng)域的研究人員開展跨領(lǐng)域合作研究,從而更好地解決我們在研究中遇到的問題。

4 小結(jié)與展望

4.1 小結(jié)

作為一種計算機化文本分析的方法,主題模型被用來探索心理咨詢和社交媒體上人們的語言內(nèi)容。在心理咨詢領(lǐng)域研究人員探索了在咨詢過程中來訪者和咨詢師討論的主要話題和咨詢師的干預(yù)措施,區(qū)分不同的治療流派,并嘗試利用主題模型進行編碼;利用社交媒體上的數(shù)據(jù),研究人員探索了不同心理障礙群體主要談?wù)摰膬?nèi)容,探索他們關(guān)注的問題,并且利用主題模型的結(jié)果對不同的心理障礙進行區(qū)分和預(yù)測;另外僅僅利用人們在社交媒體上發(fā)布的動態(tài),主題模型以高度準確的方式對發(fā)布者的人格進行了預(yù)測。主題模型在心理學(xué)研究中取得了諸多研究成果,但是由于某些局限性使得需要對這一研究方法進行進一步的改進。不過從現(xiàn)有研究結(jié)果來看,主題模型在心理學(xué)文本分析領(lǐng)域的研究中有著較大潛力,未來也需要我們進一步拓展和使用該方法在心理學(xué)領(lǐng)域的研究。

4.2 研究展望

長期以來,本土的心理學(xué)重問卷、實驗等量化研究,而相對輕文本分析等質(zhì)性研究的局面一直沒有改變,其中一個重要的原因是經(jīng)濟有效的文本分析方法沒有被研究者所掌握(張信勇,2015)。一方面在臨床心理學(xué)、管理心理學(xué)等領(lǐng)域存在著大量的咨詢會談或訪談文本記錄;另一方面互聯(lián)網(wǎng)也記錄了海量的人類心理和行為的文本數(shù)據(jù),但這些富含研究價值的文本資料并沒有得到有效的使用。諸如LIWC、潛在語義分析(LSA)和本文提到的主題模型等計算機化文本分析方法并沒有在本土心理學(xué)的研究中得到廣泛的使用。雖然這些研究方法并不完美,但是目前這些方法的使用,對于我們開展心理學(xué)中關(guān)于文本分析的研究有著重要的價值。

我們通過語言來表達對自我和世界的認識,也通過語言和世界建立聯(lián)系,正如海格德爾所說,語言是存在的家園,人先天地就被語言所貫穿、所引導(dǎo)(Heidegger,2009),諸多文本中包含著重要的研究價值。為不使明珠蒙塵,在未來的研究中,研究者可以積極利用主題模型開展相關(guān)的研究,將主題模型等文本分析工具應(yīng)用到咨詢會談、訪談文本以及互聯(lián)網(wǎng)中的各種文本數(shù)據(jù)中,探索中文環(huán)境下不同類型文本的豐富內(nèi)涵;也可以開展跨文化比較研究,探索中西方文化下不同情境中出現(xiàn)的主題差異及背后的原因;此外,由于主題模型在算法和操作上也在不斷的發(fā)展,未來可以通過多種途徑對主題模型改進,如通過整合關(guān)于時間和句法結(jié)構(gòu)的信息等途徑(Weusthoff et al.,2016),來改善心理學(xué)領(lǐng)域中利用主題模型開展的文本分析。

參考文獻

陳凱,朱鈺.(2007).機器學(xué)習(xí)及其相關(guān)算法綜述.統(tǒng)計與信息論壇,22(5),105–112.

丁軼群.(2010).基于概率生成模型的文本主題建模及其應(yīng)用(博士學(xué)位論文).浙江大學(xué),杭州.

高銳,郝碧波,李琳,白朔天,朱廷紹.(2013).中文語言心理分析軟件系統(tǒng)的建立.心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集.南京.

Heidegger,M.(2009).路標(biāo) (孫周興 譯) 上海: 商務(wù)印書館.

樂國安,董穎紅,陳浩,賴凱生.(2013).在線文本情感分析技術(shù)及應(yīng)用.心理科學(xué)進展,21(10),1711–1719.

李湘東,高凡,丁叢.(2017).Lda模型下不同分詞方法對文本分類性能的影響研究.計算機應(yīng)用研究,34(1),62–66.

劉郁文.(2017).憂郁癥線上討論言談之主題分析 (碩士學(xué)位論文).臺灣大學(xué),臺北.

魯忠義,孫錦繡.(2007).語義空間的研究方法.心理學(xué)探新,27(3),22–28.

王甦,汪安圣.(2006).認知心理學(xué).北京: 北京大學(xué)出版社.徐戈,王厚峰.(2011).自然語言處理中主題模型的發(fā)展.計算機學(xué)報,34(8),1423–1436.

薛孚,陳紅兵.(2015).大數(shù)據(jù)隱私倫理問題探究.自然辯證法研究,31(2),44–48.

張信勇.(2015).LIWC: 一種基于語詞計量的文本分析工具.西南民族大學(xué)學(xué)報: 人文社會科學(xué)版,36(4),101–104.朱廷劭.(2016).大數(shù)據(jù)時代的心理學(xué)研究及應(yīng)用.北京:科學(xué)出版社.

朱廷劭,汪靜瑩,趙楠,劉曉倩.(2015).論大數(shù)據(jù)時代的心理學(xué)研究變革.新疆師范大學(xué)學(xué)報: 哲學(xué)社會科學(xué)版,(4),100–107.

Abdi,H.,&Williams,L.J.(2010).Principal component analysis.Wiley Interdisciplinary Reviews: Computational Statistics,2(4),433–459.

Andrews,M.,&Vigliocco,G.(2010).The hidden Markov topic model: A probabilistic model of semantic representation.Topics in Cognitive Science,2(1),101–113.

Atkins,C.,Rubin,T.N.,Steyvers,M.,Doeden,M.A.,Baucom,B.R.,&Christensen,A.(2012).Topic models:A novel method for modeling couple and family text data.Journal of Family Psychology,26(5),816–827.

Atkins,D.C.,Steyvers,M.,Imel,Z.E.,&Smyth,P.(2014).Scaling up the evaluation of psychotherapy: Evaluating motivational interviewing fidelity via statistical text classification.Implementation Science,9,49.

Back,M.D.,Stopfer,J.M.,Vazire,S.,Gaddis,S.,Schmukle,S.C.,Egloff,B.,&Gosling,S.D.(2010).Facebook profiles reflect actual personality,not self-idealization.Psychological Science,21(3),372–374.

Blei,D.M.,&Lafferty,J.D.(2005).Correlated topic models.In Proceedings of the 18th international conference on neural information processing systems (pp.147–154).Vancouver,British Columbia,Canada: MIT Press.

Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).Latent Dirichlet Allocation.Journal of Machine Learning Research 3,993–1022.

Boyd-Graber,J.L.,&Blei,D.M.(2009).Syntactic topic models.In Advances in Neural Information Processing Systems 26 (pp.185–192).Lake Tahoe,Nevada,USA:MIT Press.

Choo,J.,Lee,C.,Reddy,C.K.,&Park,H.(2013).Utopian:User-driven topic modeling based on interactive nonnegative matrix factorization.IEEE Transactions on Visualization and Computer Graphics,19(12),1992–2001.

Cohn,D.A.,&Hofmann,T.(2001).The missing link-a probabilistic model of document content and hypertext connectivity.In Advances in Neural Information Processing Systems 13 (pp.430–436).London,England: MIT Press.

de Choudhury,M.,Gamon,M.,Counts,S.,&Horvitz,E.(2013).Predicting depression via social media.In Proceedings of the Seventh international AAAI conference on weblogs and social media (pp.128–137).Boston,MA: AAAI Publications.

De Deyne,S.,Verheyen,S.,Ameel,E.,Vanpaemel,W.,Dry,M.,Voorspoels,W.,&Storms,G.(2008).Exemplar by feature applicability matrices and other Dutch normative data for semantic concepts.Behavior Research Methods,40(4),1030–1048.

Deerwester,S.,Dumais,S.T.,Furnas,G.W.,Landauer,T.K.,&Harshman,R.(1990).Indexing by latent semantic analysis.Journal of the American Society for Information Science,41(6),391–407.

Gaut,G.,Steyvers,M.,Imel,Z.E.,Atkins,D.C.,&Smyth,P.(2017).Content coding of psychotherapy transcripts using labeled topic models.IEEE Journal of Biomedical and Health Informatics,21(2),476–487.

Golder,S.A.,&Macy,M.W.(2011).Diurnal and seasonal mood vary with work,sleep,and daylength across diverse cultures.Science,333(6051),1878–1881.

Graesser,A.C.,McNamara,D.S.,&Kulikowich,J.M.(2011).Coh-Metrix: Providing multilevel analyses of text characteristics.Educational Researcher,40(5),223–234.Greenberg,L.S.,&Newman,F.L.(1996).An approach to psychotherapy change process research: Introduction to the special section.Journal of Consulting and Clinical Psychology,64(3),435–438.

Griffiths,T.L.,Steyvers,M.,&Tenenbaum,J.B.(2007).Topics in semantic representation.Psychological Review,114(2),211–244.

Hofmann,T.(1999,August).Probabilistic latent semantic indexing.In Proceedings of the 22nd annual international ACM SIGIR conference on research and development in information retrieval (pp.50–57).Berkeley,California,USA: ACM.

Hughes,D.J.,Rowe,M.,Batey,M.,&Lee,A.(2012).A tale of two sites: Twitter vs.Facebook and the personality predictors of social media usage.Computers in Human Behavior,28(2),561–569.

Hu,Y.N.,Boyd-Graber,J.,Satinoff,B.,&Smith,A.(2014).Interactive topic modeling.Machine Learning,95(3),423–469.

Hu,Z.,Liu,Y.S.,Zhang,C.H.,&Xu,Y.N.(2017,June).The analysis of topic's personality traits using a new topic model.In 2017 2nd international conference on image,vision and computing (ICIVC)(pp.1079–1083).Chengdu:IEEE.

Imel,Z.E.,Steyvers,M.,&Atkins,D.C.(2015).Computational psychotherapy research: Scaling up the evaluation of patient–provider interactions.Psychotherapy,52(1),19–30.

Ji,Y.F.,Hong,H.,Arriaga,R.,Rozga,A.,Abowd,G.,&Eisenstein,J.(2014).Mining themes and interests in the Asperger’s and autism community.In Workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.97–106).Baltimore,Maryland USA: ACL.

John Lu,Z.Q.(2010).The elements of statistical learning:Data mining,inference,and prediction.Journal of the Royal Statistical Society: Series A (Statistics in Society),173(3),693–694.

Kosinski,M.,Matz,S.C.,Gosling,S.D.,Popov,V.,&Stillwell,D.(2015).Facebook as a research tool for the social sciences: Opportunities,challenges,ethical considerations,and practical guidelines.American Psychologist,70(6),543–556.

Kosinski,M.,Wang,Y.L.,Lakkaraju,H.,&Leskovec,J.(2016).Mining big data to extract patterns and predict real-life outcomes.Psychological Methods,21(4),493–506.

Lee,H.,Kihm,J.,Choo,J.,Stasko,J.,&Park,H.(2012).iVisClustering: An interactive visual document clustering via topic modeling.Computer Graphics Forum,31,1155–1164.

Lee,T.Y.,Smith,A.,Seppi,K.,Elmqvist,N.,Boyd-Graber,J.,&Findlater,L.(2017).The human touch: How nonexpert users perceive,interpret,and fix topic models.International Journal of Human-Computer Studies,105,28–42.

Liu,Y.Z.,Wang,J.J.,&Jiang,Y.C.(2016).PT-LDA: A latent variable model to predict personality traits of social network users.Neurocomputing,210,155–163.

Miller,W.R.,Moyers,T.B.,Ernst,D.,&Amrhein,P.(2008).Manual for the Motivational Interviewing Skill Code(MISC).Version 2.1.University of New Mexico,Center on Alcoholism.

Mitchell,M.,Hollingshead,K.,&Coppersmith,G.(2015,June).Quantifying the language of schizophrenia in social media.In Proceedings of the 2nd workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.11–20).Denver,Colorado: ACL.

Nguyen,T.,Phung,D.,Dao,B.,Venkatesh,S.,&Berk,M.(2014).Affective and content analysis of online depression communities.IEEE Transactions on Affective Computing,5(3),217–226.

Ortigosa,A.,Carro,R.M.,&Quiroga,J.I.(2014).Predicting user personality by mining social interactions in Facebook.Journal of Computer and System Sciences,80(1),57–71.

Park,G.,Schwartz,H.A.,Eichstaedt,J.C.,Kern,M.L.,Kosinski,M.,Stillwell,D.J.,...Seligman,M.E.P.(2015).Automatic personality assessment through social media language.Journal of Personality and Social Psychology,108(6),934–952.

Paul,M.J.,&Dredze,M.(2014).Discovering health topics in social media using topic models.PLoS One,9(8),e103408.

Pennebaker,J.W.,Chung,C.K.,Ireland,M.,Gonzales,A.,&Booth,R.J.(2007).The development and psychometric properties of liwc2007.Austin,29(11),1020–1025.

Pennebaker,J.W.,&King,L.A.(1999).Linguistic styles:Language use as an individual difference.Journal of Personality and Social Psychology,77(6),1296–1312.

Pennebaker,J.W.,Mehl,M.R.,&Niederhoffer,K.G.(2003).Psychological aspects of natural language use: Our words,our selves.Annual Review of Psychology,54(1),547–577.

Preotiuc-Pietro,D.,Eichstaedt,J.,Park,G.,Sap,M.,Smith,L.,Tobolsky,V.,...Ungar,L.(2015,June).The role of personality,age and gender in tweeting about mental illnesses.In Proceedings of the 2nd workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.21–30).Denver,Colorado: Association for Computational Linguistics.

Priva,U.C.,&Austerweil,J.L.(2015).Analyzing the history of Cognition using topic models.Cognition,135,4–9.

Quercia,D.,Lambiotte,R.,Stillwell,D.,Kosinski,M.,&Crowcroft,J.(2012,February).The personality of popular Facebook users.In Proceedings of the ACM 2012 conference on computer supported cooperative work (pp.955–964).Seattle,Washington,USA: ACM.

Rubin,T.N.,Chambers,A.,Smyth,P.,&Steyvers,M.(2012).Statistical topic models for multi-label document classification.Machine Learning,88(1-2),157–208.

Schwartz,H.A.,Eichstaedt,J.C.,Kern,M.L.,Dziurzynski,L.,Ramones,S.M.,Agrawal,M.,...Ungar,L.H.(2013).Personality,gender,and age in the language of social media:The open-vocabulary approach.PLoS One,8(9),e73791.

Schwartz,H.A.,Eichstaedt,J.,Kern,M.L.,Park,G.,Sap,M.,Stillwell,D.,...Ungar,L.(2014,June).Towards assessing changes in degree of depression through Facebook.In Proceedings of the workshop on computational linguistics and clinical psychology: From linguistic signal to clinical reality (pp.118–125).Baltimore,Maryland USA: Association for Computational Linguistics.

Steyvers,M.,Smyth,P.,&Chemuduganta,C.(2011).Combining background knowledge and learned topics.Topics in Cognitive Science,3(1),18–47.

Tanana,M.,Hallgren,K.A.,Imel,Z.E.,Atkins,D.C.,&Srikumar,V.(2016).A comparison of natural language processing methods for automated coding of motivational interviewing.Journal of Substance Abuse Treatment,65,43–50.

Tausczik,Y.R.,&Pennebaker,J.W.(2010).The psychological meaning of words: LIWC and computerized text analysis methods.Journal of Language and Social Psychology,29(1),24–54.

Tucker,G.J.,&Rosenberg,S.D.(1975).Computer content analysis of schizophrenic speech: A preliminary report.The American Journal of Psychiatry,132(6),611–616.

Wallach,H.M.(2006,June).Topic modeling: Beyond bag-of-words.In Proceedings of the 23rd international conference on machine learning (pp.977–984).Pittsburgh,Pennsylvania,USA: ACM.

Wang,C.,Blei,D.,&Heckerman,D.(2012).Continuous time dynamic topic models.arXiv preprint arXiv:1206.3298.Wang,X.R.,McCallum,A.,&Wei,X.(2007,October).Topical n-grams: Phrase and topic discovery,with an application to information retrieval.In Seventh IEEE international conference on data mining,2007 (pp.697–702).Omaha,NE: IEEE.

Weusthoff,S.,Gaut,G.,Steyvers,M.,Atkins,D.C.,Hahlweg,K.,Hogan,J.,...Narayanan,S.(2016).The Language of Interpersonal Interaction: An Interdisciplinary Approach to Assessing and Processing Vocal and Speech Data.The European Journal of Counselling Psychology.

Wu,Y.Y.,Kosinski,M.,&Stillwell,D.(2015).Computer-based personality judgments are more accurate than those made by humans.Proceedings of the National Academy of Sciences of the United States of America,112(4),1036–1040.

Zimmermann,T.,Baucom,D.H.,Irvin,J.T.,&Heinrichs,N.(2015).Cross-country perspectives on social support in couples coping with breast cancer.Frontiers in Psychological and Behavioral Science,4(4),52–61.

猜你喜歡
心理學(xué)編碼文本
文本聯(lián)讀學(xué)概括 細致觀察促寫作
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
《全元詩》未編碼疑難字考辨十五則
作為“文本鏈”的元電影
子帶編碼在圖像壓縮編碼中的應(yīng)用
在808DA上文本顯示的改善
Genome and healthcare
基于doc2vec和TF-IDF的相似文本識別
松溪县| 陇西县| 武强县| 于田县| 门源| 寿光市| 昌平区| 黎川县| 益阳市| 晋中市| 铁岭市| 精河县| 永年县| 大庆市| 韶山市| 巫溪县| 枣强县| 梨树县| 江阴市| 阿图什市| 平塘县| 西华县| 平和县| 静海县| 临沧市| 桂阳县| 新泰市| 南木林县| 南靖县| 毕节市| 宝坻区| 镇江市| 商丘市| 广安市| 岳普湖县| 甘南县| 博兴县| 东平县| 丹东市| 叶城县| 金昌市|