国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于上下文語義的社交網(wǎng)絡(luò)用戶人格預(yù)測(cè)

2020-06-04 12:31:12王江晴陳思敏劉晶孫翀畢建權(quán)
關(guān)鍵詞:人格特質(zhì)人格語義

王江晴,陳思敏,劉晶,孫翀,畢建權(quán)

(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢 430074)

隨著社交網(wǎng)絡(luò)用戶日益增多,網(wǎng)絡(luò)用戶行為已經(jīng)成為社交網(wǎng)絡(luò)領(lǐng)域重要的研究?jī)?nèi)容.人格是一種心理結(jié)構(gòu),旨在從一些穩(wěn)定和可衡量的個(gè)體特征方面解釋各種各樣的人類行為[1].人格特質(zhì)作為體現(xiàn)用戶行為的重要因素,影響著人們的行為選擇和習(xí)慣偏好,對(duì)社交網(wǎng)絡(luò)用戶的人格特質(zhì)預(yù)測(cè)有許多重要的實(shí)際應(yīng)用和研究?jī)r(jià)值.例如,在個(gè)性化推薦背景下,相似人格特質(zhì)的人喜愛的產(chǎn)品也會(huì)高度相似[2];在心理問診方面,心理疾病與人格特質(zhì)存在一定的內(nèi)在聯(lián)系.在心理學(xué)領(lǐng)域,用來衡量一個(gè)人人格的最主流的模型是大五人格模型[3],大五人格模型從外向性(EXT)、神經(jīng)質(zhì)(NEU)、宜人性(AGR)、責(zé)任心(CON)以及開放性(OPN)等五個(gè)維度來分析和描述一個(gè)人的人格特質(zhì).

已有相關(guān)研究從社交網(wǎng)絡(luò)文本中挖掘出一個(gè)人的人格特質(zhì)與行為活動(dòng)之間的潛在關(guān)系,驗(yàn)證了利用社交網(wǎng)絡(luò)文本識(shí)別與預(yù)測(cè)用戶大五人格的可行性[4-6].基于文本的用戶大五人格預(yù)測(cè)主要工作有用戶文本特征提取和分類模型構(gòu)造.

大部分大五人格研究者使用到的文本特征提取方法有LIWC(Linguistic Inquiry and Word Count)、詞袋模型[7]、TF-IDF[8]等.這些方法提取到的文本特征僅僅停留在詞集的層面,很少對(duì)文本語義做研究.而文本的語義信息往往才是全面描述當(dāng)前用戶所要表達(dá)信息的載體,因此,我們認(rèn)為分析文本潛在語義信息,從文本語義層面出發(fā)研究用戶的大五人格,能更準(zhǔn)確地挖掘出用戶的人格信息.然而這些文本特征提取方法沒有考慮社交短文本的上下文語義信息,使得對(duì)語義特征的提取不夠精準(zhǔn),可能忽略掉很多文本關(guān)鍵信息,所以我們針對(duì)特征提取方法TF-IDF,引入上下文詞語的共現(xiàn)關(guān)系來提取更多的語義信息.

在自然語言處理(NLP)研究工作中,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,近幾年廣泛利用分布式表示[9]和深度學(xué)習(xí)的方法來分析和挖掘文本信息,其效果突出.深度學(xué)習(xí)的模型在基于文本的大五人格分類和預(yù)測(cè)工作中也逐漸被應(yīng)用.MAJUMDER等[10]提出了一種使用CNN從意識(shí)流文章中提取人格特質(zhì)的方法,提高了人格預(yù)測(cè)模型的精確度.WEI等[7]使用了社交網(wǎng)絡(luò)的異質(zhì)信息包括文本、用戶頭像、表情符號(hào)、用戶交互信息來預(yù)測(cè)大五人格,其中文本信息特征的提取,結(jié)合了詞袋聚類、LIWC和CNN等方法,對(duì)關(guān)鍵詞只統(tǒng)計(jì)了詞頻,沒有考慮上下文語義的有關(guān)信息,使得特征權(quán)重分配不佳.還有一些研究者使用了RNN[11,12]及其變種等方法作為預(yù)測(cè)模型,其結(jié)果與CNN相差不大.由于RNN模型計(jì)算步驟之間有前后依賴關(guān)系,并行程度不高,而CNN的所有卷積都可以并行執(zhí)行,相比RNN并行程度更高,效率更快,而且容易捕捉到一些全局的結(jié)構(gòu)信息,關(guān)鍵性短語在句子編碼過程中能保持含義不變性,因此本文采用基于文本的卷積神經(jīng)網(wǎng)絡(luò)模型(Text-CNN),結(jié)合上下文語義特征向量來對(duì)用戶文本進(jìn)行訓(xùn)練以預(yù)測(cè)用戶的大五人格.實(shí)驗(yàn)結(jié)果證明引入上下文語義信息后的模型在預(yù)測(cè)準(zhǔn)確率上有一定的提高.

1 模型描述

1.1 結(jié)合上下文語義信息的社交文本特征提取

主流的文本特征提取方法TF-IDF沒有考慮特征詞之間的語義聯(lián)系,使得提取的特征詞表示文本語義強(qiáng)度不佳,為解決該問題,本文在TF-IDF計(jì)算過程中加入了上下文語義信息.

用戶文本集表示為D={dj|j=1,2,…,N},N是用戶文本集中的文本總數(shù),詞匯表表示為V={ti|i=1,2,…,M},M是詞匯表中的特征詞總數(shù),統(tǒng)計(jì)用戶文本集中的所有單詞得到詞匯表.

首先計(jì)算文本中每個(gè)特征詞的TF-IDF[8]值,表示為:

tf-idfi,j=tfi,j·idfi,

其中,tf-idfi,j表示單詞ti在文本dj中的TF-IDF值,其中tfi,j表示為:

其中,tfi,j表示單詞ti在文本dj中的詞頻.ni,j是單詞ti在文本dj中出現(xiàn)的次數(shù),nj是詞匯表中所有單詞在文本dj中出現(xiàn)的次數(shù)之和.idfi表示為:

其中,idfi表示單詞ti的逆向文本頻率,j:ti∈dj是包含單詞ti的文本個(gè)數(shù).

然后統(tǒng)計(jì)詞匯表中特征詞ta與特征詞tb(b≠a)同時(shí)出現(xiàn)在用戶文本集的文本條數(shù),如果文本條數(shù)不小于2,則ta與tb是一對(duì)共現(xiàn)詞對(duì)[13],記為ta,b,此時(shí)的文本條數(shù)代表ta,b的出現(xiàn)頻率,記為fta,b.根據(jù)fta,b計(jì)算單詞的上下文語義值,公式為:

其中,swa,j表示文本dj中單詞ta的上下文語義值,tf-idfb是文本dj中單詞tb的TF-IDF值.

最后由單詞的上下文語義值和TF-IDF值計(jì)算出文本dj中每個(gè)詞的權(quán)值,公式為:

twi,j=α·tf-idfi+(1-α)·swi,j,

其中,twi,j表示文本dj中單詞ti的權(quán)值,α為權(quán)重.

結(jié)合上下文語義信息的詞權(quán)值計(jì)算的時(shí)間復(fù)雜度分析如下:首先,計(jì)算特征詞的TF-IDF值的時(shí)間復(fù)雜度為O(n);其次,計(jì)算特征詞-特征詞共現(xiàn)詞對(duì)矩陣的時(shí)間復(fù)雜度為O(n2);然后,計(jì)算單詞的上下文語義值的時(shí)間復(fù)雜度為O(n);最后,計(jì)算文本中每個(gè)詞的最終權(quán)值的時(shí)間復(fù)雜度為O(1).綜上,結(jié)合上下文語義信息的詞權(quán)值計(jì)算的時(shí)間復(fù)雜度為O(n2).

1.2 基于Text-CNN的人格預(yù)測(cè)模型

上下文語義信息是人工提取的特征,與深度學(xué)習(xí)預(yù)測(cè)模型自動(dòng)提取的特征相比,特征之間表達(dá)的含義不同,在預(yù)測(cè)模型中加入上下文語義特征,人格相關(guān)潛在特征得以豐富,從而達(dá)到優(yōu)化預(yù)測(cè)效果的目的.為驗(yàn)證在預(yù)測(cè)模型中加入上下文語義信息是否能提高大五人格預(yù)測(cè)的準(zhǔn)確率,我們選取Text-CNN作為人格預(yù)測(cè)模型,模型架構(gòu)如圖1所示,將卷積和池化操作得到的抽象特征向量與1.1節(jié)結(jié)合了上下文語義的特征向量連接后,送到全連接層以及輸出層進(jìn)行人格分類.

圖1 Text-CNN+context semantics模型架構(gòu)

模型使用到的變量定義如表1所示.

表1 符號(hào)表

輸入層:輸入的句子通過對(duì)字典的lookup生成句嵌入,即二維矩陣,每一行表示為單詞的詞向量.因此,輸入是一個(gè)數(shù)組AW×E.

卷積層:卷積核定義為Cn∈AK×n×E,n= 1,2,3.卷積窗口從句子矩陣最上方開始向下滑動(dòng)直到句子結(jié)尾,每次滑動(dòng)考慮n個(gè)單詞,通過卷積計(jì)算得到該句子的特征映射CMn∈AK×(W-n+1)×1,激活函數(shù)為ReLU.

池化層:對(duì)CMn做平均池化操作,得到輸出特征向量PCMn∈AK,將所有的PCMn連接得到最終的池化結(jié)果PCM∈A(K×n).

結(jié)合了上下文語義的特征向量:對(duì)于輸入的每個(gè)句子,其結(jié)合了上下文語義信息計(jì)算得到的特征向量為sj=(tw1,j,tw2,j,…,twV,j),sj∈AV.將sj與PCM連接作為下一階段的輸入向量P,P的計(jì)算公式為:

P=concat(PCM,sj),P∈A(K×n+V).

全連接層:將P與兩個(gè)全連接層矩陣做運(yùn)算,得到更深層的特征表示,如圖1列向量F.

輸出層:使用softmax函數(shù)對(duì)最后的人格結(jié)果進(jìn)行預(yù)測(cè),得到二分類結(jié)果如圖1列向量SO.損失函數(shù)的計(jì)算公式如下:

其中,yi′是該人格預(yù)測(cè)的概率值,yi是人格的實(shí)際值.

對(duì)于大五人格的五維人格特質(zhì),我們訓(xùn)練5個(gè)獨(dú)立的Text-CNN模型,它們的網(wǎng)絡(luò)結(jié)構(gòu)一致.

2 實(shí)驗(yàn)及分析

2.1 數(shù)據(jù)集

實(shí)驗(yàn)采用Facebook中myPersonality應(yīng)用的公共數(shù)據(jù)集.myPersonality中包括essay和Facebook用戶文本,發(fā)表這些文本的用戶已經(jīng)填寫了大五人格量表問卷并得到大五人格的評(píng)測(cè)結(jié)果,這些文本已標(biāo)注用戶大五人格類別.我們通過人格識(shí)別計(jì)算研討會(huì)的共享任務(wù)[14]獲得Facebook的用戶文本數(shù)據(jù).其中80%的數(shù)據(jù)集用于訓(xùn)練,剩下20%用于測(cè)試.

2.2 文本預(yù)處理

在自然語言處理中,文本分類結(jié)果的好壞,一方面取決于分類器的好壞,另一方面與文本前期的預(yù)處理工作有很大關(guān)系.文本的處理步驟如下:

1)去掉文本中的郵箱地址和網(wǎng)址.這些信息與人格特征關(guān)系不大;

2)拼寫檢查更正.使用pyenchant類庫檢查單詞拼寫,找出錯(cuò)誤后,根據(jù)需要來更正;

3)縮寫詞還原.如“I′m”還原成“I am”;

4)將單詞轉(zhuǎn)化為小寫,并引入停用詞表刪除一些無效字符,以降低詞匯表的維度;

5)去除數(shù)字和一些標(biāo)點(diǎn)符號(hào),并保留如“!!!”、“!!!!!!”等標(biāo)點(diǎn)符號(hào),因?yàn)檫@些重復(fù)的符號(hào)是用戶用來強(qiáng)調(diào)情緒的直接表現(xiàn).同理我們還保留了如“yayayaya”、“freeeeee”、“ahhhhhh”等含重復(fù)字母的單詞;

6)詞形還原.一個(gè)單詞會(huì)有單數(shù)、復(fù)數(shù)和時(shí)態(tài)等多種不同的形式.我們使用自然語言處理工具(nltk)將文本中的單詞還原成原形形式,從而生成最終的詞匯表.

2.3 實(shí)驗(yàn)參數(shù)設(shè)置

通過不斷調(diào)整超參數(shù)來降低隨機(jī)梯度,以使訓(xùn)練的模型最佳.對(duì)輸入的句嵌入的向量維度、詞嵌入的向量維度、卷積核的核寬以及每種卷積核的個(gè)數(shù)等進(jìn)行設(shè)置.對(duì)于訓(xùn)練,每迭代100次進(jìn)行一次驗(yàn)證,并保存結(jié)果.表2展示了實(shí)驗(yàn)設(shè)置的超參數(shù).

特別地,對(duì)于實(shí)驗(yàn)參數(shù)Batch_size,表示一批訓(xùn)練數(shù)據(jù)的文本條數(shù),取值范圍為{20,30,40,50},選20至50之前,用更大范圍的數(shù)值訓(xùn)練過模型,發(fā)現(xiàn)在20至50區(qū)間效果最好,所以在這個(gè)區(qū)間更細(xì)粒度地訓(xùn)練了模型.其中每一種取值測(cè)試20組數(shù)據(jù),共測(cè)試80組,訓(xùn)練五個(gè)人格維度模型則為400組.結(jié)果如表3所示,展示了每種取值下Text-CNN+context semantics各人格維度模型預(yù)測(cè)準(zhǔn)確率的平均值和最高值.表4展示了未加入上下文語義時(shí)Text-CNN模型預(yù)測(cè)準(zhǔn)確率的平均值和最高值.我們將預(yù)測(cè)準(zhǔn)確率最高時(shí)的Batch_size取值作為最終生成的模型的Batch_size值,即得到的Text-CNN+context semantics五個(gè)人格維度模型的Batch_size取值分別為{20,50,50,20,20},Text-CNN五個(gè)人格維度模型的Batch_size取值分別為{40,50,50,50,30}.

表2 實(shí)驗(yàn)參數(shù)設(shè)置

表3 Batch_size取不同值時(shí)Text-CNN+context semantics模型預(yù)測(cè)的準(zhǔn)確率

表4 Batch_size取不同值時(shí)Text-CNN模型預(yù)測(cè)的準(zhǔn)確率

2.4 評(píng)估指標(biāo)

本文以準(zhǔn)確率(Accuracy)來評(píng)估實(shí)驗(yàn)結(jié)果的好壞,其公式為:

2.5 實(shí)驗(yàn)結(jié)果分析比較

本節(jié)將討論模型訓(xùn)練中的收斂情況,以及5個(gè)人格維度上的卷積神經(jīng)網(wǎng)絡(luò)模型在引入上下文語義后,預(yù)測(cè)準(zhǔn)確率上的差別.

圖2給出了引入上下文語義后,開放型人格(OPN)維度上的Text-CNN+context semantics模型在訓(xùn)練過程中損失率和準(zhǔn)確率的變化折線圖.以O(shè)PN維度上的Text-CNN+context semantics模型為例,可以看出模型隨著訓(xùn)練步數(shù)的增長,準(zhǔn)確率逐漸增加,損失函數(shù)逐漸減小,在3000步左右的時(shí)候模型趨于收斂.

圖2 Text-CNN+context semantics/OPN上的損失率和準(zhǔn)確率

圖3給出了引入上下文語義之前,開放型人格維度上的Text-CNN模型訓(xùn)練過程中損失率和準(zhǔn)確率的變化折線圖.可以看出Text-CNN模型在訓(xùn)練步數(shù)的增長時(shí)準(zhǔn)確率的增加以及損失函數(shù)的減小,在3800步左右的時(shí)候趨于收斂.其他4個(gè)人格維度上的兩種模型對(duì)比也有類似結(jié)果.經(jīng)過比較可以看出,Text-CNN+context semantics模型,在參數(shù)相同的情況下,模型收斂的速度要快于Text-CNN模型,因?yàn)榧尤肷舷挛恼Z義后,模型學(xué)習(xí)到有關(guān)人格特質(zhì)的特征速度更快.

WEI[7]和MAJUMDER[10]在預(yù)測(cè)用戶大五人格時(shí)均使用了Text-CNN模型,為了驗(yàn)證實(shí)驗(yàn)中加入了上下文語義信息的效果,我們與Text-CNN模型進(jìn)行比較.表5展示了本文方法與Text-CNN模型、文獻(xiàn)[8]的SMO算法以及文獻(xiàn)[15]的全連接架構(gòu)在用戶大五人格5個(gè)維度上的預(yù)測(cè)準(zhǔn)確率.

圖3 Text-CNN/OPN上的損失率和準(zhǔn)確率

可以看到,在五個(gè)人格維度上的準(zhǔn)確率,Text-CNN+context semantics模型均比Text-CNN模型要高,Text-CNN+context semantics模型在外向型(OPN)人格維度上的準(zhǔn)確率最高達(dá)到70.2%,模型預(yù)測(cè)準(zhǔn)確率相對(duì)較高的原因在于加入上下文語義后,提取的文本語義特征更加豐富,模型學(xué)習(xí)到的有關(guān)人格特質(zhì)的特征更多,模型更精準(zhǔn);同時(shí),本文方法預(yù)測(cè)大五人格準(zhǔn)確率僅在神經(jīng)質(zhì)型人格(NEU)上的準(zhǔn)確率比SMO低1.33%,但整體上的準(zhǔn)確率比SMO以及只使用全連接層的神經(jīng)網(wǎng)絡(luò)要高.

表5 不同模型準(zhǔn)確率對(duì)比

3 總結(jié)與展望

傳統(tǒng)的利用文本信息來分析和預(yù)測(cè)大五人格的方法中,對(duì)于文本特征的提取階段,未充分考慮上下文語義,語義特征的提取不夠精準(zhǔn),會(huì)忽略掉很多文本關(guān)鍵信息,本文針對(duì)此問題引入短文本上下文的共現(xiàn)詞對(duì),結(jié)合上下文語義權(quán)重向量與Text-CNN模型,得到Text-CNN+context semantics模型來預(yù)測(cè)用戶大五人格,實(shí)驗(yàn)結(jié)果表明本文的方法在準(zhǔn)確率上有所提高.對(duì)于加入上下文語義前后,模型最佳時(shí)的參數(shù)Batch_size在不同人格維度上的取值不同,后續(xù)工作會(huì)繼續(xù)增加Batch_size各個(gè)取值訓(xùn)練的次數(shù),以探究其原因.未來我們會(huì)考慮將提取的上下文語義加入到其他深度學(xué)習(xí)模型如RNN、長短期記憶網(wǎng)絡(luò)(LSTM)中,驗(yàn)證上下文語義結(jié)合到預(yù)測(cè)模型中的通用性.

猜你喜歡
人格特質(zhì)人格語義
人格特質(zhì)對(duì)企業(yè)員工時(shí)間侵占行為的影響
共產(chǎn)黨人的人格力量
遠(yuǎn)去的平凡背影,光輝的偉大人格
語言與語義
選擇一張神奇的行為藝術(shù)照片,秒測(cè)你的真實(shí)人格特質(zhì)
論君子人格的養(yǎng)成
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
人格特質(zhì)對(duì)抑制表現(xiàn)的預(yù)測(cè)研究
人格特質(zhì)與腦外傷偏癱患者殘障接受度的相關(guān)性研究
認(rèn)知范疇模糊與語義模糊
庐江县| 双鸭山市| 林甸县| 苍梧县| 呼伦贝尔市| 绿春县| 上杭县| 襄城县| 峨边| 沈阳市| 江华| 神农架林区| 盘山县| 周口市| 普格县| 天峻县| 三河市| 南乐县| 资兴市| 高州市| 佛山市| 缙云县| 丽水市| 沙田区| 高台县| 孝感市| 通河县| 青铜峡市| 泸西县| 墨江| 五河县| 乌苏市| 永顺县| 康乐县| 锡林浩特市| 囊谦县| 邳州市| 合川市| 仁怀市| 刚察县| 郧西县|