国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博用戶的個(gè)性分類分析*

2015-07-10 01:24張巖峰陳長(zhǎng)松左俐俐
關(guān)鍵詞:決策樹分類器維度

張巖峰,陳長(zhǎng)松,楊 濤,左俐俐,丁 飛

(1.公安部第三研究所,上海 200031;2.中石化管理干部學(xué)院,北京 100021)

1 引言

近十年來,社交網(wǎng)絡(luò)經(jīng)歷了爆炸性的增長(zhǎng),據(jù)統(tǒng)計(jì),推特(Twitter)的用戶數(shù)已超過5億,一天的數(shù)據(jù)增量大約為7 TB;臉書(FaceBook)的用戶數(shù)已超過10億,一天的數(shù)據(jù)增量超過10 TB。截至2012年12月底,新浪微博注冊(cè)用戶已超5億,日活躍用戶數(shù)達(dá)到4 620萬,用戶每日發(fā)博量超過1億條[1]。用戶在這些社交網(wǎng)絡(luò)上的活動(dòng),比如建立個(gè)人的資料、建立與他人的鏈接關(guān)系、發(fā)表個(gè)人觀點(diǎn)、共享照片、推薦內(nèi)容等,表露出大量關(guān)于該用戶的情感、喜好等因素。

理解個(gè)體的個(gè)性并對(duì)其進(jìn)行描述,發(fā)展系統(tǒng)的個(gè)性測(cè)試方法,以及將個(gè)性的歸類應(yīng)用到對(duì)職業(yè)發(fā)展、職業(yè)咨詢、團(tuán)隊(duì)建議、婚姻教育等領(lǐng)域一直是心理學(xué)家研究的一項(xiàng)主題。傳統(tǒng)的個(gè)性分析方法主要是采用問卷的方式,這種問卷形式易于控制,并且對(duì)被調(diào)查者所處的環(huán)境依賴性弱,但是并不足以完整展示一個(gè)人的個(gè)性,正如Barker G和Wright H F在文獻(xiàn)[2]中提到的:只有對(duì)一個(gè)人日常的自然行為進(jìn)行全面的分析,才能夠真正了解一個(gè)人的特性。

過去的研究表明,人類不可避免地要在他們所經(jīng)歷過的虛擬和真實(shí)環(huán)境下遺留下與個(gè)性相關(guān)的行為和思想痕跡[3],比如日常的會(huì)話[4]、Facebook賬號(hào)信息[5]以及用戶的寫作特性[6]等。微博用戶經(jīng)常用微博來記錄他們?nèi)粘5男袨橐约八枷?,有理由相信一個(gè)用戶的微博數(shù)據(jù),包括微博的用詞、語法以及語用特征,以及發(fā)表分享的內(nèi)容、賬號(hào)信息、朋友的關(guān)系中包含了許多有關(guān)其個(gè)性的信息。

本文介紹了一個(gè)通過分析用戶的微博數(shù)據(jù),包括微博的文本數(shù)據(jù)和非文本數(shù)據(jù),來對(duì)用戶的個(gè)性進(jìn)行分類分析的數(shù)據(jù)挖掘系統(tǒng)。本文的組織如下:第2節(jié)介紹了本文中采用的個(gè)性分類指標(biāo)—邁爾斯-布里格斯個(gè)性分類指標(biāo);第3節(jié)介紹了對(duì)用戶個(gè)性進(jìn)行分類分析的系統(tǒng)結(jié)構(gòu);第4節(jié)是關(guān)于數(shù)據(jù)樣本的采集方式;第5節(jié)描述了微博數(shù)據(jù)的特征提?。坏?節(jié)主要是關(guān)于個(gè)性分類分析的機(jī)器學(xué)習(xí)模型;第7節(jié)分析了系統(tǒng)的分類分析結(jié)果,最后是結(jié)論以及將來進(jìn)一步要做的工作。

2 邁爾斯-布里格斯個(gè)性分類指標(biāo)

邁爾斯-布里格斯個(gè)性分類指標(biāo)MBTI(Myers-Briggs Type Indicator)[7]是個(gè)性分類理論模型的一種,經(jīng)過五十多年的發(fā)展,MBTI現(xiàn)已成為全球著名的個(gè)性測(cè)試之一,在教育界、雇員招聘及培訓(xùn)、領(lǐng)袖訓(xùn)練及個(gè)人發(fā)展等領(lǐng)域均有廣泛的應(yīng)用[8,9],據(jù)估計(jì)在中國(guó)的外資企業(yè)中,80%以上利用這種個(gè)性分類指標(biāo)來輔助個(gè)人的職業(yè)規(guī)劃發(fā)展。MBTI將人的個(gè)性用四個(gè)維度來表示,每個(gè)維度又通過一個(gè)對(duì)立面來呈現(xiàn),使用戶位于每一維度上的具體個(gè)性都可以歸結(jié)為一個(gè)二值分類問題。這四個(gè)維度表征的個(gè)性方面以及其對(duì)立面如表1所示。

(1)EI維度。該維度用以表示個(gè)體心理能量的獲得途徑和與外界相互作用的程度,即個(gè)體的注意力是較多地指向于外部的客觀環(huán)境還是內(nèi)部的概念建構(gòu)和思想觀念,通過字母E(外傾)和I(內(nèi)傾)表示。外傾型個(gè)體經(jīng)常先行動(dòng)后思考,而內(nèi)傾型個(gè)體經(jīng)常耽于思考而缺乏行動(dòng)。

Table 1 MBTI personality indication

(2)SN維度。該維度又稱之為非理性維度或知覺維度,表示個(gè)體在收集信息時(shí)注意的指向。即傾向于通過各種感官去注意現(xiàn)實(shí)的、直接的、實(shí)際的、可觀察的事件,還是對(duì)事件將來的各種可能性和事件背后隱含的意義及符號(hào)和理論感興趣,通過S(感覺)和N(直覺)表示。感覺型的個(gè)體被視為較具有實(shí)際意識(shí),而直覺型個(gè)體被視為較有改革意識(shí)。

(3)TF維度。該維度又稱之為理性維度或判斷維度。該維度用于表示個(gè)體在作決定時(shí)采用的方法,是客觀的邏輯推理還是主觀的情感和價(jià)值,通過字母T(思維)和F(情感)表示。情感型的個(gè)體期望自己的情感與他人保持一致,其理性判斷的依據(jù)是個(gè)人的價(jià)值觀。而思維型的個(gè)體通過對(duì)情境作客觀的、非個(gè)人的邏輯分析來做決定,他們注重因果關(guān)系并尋求事實(shí)的客觀尺度,因此較少受個(gè)人感情的影響。

(4)JP維度。該維度用以描述個(gè)體的生活方式。即傾向于以一種較固定的方式生活還是以一種更自然的方式生活,通過字母J(判斷)和P(知覺)表示。判斷型個(gè)體傾向于以一種有序的、有計(jì)劃的方式對(duì)其生活加以控制,他們期望看到問題被解決,習(xí)慣于并喜歡做決定。而知覺型個(gè)體偏好于知覺經(jīng)驗(yàn),他們不斷地收集信息以使其生活保持彈性和自然。

根據(jù)人在MBTI的四個(gè)維度對(duì)立面上的偏好,可將所有人的個(gè)性分為16個(gè)種類,并取每個(gè)維度偏好上的字母來表示,比如內(nèi)傾直覺思維知覺的個(gè)性類型以INTP表示,他的個(gè)性特點(diǎn)可以概括為對(duì)于自己感興趣的任何事物都尋求找到合理的解釋,喜歡理論性的和抽象的事物,熱衷于思考而非社交活動(dòng),安靜、內(nèi)向、靈活、適應(yīng)力強(qiáng),對(duì)于自己感興趣的領(lǐng)域有超凡的集中精力深度解決問題的能力。

MBTI的個(gè)性分析結(jié)果最主要的應(yīng)用是反映個(gè)體相對(duì)穩(wěn)定的職業(yè)傾向,有助于個(gè)體對(duì)自己的職業(yè)進(jìn)行規(guī)劃,每種個(gè)性類型都給出了常見的職業(yè)類型推薦,其他方面也助于提高個(gè)體對(duì)自己的認(rèn)識(shí),促進(jìn)溝通,改善人際關(guān)系以及提高工作效率。

3 基于微博的用戶個(gè)性分類分析系統(tǒng)結(jié)構(gòu)

我們的目的在于使系統(tǒng)能夠根據(jù)微博用戶的微博文本和其他的微博特征,比如其在微博內(nèi)的社交行為,自動(dòng)分類該用戶的MBTI的四個(gè)個(gè)性維度的歸屬。為了對(duì)微博用戶的MBTI個(gè)性特征進(jìn)行分類和測(cè)試,首先需要設(shè)計(jì)一組能夠反映用戶個(gè)性的微博特征——微博用戶的個(gè)性特征空間。依據(jù)這一個(gè)性特征空間,每個(gè)微博用戶的信息可以通過其包含的特征及數(shù)量來表示。當(dāng)給定若干預(yù)先分類的微博用戶(訓(xùn)練樣本),個(gè)性分類模型(分類器)可以訓(xùn)練出來,并可利用其對(duì)MBTI個(gè)性未知的微博用戶進(jìn)行分類。

我們采用的面向微博用戶的個(gè)性分類系統(tǒng)流程圖如圖1所示,該系統(tǒng)主要分為兩大部分,第一部分是實(shí)現(xiàn)對(duì)個(gè)性模型的訓(xùn)練,第二部分利用訓(xùn)練的分類模型對(duì)新用戶進(jìn)行個(gè)性分類分析。其具體流程可以分為以下幾個(gè)步驟:

(1)采集微博用戶樣本,其中包括微博用戶的微博ID、微博名稱以及該用戶的MBTI的四維標(biāo)識(shí)。

(2)獲取微博用戶的微博數(shù)據(jù),包括微博用戶的微博文本內(nèi)容,也包括微博用戶其他的非文本信息。

(3)對(duì)每個(gè)微博用戶,自動(dòng)完成特征提取,提取的特征包括文本特征,也包括非文本特征。對(duì)提取的特征最后還需要做規(guī)范化處理。

(4)建立和訓(xùn)練個(gè)性分類模型,涉及到選擇合適的分類算法及其參數(shù),以及對(duì)模型的交叉驗(yàn)證。

(5)對(duì)個(gè)性未知用戶進(jìn)行個(gè)性分類,即將訓(xùn)練的分類算法應(yīng)用到MBTI值未知的微博用戶。

Figure 1 System flowchart of MBTI personality classification圖1 MBTI個(gè)性分類的系統(tǒng)流程圖

4 采集數(shù)據(jù)樣本

為了采集微博用戶的樣本,我們建立一個(gè)用于進(jìn)行個(gè)性測(cè)試的Web服務(wù)器,用戶進(jìn)入該Web服務(wù)器的主頁面,可以看到48道選擇題的MBTI個(gè)性測(cè)試題。當(dāng)用戶回答完48道題后,該Web服務(wù)器會(huì)根據(jù)用戶的選擇,計(jì)算用戶的MBTI值并反饋給用戶,同時(shí)會(huì)請(qǐng)求用戶輸入其微博賬號(hào)。然后服務(wù)器的后臺(tái)會(huì)通過新浪微博接口驗(yàn)證該賬號(hào)是否存在,如果驗(yàn)證通過,服務(wù)器就會(huì)將該用戶的MBTI值和相應(yīng)的微博賬號(hào)作為一個(gè)用戶樣本保留下來。部分樣本及其格式如圖2所示,其中第一列是樣本用戶的微博ID,第二列為樣本用戶的微博帳號(hào),第三列是Web服務(wù)器根據(jù)測(cè)試題結(jié)果判定的樣本用戶的MBTI個(gè)性測(cè)試結(jié)果,最后一列是樣本用戶的測(cè)試時(shí)間。利用這一Web服務(wù)器,在三個(gè)月的時(shí)間內(nèi)一共得到了900多個(gè)有效的微博用戶樣本。

Figure 2 Example of collected micro-blog user samples圖2 采集的微博用戶樣本示例

然后根據(jù)這些樣本中的微博賬號(hào),系統(tǒng)從新浪微博中讀取樣本用戶最新的200條微博,如果用戶的微博數(shù)量不足200條,則所有的微博內(nèi)容都將被讀取過來。另外,還需要讀取這些用戶微博的狀態(tài)(Statuses)信息,其中包括了該微博用戶與其他用戶的交互關(guān)系信息,比如:粉絲數(shù)、關(guān)注數(shù)、評(píng)論數(shù)等。

5 用戶的微博特征集選擇

一個(gè)用戶的微博可以用兩方面的特征來表征,一種是微博的文本中包含的文本特征,它代表了微博用戶通過語言來表達(dá)自己的特征;另外一種是微博中包含的非文本的行為特征,它更多地表示了該用戶與其他用戶的交互信息,這兩部分特征都有助于體現(xiàn)一個(gè)用戶的個(gè)性特點(diǎn)。另外,一個(gè)用戶轉(zhuǎn)發(fā)的微博內(nèi)容因?yàn)闆]有表達(dá)該用戶的主觀意愿,而被認(rèn)為與該用戶的個(gè)性無關(guān),所以處理該用戶的微博信息時(shí),這部分轉(zhuǎn)發(fā)別人的微博的文本內(nèi)容首先被清洗掉。但是,該用戶轉(zhuǎn)發(fā)別人微博的數(shù)量是他與別的微博用戶交互的一個(gè)重要衡量指標(biāo),這個(gè)信息是作為該用戶微博的一個(gè)重要的非文本特征。概括起來,一個(gè)微博用戶的非文本的行為特征包括:

(1)平均微博長(zhǎng)度,即一個(gè)用戶所有微博包含的字符數(shù)的均值。

(2)平均HashTag數(shù)量, 即微博中出現(xiàn)“#topic#”的平均數(shù)量,兩個(gè)“#”之間的內(nèi)容表示一個(gè)主題或者一個(gè)特定事件。

(3)平均鏈接數(shù)量, 微博中包含的超文本鏈接的數(shù)量,微博的瀏覽者可以通過點(diǎn)擊該鏈接進(jìn)入Internet的其他位置。

(4)平均提到其他微博用戶的數(shù)量,微博中提到其他用戶時(shí),在用戶名前加“@”來表示。

(5)該微博用戶的跟隨者(Follower)的數(shù)量,代表了對(duì)給定用戶微博感興趣的其他用戶的數(shù)量。

(6)該微博用戶跟隨(Follow)別人的數(shù)量,表明引起該用戶興趣的其他微博用戶的數(shù)量。

(7)該用戶平均每天發(fā)表的微博數(shù)量,不包含日均轉(zhuǎn)發(fā)別人微博的數(shù)量。

(8)該微博用戶平均每天轉(zhuǎn)發(fā)別人微博的數(shù)量。

(9)該微博用戶平均每天回答別人微博的數(shù)量。

以上微博用戶非文本方面的特征一部分可以通過該用戶微博的狀態(tài)(Status)信息獲取,另外一部分需要根據(jù)該微博用戶的微博屬性通過統(tǒng)計(jì)計(jì)算得到。

文本語言是人類以他人能夠理解的最普通和最可靠的用來表達(dá)內(nèi)心想法和情緒的方式,為了提取微博文本中的特征,我們用中文語言查詢和詞頻計(jì)算C-LIWC(Chinese-Linguistic Inquiry and Word Count)[10]詞庫來對(duì)微博的用詞類別及頻率特性進(jìn)行統(tǒng)計(jì)。語言查詢和詞頻計(jì)算LIWC(Linguistic Inquiry and Word Count)[7]是進(jìn)行英文有關(guān)個(gè)性或情感分析時(shí),應(yīng)用廣泛的一個(gè)文本分析工具。該工具從社會(huì)學(xué)和心理學(xué)的角度對(duì)語言的使用模式進(jìn)行分類,其中包含了語法語用方面的用詞分類,也包含了情緒、認(rèn)知、社交、感知等的分類。例如個(gè)性外向的人相對(duì)于個(gè)性內(nèi)向的人來講,更有可能使用長(zhǎng)充短的詞,因?yàn)槎潭?jiǎn)練的詞語中會(huì)表達(dá)更多的社交積極因素[4]。

C-LIWC[11]是臺(tái)灣中央研究院在英文LIWC2007的基礎(chǔ)上,通過翻譯并結(jié)合中文語言語法特點(diǎn)整理加工而成的,其中包括中文語法特性30類、心理特性42類,共有72類,總計(jì)6 862個(gè)中文詞,這六千多個(gè)詞在中文最常用的1 000詞中檢測(cè)率為83.5%,最常用的2 000詞中檢測(cè)率為76.2%,因此對(duì)于常用的詞語具有相當(dāng)不錯(cuò)的檢測(cè)率,圖3是C-LIWC的中文詞分類的例子,其中詞后面的數(shù)字表示該詞所屬的類別,比如19表示否定詞的類別,125代表感情詞匯類別。

Figure 3 An example of C-LIWC categories for Chinese words圖3 C-LIWC的中文詞分類示例

中文處理相對(duì)于英文處理的一個(gè)重要不同在于需要進(jìn)行分詞,為了利用C-LIWC中的詞語分類模式,我們先將C-LIWC中包含的中文詞加入中科院的開源漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)的用戶詞典中;然后利用ICTCLAS對(duì)用戶的微博進(jìn)行分詞并計(jì)算分完詞后的C-LIWC每個(gè)類別的詞頻的數(shù)量。

通過提出以上所述的用戶微博中的非文本特征和文本特征,每個(gè)微博用戶經(jīng)過特征提取可以通過一個(gè)81維的特征向量來表示。由于不同用戶的微博數(shù)量不同,需要對(duì)不同用戶特征值進(jìn)行規(guī)范化計(jì)算,使所有的特征值處于0~1,式(1)是采用的規(guī)范化計(jì)算公式。

(1)

6 個(gè)性分類模型

為了對(duì)微博用戶的個(gè)性進(jìn)行分類,我們采用三種分類模型進(jìn)行分類分析比較:提升決策樹(Adaboost Decision Tree)、貝葉斯邏輯遞歸(Bayesian Logistic Regression)[12]和支持向量機(jī)(Support Vector Machine)[13]。針對(duì)每個(gè)分類模型和微博用戶,采用了四個(gè)二項(xiàng)分類器來實(shí)現(xiàn)個(gè)性的分類。假設(shè)xi是訓(xùn)練樣本集合中的一個(gè)微博用戶特征值組合,且xi可以表示為d維向量:xi=[xi1,xi2,…,xid]T, yi∈{+1,-1}是具體的個(gè)性分類結(jié)果標(biāo)注,分別對(duì)應(yīng)MBTI個(gè)性分類模型的四個(gè)維度中的某一個(gè)個(gè)性標(biāo)注結(jié)果,這三種分類模型可以概括如下。

6.1 提升決策樹

決策樹是基于信息增益測(cè)量形成的流程圖式樣的樹結(jié)構(gòu)分類方法,在許多領(lǐng)域得到廣泛的應(yīng)用[14]。在決策樹中,每個(gè)特征表示為樹的一個(gè)內(nèi)部節(jié)點(diǎn),每次分類測(cè)試表示為樹的一個(gè)分支,分類的結(jié)果最后表示為樹的終端節(jié)點(diǎn)。給定一組特征屬性,從決策樹的樹根到終端節(jié)點(diǎn)的路徑表示了分類的依據(jù)。在微博用戶高可變特征的情況下,決策樹會(huì)帶來嚴(yán)重的過度擬合問題,為了克服這一現(xiàn)象,我們采納提升技術(shù)-Adaboost作為決策樹的組合學(xué)習(xí)方法。當(dāng)Adaboost與決策樹組合用于分類問題時(shí),給定一個(gè)訓(xùn)練數(shù)據(jù),求一個(gè)比較粗糙的分類器(即弱分類器)要比求一個(gè)精確的分類器(即強(qiáng)分類器)容易得多。提升方法就是從弱分類器出發(fā),通過提高被錯(cuò)誤分類的樣本的權(quán)值,反復(fù)學(xué)習(xí),得到一系列弱分類器,然后組合這些弱分類器,構(gòu)成一個(gè)強(qiáng)分類器。提升決策樹的基本步驟可以概括為:

(2) 在后面的m=1,2,…,M次迭代過程中,使用具有權(quán)值分布Dm的訓(xùn)練數(shù)據(jù)集進(jìn)行決策樹學(xué)習(xí),分別得到第m次遞歸的決策樹弱分類模型Gm(x)→{+1,-1},并計(jì)算Gm(x)在訓(xùn)練數(shù)據(jù)集上的分類誤差率和Gm(x)的系數(shù),分別如式(2)和式(3)所示。

(2)

(3)

(4)

(5)

(4)當(dāng)訓(xùn)練完M個(gè)基本的弱決策樹分類器,進(jìn)一步對(duì)其進(jìn)行線性組合,形成式(6)所示最終的決策樹分類器。

(6)

6.2 貝葉斯邏輯遞歸

邏輯遞歸是線性遞歸基礎(chǔ)上的一種變化形式,適用于在一組獨(dú)立的特征變量基礎(chǔ)上進(jìn)行分類預(yù)測(cè),并且分類預(yù)測(cè)結(jié)果為二項(xiàng)輸出。當(dāng)給定一組特征的向量,邏輯遞歸模型通過式(7)對(duì)屬于類yi的概率進(jìn)行估計(jì):

P(yi=+ 1|ω,xi) = ψ(ωTxi)

(7)

其中xi是訓(xùn)練樣本集合D={(x1,y1)},(x2,y2)},…,(xn,yn)}中的一個(gè)微博用戶特征值組合,式(7)中的邏輯鏈接函數(shù)通過式(8)表示:

(8)

公式(7)估計(jì)的概率通過與預(yù)先設(shè)定好的門限值進(jìn)行比較來確定預(yù)報(bào)結(jié)果的所在類。例如,當(dāng)P(yi=+ 1|ω,xi)>Threshold時(shí),分類結(jié)果為y=+1,否則,y=-1,在本文中,該門限值設(shè)定為0.5。

為了克服邏輯遞歸可能引入的過度擬合問題,我們通過貝葉斯方法對(duì)ω提供一個(gè)均值為0、方差為σj的先驗(yàn)分布:

P(ωi|σj) =N(0,σj)

(9)

進(jìn)一步設(shè)定σj的概率密度函數(shù)為式(10)所示的指數(shù)分布:

(10)

式(9)和式(10)經(jīng)積分得到如式(11)所示的雙指數(shù)(拉普拉斯)分布:

(11)

不失一般性,假設(shè)ω的元素相互獨(dú)立,則ω的先驗(yàn)概率可以表示為:

(12)

根據(jù)貝葉斯理論,則ω的后驗(yàn)概率可以通過式(13)表示:

L(ω)=P(ω|D)∝P(D|ω)P(ω)=

(13)

兩邊取對(duì)數(shù)并忽略其中的歸一化常數(shù),得到:

(14)

通過式(14),ω可以通過最小化-l(ω)獲得。因?yàn)?l(ω)是凸函數(shù),ω可以通過各種優(yōu)化算法獲得。在我們的實(shí)現(xiàn)中采用了一種一維優(yōu)化算法——CLG方法[13],在一次循環(huán)中更新所有的ωj(j=1,2,…,d),當(dāng)更新ωj時(shí),先對(duì)所有ωk(j≠k)進(jìn)行固定,然后經(jīng)多次循環(huán)直到ω收斂。

6.3 支持向量機(jī)(SVM)

支持向量機(jī)[15]同時(shí)能夠支持線性或者非線性分類,并能夠處理高維輸入。在給定訓(xùn)練樣本集合時(shí),當(dāng)作為一個(gè)線性分類器,如果輸入的兩個(gè)類是線性可分的,SVM通過搜索最優(yōu)的線性分離超平面來實(shí)現(xiàn)分類的最優(yōu)化,即通過式(15)的優(yōu)化問題計(jì)算得到最優(yōu)的加權(quán)向量ω*:

且yi(ω·xi-b)≥1

(15)

對(duì)于線性不可分的情況,SVM通過引入松弛變量ξ來建立軟分界,而這時(shí)的目標(biāo)函數(shù)需要增加一個(gè)函數(shù)來補(bǔ)償非零值的ξi,如果該補(bǔ)償函數(shù)是線性的,優(yōu)化問題就變成如式(16)所示:

且yi(ω*·φ(xi)-b)≤1-ξi,ξi≥0

(16)

其中,C是分錯(cuò)項(xiàng)的懲罰因子。另外,還需要用核函數(shù)將特征空間X映射到高維空間φ(X),然后在這高維空間內(nèi),SVM搜索計(jì)算最大邊距分離超平面。應(yīng)用最廣泛的核函數(shù)包括線性、多項(xiàng)式、徑向基函數(shù)和S函數(shù)(Sigmoid函數(shù)),在對(duì)微博用戶進(jìn)行個(gè)性分類分析時(shí),我們發(fā)現(xiàn)當(dāng)核函數(shù)采用徑向基函數(shù)時(shí),能夠輸出比較優(yōu)良的分類性能,如式(17)所示。

(17)

7 實(shí)驗(yàn)結(jié)果分析

對(duì)于MBTI的四維個(gè)性問題,我們采用的相應(yīng)的輸出分類標(biāo)注,如表2所示,然后利用上面所述的分類分析模型,在開源的數(shù)據(jù)挖掘軟件Weka(WaikatoEnvironmentforKnowledgeAnalysis)[15]中采用如圖4所示的10倍交叉驗(yàn)證流程來對(duì)分類模型的性能進(jìn)行評(píng)測(cè)分析。

Table 2 Classification result indicationof different MBTI personality dimension

Figure 4 Cross-validation flowchart for personality classification prediction圖4 個(gè)性分類的交叉驗(yàn)證流程

圖4的交叉驗(yàn)證流程的各部分功能包括加載含有微博特征的ARFF數(shù)據(jù)文檔,指定數(shù)據(jù)中的類標(biāo)注項(xiàng),實(shí)現(xiàn)數(shù)據(jù)的訓(xùn)練集和驗(yàn)證集的分配,采用SVM或貝葉斯邏輯遞歸構(gòu)建的分類器模型,以及最后的分類性能結(jié)果輸出和分析模塊。

交叉驗(yàn)證的結(jié)果如圖5和圖6所示。圖5表示不同樣本數(shù)量對(duì)三種分類器的性能影響情況,隨著微博用戶樣本數(shù)量的增加,三種分類器的性能都有所提高,而樣本數(shù)量對(duì)提升決策樹的影響要高于其他兩種分類方法,而且支持向量機(jī)的分類效果在不同樣本數(shù)量等級(jí)上,都要優(yōu)于提升決策樹和貝葉斯邏輯遞歸。

Figure 5 Influence of sample number on two classification models圖5 樣本數(shù)量對(duì)兩種分類模型性能的影響

圖6表示采用900個(gè)微博用戶樣本,分別采用這三種分類器模型在四個(gè)個(gè)性維度上的分類正確度結(jié)果。從圖6中可以看出,支持向量機(jī)在MBTI四個(gè)個(gè)性維度上的分類正確率都要優(yōu)于貝葉斯邏輯遞歸和提升決策樹的分類模型。另外,對(duì)于不同的MBTI個(gè)性維度輸出結(jié)果,TF維度上的個(gè)性分類結(jié)果最準(zhǔn)確,三種分類器的分類準(zhǔn)確度都超過85%;其次是EI維度和JP維度,前者的支持向量機(jī)和提升決策樹的分類準(zhǔn)確度都超過85%,而貝葉斯邏輯遞歸的分類準(zhǔn)確度也趨近于85%;分類結(jié)果最差的是SN維度,三種分類器的分類準(zhǔn)確度都在75%~80%。這種不同維度的分類準(zhǔn)確率的差異主要來自于不同維度表達(dá)的個(gè)性角度不同,通過微博的特征,尤其是通過微博的文本特征所能夠表征的清晰度不同。對(duì)于TF維度,表達(dá)的是做決定時(shí)依賴的是感情還是邏輯,文本中表達(dá)情感和因果的詞匯的多寡直接決定了該維度個(gè)性的分類清晰度,也就決定了個(gè)性分類的準(zhǔn)確度,所以分類的準(zhǔn)確度較高。而對(duì)于SN維度,主要表達(dá)了人類認(rèn)識(shí)世界的方式,即人如何處理接收的外界知識(shí),屬于對(duì)外界的信息的吸收方式,不容易通過文本和語言表達(dá)出來,因此分類的準(zhǔn)確度最低。EI和JP維度都包含了一些人與外界的交互,以及個(gè)人態(tài)度的表達(dá),但又不能向FT維度那樣清晰地通過文本表征,因此它們的分類準(zhǔn)確度要低于FT維度,而高于SN維度。

Figure 6 Performance of two classification models on different MBTI dimensions圖6 兩種分類器在MBTI不同維度上的性能結(jié)果

8 結(jié)束語

邁爾斯-布里格斯個(gè)性分類指標(biāo)(MBTI)作為重要的個(gè)性理論分類模型,已成為重要的個(gè)人職業(yè)規(guī)劃發(fā)展的輔助工具。論文在傳統(tǒng)MBTI基于測(cè)試題的個(gè)性測(cè)評(píng)基礎(chǔ)上,提出了通過分析微博用戶的微博數(shù)據(jù)——包括文本數(shù)據(jù)和非文本數(shù)據(jù),利用機(jī)器學(xué)習(xí)中的分類分析模型實(shí)現(xiàn)用戶的MBTI的個(gè)性分類分析方法。實(shí)驗(yàn)結(jié)果表明,采用上述的微博特征和分類算法可以實(shí)現(xiàn)理想的個(gè)性分析準(zhǔn)確度。微博用戶樣本的數(shù)量會(huì)對(duì)個(gè)性分類模型的性能產(chǎn)生影響,其中對(duì)提升決策樹模型的影響最大,另外由于MBTI的不同維度表示的個(gè)性角度不同,通過微博信息表露出的強(qiáng)弱也有差異,帶來分類分析模型在不同MBTI維度上的性能差異。當(dāng)然用戶的個(gè)性特征和其在社交網(wǎng)絡(luò)上的行為及留下的文字之間的關(guān)聯(lián)還需要從心理學(xué)上進(jìn)一步分析;另外,用戶內(nèi)容的語義、線上行為與線下實(shí)際本體的關(guān)聯(lián)還需要我們做大量的研究工作。

[1] Business war between Weibo and Weixin is started[EB/OL].[2013-08-06].http://news.sina.com.cn/o/2013-08-06/150927877611.shtml.(in Chinese)

[2] Barker G, Wright H F. One boy’s day:A specimen record of behavior [M]. New York:Harper and Brothers Publishers, 1966.

[3] Gosling S D, Ko S J,Mannarelli T. et al. A room with a cue:Personality judgments based on offices and bedrooms [J]. Journal of Personality and Social Psychology, 2002, 82(3):379-398.

[4] Mehl M R, Gosling S D, Pennebaker J W. Personality in its natural habitat:Manifestations and implicit folk theories of personality in daily life [J]. Journal of Personality and Social Psychology, 2006, 90(5):862-877.

[5] Golbeck J, Robles C, Turner K. Predicting personality with social media [C]∥Proc of the 29th ACM Conference on Human Factors in Computing Systems (CHI), 2011:253-262.

[6] Peng F, Schuurmans D, Keselj V. Automated authorship attribution with character level language models [C]∥Proc of the 10th Conference of the European Chapter of the Association for Computational Linguistics, 2003:1.

[7] Myers-briggs type indicator[EB/OL].[2013-08-06].http://en.wikipedia.org/wiki/Myers-Briggs_Type_Indicator.

[8] Cohen Y,Ornoy H,Keren B.MBTI personality types of project managers and their success:A field survey [J]. Project Management Journal, 2013, 44(7):78-87.

[9] Chang Luo. The application of MBTI theory in hiring sales staffs [C]∥Proc of the 19th International Conference on Industrial Engineering and Engineering Management, 2013:703-709.

[10] LIWC:linguistic inquiry and word count[EB/OL].[2013-08-06].http://www.liwc.net/liwcdescription.php.

[11] C-LIWC [EB/OL]. [2013-08-10]. https://sites.google.com/site/taiwanliwc/home.

[12] Barber D. Bayesian reasoning and machine learning [M]. Cambridge:Cambridge University Press,2012.

[13] Genkin A, Lewis D. Large-scale Bayesian logistic regression for text categorization [J].Technometrics, 2006, 49(3):291-304.

[14] Safavian R, Landgrebe D. A survey of decision tree classifier methodology [J]. IEEE Transactions on Systems, Man and Cybernetics, 1991, 3(5):660-674.

[15] Cortes C, Vapnik V. Support-vector network[J]. Machine Learning, 1995, 20(3):273-297.

[16] Weka 3:Data mining software in Java.[EB/OL].[2013-08-01].http://www.cs.waikato.ac.nz/ml/weka/.

附中文參考文獻(xiàn):

[1] 微博微信商業(yè)大戰(zhàn)烽煙起[EB/OL].[2013-08-06].http://news.sina.com.cn/o/2013-08-06/150927877611.shtml.

猜你喜歡
決策樹分類器維度
淺論詩中“史”識(shí)的四個(gè)維度
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于決策樹的出租車乘客出行目的識(shí)別
光的維度
“五個(gè)維度”解有機(jī)化學(xué)推斷題
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用