国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于虛假評(píng)論識(shí)別的微博評(píng)論情感分析的研究與應(yīng)用

2019-04-15 06:54:08羅昌銀但唐朋李艷紅陳昌昊
關(guān)鍵詞:樣例文本情感

羅昌銀 但唐朋 李艷紅 陳昌昊 王 泰,3

1(華中師范大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430079) 2(中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 湖北 武漢 430074) 3(華中師范大學(xué)國(guó)家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 湖北 武漢 430079)

0 引 言

移動(dòng)社交網(wǎng)絡(luò)的普及與電子商務(wù)的發(fā)展促進(jìn)了互聯(lián)網(wǎng)用戶(hù)在線評(píng)論數(shù)量的增長(zhǎng),以微博為代表的評(píng)論往往會(huì)帶有用戶(hù)個(gè)人的情感傾向。通過(guò)對(duì)這些評(píng)論文本進(jìn)行情感分析挖掘,可以獲得用戶(hù)對(duì)事件的看法或產(chǎn)品的偏好。這些信息可以應(yīng)用到輿情分析、商品推薦等多個(gè)領(lǐng)域。面對(duì)大數(shù)據(jù)時(shí)代,如何高效、準(zhǔn)確地得評(píng)論文本情感傾向信息顯得尤為重要。

情感分析的主要研究工作包含情感傾向性分析、語(yǔ)言分析、觀點(diǎn)提取。這些研究都依賴(lài)于準(zhǔn)確可信的標(biāo)準(zhǔn)訓(xùn)練集來(lái)訓(xùn)練的分類(lèi)模型。然而在現(xiàn)實(shí)中,人們對(duì)評(píng)論信息的依賴(lài)導(dǎo)致了虛假評(píng)論的產(chǎn)生。比如賣(mài)家店鋪發(fā)布不實(shí)評(píng)論誘導(dǎo)買(mǎi)家進(jìn)行消費(fèi),在微博上發(fā)布虛假消息騙取流量等。

基于前人的研究[1]。虛假評(píng)論被分為以下兩類(lèi):

(1) 欺騙性評(píng)論。這類(lèi)評(píng)論會(huì)誘導(dǎo)其他用戶(hù)產(chǎn)生錯(cuò)誤判斷。如:淘寶網(wǎng)中賣(mài)家刻意發(fā)布的買(mǎi)家好評(píng)就屬于欺騙性評(píng)論。

(2) 破壞性評(píng)論。這一類(lèi)評(píng)論主要分為以下三個(gè)子類(lèi)別:① 廣告性評(píng)論;② 與當(dāng)前主題的無(wú)關(guān)評(píng)論;③ 不包含任意觀點(diǎn)、內(nèi)容、難以分辨情感的隨機(jī)文本。

人們能夠有效地識(shí)別破壞性評(píng)論,因?yàn)榇祟?lèi)評(píng)論與整體評(píng)論關(guān)聯(lián)性低。而第一類(lèi)欺騙性評(píng)論由于其與整體評(píng)論高度關(guān)聯(lián)且具有隱藏性與多樣性等特點(diǎn),所以難以識(shí)別。虛假評(píng)論的存在會(huì)降低傳統(tǒng)情感分析模型的準(zhǔn)確度,如何有效識(shí)別評(píng)論中的虛假評(píng)論并對(duì)其進(jìn)行剔除,從而提高情感分析的準(zhǔn)確度成為亟待解決的問(wèn)題。

PU學(xué)習(xí)算法是一種半監(jiān)督二元分類(lèi)模型。不同于傳統(tǒng)的半監(jiān)督分類(lèi)模型,PU算法只需要依賴(lài)少量標(biāo)注的正向樣本和大量未標(biāo)注樣本即可完成訓(xùn)練。當(dāng)負(fù)向樣本難以通過(guò)先驗(yàn)知識(shí)獲得時(shí)可以采用PU算法。PU算法可以幫助我們進(jìn)行虛假評(píng)論識(shí)別,也有部分學(xué)者將PU算法應(yīng)用于虛假評(píng)論識(shí)別的研究當(dāng)中,但這些研究并沒(méi)有考慮到用戶(hù)與文本之間的特征。本文通過(guò)研究用戶(hù)狀態(tài)指標(biāo)和行為指標(biāo)特征設(shè)計(jì)有效的策略來(lái)確定樣例中的類(lèi)別標(biāo)簽,提高算法識(shí)別的準(zhǔn)確度。

本文基于用戶(hù)的狀態(tài)指標(biāo)和行為指標(biāo)設(shè)計(jì)用戶(hù)評(píng)論可信度特征提取模型,并結(jié)合PU學(xué)習(xí)算法完成虛假評(píng)論識(shí)別。待去除虛假評(píng)論之后,再利用隨機(jī)梯度下降的邏輯回歸模型完成情感分析任務(wù)。本文的主要?jiǎng)?chuàng)新如下:

(1) 分析了用戶(hù)的狀態(tài)與行為指標(biāo),并將其與PU學(xué)習(xí)算法相結(jié)合提高了虛假評(píng)論的識(shí)別性能。傳統(tǒng)基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究通過(guò)聚類(lèi)方式獲得間諜樣例中的相關(guān)性,而本文從用戶(hù)狀態(tài)和行為獲取虛假評(píng)論的特征能夠從根源體現(xiàn)間諜樣例的相關(guān)性。

(2) 傳統(tǒng)研究路線沒(méi)有考慮訓(xùn)練集與測(cè)試集中的虛假評(píng)論,從而導(dǎo)致情感分析的準(zhǔn)確度難以提高。本文提出先進(jìn)行虛假評(píng)論識(shí)別再進(jìn)行情感分析的研究方法,能夠顯著提高整體情感分析的準(zhǔn)確度。

1 相關(guān)研究工作

1.1 情感分析

文本情感分析是人工智能領(lǐng)域關(guān)注的重點(diǎn),目前國(guó)內(nèi)外有不少學(xué)者取得了一定的研究成果。

Kasabov等[2]將密度估計(jì)與邏輯回歸相結(jié)合,解決了邏輯回歸方法中存在的非線性問(wèn)題。Kamps等[3]基于WordNet的同義結(jié)構(gòu)利用其提供的詞語(yǔ)相似度計(jì)算方法來(lái)計(jì)算文本中詞語(yǔ)間的情感極性,再通過(guò)與之前所確定的情感強(qiáng)烈詞進(jìn)行對(duì)比來(lái)獲得目標(biāo)詞的褒貶。其優(yōu)點(diǎn)是通過(guò)詞的劃分有效提取了語(yǔ)句中的特征信息,但其只考慮詞語(yǔ)間的同義關(guān)系。

Graber等[4]從卡方統(tǒng)計(jì)量出發(fā),結(jié)合詞頻、詞集中程度、詞分散程度來(lái)解決傳統(tǒng)研究方法中特征項(xiàng)指定類(lèi)出現(xiàn)頻率低的問(wèn)題。但這類(lèi)方法并沒(méi)有考慮到虛假評(píng)論的存在。梁軍等[5]探討了深度學(xué)習(xí)來(lái)完成中文短文本的情感分析可行性。他們不使用任何人工標(biāo)注的情感詞典與句法分析,僅僅將句子中詞語(yǔ)的標(biāo)簽關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型,最終獲得了不錯(cuò)的情感分析準(zhǔn)確度。

上述研究方法從文本特征構(gòu)建的角度來(lái)提高分析結(jié)果的準(zhǔn)確度,但評(píng)論集中包含著虛假評(píng)論。如果不將其去除則會(huì)影響整個(gè)分類(lèi)器的效能,所以對(duì)訓(xùn)練集和測(cè)試集中的虛假評(píng)論進(jìn)行識(shí)別、去除顯得尤為重要。

1.2 虛假評(píng)論識(shí)別

虛假評(píng)論識(shí)別研究開(kāi)始于評(píng)論文本的虛假性檢測(cè)研究,其核心難點(diǎn)是如何統(tǒng)合文本、用戶(hù)間的相互關(guān)系來(lái)提高識(shí)別的準(zhǔn)確度。自2008年Jindal等[6]首次提出虛假評(píng)論識(shí)別問(wèn)題以來(lái),已經(jīng)有不少學(xué)者在此方向上進(jìn)行研究。

Li等[7]從評(píng)論文本的語(yǔ)法層面發(fā)現(xiàn),真實(shí)評(píng)論對(duì)比虛假評(píng)論在詞性特征上包含更多的名詞、形容詞、介詞、限定詞和連詞。相反虛假評(píng)論含有更多的動(dòng)詞、副詞。但這種識(shí)別方式難以識(shí)別專(zhuān)家刻意編寫(xiě)的虛假評(píng)論。

Lau等[8]則認(rèn)為虛假評(píng)論中存在互相拷貝的現(xiàn)象,通過(guò)語(yǔ)義相似度的判斷能夠進(jìn)行虛假評(píng)論識(shí)別。文獻(xiàn)[9-10]基于PU學(xué)習(xí)算法提出了新的學(xué)習(xí)模型,并在此基礎(chǔ)下訓(xùn)練樸素貝葉斯分類(lèi)器,獲得了較好的結(jié)果。為了提高虛假評(píng)論的識(shí)別率,文獻(xiàn)[11-12]運(yùn)用元數(shù)據(jù)特征進(jìn)行分析且獲得了成效。

文獻(xiàn)[13]利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從互聯(lián)網(wǎng)中獲取關(guān)于產(chǎn)品的評(píng)論數(shù)據(jù),并進(jìn)行手工標(biāo)注。再利用半監(jiān)督算法來(lái)進(jìn)行虛假評(píng)論識(shí)別研究。Ott等[14]的研究已經(jīng)說(shuō)明:人本身難以利用自身的先驗(yàn)知識(shí)來(lái)對(duì)虛假評(píng)論進(jìn)行判斷,這導(dǎo)致手工標(biāo)記的訓(xùn)練集會(huì)出現(xiàn)大量錯(cuò)誤從而影響識(shí)別的效果。所以手工標(biāo)記方法并不適用于虛假評(píng)論檢測(cè)研究。

通過(guò)相關(guān)研究,我們發(fā)現(xiàn)只依賴(lài)少量標(biāo)注樣本的PU學(xué)習(xí)算法適合作為我們的核心算法。下面將詳細(xì)說(shuō)明用戶(hù)的狀態(tài)指標(biāo)和行為指標(biāo)可信度評(píng)價(jià)體系的構(gòu)建過(guò)程,并設(shè)計(jì)PU算法來(lái)完成虛假評(píng)論識(shí)別。待虛假評(píng)論從訓(xùn)練集中剔除后,利用邏輯回歸模型進(jìn)行微博評(píng)論的情感分析任務(wù)。

2 用戶(hù)評(píng)論可信度評(píng)價(jià)體系

在文獻(xiàn)[15-16]的基礎(chǔ)上,本文通過(guò)對(duì)微博平臺(tái)進(jìn)行分析,從用戶(hù)的狀態(tài)指標(biāo)和行為兩個(gè)方面提出能夠判斷在線評(píng)論可信性的6個(gè)指標(biāo)屬性,這些指標(biāo)能夠反映微博評(píng)論的特征。用戶(hù)評(píng)論可信度指標(biāo)概念如圖1所示。

圖1 用戶(hù)評(píng)論可信度指標(biāo)

微博用戶(hù)的狀態(tài)指標(biāo)主要通過(guò)該微博賬號(hào)的資料以及用戶(hù)評(píng)論本身來(lái)反映。正常的微博用戶(hù)會(huì)與其他用戶(hù)產(chǎn)生互動(dòng),用戶(hù)關(guān)注數(shù)和粉絲數(shù)結(jié)合單位時(shí)間瀏覽數(shù)和點(diǎn)贊數(shù)能判斷該用戶(hù)賬號(hào)是否可信。所以當(dāng)計(jì)算結(jié)果小于設(shè)定的閾值就可以確定該用戶(hù)評(píng)論沒(méi)有可信度或者為機(jī)器用戶(hù)。用戶(hù)可信度CL(credility level)是對(duì)用戶(hù)資料、用戶(hù)狀態(tài)進(jìn)行衡量的方法,評(píng)論的時(shí)效性TE(time effect)反映的是用戶(hù)評(píng)論在發(fā)布時(shí)間上的跨度,跨度越小時(shí)效性越高。文本長(zhǎng)度WS(words size)亦體現(xiàn)評(píng)論可信度,當(dāng)非機(jī)器用戶(hù)進(jìn)行操作時(shí)往往發(fā)布較多的內(nèi)容,這是因?yàn)檎鎸?shí)用戶(hù)往往需要更多語(yǔ)言來(lái)描述自己的情感。

對(duì)于行為指標(biāo),尤其是對(duì)評(píng)論用戶(hù)而言,注冊(cè)賬號(hào)的時(shí)間間隔RT(register times)是用戶(hù)注冊(cè)賬號(hào)行為異常的衡量標(biāo)準(zhǔn)。對(duì)所獲取的數(shù)據(jù)進(jìn)行分析表明,正常用戶(hù)和虛假用戶(hù)在注冊(cè)賬號(hào)的時(shí)間間隔上存在明顯差異。正常用戶(hù)注冊(cè)賬號(hào)的數(shù)量在一個(gè)范圍以?xún)?nèi),而虛假的機(jī)器用戶(hù)往往會(huì)大于閾值。評(píng)論的內(nèi)容也應(yīng)被我們關(guān)注,虛假評(píng)論的一個(gè)明顯特點(diǎn)是在同一用戶(hù)下或是不同用戶(hù)間會(huì)出現(xiàn)大量相似的評(píng)論,這時(shí)計(jì)算用戶(hù)評(píng)論內(nèi)容的相似度RCS(review content similarity)便能判斷該用戶(hù)是否可信。而文本中不同情感詞能夠表達(dá)文本本身的情感的顯性程度ES(emotion strength)。文本的強(qiáng)烈情感強(qiáng)度越大表明是虛假假評(píng)論的可能性就越小。

2.1 用戶(hù)的狀態(tài)指標(biāo)

1) 用戶(hù)的狀態(tài)指標(biāo),用戶(hù)可信度(CL)為:

(1)

(2)

(3)

式中:fsn(u)和fgn(u)分別表示用戶(hù)粉絲數(shù)和用戶(hù)關(guān)注數(shù);Report(P)表示單位時(shí)間內(nèi)的點(diǎn)贊數(shù)和瀏覽數(shù)之比;fyn(u)表示fsn(u)和fgn(u)的加權(quán)平均數(shù)。

2) 用戶(hù)評(píng)論時(shí)效性(TE)為:

(4)

為了避免twrite與tread差距過(guò)大導(dǎo)致算式失真,使用參數(shù)σ來(lái)約束Te的范圍。同時(shí)本文認(rèn)為最大發(fā)布閱讀間隔時(shí)間為一個(gè)季度(90天),超過(guò)90天將按90天計(jì)算;twrite指評(píng)論發(fā)布日期,tread指評(píng)論經(jīng)過(guò)閱讀的日期。σ在本文中取10。

3) 用戶(hù)評(píng)論文本長(zhǎng)度(WS)為:

(5)

根據(jù)微博評(píng)論長(zhǎng)度作為特征進(jìn)行賦權(quán)處理,其中n代表評(píng)論文本的實(shí)際長(zhǎng)度;k表示文本長(zhǎng)度在1至120以?xún)?nèi)文本的特征權(quán)值,且k的取值是1至8以?xún)?nèi)的整數(shù),k將按線性關(guān)系進(jìn)行取值。

2.2 用戶(hù)的行為指標(biāo)

1) 用戶(hù)注冊(cè)賬號(hào)的時(shí)間間隔(RT)為:

(6)

式中:avg(|ti|)表示一個(gè)用戶(hù)多個(gè)賬號(hào)注冊(cè)的平均時(shí)間間隔,μi是正常時(shí)注冊(cè)多個(gè)賬號(hào)的間隔閾值。

2) 用戶(hù)評(píng)論內(nèi)容相似度RCS(review content similarity)為:

(7)

式(7)采用余弦相似度算法來(lái)進(jìn)行計(jì)算。其中,rmip和rmiq分別代表該微博話題下的第p條評(píng)論和第q條評(píng)論;avg(simu(rmip,rmiq))表示每個(gè)用戶(hù)所發(fā)表的評(píng)論相似度的均值。如果當(dāng)前用戶(hù)只發(fā)表了一條評(píng)論,那么該值為0。

3) 情感表達(dá)強(qiáng)度(ES)。情感表達(dá)強(qiáng)度利用用戶(hù)評(píng)論中的情感詞來(lái)反映用戶(hù)的可信程度。本文利用知網(wǎng)公開(kāi)的HowNet情感詞典[17]并依據(jù)匹配原則進(jìn)行情感強(qiáng)度詞部分的構(gòu)建。如表1所示,將以情感詞數(shù)量為衡量標(biāo)準(zhǔn)并結(jié)合特殊關(guān)鍵字、網(wǎng)絡(luò)顏文字、特殊句式量化情感強(qiáng)度。

表1 部分情感表達(dá)強(qiáng)度詞

情感表達(dá)強(qiáng)度越強(qiáng)說(shuō)明該評(píng)論越能夠表達(dá)用戶(hù)的心理狀態(tài)從而說(shuō)明該用戶(hù)非機(jī)器用戶(hù),該評(píng)論非虛假評(píng)論。情感表達(dá)強(qiáng)度的度量公式為:

N=w1×n1+w2×n2+w3×n3

(8)

式中:w1表示情感詞的權(quán)重;n1代表情感詞的數(shù)量。同理w2、w3代表關(guān)鍵詞、顏文字、特殊句式等特殊屬性的權(quán)重;n2代表它們的數(shù)量;N表示情感表達(dá)強(qiáng)度。

2.3 虛假評(píng)論識(shí)別

將用戶(hù)的狀態(tài)指標(biāo)和行為指標(biāo)同PU學(xué)習(xí)算法相結(jié)合能夠提升虛假評(píng)論識(shí)別的準(zhǔn)確度,本節(jié)將詳細(xì)介紹基于PU學(xué)習(xí)算法所設(shè)計(jì)的虛假評(píng)論識(shí)別算法。

2.3.1 相關(guān)符號(hào)定義

本文將真實(shí)評(píng)論所構(gòu)成的正向集合命名為P。相對(duì)應(yīng)的虛假評(píng)論所在的集合為負(fù)向集合,其中可靠的負(fù)向集合定義為RN。未標(biāo)記的評(píng)論集合定義為U,間諜集合定義為US。PU學(xué)習(xí)算法的算法框架如下:

① 按照所標(biāo)記的P和未標(biāo)記的U計(jì)算可信負(fù)向文本RN;

② 計(jì)算集合中的代表性樣例;

③ 確定不同間諜樣例的類(lèi)別標(biāo)簽;

④ 基于有偏SVM算法建立最終分類(lèi)器。

因?yàn)閿?shù)據(jù)集中只包含正向集合和未標(biāo)記集合,PU算法需要對(duì)集合中潛在的負(fù)向例子進(jìn)行可信抽取。通常使用Roc-SVM方法來(lái)完成可信負(fù)例的抽取。抽取完成后可信負(fù)向文本將保存在RN中。算法的后續(xù)工作主要是計(jì)算代表性樣例和間諜樣例的類(lèi)別標(biāo)簽。

2.3.2 計(jì)算代表性樣例

PU算法分類(lèi)器的性能與間諜樣例US密切相關(guān)。為了確定間諜樣例的標(biāo)簽,我們要首先計(jì)算正向集合和負(fù)向集合中的代表性樣例。從現(xiàn)實(shí)角度出發(fā),正向集合和負(fù)向集合彼此間都應(yīng)該有潛在的相似關(guān)系,且同類(lèi)型的評(píng)論應(yīng)該含有相似的特征。所以將分別計(jì)算2個(gè)類(lèi)別中多個(gè)代表性樣例。本文先利用用戶(hù)可信度評(píng)價(jià)模型對(duì)不同評(píng)論文本進(jìn)行分類(lèi),再在此基礎(chǔ)上采用傳統(tǒng)的Rocchio分類(lèi)器進(jìn)行分類(lèi),最后輸出正向和負(fù)向的5個(gè)代表樣例。如算法1所示。

算法1計(jì)算代表性樣例

輸入:P和RN

輸出:pk和nk,k=1,2,…,10

① 基于用戶(hù)可信度評(píng)價(jià)體系將RN劃分為5個(gè)子類(lèi);

② 利用反向文檔評(píng)率公式tf×idf將P和RN中所有的樣例向量化;

③ for k=1,k<=5,k++,do;

④ 通過(guò)式(9)算pk;

⑤ 通過(guò)式(10)計(jì)算nk;

⑥ end for

(9)

(10)

2.3.3 子類(lèi)標(biāo)簽判別

相同子類(lèi)中的樣例有更高概率屬于同樣的類(lèi)別,根據(jù)這個(gè)思路本文設(shè)計(jì)了子類(lèi)的標(biāo)簽判別算法。首先計(jì)算各個(gè)樣例中相似度的平均值,再利用少數(shù)服從多數(shù)的投票法則決定整個(gè)類(lèi)別標(biāo)簽。如算法2所示。

算法2子類(lèi)相似度判別

輸入:US

輸出:LPi,LNi,i=1,2,…,m

①LPi=?,LNi=?,P_flag=0,N_flag=0;

② forUS中每一個(gè)例子tdo

④ then P_flag++;else N_flag++;

⑤ end if

⑥ end for

⑦ if P_flag > N_flag

⑧ thenLPi=LNi∪US;

⑨ elseLNi=LNi∪US;

⑩ end if

3 情感分析

情感分析依賴(lài)機(jī)器學(xué)習(xí)算法,本文進(jìn)行情感分析分為兩個(gè)步驟:(1)對(duì)待測(cè)數(shù)據(jù)進(jìn)行主觀句分類(lèi);(2)對(duì)主觀句進(jìn)行積極、消極二分類(lèi)。

3.1 基于SVM模型確定主觀句

SVM分類(lèi)器[18]會(huì)將評(píng)論文本的待處理數(shù)據(jù)表示為空間中的向量xi。通過(guò)在這個(gè)空間中創(chuàng)建一個(gè)超平面來(lái)達(dá)到將不同向量分類(lèi)的目的,超平面的法向量表示為w。yi表示對(duì)應(yīng)數(shù)據(jù)xi的類(lèi)別且yi∈{-1,1}。下面分別給出其目標(biāo)函數(shù)和對(duì)應(yīng)最優(yōu)解。

目標(biāo)函數(shù):

(11)

最優(yōu)解:

(12)

式中:αi表示拉格朗日算子,大于0的拉格朗日算子被稱(chēng)為支持向量,其余的拉格朗日算子等于0。SVM分類(lèi)器根據(jù)計(jì)算待測(cè)數(shù)據(jù)并以超平面為界劃分類(lèi)別。

在研究過(guò)程中,使用LIBLINEAR工具包對(duì)數(shù)據(jù)集進(jìn)行觀點(diǎn)句和非觀點(diǎn)句分類(lèi),應(yīng)用線性核函數(shù),并在BOW模型下利用:

(1) bigram的TF-IDF[19]特征集合,選擇這種特征集合可以降低由于分詞不當(dāng)帶來(lái)的誤差并結(jié)合互信息公式進(jìn)行特征選擇從而實(shí)現(xiàn)降維的目的。

互信息公式:

(13)

式中:p(x)表示詞x在訓(xùn)練數(shù)據(jù)中出現(xiàn)的概率;p(y)表示屬于y類(lèi)別的句子概率。

(2) unigram的TF-IDF值:

(14)

式中:dft為包含此單詞的句子數(shù);N為句子總數(shù)。所得到的特征向量每一維代表該單詞的w值。

通過(guò)上述操作可以得到如表2所示的主觀句識(shí)別判斷集。

表2 主觀句判斷特征集

3.2 利用邏輯回歸實(shí)現(xiàn)文本情感分析

針對(duì)各個(gè)分類(lèi)算法的特點(diǎn),本文將采用SVM分類(lèi)獲得主觀句,再利用邏輯回歸進(jìn)行情感分類(lèi)。

3.2.1 預(yù)測(cè)函數(shù)

使用邏輯回歸進(jìn)行分類(lèi)必須要找到相對(duì)應(yīng)的預(yù)測(cè)函數(shù),預(yù)測(cè)函數(shù)用以輸入數(shù)據(jù)結(jié)果。設(shè)存在待分類(lèi)集合A={p1,p2,…,pn},對(duì)應(yīng)的類(lèi)別集合label={y1,y2}。情感分析的結(jié)果只存在積極或者消極2種情況。所以對(duì)于線性邊界:z=θTx,當(dāng)z>0時(shí),該判別對(duì)象是正類(lèi),反之即為負(fù)類(lèi)。像這樣的0、1分類(lèi)問(wèn)題滿足Sigmoid函數(shù)在0、1兩個(gè)點(diǎn)之間的跳躍,Sigmoid函數(shù)如下:

(15)

由線性邊界和Sigmoid函數(shù)構(gòu)造預(yù)測(cè)函數(shù):

(16)

式中:θ表示回歸函數(shù)的回歸系數(shù),且函數(shù)hθ(x)表示結(jié)果為1的概率。所以可以得到相對(duì)于輸入x所預(yù)測(cè)的0、1類(lèi)別的概率:

p(y=1|x;θ)=hθ(x)

(17)

p(y=0|x;θ)=1-hθ(x)

(18)

3.2.2 建立損失函數(shù)

首先將式(17)-式(18)合并得到關(guān)于每個(gè)樣本(x,y)的統(tǒng)合概率公式:

p(y|x;θ)=(hθ(x))y(1-hθ(x))1-y

(19)

統(tǒng)合概率公式能反映每個(gè)樣本的輸入輸出結(jié)果,而損失函數(shù)用于預(yù)測(cè)輸出和類(lèi)別之間的偏差。所以在假設(shè)各個(gè)樣本之間相互獨(dú)立的情況下,整個(gè)樣本生成的概率是所有樣本概率的乘積,且形式如下:

(20)

式中:x表示每一個(gè)樣本;m表示所擁有的的樣本數(shù)量;θ未知,且是該函數(shù)的自變量。該函數(shù)能夠說(shuō)明不同參數(shù)θ下所取得當(dāng)前的樣本的可能性,稱(chēng)參數(shù)θ相當(dāng)于樣本集x的似然函數(shù)。取對(duì)數(shù)似然函數(shù)為:

(1-yi)lg(1-hθ(xi)))

(21)

由式 (21)可以看出,當(dāng)l(θ)最大時(shí)可以獲得最佳參數(shù)θ,在此為了簡(jiǎn)便運(yùn)算設(shè)存在函數(shù)J(θ):

(22)

此時(shí)當(dāng)J(θ)最小時(shí)可以求得最佳參數(shù)θ。為了求解最佳參數(shù)J(θ),采用隨機(jī)梯度下降算法來(lái)解決問(wèn)題。在隨機(jī)梯度下降中對(duì)θ求偏導(dǎo)可以得到的如下更新公式:

(23)

本文的技術(shù)路線如圖2所示。

圖2 技術(shù)路線圖

4 實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)自?xún)蓚€(gè)方面:一是來(lái)源自中國(guó)計(jì)算機(jī)學(xué)會(huì)提供的微博樣例數(shù)據(jù),二是利用網(wǎng)絡(luò)爬蟲(chóng)獲取微博熱搜評(píng)論數(shù)據(jù)。評(píng)論均與社會(huì)熱點(diǎn)事件新聞?dòng)嘘P(guān),包括“官宣”婚禮、“中美貿(mào)易摩擦”、“紅黃藍(lán)幼兒園”事件等用戶(hù)寬泛參與討論的事件,具有一定代表性。實(shí)驗(yàn)從中選擇2萬(wàn)條評(píng)論信息并進(jìn)一步獲取各項(xiàng)特征。采用人工標(biāo)注數(shù)據(jù)集來(lái)構(gòu)建訓(xùn)練集,為了避免人工個(gè)體造成的偏差,由兩人獨(dú)立標(biāo)記,若結(jié)果不同再由第三人仲裁。

4.1 實(shí)驗(yàn)環(huán)境說(shuō)明

本文的實(shí)驗(yàn)環(huán)境為:CPU:Intel Core i7 6700, 內(nèi)存:DDR4 8 GB,硬盤(pán):固態(tài)硬盤(pán)120 GB,操作系統(tǒng):Windows 7,開(kāi)發(fā)環(huán)境:Python 3.4.4,sklearn機(jī)器學(xué)習(xí)庫(kù),MATLAB R2014a。為了提高實(shí)驗(yàn)的精度,采用交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn)。

4.2 實(shí)驗(yàn)步驟

1) 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取相應(yīng)特征,合并不同文檔的文字信息,做好標(biāo)記。文本使用“jieba”庫(kù)對(duì)評(píng)論進(jìn)行分詞。

2) 對(duì)合并好的文本信息進(jìn)行“去停用詞”處理。

3) 利用虛假評(píng)論識(shí)別體系進(jìn)行特征提取,并按照層次模型獲得經(jīng)過(guò)賦權(quán)的6維特征向量。同時(shí)確定特征項(xiàng)相關(guān)系數(shù)。

4) 應(yīng)用層次分析法對(duì)6維特征向量進(jìn)行賦權(quán)操作。

5) 采用詞袋空間模型(BOW Model)將文本信息轉(zhuǎn)換為空間向量。

6) 利用PU學(xué)習(xí)算法進(jìn)行虛假評(píng)論識(shí)別,將相應(yīng)虛假評(píng)論剔除出測(cè)試集。

7) 利用SVM分類(lèi)進(jìn)行主觀句進(jìn)行分類(lèi),在此基礎(chǔ)上運(yùn)用隨機(jī)梯度下降的邏輯回歸分別對(duì)已剔除虛假評(píng)論的測(cè)試集與未剔除虛假評(píng)論的測(cè)試集進(jìn)行情感分析對(duì)比。

4.3 結(jié)果分析

通過(guò)用戶(hù)的注冊(cè)時(shí)間間隔(RT),如圖3所示,我們可以發(fā)現(xiàn),微博用戶(hù)的注冊(cè)時(shí)間間隔有明顯的差異,在絕大部分用戶(hù)注冊(cè)的間隔時(shí)間大于40天,小于16天或者小于8天的頻率分別是4.56%和3.31%??紤]到可能有部分用戶(hù)存在遺忘老用戶(hù)信息而注冊(cè)新賬號(hào)的情況,取用戶(hù)的平均注冊(cè)時(shí)間閾值μi為8。圖4表示用戶(hù)評(píng)論相似度的分布情況。

圖3 用戶(hù)注冊(cè)時(shí)間間隔

圖4 用戶(hù)評(píng)論相似度

表3是本文虛假評(píng)論識(shí)別的準(zhǔn)確率與其他研究實(shí)驗(yàn)結(jié)果[20]的對(duì)比。對(duì)比傳統(tǒng)虛假評(píng)論識(shí)別方法,結(jié)合用戶(hù)狀態(tài)和行為的識(shí)別體系具有更好的識(shí)別效果。這說(shuō)明本文所構(gòu)建的識(shí)別方法要優(yōu)于傳統(tǒng)研究,可以實(shí)際應(yīng)用于虛假評(píng)論的識(shí)別過(guò)程。

表3 虛假評(píng)論識(shí)別的準(zhǔn)確度比較

圖5-圖7是表4、表5的直觀體現(xiàn),表示不同維度下評(píng)價(jià)的各項(xiàng)指標(biāo)。從圖中能夠直觀地看出去除虛假評(píng)論對(duì)準(zhǔn)確度、F值有明顯的提升。在維度較低的情況下不進(jìn)行虛假評(píng)論識(shí)別的召回率要高于進(jìn)行識(shí)別,這可能是由于維度較低導(dǎo)致被錯(cuò)誤標(biāo)記為負(fù)例的測(cè)試樣本增加。

圖5 各維度下情感分析的準(zhǔn)確度

圖6 各維度下情感分析的召回率

圖7 各維度下情感分析的F值

表4 進(jìn)行虛假評(píng)論識(shí)別的情感分析的結(jié)果

表5 未進(jìn)行虛假評(píng)論識(shí)別的情感分析的結(jié)果

5 結(jié) 語(yǔ)

本文基于用戶(hù)狀態(tài)和行為提出一種虛假評(píng)論特征提取方法,并結(jié)合PU學(xué)習(xí)算法完成微博評(píng)論集中的虛假評(píng)論識(shí)別工作。在去除所收集評(píng)論中的虛假評(píng)論后,運(yùn)用SVM分類(lèi)器和邏輯回歸模型分別進(jìn)行主觀句分類(lèi)與情感分析。實(shí)驗(yàn)結(jié)果分為虛假評(píng)論識(shí)別結(jié)果和情感分析兩個(gè)部分。從虛假評(píng)論識(shí)別的結(jié)果來(lái)看,采用狀態(tài)行為特征所得到的準(zhǔn)確率要明顯優(yōu)于其他方法,表明該方法能夠更好地捕獲虛假評(píng)論的特征。從情感分析方面可以看出,去除評(píng)論集中的虛假評(píng)論后,結(jié)果的準(zhǔn)確率、召回率均有較大提升,表明本文提出的方法切實(shí)有效,滿足了應(yīng)用的要求。但是通過(guò)實(shí)驗(yàn)也可以看出,我們只是將虛假評(píng)論進(jìn)行剔除并沒(méi)有挖掘出虛假評(píng)論和正常評(píng)論間的關(guān)系。

下一步我們將探索虛假評(píng)論對(duì)正常評(píng)論的欺騙作用,考慮其中的潛在聯(lián)系進(jìn)一步提升整體方法的準(zhǔn)確率,提升本文提出模型的效能。

猜你喜歡
樣例文本情感
樣例復(fù)雜度與學(xué)習(xí)形式對(duì)不同數(shù)量樣例學(xué)習(xí)的影響
樣例呈現(xiàn)方式對(duì)概念訓(xùn)練類(lèi)別表征的影響
如何在情感中自我成長(zhǎng),保持獨(dú)立
“樣例教學(xué)”在小學(xué)高年級(jí)數(shù)學(xué)中的應(yīng)用
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
琼中| 朝阳县| 张掖市| 北安市| 台安县| 蒲城县| 双辽市| 麻江县| 闵行区| 潞西市| 十堰市| 日土县| 南皮县| 邹平县| 南充市| 怀化市| 瑞昌市| 铁岭市| 盘山县| 苏尼特右旗| 长岛县| 虎林市| 融水| 呼图壁县| 重庆市| 叙永县| 东明县| 游戏| 三穗县| 凤阳县| 石泉县| 淅川县| 淳化县| 涞水县| 漳浦县| 德格县| 山西省| 夏津县| 绥化市| 环江| 水城县|