国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于層次注意力機制神經網(wǎng)絡模型的虛假評論識別

2019-09-04 10:14顏夢香姬東鴻任亞峰
計算機應用 2019年7期
關鍵詞:注意力機制神經網(wǎng)絡

顏夢香 姬東鴻 任亞峰

摘 要:針對虛假評論識別任務中傳統(tǒng)離散模型難以捕捉到整個評論文本的全局語義信息的問題,提出了一種基于層次注意力機制的神經網(wǎng)絡模型。首先,采用不同的神經網(wǎng)絡模型對評論文本的篇章結構進行建模,探討哪種神經網(wǎng)絡模型能夠獲得最好的篇章表示;然后,基于用戶視圖和產品視圖的兩種注意力機制對評論文本進行建模,用戶視圖關注評論文本中用戶的偏好,而產品視圖關注評論文本中產品的特征;最后,將兩個視圖學習的評論表示拼接以作為預測虛假評論的最終表示。以準確率作為評估指標,在Yelp數(shù)據(jù)集上進行了實驗。實驗結果表明,所提出的層次注意力機制的神經網(wǎng)絡模型表現(xiàn)最好,其準確率超出了傳統(tǒng)離散模型和現(xiàn)有的神經網(wǎng)絡基準模型1至4個百分點。

關鍵詞:注意力機制;虛假評論;離散特性;神經網(wǎng)絡;長短期記憶網(wǎng)絡

Abstract: Concerning the problem that traditional discrete models fail to capture global semantic information of whole comment text in deceptive review detection, a hierarchical neural network model with attention mechanism was proposed. Firstly, different neural network models were adopted to model the structure of text, and which model was able to obtain the best semantic representation was discussed. Then, the review was modeled by two attention mechanisms respectively based on user view and product view. The user view focused on the users preferences in comment text and the product view focused on the product feature in comment text. Finally, two representations learned from user and product views were combined as final semantic representation for deceptive review detection. The experiments were carried out on Yelp dataset with accuracy as the evaluation indicator. The experimental results show that the proposed hierarchical neural network model with attention mechanism performs the best with the accuracy higher than traditional discrete methods and existing neural benchmark models by 1 to 4 percentage points.

Key words: attention mechanism; deceptive review; discrete feature; neural network; Long Short-Term Memory (LSTM) network

0 引言

隨著電子商務的興起,越來越多的個人和商業(yè)組織開始閱讀和參考在線評論來作出購買決策,例如,在哪里住宿,去哪里就醫(yī),購買哪些產品,去哪個餐廳,等等。積極的評論可以為企業(yè)和個人帶來顯著的經濟收益和名聲,這為虛假評論的產生提供了強大的動力。在過去幾年中,虛假評論的問題已經變得極為普遍,新聞中也報道了眾多引人注目的案例。許多企業(yè)已經開始通過現(xiàn)金、優(yōu)惠券和促銷活動等手段刺激虛假評論的產生,用以增加銷售,獲取經濟效益。虛假評論檢測是一個緊迫而且重要的話題,它對于確保網(wǎng)絡平臺上信息的可信度至關重要,如果不識別它們,線上商城就可能成為謊言、假貨和欺騙的地方,因此,設計有效的模型來自動檢測虛假評論是非常必要的。

虛假評論識別通常被建模為一個文本分類問題[1]?;跇擞浀恼鎸嵑吞摷贅永?,利用監(jiān)督學習來構建分類器,然后將未標記評論預測為虛假評論或真實評論?,F(xiàn)有大多數(shù)方法遵循Jindal等[2]的開創(chuàng)性工作,采用全監(jiān)督學習來構建分類器。這些研究主要側重于設計有效特征以提高分類性能,如語言學和心理語言學相關的典型特征,但未能從全局篇章結構的角度有效地表示文檔。例如,Ott等[1]使用了二一元詞組(Unigram)、詞性(Part Of Speech, POS)和LIWC(Linguistic Inquiry and Word Count)特征。盡管這些特征給出了良好的性能,但是它們的稀疏性使得難以在篇章層面捕獲全局的語義信息。

最近,神經網(wǎng)絡模型已被廣泛用于自然語言處理(Natural Language Processing, NLP)眾多任務的語義表示,并取得優(yōu)異的性能。神經網(wǎng)絡應用在虛假評論檢測方面有兩點潛在的優(yōu)勢。首先,神經網(wǎng)絡模型使用隱藏層進行自動特征組合,可以捕獲到傳統(tǒng)離散特征難以表達的復雜全局語義信息,這可以解決離散模型的限制;其次,神經網(wǎng)絡模型采用分布式詞向量作為輸入,詞向量可以從大規(guī)模原始文本中訓練得到,從而在一定程度上緩解標注數(shù)據(jù)的稀缺性?;谶@個方向,一些創(chuàng)新性的工作已經被提出,例如,Ren等[3]提出使用神經網(wǎng)絡模型來學習評論文本的表示,用以識別虛假評論。具體的,他們采用卷積神經網(wǎng)絡(Convolutional Neural Network, CNN)模型從單詞向句子層面建模,使用長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡模型從句子向文檔層面建模,實驗結果證明了所提模型的有效性。

本文發(fā)現(xiàn),一個評論文本通常包括兩部分信息:一部分信息表達用戶的偏好,另一部分信息表達產品的特性?;诖耍疚奶剿髁艘环N基于層次注意力機制的神經網(wǎng)絡模型,從用戶和產品兩個角度來對評論文本進行建模,并對兩部分信息進行整合,將其用于虛假評論識別任務?;赮elp數(shù)據(jù)集的實驗證實了所提算法的有效性。同時,對樣例的可視化分析也驗證了本文所提方法的有效性和可解釋性。

1 相關工作

Jindal等[2]最先引入虛假評論識別問題,他們抽取評論內容、評論者和產品本身的特征來訓練模型識別虛假評論;Yoo等[4]收集了40條真實和42條虛假的酒店評論,并手動比較了它們之間的語言差異;Ott等[1]通過亞馬遜眾包平臺,雇用Turkers撰寫虛假評論構建了一個基準數(shù)據(jù)集。該數(shù)據(jù)也被一系列后續(xù)研究工作所采用[5-6]。例如,F(xiàn)eng等[5]研究了上下文無關語法解析樹的語法特征,以提高識別性能。Feng等[6]從評論集合中建立了酒店簡介,衡量了客戶評論與酒店簡介的兼容性,并將其用作虛假評論檢測的一個特征。Mukherjee等[7]認為基于眾包平臺構建的虛假評論跟現(xiàn)實中虛假評論的真實分布存在一定差異,基于分布更真實的Yelp評論,他們使用Boolean、詞頻(Term Frequency, TF)、詞頻逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)等特征來對虛假評論進行了分類和分析,由于該數(shù)據(jù)集中虛假評論的分布更為真實,后續(xù)的一些工作都是基于該數(shù)據(jù)集進行研究和分析。

上述工作主要集中于評論文本進行特征建模,也有工作研究了評論內容本身之外的特征。除了Jindal等[2],Mukherjee等[8]研究了客戶行為的特征來識別欺騙。Qian等[9]確定了同一作者生成的多個用戶ID,因為這些作者更有可能產生欺騙性評論。任亞峰等[10]和Rout等[11]提出了一種半監(jiān)督學習方法,并建立了一個準確的分類器來識別欺騙性評論。此外,Ren等[12]提出了一種新方法,從糾正錯誤標記樣例的角度發(fā)現(xiàn)虛假評論。Kim等[13]引入了基于FrameNet框架的語義特征,實驗結果表明語義框架特征可以提高分類精度。Wang等[14]建議學習評論的表示,而不是以數(shù)據(jù)驅動的方式識別欺騙性的垃圾評論。任亞峰等[15]基于遺傳算法對評論的語言結構及情感極性特征進行優(yōu)化選擇,并使用兩種簡單的聚類方法進行虛假評論識別。Zhang等[16]提出了一種稱為遞歸卷積神經網(wǎng)絡識別欺騙性評論(Deceptive Review Identification by Recurrent Convolutional Neural Network, DRI-RCNN)的方法,通過使用單詞上下文和深度學習來識別欺騙性評論。最近,Noekhah等[17]提出了一種新穎的多重迭代網(wǎng)絡結構,該結構考慮了亞馬遜上實體之間最有效的特征以及內部和內部關系。不同于這些工作,本文關注對評論文本內容進行建模,但上述模型的功能可在本文提出的模型中進行擴展。

現(xiàn)有方法大多使用傳統(tǒng)的離散特征,這些特征是稀疏的并且不能有效地編碼來自整個文檔的語義信息。最近,神經網(wǎng)絡模型已被用于各種NLP任務中[18]。分布式詞表示已被大多數(shù)NLP模型用作基本構建塊[19]。同時,眾多方法已被提出用于學習短語和較大文本片段的表示。例如,Yessenalina等[20]使用迭代矩陣乘法從詞表示中學出短語表示。Le等[21]引入段落向量來學習文檔表示。Socher等[22]引入了一系列遞歸神經網(wǎng)絡來表示句子級語義組合。后來,這項工作從不同方面進行了擴展,其中包含全局反饋機制、深度遞歸層、特征權重調整、自適應組合函數(shù)和組合分類語法。CNN已被廣泛用于語義合成[23],自動捕獲語法信息。序列模型,如循環(huán)神經網(wǎng)絡(Recurrent Neural Network, RNN)或LSTM也被用于語義合成[24]。同時,受人類視覺注意的啟發(fā),Bahdanau等[25]在機器翻譯中提出了注意力機制,將其引入編碼器—解碼器框架,以選擇目標語言中單詞的源語言參考詞。它也用于圖像標題生成、解析、自然語言問答。此外,Yang等[26]和Chen等[27]探索層次注意力機制,為文檔的語義選擇信息性詞語或句子。

不同于上述工作,基于Yelp數(shù)據(jù)集,本文提出一種基于層次注意力機制的神經網(wǎng)絡模型,從用戶和產品兩個角度來對評論文本進行建模,并將其用于虛假評論識別任務。

2 基于層次注意力機制的神經網(wǎng)絡模型

一個評論文本通常包含兩種信息:一部分信息表達用戶的偏好,另一部分信息表達產品的特性。如何對這兩種信息進行建模,對學習評論文本的篇章表示至關重要。本文探索了一種基于層次注意力機制的神經網(wǎng)絡模型,從用戶和產品兩個角度分別對評論文本進行建模,學習評論文本的篇章表示,用于識別虛假評論。

2.1 總體框架

本文所提的模型稱為HNNUPA(Hierarchical Neural Network with User and Product Attention)。如圖1所示,所提框架主要由四部分組成:長短期記憶網(wǎng)絡、用戶注意力網(wǎng)絡、產品注意力網(wǎng)絡和篇章表示。首先,實驗地探討了不同神經網(wǎng)絡結構(CNN、RNN和LSTM)對評論文本的篇章結構建模,即哪種神經網(wǎng)絡模型能獲得最好的篇章表示;然后,基于用戶視圖和產品視圖的兩種注意力機制,用戶視圖關注評論文本中用戶的偏好,而產品視圖關注評論文本中產品的重要特性;最后,將兩個視圖學習的評論表示拼接,整合兩種視圖的信息,作為預測虛假評論的最終表示進行預測。

2.2 長短期記憶網(wǎng)絡

LSTM因其在序列建模方面的出色表現(xiàn)而被廣泛用于文本建模。為了解決長距離依賴的問題,LSTM架構引入了能夠長時間保持單元狀態(tài)的存儲器單元。具體地,每個LSTM單元有三個門來保護和控制單元狀態(tài),分別是“遺忘門”“輸入門”和“輸出門”。在每個時間周期t,給定輸入向量xt,則當前單元狀態(tài)ct和隱藏狀態(tài)ht可由之前的單元狀態(tài)ct-1和隱藏狀態(tài)ht-1更新如下:

這里it, ft和ot是門激活,σ是sigmoid函數(shù),⊙代表元素乘法。直觀地,忘記門ft控制前一存儲器單元的遺忘程度,輸入門it控制每個單元的更新程度,輸出門ot控制內部存儲器狀態(tài)的輸出。隱藏狀態(tài)ht表示LSTM單元的內部存儲器單元的輸出信息。

2.3 用戶注意力機制

從用戶的角度來看,并非所有單詞都能反映用戶的偏好或情緒,為此本文設計用戶注意力機制來選取對句子含義有重要意義的用戶特定詞。形式上,句子表示sui 是用戶視圖中的詞級隱藏狀態(tài)的加權和:

其中:huij是第i個句子中第j個單詞的隱藏狀態(tài);αuij是huij的注意力權重,用于衡量第j個單詞對當前用戶的重要性。將每個用戶u映射到連續(xù)的實值向量u∈Rdu,其中du表示用戶嵌入的維度。具體地,每個隱藏狀態(tài)的注意權重αuij定義為:

2.4 產品注意力機制

對于不同的產品,每個單詞或句子對文本語義貢獻度也不同?;诔WR可知,產品注意力機制可將產品信息整合到類似于用戶注意力機制類似的評論表示中。在產品視圖中,評論的句子表示spi和文檔表示dp可計算如下:

這里αpij和βpi分別是單詞級隱藏狀態(tài)hpij和句子級hpi的權重,其計算方式跟用戶注意力機制中的權重計算一樣,不需要人工調節(jié)和干預。

2.5 文檔表示

du和dp分別表示用戶視圖和產品視圖學習的表示,為了獲得較為全局的篇章表示,首先整合這兩個視圖的表示,將其拼接在一起作為一個最終的評論表示:

拼接后,可以直接使用線性層和softmax層將評論表示d投影到C類的評論類別分布中:

在提出的模型中,評論類別的基本事實分布與p之間的交叉熵誤差被定義為:

其中:pgc表示分類標簽c的概率,T代表訓練集。

之前,對兩個視圖的表示直接進行了拼接作為最終表示,但是,這種表示不一定能給出最優(yōu)的全局篇章表示,因為兩個表示的構造方式基本相同,因此,為了獲得更優(yōu)的篇章表示,在損失1中以一定權重整合評論表示du和dp,具體地,分別在du和dp中添加softmax分類器,其相應的損失定義如下:

其中:pu是用戶視圖的預測結果分布,pp是產品視圖的預測結果分布,因此,模型的最終損失可以表示為損失1,損失2和損失3的加權和:

損失2和損失3作為監(jiān)督信息引入,以幫助進一步從用戶視圖和產品視圖來探索虛假評論識別,因此,最終根據(jù)分布p預測評論分類標簽,因為它包含用戶信息和產品信息。

3 實驗設置

3.1 數(shù)據(jù)集

本文使用來自美國最大點評網(wǎng)站Yelp.com收集到的三個數(shù)據(jù)集,表1是三個數(shù)據(jù)集的統(tǒng)計信息。這三個數(shù)據(jù)集都是非平衡數(shù)據(jù)集。第一個數(shù)據(jù)集是YelpChi,它包含對芝加哥地區(qū)餐館和酒店的評論,該數(shù)據(jù)集最早來自于文獻[28]。另外兩個數(shù)據(jù)集分別是YelpNYC和YelpZip。YelpNYC包含位于紐約市的餐館的評論;YelpZip數(shù)據(jù)量更大,提供了美國部分區(qū)域的餐館的評論,這些地區(qū)包括NJ、VT、CT和PA。這兩個數(shù)據(jù)集最早來自于文獻[29]。

表1中,第一列表示數(shù)據(jù)集;第二列中的all表示評論總數(shù), fake%表示虛假評論占比;第三列中的all表示評論者總數(shù),spammer%表示虛假評論者占比;第四列表示restaurant和hotel領域中提及的產品總數(shù)。

在實驗過程中,每個數(shù)據(jù)集以80/10/10的比例被劃分為訓練/測試/開發(fā)集。開發(fā)集用于優(yōu)化神經網(wǎng)絡結構的超參數(shù)。實驗中,采取Accuracy、F1值和均方根誤差(Root Mean Square Error, RMSE)來評價算法的性能。

3.2 超參數(shù)

在實驗中,使用Skip-Gram模型學到200維的詞向量。用戶詞向量的維度和產品詞向量的維度都設置為200,使用均勻分布U(-0.01,0.01)對其隨機初始化。LSTM單元格中隱藏狀態(tài)的維度設置為100,因此,雙向LSTM輸出單詞/句子表示為200維。這里,限制每個評論文本最多有40個句子,每個句子不超過50個單詞。使用Adam更新參數(shù),初始學習率設置為0.005。最后,根據(jù)開發(fā)集上的性能選擇最佳參數(shù),用于測試集中。

3.3 基準模型

支持向量機(Support Vector Machine, SVM): 支持向量機在眾多文本分類任務中獲得了優(yōu)異的性能,也被用于虛假評論識別工作中。這里,不僅整合SVM和傳統(tǒng)的詞袋特征,也使用了Bigram、POS、LIWC等各種語言學和心理語言學的特征。

4 實驗結果

4.1 結果比較

基于Yelp的數(shù)據(jù)集,表2給出了不同模型的實驗結果。以YelpNYC數(shù)據(jù)集為例,傳統(tǒng)的離散模型SVM,結合unigram特征,僅僅給出了69.63%準確率,當融合POS、LIWC等更多更復雜的語言學和心理語言學特征后,識別準確率被提升到74.18%,這展示了豐富的特征建模對虛假評論識別的重要性。對于神經網(wǎng)絡的基準模型,CNN完成了83.84%的準確率,遠遠地超出了離散的SVM模型,顯示了神經網(wǎng)絡模型的有效性。RNN給出了78.96%的準確率,BiLSTM給出了85.55%的準確率,遠遠地超過了RNN模型,主要原因是因為RNN受長距離依賴問題的困擾,而BiLSTM通過門機制的設置,可以避免長距離依賴導致的梯度彌散問題,從而完成了較好的性能?;贐iLSTM模型,從用戶視圖和產品視圖兩個角度分別整合了注意力機制,即本文提出的HNNUPA模型,完成了90%的準確率,超出了離散的SVM模型和神經網(wǎng)絡的基準模型CNN和BiLSTM?;跀?shù)據(jù)集YelpZip和YelpChi上,模型間的性能比較可以觀察到同樣的趨勢,上述分析證實了本文所提算法的有效性。

4.2 模型分析

4.2.1 用戶注意力和產品注意力的影響

為了證明同時使用用戶注意力和產品注意力的有效性,這里,獨立地實現(xiàn)了兩個注意力機制并進行探討。具體地,首先實現(xiàn)了獨立的用戶注意力網(wǎng)絡(Hierarchical Neural Network with User Attention, HNNUA),然后實現(xiàn)了獨立的產品注意力網(wǎng)絡(Hierarchical Neural Network with Product Attention, HNNPA)。表3給出了不同模型的具體結果?;诒?可知,與未使用注意力機制的普通神經網(wǎng)絡模型BiLSTM相比,HNNUA和HNNPA對模型的性能有一定的提升,這驗證了通過注意力機制將用戶和產品納入虛假評論識別的合理性。結果還表明,無論從用戶視圖還是產品視圖來對評論文本進行建模都是有效的。

同時,本文發(fā)現(xiàn),比起產品角度,從用戶視圖的角度對文本進行建模更有效。原因可能歸結于評論中的一些單詞或句子雖然一定程度上描述了產品的特征,但對產品的態(tài)度描述最終由用戶主觀決定。比起單獨的用戶視圖或者產品角度建模,對兩者進行整合獲得了更好的性能,主要原因是因為一個評論文本通常由兩種信息構成,一部分信息表達用戶的偏好,另一部分信息表達產品的特性,對這兩種信息同時建模才是獲得全局表示的關鍵。本文的實驗結果也證實了這一點。

另外,在表3中,本文也統(tǒng)計了模型的F1值和RMSE,這里F1值是兩個類別的宏平均。本文發(fā)現(xiàn)比起模型的Accuracy,F(xiàn)值相對較低,進一步分析了每個類別的Precision和Recall,發(fā)現(xiàn)真實評論這個類別的Precision和Recall都很高,而虛假評論類別的Precision較高,Recall只有0.4左右,這說明模型在虛假評論這個類別上性能要差于真實評論類別,其主要原因是數(shù)據(jù)集不均衡導致的,基于表1中的數(shù)據(jù)集統(tǒng)計信息可知。在未來的工作中,也將探索更好的模型來解決這個問題。

4.2.2 不同加權損失的影響

λ1、λ2和λ3分別代表損失1、損失2和損失3的權重。通過調整它們的比例來驗證不同加權損失對最終結果的影響。當λ2設置為0時,表示不使用損失2來增強評論表示。類似地,將λ3設置為0,表示不單獨使用損失3。實驗結果如表4。

從表4可知,無損失2和損失3此處“無損失2和損失3”的表述對嗎?請明確的模型在三個數(shù)據(jù)集上給出了一致的趨勢,即缺乏每一部分損失都會影響最終的性能,從表4可知,三個數(shù)據(jù)集上的實驗結果給出了一致的趨勢,即缺乏損失2或者損失3都會影響模型最終的性能,而本文提出的HNNUPA模型,從用戶和產品兩個角度建模,同時考慮兩方面的損失。獲得了性能上的一些提升。很明顯,完整的HNNUPA模型可以獲得最佳性能。結果表明,通過設計的組合策略,可以從篇章角度實現(xiàn)更好的評論表示,用于虛假評論識別中。

4.2.3 樣例可視化

為了驗證本文所提的注意力機制的有效性,以YelpNYC數(shù)據(jù)集為例進行分析?;谔岢龅腍NNUPA模型,這里分析單詞級別的注意力權重。兩個樣例如圖2所示,圖中上半部分表示評論1,下半部分表示評論2。注意,顏色越深意味著權重越大。

評論1是虛假評論,“l(fā)ove”一詞在用戶視圖上具有最高權重,“l(fā)ove”表達出了作者對食物的喜愛,說明作者試圖鼓吹、夸大該產品;“casual”和“surrounding”等詞在產品視圖上具有較高的權重,其中“surrounding”一詞描述了餐館空間特征,表示評論作者本身也許并未有真實的消費經歷,缺乏真實的體驗,所以選擇使用抽象的表示空間方位的詞。

評論2是虛假評論,“disappointed”一詞在用戶視圖上具有最高權重,“disappointed”表達出了作者的負面情感,說明作者試圖通過這種消極情緒來詆毀該產品,“bland”一詞在產品視圖上具有較高的權重,“bland”意為乏味的,是貶低食物的一種通用詞匯,作者可能根本就沒有吃過這家店的意大利面,試圖通過“bland”來詆毀該產品。

現(xiàn)實中的情況正是如此。為了鼓吹產品的質量,虛假評論者會使用積極正面的情感詞;同理,在貶低產品時,必然會使用消極負面的情感詞。另外,由于對產品或服務缺乏真實的消費體驗或經歷,虛假評論者往往會使用抽象的詞來描述空間信息或者地理位置,因為過于具體的詞匯可能會由于跟事實不符而暴露其欺騙意圖。

5 結語

本文提出了一種基于層次注意力機制的神經網(wǎng)絡模型,從用戶和產品兩個角度分別來學習評論文本的表示,將兩個表示進行整合作為評論文本的最終表示,用于虛假評論識別。基于Yelp數(shù)據(jù)集的實驗結果表明,本文所提模型超過了傳統(tǒng)的離散模型和神經網(wǎng)絡基準模型。未來的工作中,將探索更有效的模型,提升非平衡數(shù)據(jù)下的虛假評論識別效果。

參考文獻 (References)

[1] OTT M, CHOI Y, CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination [C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011: 309-319.

[2] JINDAL N, LIU B. Opinion spam and analysis [C]// Proceedings of the 2008 International Conference on Web Search and Data Mining. New York: ACM, 2008: 219-230.

[3] REN Y F, ZHANG Y. Deceptive opinion spam detection using neural network [C]// COLING 2016: Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers. Osaka, Japan: COLING, 2016: 140-150.

[4] YOO K H, GRETZEL U. Comparison of deceptive and truthful travel reviews [C]// Proceedings of the 2009 International Conference on Information and Communication Technologies. Berlin: Springer, 2009: 37-47.

[5] FENG S, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection [C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 2012: 171-175.

[6] FENG V W, HIRST G. Detecting deceptive opinions with profile compatibility [C]// Proceedings of the 6th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 338-346.

[7] MUKHERJEE A, VENKATARAMAN V, LIU B, et al. Fake review detection: classification and analysis of real and pseudo reviews [R]. Chicago: University of Illinois, Department of Computer Science, 2013: 3.

[8] MUKHERJEE A, KUMAR A, LIU B, et al. Spotting opinion spammers using behavioral footprints [C]// Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 632-640.

[9] QIAN T Y, LIU B. Identifying multiple userids of the same author [C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1124-1135.

[10] 任亞峰,姬東鴻,尹蘭.基于半監(jiān)督學習算法的虛假評論識別研究[J].計算機科學與探索,2014,46(3):62-69.(REN Y F, JI D H, YIN L. Deceptive reviews detection based on semi-supervised learning algorithm [J]. Advanced Engineering Sciences, 2014, 46(3): 62-69.)

[11] ROUT J K, SINGH S, JENA S K, et al. Deceptive review detection using labeled and unlabeled data [J]. Multimedia Tools and Applications, 2017, 76(3): 1-25.

[12] REN Y F, JI D H, YIN L, et al. Finding deceptive opinion spam by correcting the mislabeled instances [J]. Chinese Journal of Electronics, 2015, 24(1): 52-57.

[13] KIM S, CHANG H, LEE S, et al. Deep semantic frame-based deceptive opinion spam analysis [C]// Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1131-1140.

[14] WANG X P, LIU K, HE S Z, et al. Learning to represent review with tensor decomposition for spam detection [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 866-875.

[15] 任亞峰,尹蘭,姬東鴻.基于語言結構和情感極性的虛假評論識別[J].計算機科學與探索,2014,8(3):313-320.(REN Y F, YIN L, JI D H. Deceptive reviews detection based on language structure and sentiment polarity [J]. Journal of Frontiers of Computer Science and Technology, 2014, 8(3): 313-320.)

[16] ZHANG W, DU Y H, YOSHIDA T, et al. DRI-RCNN: an approach to deceptive review identification using recurrent convolutional neural network [J]. Information Processing and Management, 2018, 54(4): 576-592.

[17] NOEKHAH S, SALIM N B, ZAKARIA N H. A novel model for opinion spam detection based on multi-iteration network structure [J]. Advanced Science Letters, 2018, 24(2): 1437-1442.

[18] REN Y F, ZHANG Y, ZHANG M S, et al. Context-sensitive twitter sentiment classification using neural network [C]// Proceedings of the 13th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 215-221.

[19] REN Y F, ZHANG Y, ZHANG M S, et al. Improving twitter sentiment classification using topic-enriched multi-prototype word embeddings [C]// Proceedings of the 13th AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI, 2016: 3038-3044.

[20] YESSENALI A A, CARDIE C. Compositional matrix-space models for sentiment analysis [C]// Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2011: 172-182.

[21] LE Q, MIKOLOV T. Distributed representations of sentences and documents [J]. Journal of Machine Learning Research, 2014, 32(2): 1188-1196.

[22] SOCHER R, PERELYGIN A, WU J, et al. Recursive deep models for semantic compositionality over a sentiment treebank [C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1631-1642.

[23] JOHNSON R, ZHANG T. Effective use of word order for text categorization with convolutional neural networks [C]// Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2015: 103-112.

[24] LI J W, LUONG M T, JURAFSKY D, et al. When are tree structures necessary for deep learning of representations [EB/OL]. [2017-08-04]. http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP278.pdf.

[25] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate [EB/OL]. [2017-10-20]. https://arxiv.org/abs/1409.0473.

[26] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1480-1489.

[27] CHEN H M, SUN M S, TU C C, et al. Neural sentiment classification with user and product attention [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1650-1659.

[28] MUKHERJEE A, VENKATARAMAN V, LIU B, et al. What yelp fake review filter might be doing [C]// Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media. Menlo Park, CA: AAAI, 2013: 409-418.

[29] RAYANA S, AKOGLU L. Collective opinion spam detection: bridging review networks and metadata [C]// Proceedings of the 21st ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 985-994.

猜你喜歡
注意力機制神經網(wǎng)絡
基于人工智能LSTM循環(huán)神經網(wǎng)絡的學習成績預測
基于圖像處理與卷積神經網(wǎng)絡的零件識別
基于改進VGG-16神經網(wǎng)絡的圖像分類方法
基于自適應神經網(wǎng)絡的電網(wǎng)穩(wěn)定性預測
面向短文本的網(wǎng)絡輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學習的問題回答技術研究
基于LSTM?Attention神經網(wǎng)絡的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統(tǒng)
甘洛县| 临洮县| 镇赉县| 峨边| 旬邑县| 湖南省| 鞍山市| 福贡县| 吉林省| 岚皋县| 根河市| 咸宁市| 文山县| 巍山| 广德县| 永春县| 郓城县| 望江县| 仙居县| 南华县| 三亚市| 大田县| 土默特右旗| 崇信县| 龙川县| 玉环县| 柯坪县| 许昌县| 安康市| 顺昌县| 阳山县| 通辽市| 内江市| 商南县| 唐山市| 栖霞市| 迭部县| 高雄市| 临洮县| 乌恰县| 天全县|