国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于深度學(xué)習(xí)的科普文章評(píng)論情感分析

2018-06-13 07:04:28姚彬杜義華
關(guān)鍵詞:語(yǔ)料科普向量

姚彬,杜義華

1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190

2.中國(guó)科學(xué)院大學(xué), 北京 100049

引言

近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)媒體已逐步取代傳統(tǒng)媒體,成為人們獲取信息的重要渠道??破栈顒?dòng)的重心也從電視、網(wǎng)站等傳統(tǒng)媒體遷移至諸如微信公眾號(hào)、微博、今日頭條等新媒體中。移動(dòng)應(yīng)用打破了 WEB2.0 時(shí)代互聯(lián)網(wǎng)的壁壘,大眾可以更好的參與其中,與科普傳播者互動(dòng),發(fā)表自己的言論與看法。這些海量的評(píng)論數(shù)據(jù)具有很高的價(jià)值,通過(guò)對(duì)科普文章評(píng)論的分析可以了解受眾對(duì)某個(gè)事件的觀點(diǎn)以及認(rèn)可程度??破展ぷ髡呖梢岳眠@些數(shù)據(jù)針對(duì)性的調(diào)整傳播策略;對(duì)擁有極端情緒的用戶,定向推送積極性的內(nèi)容,提升科普工作的傳播影響力。

科普類文章、短視頻等多是介紹科學(xué)知識(shí),推廣科學(xué)技術(shù)和傳播科學(xué)思想為主。這些作品往往帶有積極性的情感色彩,對(duì)讀者有很強(qiáng)的影響力。對(duì)于受眾的認(rèn)可度分析,實(shí)質(zhì)上是對(duì)受眾所持有的觀點(diǎn)、態(tài)度和情感進(jìn)行分類,然后對(duì)抽取的信息進(jìn)行進(jìn)一步分析的研究方法。本文提出基于自然語(yǔ)言處理技術(shù),采用深度學(xué)習(xí)模型對(duì)科普文章評(píng)論進(jìn)行情感分析工作,從而獲取受眾對(duì)于科普工作的認(rèn)可程度。

1 相關(guān)工作

目前的文本情感分析多采用基于傳統(tǒng)機(jī)器學(xué)習(xí)或者基于深度學(xué)習(xí)的情感分類方法。傳統(tǒng)的情感分類方法多采用詞袋模型抓取文本中的統(tǒng)計(jì)信息,將其轉(zhuǎn)換為向量形式。依托預(yù)先標(biāo)注的數(shù)據(jù)訓(xùn)練情感分類模型[1],發(fā)掘情感信息中的關(guān)鍵特征,通過(guò)迭代調(diào)整參數(shù)使得模型獲得較好的分類性能[2]。常見(jiàn)的分類模型有邏輯回歸、支持向量機(jī) (SVM)、樸素貝葉斯等分類模型。這幾種模型中SVM的分類效果最好,準(zhǔn)確率可以達(dá)到 88%[3]。

然而,詞典法獲取的詞語(yǔ)的統(tǒng)計(jì)信息僅僅是文本中最淺層的特征[4]。文本中還蘊(yùn)含著諸如語(yǔ)義序列、詞條依存關(guān)系等深層次特征。例如“小張喜歡小麗穿的白鞋子”和“小麗喜歡穿白鞋子的小張”這兩段文本有著相同的詞表以及相同的統(tǒng)計(jì)信息。若使用詞袋模型處理這兩段文本,模型會(huì)將他們識(shí)別成完全相同的語(yǔ)義向量。事實(shí)上,因?yàn)樵~語(yǔ)的順序發(fā)生了變化,導(dǎo)致了文本語(yǔ)義的改變。有效獲取詞語(yǔ)序列才能讓計(jì)算機(jī)真正理解文本中隱含的語(yǔ)義,更好的抓取文本的特征。

近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN) 為代表的深度學(xué)習(xí)在語(yǔ)音和圖像方面取得較多成果,同時(shí)也為自然語(yǔ)言處理開(kāi)啟了新的思路。Kim 在 2014 年將 CNN 引入自然語(yǔ)言處理領(lǐng)域[5],將文本向量化處理后輸入卷積神經(jīng)網(wǎng)絡(luò)中獲得了較好的分類效果。卷積神經(jīng)網(wǎng)絡(luò)可以獲取向量化文本的局部特征信息以及單詞間的關(guān)聯(lián)信息,并通過(guò)訓(xùn)練多層卷積層輸出文本的特征分類。對(duì)于文本處理任務(wù),卷積神經(jīng)網(wǎng)絡(luò)更傾向于獲取臨近單詞 (也就是臨近輸入節(jié)點(diǎn)) 的關(guān)系。

深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network ,RNN) 在獲取局部特征的基礎(chǔ)上,進(jìn)一步獲取了節(jié)點(diǎn)在全局的關(guān)系特征。RNN 網(wǎng)絡(luò)模型對(duì)傳統(tǒng)模型進(jìn)行改進(jìn),每一層節(jié)點(diǎn)相互連接,在層間數(shù)據(jù)傳遞的基礎(chǔ)上加入同層傳輸,強(qiáng)調(diào)序列輸入以及局部短時(shí)記憶。因此,在處理文本處理類問(wèn)題時(shí)可以有序列獲取輸入文本的單詞,記憶文本中的全局信息、上下文關(guān)系,被廣泛的應(yīng)用在自然語(yǔ)言處理任務(wù)中。典型的 RNN 網(wǎng)絡(luò)結(jié)構(gòu)如圖 1 所示。

傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)存在因?qū)訑?shù)過(guò)多引發(fā)的梯度爆炸和梯度消失問(wèn)題[6],使得循環(huán)神經(jīng)網(wǎng)絡(luò)無(wú)法很好的保存較長(zhǎng)時(shí)間的記憶。本文基于循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型——長(zhǎng)短時(shí)記憶 (Long Short-Term Memory,LSTM) 網(wǎng)絡(luò)構(gòu)建模型抓取文本特征,抓取評(píng)論詞語(yǔ)間關(guān)系,將文本特征向量化表示。并且在評(píng)論維度的基礎(chǔ)上引入用戶、文章維度特征,豐富模型輸入的特征集合。在此基礎(chǔ)上構(gòu)建多層 LSTM 網(wǎng)絡(luò),引入情感分類的回歸模型,最終完成對(duì)輸入評(píng)論數(shù)據(jù)的情感分類。實(shí)驗(yàn)表明,本文方法優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法以及 CNN 深度學(xué)習(xí)模型,能更好的完成對(duì)科普評(píng)論的分類任務(wù)。

2 基于深度學(xué)習(xí)的情感分類模型

2.1 基于 word2vec 的詞嵌入模型

自然語(yǔ)言處理任務(wù)的重點(diǎn)之一就是將人類使用的自然語(yǔ)言文本轉(zhuǎn)化為計(jì)算機(jī)可以理解的數(shù)值形式,即詞嵌入 (Word-Embedding)。其中的難點(diǎn)在于近義詞同義詞的處理、語(yǔ)料的上下文關(guān)系以及與序列相關(guān)的語(yǔ)義理解等。One-hot 是最直接的一種處理方法,思路是將分詞后的語(yǔ)料去重以后按照排序生成詞匯表,將每個(gè)單詞轉(zhuǎn)換為一個(gè)長(zhǎng)度為N的向量 (N為詞匯表單詞數(shù)),把該單詞所在位置標(biāo)注為1,其他分量標(biāo)準(zhǔn)為0。

one-hot模型存在極大的局限性,當(dāng)文本數(shù)據(jù)規(guī)模較大時(shí),該方法的輸入矩陣會(huì)導(dǎo)致模型的收斂速度較慢,訓(xùn)練效果不理想。此外,one-hot 模型僅獲取了文本詞頻維度的特征,對(duì)語(yǔ)義的獲取能力較差,無(wú)法理解詞序列中隱含的深層文本特征信息。

word2vec 模型是 google 開(kāi)發(fā)的一款高效的詞嵌入模型[7]。它以輸入語(yǔ)料的詞匯表作為訓(xùn)練集,將詞語(yǔ)從高維向量表示映射到有限的維度空間中,輸出稠密的詞向量表示,且用向量夾角度量詞語(yǔ)的相關(guān)性。Word2vec 基于三層神經(jīng)網(wǎng)絡(luò),采用 Huffman 樹(shù)對(duì)詞頻編碼,降低了計(jì)算的復(fù)雜度,更適用于基于深度學(xué)習(xí)的自然語(yǔ)言處理任務(wù)。Word2vec 中提供了基于 CBOW 模型 (Continuous Bag-of-Words Model)的 Hierarchical Softmax 框架和基于 Skip-gram 模型(Continuous Skip-gram Model) 的 Negative Sampling 框架,其模型結(jié)構(gòu)如圖 2 所示。

CBOW 模型的原理是依靠周圍詞wt-2~wt+2預(yù)測(cè)中心詞wt,依賴中心詞的預(yù)測(cè)結(jié)果使用 Gradient Decent方法調(diào)整周圍詞向量,直到獲取整個(gè)輸入文本的所有詞向量。而 skip-gram 則是依賴中心詞wt來(lái)預(yù)測(cè)周圍詞wt-2~wt+2,根據(jù)周圍詞的預(yù)測(cè)情況使用 Gradient Decent 方法調(diào)整中心詞的詞向量。Skip-gram 模型中每個(gè)詞作為中心次時(shí)都會(huì)進(jìn)行預(yù)測(cè)與調(diào)整,當(dāng)語(yǔ)料庫(kù)存在大量低頻、生僻詞時(shí),這種多次的調(diào)整會(huì)使得輸出的詞向量更佳精準(zhǔn)。因?yàn)榭破账婕暗恼Z(yǔ)料庫(kù)會(huì)出現(xiàn)較多的專有名詞、科普名詞等,故采用 word2vec工具的 skip-gram 模型,導(dǎo)入科普相關(guān)的詞典,在大規(guī)??破赵u(píng)論數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以在控制向量維度的基礎(chǔ)上很好的保存詞語(yǔ)間的序列關(guān)系,提高分類模型準(zhǔn)確率。

圖1 典型的 RNN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Typical RNN network

圖2 CBOW 模型和 Skip-gram 模型Fig.2 CBOW and Skip-gram model

2.2 基于 LSTM 的循環(huán)神經(jīng)網(wǎng)絡(luò)模型

本文采用的 LSTM 網(wǎng)絡(luò)由 Hochreiter 和Schmidhuber 在 1997 年提出[8],用以解決 RNN 梯度消失的問(wèn)題,并由 Felix 等人改進(jìn)[9]。該模型在 RNN三層網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上引入了記憶單元 CEC (Constant Error Carrousel, CEC) 替換 RNN 的簡(jiǎn)單神經(jīng)元。CEC是一個(gè)自我連接的單元,能長(zhǎng)久保存模型迭代中的錯(cuò)誤信號(hào),防止較早期的信號(hào)在處理過(guò)程中逐漸消失。

LSTM 模型由名為神經(jīng)元細(xì)胞的計(jì)算單元構(gòu)成,細(xì)胞間彼此循環(huán)連接構(gòu)成網(wǎng)狀的神經(jīng)網(wǎng)絡(luò)。每個(gè)神經(jīng)元細(xì)胞包含“門”(Gate) 結(jié)構(gòu),具體結(jié)構(gòu)如圖 3 所示。門結(jié)構(gòu)控制神經(jīng)元的數(shù)據(jù)處理行為,實(shí)現(xiàn)對(duì)信息的保護(hù)與控制?!伴T”結(jié)構(gòu)的功能由 sigmoid 神經(jīng)層實(shí)現(xiàn),通過(guò)輸出一個(gè) 0 和 1 之間的輸出信息,控制信息的通過(guò)權(quán)重。當(dāng) sigmoid 輸出值為 0 時(shí),代表數(shù)據(jù)不可輸入;當(dāng) sigmoid 輸出值為 1 時(shí),表示數(shù)據(jù)可以輸入。在 LSTM 模型中共有三類“門”,具體為“遺忘門”、“輸入門”和“輸出門”[10]。

神經(jīng)細(xì)胞執(zhí)行的第一步,是“遺忘門” (Forget Gate) 層判斷上個(gè)單元傳遞的哪些信息需要進(jìn)行丟棄處理。這一步由 sigmoid 輸出層實(shí)現(xiàn),具體是通過(guò)計(jì)算上一個(gè)時(shí)刻神經(jīng)元輸出的狀態(tài)值ht-1和當(dāng)前時(shí)刻的輸入狀態(tài)xt,通過(guò) sigmoid 函數(shù)σ獲取一個(gè)當(dāng)前的狀態(tài)ft,公式如下:

接下來(lái)則是由“輸入門” (Input Gate) 決定哪些輸入的信息需要被存儲(chǔ)進(jìn)神經(jīng)元,而后對(duì)目前的狀態(tài)進(jìn)行更新。這一步的實(shí)現(xiàn)需要兩個(gè)步驟:

(1) 由輸入層 (input gate layer) 的 sigmoid 函數(shù)σ確定需要更新的參數(shù)向量it,另一個(gè)tanh層生成備選的更新內(nèi)容向量Ct。這一步是神經(jīng)元進(jìn)行判斷并生成可以添加進(jìn)新的單元狀態(tài)的信息列表,具體公式如下:

(2) 根據(jù)ft更新舊的細(xì)胞狀態(tài)Ct-1,加上需要更新的參數(shù)聯(lián)合構(gòu)成當(dāng)前的細(xì)胞狀態(tài)Ct。這一步是將舊的細(xì)胞狀態(tài)更新,并在此基礎(chǔ)上添加新的候選信息以生成當(dāng)前新的細(xì)胞狀態(tài),具體公式如下:

最后由“輸出門” (Output Gate) 確定該時(shí)刻神經(jīng)元細(xì)胞輸出的狀態(tài)信息ht。具體是由 sigmoid 層的函數(shù)σ確定細(xì)胞狀態(tài)的輸出參數(shù)列表ot,然后將當(dāng)前時(shí)刻細(xì)胞狀態(tài)Ct通過(guò) tanh 層進(jìn)行處理并與 sigmoid 層的篩選結(jié)果相乘從而確定最終的輸出。公式如下:

圖3 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 LSTM network structure

與傳統(tǒng) RNN 模型相比,由于三類門結(jié)構(gòu)的控制機(jī)制,記憶細(xì)胞可以保存一段時(shí)間內(nèi)的信息,并在訓(xùn)練時(shí)保持內(nèi)部梯度不受干擾。LSTM 網(wǎng)絡(luò)適合處理和預(yù)測(cè)時(shí)間序列中間隔較長(zhǎng)的重要事件,在自然語(yǔ)言處理任務(wù)中可以有效處理文本序列特征,獲取隱層文本特征信息,更好的完成文本分類任務(wù)。

2.3 情感分類模型設(shè)計(jì)

本文模型的整體設(shè)計(jì)如圖 4 所示,主要分為以下步驟:

第一步,將科普評(píng)論文本數(shù)據(jù)、科普語(yǔ)料庫(kù)等進(jìn)行清洗,去除無(wú)關(guān)內(nèi)容。采用 jieba 分詞工具,將進(jìn)行預(yù)處理過(guò)的評(píng)論文本轉(zhuǎn)化為分詞形式。

第二步,使用 word2vec 工具的 skip-gram 模型,使用科普語(yǔ)料庫(kù)對(duì)其進(jìn)行預(yù)訓(xùn)練。而后將經(jīng)過(guò)分詞的預(yù)處理的科普評(píng)論數(shù)據(jù)輸入模型中,將其轉(zhuǎn)化為文本向量形式。

第三步,提取科普評(píng)論的用戶維度特征 (如該用戶正負(fù)面評(píng)論數(shù)、平均評(píng)論字?jǐn)?shù)) 及科普文章維度特征 (如該評(píng)論文章情感傾向、文章字?jǐn)?shù)),與上一步輸出的詞向量一同構(gòu)成 LSTM 模型輸入的特征向量。

第四步,將最終的特征向量輸入經(jīng)過(guò)訓(xùn)練的由LSTM 網(wǎng)絡(luò)構(gòu)成的情感分類器,模型最終輸出評(píng)論數(shù)據(jù)的分類結(jié)果。另外為了防止模型訓(xùn)練產(chǎn)生的過(guò)擬合問(wèn)題,引入 dropout 正則化方法,加入隨機(jī)化因子,增加模型適用性。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)所采用的數(shù)據(jù)集包括科普語(yǔ)料庫(kù)以及科普評(píng)論數(shù)據(jù)集 (包括科普博覽評(píng)論數(shù)據(jù)、評(píng)論相關(guān)的用戶數(shù)據(jù)以及評(píng)論相關(guān)的文章數(shù)據(jù))??破照Z(yǔ)料庫(kù)包括科普博覽近年來(lái)的 11442 篇科普文章語(yǔ)料以及科普博覽公眾號(hào)的 1771 條新聞?wù)Z料。通過(guò) jieba 分詞工具進(jìn)行分詞處理后作為 word2vec 工具的訓(xùn)練數(shù)據(jù)??破赵u(píng)論數(shù)據(jù)集取自科學(xué)大院、科普博覽等公眾號(hào)部分評(píng)論文本,共獲取短文本數(shù)據(jù) 5296 條,通過(guò)人工標(biāo)注的方式將其打上積極與消極標(biāo)簽,其中積極評(píng)論 4138條,消極評(píng)論 1158 條。實(shí)驗(yàn)時(shí)依照數(shù)據(jù)分布隨機(jī)選取其中 2000 條數(shù)據(jù),按照 3:1 的比例劃分訓(xùn)練集與測(cè)試集,其中訓(xùn)練集用于訓(xùn)練深度學(xué)習(xí)模型,測(cè)試集用來(lái)驗(yàn)證模型準(zhǔn)確率。

3.2 模型參數(shù)

本文基于 tensorf l ow 框架,采用 sklearn 工具劃分測(cè)試集與訓(xùn)練集,主要的參數(shù)如表 1 所示。

3.3 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)采用的分類模型評(píng)估指標(biāo)為準(zhǔn)確率Pacc,精準(zhǔn)率Pprec,召回率Precall,F(xiàn)1值[11]。具體的計(jì)算公式如下,其中Tp是積極樣本且分類正確的語(yǔ)料個(gè)數(shù),TN是積極樣本被錯(cuò)誤分類的語(yǔ)料個(gè)數(shù),F(xiàn)N是消極樣本被分類正確的語(yǔ)料個(gè)數(shù),F(xiàn)p是消極樣本被分類錯(cuò)誤的語(yǔ)料個(gè)數(shù)。

圖4 科普情感分類模型結(jié)構(gòu)Fig.4 Popular science emotion classif i cation model structure

為了驗(yàn)證模型穩(wěn)定性,采用多次試驗(yàn)取平均值法,并且采用交叉對(duì)比的方式進(jìn)行訓(xùn)練以避免實(shí)驗(yàn)過(guò)程中產(chǎn)生的過(guò)擬合現(xiàn)象。實(shí)驗(yàn)結(jié)果如表 2 所示,模型收斂過(guò)程的參數(shù)變化如圖 5 所示。實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型收斂速度快,結(jié)果穩(wěn)定,可以有效的完成分類任務(wù)。

表1 模型參數(shù)Table 1 Model parameter

表2 實(shí)驗(yàn)結(jié)果Table 2 Experimental result

圖5 模型參數(shù)曲線Fig.5 Model parameter curve

4 結(jié)論

本文提出基于深度學(xué)習(xí)的 LSTM 網(wǎng)絡(luò)構(gòu)建評(píng)論分類器,利用 jieba 分詞工具對(duì)文本語(yǔ)料進(jìn)行分詞,并利用 Word2vec 的預(yù)訓(xùn)練模型降低詞向量維度,獲取科普受眾的評(píng)論認(rèn)知與情感特征進(jìn)行分類。并且在用戶評(píng)論文本維度的基礎(chǔ)上,引入了用戶維以及評(píng)論的文章兩個(gè)維度的特征。實(shí)驗(yàn)證明,該模型收斂速度較快,分類效果較好,可以有效獲取科普受眾的認(rèn)知程度與情感傾向,為后續(xù)使用評(píng)論信息分析受眾輿論,引導(dǎo)科普工作提供了良好的基礎(chǔ)。

猜你喜歡
語(yǔ)料科普向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
科普達(dá)人養(yǎng)成記
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
科普連連看
科普連連看
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語(yǔ)料
西平县| 调兵山市| 华亭县| 凭祥市| 抚松县| 高碑店市| 沙坪坝区| 灵石县| 仁寿县| 黎城县| 双流县| 青海省| 新巴尔虎右旗| 台中县| 石嘴山市| 石楼县| 平舆县| 湖北省| 长泰县| 巴彦县| 隆林| 仁化县| 隆回县| 武平县| 板桥市| 大渡口区| 临朐县| 安国市| 乐昌市| 广西| 惠东县| 通州区| 濉溪县| 包头市| 泉州市| 天柱县| 高阳县| 承德县| 甘德县| 郧西县| 温州市|