毛頻(對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)外語(yǔ)學(xué)院,北京 100029)
愛(ài)國(guó)主義是社會(huì)主義核心價(jià)值觀,自古至今,愛(ài)國(guó)主義一直是文學(xué)作品中最重要、最能引起讀者共鳴的主題之一,可謂日月高懸,激勵(lì)了一代又一代的仁人志士,為了國(guó)家和民族的利益,毅然承擔(dān)起歷史賦予的重任,赴湯蹈火在所不惜,在中國(guó)歷史上留下了濃墨重彩的一幕又一幕。弘揚(yáng)愛(ài)國(guó)主義,傳遞正能量是毋庸置疑的,因此所有相關(guān)媒體、平臺(tái)在推介文學(xué)作品時(shí),價(jià)值取向是首先要面對(duì)的問(wèn)題,優(yōu)先推薦愛(ài)國(guó)主義題材的佳作,淘汰宣揚(yáng)分裂、背叛國(guó)家等思潮的不符合社會(huì)主義價(jià)值觀的作品。膾炙人口的現(xiàn)當(dāng)代愛(ài)國(guó)主義小說(shuō)有《紅日》《紅巖》等。進(jìn)入當(dāng)代消費(fèi)社會(huì),文學(xué)的互聯(lián)網(wǎng)化越來(lái)越成為當(dāng)代文學(xué)創(chuàng)作和閱讀的重要特征。文學(xué)創(chuàng)作活動(dòng)異?;钴S,閱文等互聯(lián)網(wǎng)文學(xué)企業(yè)不斷產(chǎn)生發(fā)展,政府意識(shí)形態(tài)主管部門(mén)把控價(jià)值取向時(shí),不可能對(duì)所有文學(xué)作品進(jìn)行分析和判斷,文學(xué)企業(yè)在評(píng)價(jià)某個(gè)文學(xué)作品的特征時(shí),也需要掌握文學(xué)作品本身的特點(diǎn)以及讀者對(duì)這部作品的感受?,F(xiàn)在已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,隨著互聯(lián)網(wǎng)海量數(shù)據(jù)的產(chǎn)生,以及自然語(yǔ)言處理算法的不斷革新,使得使用機(jī)器學(xué)習(xí)技術(shù)處理自然語(yǔ)言成為可能[1],我們認(rèn)為,對(duì)文學(xué)作品本身的文本以及用戶閱讀文學(xué)作品后的反饋進(jìn)行量化分析,判斷該作品對(duì)讀者產(chǎn)生了怎樣的價(jià)值取向,該文以讀者是否產(chǎn)生愛(ài)國(guó)主義情感為例,進(jìn)行分析研究。
該任務(wù)本質(zhì)上是機(jī)器學(xué)習(xí)中的分類問(wèn)題。分類問(wèn)題屬有監(jiān)督學(xué)習(xí),在離線的模型訓(xùn)練階段需要有標(biāo)注的樣本集,樣本集可被分割為訓(xùn)練集、測(cè)試集、驗(yàn)證集。樣本由多個(gè)特征構(gòu)成,其中有個(gè)特殊的特征被稱為目標(biāo)特征,對(duì)應(yīng)的是人工標(biāo)注的文學(xué)作品類標(biāo)簽(愛(ài)國(guó)主義作品、反面題材作品、中性作品)。類標(biāo)簽可以從官方對(duì)文學(xué)作品的定性來(lái)獲取,值得一提的是,愛(ài)國(guó)主義與反面題材作品占到了全部文學(xué)作品的小部分,大部分是中性題材的,因此在控制樣本比例時(shí)需要考慮這一點(diǎn)。樣本數(shù)據(jù)的其他特征可以通過(guò)自然語(yǔ)言理解技術(shù)中的Topic Model(如PLSA、LDA等)來(lái)抽取作品的關(guān)鍵詞及其權(quán)重來(lái)構(gòu)造。國(guó)內(nèi)已有部分學(xué)者使用LDA方法用于歷史研究[2],還有的成功運(yùn)用于對(duì)海量微博話題進(jìn)行主題抽取。對(duì)于待分析的新作品(閱讀量大、傳播范圍廣的),則可以使用GBDT算法,基于從讀者評(píng)論中抽取的特征來(lái)進(jìn)行分類。
處理流程分兩類:離線處理和在線預(yù)測(cè)。離線處理包括數(shù)據(jù)預(yù)處理(特征提取,構(gòu)造樣本集)和模型。在線預(yù)測(cè)指的是利用分類模型對(duì)沒(méi)有標(biāo)簽的數(shù)據(jù)的愛(ài)國(guó)主義傾向進(jìn)行預(yù)測(cè),可以發(fā)現(xiàn)主題的演化內(nèi)容,超越了Blei等人的動(dòng)態(tài)主題模型[3]。關(guān)鍵步驟包括數(shù)據(jù)預(yù)處理、離線訓(xùn)練和在線預(yù)測(cè)三部分。在數(shù)據(jù)預(yù)處理時(shí),如果處理的是樣本集,輸出結(jié)果中目標(biāo)特征值為(0,1,2),如果處理的是待預(yù)測(cè)實(shí)例,則不包含目標(biāo)特征值。離線預(yù)測(cè)的訓(xùn)練集、測(cè)試集和驗(yàn)證集都同時(shí)包含了愛(ài)國(guó)主義評(píng)論、負(fù)面評(píng)論和中性評(píng)論。
文學(xué)作品愛(ài)國(guó)主義影響力分類算法涉及兩類關(guān)鍵技術(shù),它們分別是數(shù)據(jù)預(yù)處理涉及的特征提取和分類算法。前者主要涉及自然語(yǔ)言理解中的Topic Model技術(shù),該方案選擇了前沿的LDA模型(隱性狄利克雷分布模型)。后者主要涉及分類算法的構(gòu)造,該方案選擇了主流的GBDT算法。
2.2.1 LDA模型
LDA模型一種TopicModel,TopicModel即主題模型,顧名思義就是諸如一篇文章、一段話、一個(gè)句子所表達(dá)的中心思想。不過(guò)從統(tǒng)計(jì)角度來(lái)說(shuō)是用一個(gè)特定的詞頻分布來(lái)刻畫(huà)主題的,并認(rèn)為一篇文章、一段話、一個(gè)句子是從概率模型生成的,每個(gè)實(shí)體可能由若干個(gè)主題合成,主題概率之和為1。LDA本質(zhì)上是一個(gè)多重貝葉斯模型。假設(shè)我們有M篇文檔,對(duì)應(yīng)第d篇文檔中有Nd個(gè)詞。
模型的目標(biāo)是找到每篇文檔的主題分布和每個(gè)主題中詞的概率分布。首先需要確定合成文檔的主題個(gè)數(shù),記作K,所有的分布基于K個(gè)主題展開(kāi)。
LDA假設(shè)文檔主題的先驗(yàn)分布滿足Dirichlet分布,即對(duì)于任一文檔d,其主題分布滿足θd:θd=Dirichlet),其中α為分布的超參數(shù),是一個(gè)K維向量。
LDA假設(shè)主題中詞的先驗(yàn)分布分布也是Dirichlet分布,即對(duì)任一主題k,其詞分布βk為:βk=Dirichlet),η為分布的超參數(shù),是一個(gè)V維向量。V代表詞匯表的大小。
對(duì)于任意一篇文檔d中的第n個(gè)詞,主題分布θd的后驗(yàn)分布為:
βk的后驗(yàn)分布為:Dirichlet(βk)
由于主題詞產(chǎn)生不依賴具體某一個(gè)文檔,因此文檔主題分布和主題詞分布是獨(dú)立的。理解了上面這M+K組Dirichlet-multi共軛,就理解了LDA模型原理。
剩下的問(wèn)題是,基于這個(gè)LDA模型如何求解我們想要的每一篇文檔的主題分布和每一個(gè)主題中詞的分布呢?一般有兩種方法,第一種是基于Gibbs采樣算法求解,第二種是基于變分推斷EM算法求解。
用我們的分類算法,可以將每部作品或該部作品的全部讀者評(píng)論看成一個(gè)文檔,主題數(shù)設(shè)置為1,那么就能抽取出該作品或讀者評(píng)論的主題詞及其權(quán)重。
2.2.2 GBDT算法
GBDT(Gradient Boosting Decision Tree)被稱為梯度提升決策樹(shù),可用于回歸或分類。隨著深度學(xué)習(xí)的不斷發(fā)展,以其自動(dòng)提取特征的優(yōu)勢(shì)被更多的應(yīng)用在關(guān)系抽取任務(wù)中。關(guān)系抽取可以看成是多分類問(wèn)題,奠雨潔等人將GBDT用于微博立場(chǎng)檢測(cè)當(dāng)中,通過(guò)對(duì)語(yǔ)料庫(kù)手動(dòng)提取特征,完成文本分類[4]。
在GBDT的迭代中,假設(shè)前一輪迭代得到的強(qiáng)學(xué)習(xí)器是 ft-1(x),損失函數(shù)是 L(y,ft-1(x)),我們本輪迭代的目標(biāo)是找到一個(gè)CART回歸樹(shù)模型的弱學(xué)習(xí)器ht(x),讓本輪的損失函數(shù) L(y,ft(x))=L(y,ft-1(x)+ht(x))最小。也就是說(shuō),本輪迭代找到?jīng)Q策樹(shù),要讓樣本的損失盡量變得更小。
通過(guò)損失函數(shù)的負(fù)梯度來(lái)擬合,我們可以通過(guò)擬合損失誤差的辦法,這樣無(wú)論是分類問(wèn)題還是回歸問(wèn)題,都可以通過(guò)其損失函數(shù)的負(fù)梯度的擬合,就可以用GBDT來(lái)解決分類和回歸問(wèn)題。區(qū)別僅僅在于損失函數(shù)不同導(dǎo)致的負(fù)梯度不同而已。
在我們的應(yīng)用中,實(shí)際上是多元(3個(gè)類標(biāo)簽)GBDT分類算法,假設(shè)類別數(shù)為K=3,則此時(shí)對(duì)數(shù)似然損失函數(shù)為:
其中如果樣本輸出類別為k,則yk=1。第k類的概率 pk(x)的表達(dá)式為:
《紅巖》這部小說(shuō)以解放前夕“重慶中美合作所集中營(yíng)”敵我斗爭(zhēng)為主線,展開(kāi)了對(duì)當(dāng)時(shí)國(guó)統(tǒng)區(qū)階級(jí)斗爭(zhēng)全貌的描寫(xiě)。作品結(jié)構(gòu)錯(cuò)綜復(fù)雜又富于變化,善于刻畫(huà)人物心理活動(dòng)和烘托氣氛,語(yǔ)言樸實(shí),筆調(diào)悲壯,被譽(yù)為革命的教科書(shū)。該書(shū)被中宣部、文化部、團(tuán)中央命名為百部愛(ài)國(guó)主義教科書(shū)。該研究爬取了豆瓣網(wǎng)《紅巖》的讀者評(píng)論5199份,其中有文字的評(píng)論1480份,使用python3.6調(diào)用對(duì)LDA和GBDT算法編寫(xiě)程序進(jìn)行了測(cè)試。在運(yùn)用LDA算法時(shí),分別調(diào)用了NLTK,stop_words,gensim的python包,漢語(yǔ)分詞使用開(kāi)源的中科院漢語(yǔ)詞法分析系統(tǒng)ICTCLAS,使用測(cè)試結(jié)果現(xiàn)實(shí),對(duì)于讀者評(píng)論,刪除了停用詞、書(shū)名、人名、出版等與主題無(wú)關(guān)的詞。我們?cè)O(shè)定了愛(ài)國(guó)主義題材關(guān)鍵詞為六個(gè),分別是:信仰,紅色,黨,革命,感動(dòng),英雄所占比例為46%。反面題材作品使用六個(gè)主題,關(guān)鍵詞分別為:洗腦、不真實(shí)、套路、文革、惡心、政治色彩,所占比例為12%,其余沒(méi)有這些關(guān)鍵詞的為中性評(píng)價(jià),比例為42%。從讀者評(píng)論看,不少負(fù)面評(píng)論是閱讀結(jié)束以后,讀者感覺(jué)故事不真實(shí)而做出的評(píng)論,這表明讀者對(duì)同一作品在不同的時(shí)間閱讀,會(huì)有不同的感受,時(shí)間越長(zhǎng)異樣的感受越明顯。
根據(jù)第一步LDA的主題模型計(jì)算結(jié)果,對(duì)每個(gè)讀者評(píng)論的每句話進(jìn)行GBDT的三分類,有愛(ài)國(guó)主義題材關(guān)鍵詞的為句子賦值為1,有反面題材作品關(guān)鍵詞的句子賦值為-1,均沒(méi)有的賦值為0,仍然使用python語(yǔ)言,對(duì)數(shù)據(jù)進(jìn)行GBDT分類,訓(xùn)練后的模型表達(dá)式為:pk(x)=exp(fk(x))/∑Kl=1exp(fl(x)),使用此式,隨機(jī)選擇100個(gè)的讀者評(píng)論句子進(jìn)行了驗(yàn)證,成功率為91%,說(shuō)明可以判定大部分讀者的感受判定,基本實(shí)現(xiàn)了機(jī)器判定文學(xué)作品是否為愛(ài)國(guó)主義題材的目的。