才讓東知,楊 杰,尼瑪扎西,3
(1.藏文信息技術(shù)教育部工程研究中心,西藏 拉薩 850000;2.西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;3.西藏信息化省部共建協(xié)同創(chuàng)新中心,西藏 拉薩 850000)
近年來,基于深度學(xué)習(xí)的多特征融合情感分析法在情感分析領(lǐng)域取得了較好的效果,其中融合情感詞特征的方法更能使模型提取文本的深層情感信息。陳釗等人[1]提出了一種結(jié)合情感詞典和卷積神經(jīng)網(wǎng)絡(luò)的情感分類方法。該文提出的相關(guān)方法在中文傾向性分析評(píng)測(cè)COAE2014數(shù)據(jù)集上取得了比當(dāng)時(shí)主流的卷積神經(jīng)網(wǎng)絡(luò)以及樸素貝葉斯、支持向量機(jī)更好的性能。韓普等人[2]提出了基于多特征和多通道的情感分析方法(MCMF-A),實(shí)驗(yàn)中融合了情感詞的詞性特征和位置特征,并結(jié)合CNN、BiLSTM以及多注意力機(jī)制進(jìn)行了情感極性判斷,最終準(zhǔn)確率達(dá)到了90.45%。周寧等人[3]提出了一種基于混合詞嵌入的雙通道注意力網(wǎng)絡(luò)中文文本情感分析模型(RCBN-BM),其中RCBN通道中融合了情感詞特征,RCBN-BM在三種不同中文語料上的分類準(zhǔn)確率均達(dá)到了90%以上。2023年朱宇雷等人[4]在基于圖神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)訓(xùn)練模型的藏文短文本情感分析研究中提出了融合句子中情感詞表征的圖神經(jīng)網(wǎng)絡(luò)模型,其實(shí)驗(yàn)結(jié)果證明了融合情感詞表征的藏文情感詞分類模型的準(zhǔn)確率達(dá)到98.60%,優(yōu)于其它基線模型。上述研究方法中情感詞扮演著重要角色,因此構(gòu)建一部高質(zhì)量的情感詞典是其主要的前提工作之一。
藏文情感分析起步較晚,現(xiàn)階段沒有公開的藏文情感詞典。想要通過上述融合情感詞特征的方法研究藏文情感分析,需要自行構(gòu)建藏文情感詞典,此過程中應(yīng)當(dāng)了解藏文情感詞典構(gòu)建的研究現(xiàn)狀。目前,藏文情感分析的綜述文獻(xiàn)很少,尤其針對(duì)藏文情感詞典構(gòu)建方面的綜述文獻(xiàn)極少,但藏文情感詞典構(gòu)建方面的文獻(xiàn)不少。2017年李苗苗[5]在中文情感詞典的基礎(chǔ)上利用機(jī)器翻譯方法構(gòu)建了基準(zhǔn)詞典,隨后利用word2vec、KNN擴(kuò)充等算法進(jìn)行基準(zhǔn)詞典的擴(kuò)充后構(gòu)建了一部包含5 846個(gè)情感詞的藏文情感詞典。2018年孫本旺和田芳[6]利用詞典匹配算法和人工構(gòu)建方法構(gòu)建了包含10 433個(gè)詞的藏文情感詞典,同時(shí)構(gòu)建了程度副詞、轉(zhuǎn)折詞、否定詞等輔助詞典。2019年孫本旺[7]在此基礎(chǔ)上將情感詞擴(kuò)充至27 361個(gè)。同年張瑞[8]也構(gòu)建了包含15 543個(gè)詞的藏文情感詞典。2023年朱宇雷等人[4]收集了10 995個(gè)情感詞。
為了在正式構(gòu)建藏文情感詞典的過程中找到合理的構(gòu)建方法和避免不必要的重復(fù)工作,該文將通過對(duì)比和統(tǒng)計(jì)的方法分析藏文情感詞的詞匯類別、詞典構(gòu)建的方法以及已有藏文情感詞典的詞匯量和詞匯構(gòu)成等內(nèi)容來了解藏文情感詞典構(gòu)建的研究現(xiàn)狀,希望能給未來構(gòu)建藏文情感詞典的研究人員提供一些參考。
情感詞是人們表達(dá)自己情緒、觀點(diǎn)、態(tài)度最常用的詞語[9]。情感詞的分類研究能使情感語料標(biāo)注體系變得更加標(biāo)準(zhǔn)化,情感詞典分類粒度會(huì)影響情感分類的效果。如果類別劃分過粗,就不能全面、細(xì)致地描述語言的復(fù)雜現(xiàn)象;但如果類別劃分過細(xì)、標(biāo)注信息過于龐大,不但會(huì)增加標(biāo)注難度、降低標(biāo)注效率,關(guān)系之間只有細(xì)微差別的情況也會(huì)使標(biāo)注結(jié)果呈現(xiàn)嚴(yán)重的不一致性[10]。情感詞主要分布在名詞、動(dòng)詞、形容詞中。情感詞最簡(jiǎn)單的分類方法就是褒貶或積極、消極、中性,目前常見的情感詞典中使用的分類方法也是這種粗粒度的分類方法。
在英文情感詞分類方面,Plutchik等人(1960)的情感學(xué)說中,有八種主要的感情。Ekman[11]在其所述的情緒理論中將情感劃分為六類,并將這些類別整理歸納成五大類。
中文情感詞分類的研究最早開始于中國(guó)古代西漢時(shí)期,其中針對(duì)各種禮儀論著加以輯錄對(duì)人的七情有了提及[12]。漢語《禮記·禮運(yùn)》中提出了七情?!稑酚洝分幸矊⑶榫w分為七種。中國(guó)著名文學(xué)家劉勰的《文心雕龍》和韓愈也把情緒分為七種,在不同著作中對(duì)情感的分類有細(xì)微的差別但都大同小異。近幾年在情感詞典構(gòu)建工作中經(jīng)常會(huì)出現(xiàn)7大類21小類和8大類21小類這種分類方法。心理學(xué)家林傳鼎[13]將情緒化分為18類。許小穎[14]等人將情感詞匯劃分為兩大類:基于心理感受和表現(xiàn)力,其中將基于心理感受的詞匯又劃分為24類,將基于表現(xiàn)力的情感詞匯劃分為態(tài)度詞、品性詞、聲音詞和其他。文獻(xiàn)[15]把人臉面部情感表現(xiàn)情感分為6類。文獻(xiàn)[16]將情感分為8種。文獻(xiàn)[17]將微博情感劃分為7類。文獻(xiàn)[18]中指出7大類21小類。
表1 國(guó)內(nèi)外情感分類方式對(duì)照
根據(jù)這些情感劃分,很多情感詞典研究者提出了情感詞的分類標(biāo)準(zhǔn)。但在現(xiàn)階段,對(duì)藏文情感詞沒有統(tǒng)一的分類標(biāo)準(zhǔn),這給情感詞典研究工作帶來了很大的阻礙。
情感詞典的構(gòu)建方法大致可分為兩種方式:人工構(gòu)建和人機(jī)結(jié)合構(gòu)建。目前,藏文情感詞典構(gòu)建的基本步驟是先根據(jù)已有中文情感詞典利用機(jī)器翻譯、詞典匹配等方法構(gòu)建基準(zhǔn)詞典,再利用詞向量、KNN、SO-PMI、SVM、語義相似度等方法進(jìn)行對(duì)基準(zhǔn)詞典的擴(kuò)充工作,最后通過人工校對(duì)和篩選來提高藏文情感詞典的精度。人機(jī)結(jié)合的構(gòu)建方法受研究者的青睞,也最為常見。
基準(zhǔn)詞典的構(gòu)建是情感詞典構(gòu)建的基礎(chǔ),常用的基準(zhǔn)詞典構(gòu)建的方法主要有純?nèi)斯な占?、機(jī)器翻譯、詞典匹配算法等。
純?nèi)斯?gòu)建的方法耗時(shí)耗力,但有較高的可信性,現(xiàn)在這種方法使用的很少。閆曉東和黃濤[23]從藏語大詞典中人工選擇帶有情感色彩的詞,并分5個(gè)強(qiáng)度構(gòu)建了藏文情感詞典。基于機(jī)器翻譯的方法是把現(xiàn)有中文情感詞典中的情感詞翻譯成藏文的方式構(gòu)建基準(zhǔn)詞典。李苗苗[5]和巴桑卓瑪?shù)热薣22]先后根據(jù)大連理工大學(xué)中文情感詞匯本體庫來構(gòu)建一部藏文基準(zhǔn)情感詞典。機(jī)器翻譯方法雖然可行,但它對(duì)機(jī)器翻譯系統(tǒng)的依賴度很高。比起機(jī)器翻譯方法,詞典匹配算法的效果更好。這是因?yàn)樵~典匹配是通過兩部或多部由專業(yè)人士構(gòu)建的詞典中通過關(guān)鍵詞查找對(duì)應(yīng)詞,因此其專業(yè)度也比機(jī)器翻譯得出的情感詞典的專業(yè)度高。張震[17]利用匹配算法從包含15萬常用詞的藏漢網(wǎng)絡(luò)詞典中與大連理工大學(xué)情感詞典匹配的詞對(duì),構(gòu)建了基準(zhǔn)詞典。孫本旺和田芳[6]通過關(guān)鍵詞匹配算法構(gòu)建了基于Hownet詞典和《藏漢大辭典》的藏文情感詞典(Tibetan Sentiment Dictionary,TSD)。孫本旺[7]利用現(xiàn)有的中文情感詞典資源和漢藏大辭典通過匹配算法等自動(dòng)構(gòu)建漢藏雙語情感詞典,彌補(bǔ)了漢藏雙語情感詞典的空白。張瑞[8]先基于漢藏詞典、知網(wǎng)Hownet進(jìn)行機(jī)器翻譯和關(guān)鍵詞匹配方法構(gòu)建基準(zhǔn)詞典,然后通過人工篩選方式完成情感詞典的構(gòu)建。黃晨晨等[9]通過詞典匹配方法基于中文情感詞典、臺(tái)灣大學(xué)NTUSD詞典和《藏漢大辭典》構(gòu)建了約18 000詞條的藏漢情感詞。
情感詞典擴(kuò)充指的是增強(qiáng)基準(zhǔn)情感詞典的詞匯量。情感詞典的擴(kuò)充方法主要有基于詞向量的語義相似度擴(kuò)充、KNN、SO-PMI、SVM、取近反義詞、深度學(xué)習(xí)方法等。
李苗苗[5]和巴桑卓瑪?shù)热薣22]對(duì)比了w2v詞向量擴(kuò)充、KNN擴(kuò)充算法、權(quán)重增益法、SVM法的擴(kuò)充效果,最終發(fā)現(xiàn)KNN的效果最佳。張震[17]用word2vec訓(xùn)練出微博語料詞向量,并用語義相似度算法找出微博表情相似的情感詞完成對(duì)基礎(chǔ)詞典的擴(kuò)充工作。楊志利用SO-PMI算法計(jì)算候選詞與種子詞的相似度來擴(kuò)充基準(zhǔn)詞典。上述大多數(shù)都是基于機(jī)器學(xué)習(xí)的擴(kuò)充方法,而單??礫24]提出了基于BiLSTM-ATT-CRF的深度學(xué)習(xí)藏文情感詞擴(kuò)充方法,他使用BIOS標(biāo)簽標(biāo)注語料,再利用BiLSTM-ATT-CRF模型實(shí)現(xiàn)了藏文情感基準(zhǔn)詞典的擴(kuò)充。藏文情感詞典構(gòu)建方法的對(duì)比見表2。
表2 現(xiàn)有藏文情感詞典構(gòu)建方法對(duì)比
觀察表2可以看出大多數(shù)基準(zhǔn)詞構(gòu)建方法選擇了詞典匹配算法,擴(kuò)充方法基本上是選擇基于SVM、KNN等算法,但近期也有研究者提出了基于深度學(xué)習(xí)的情感詞典擴(kuò)充方法。
情感詞典的詞匯量影響著情感特征提取的性能。在較好的詞匯質(zhì)量前提下情感詞典的詞匯越多,越能挖掘文本情感信息。由于藏文情感語料匱乏,很多藏文情感詞典都是在中文情感詞典基礎(chǔ)上通過機(jī)器翻譯或詞典匹配算法等方式構(gòu)建。因此,中文情感詞典的詞匯量對(duì)藏文情感詞典的詞匯量的影響很大。表3中列出了四個(gè)中文權(quán)威性情感詞典的詞匯信息,表中可發(fā)現(xiàn)中文情感詞的類別以褒貶中或褒貶兩性為主,詞匯量分布在9 153至27 466之間。
表3 中文情感詞典的詞匯信息
在藏文情感詞典方面,2018年孫本旺和田芳[6]利用現(xiàn)有中文情感詞典和漢藏大詞典通過匹配算法得出10 433個(gè)藏文情感詞,其中包含192個(gè)程度副詞、17個(gè)否定詞、11個(gè)轉(zhuǎn)折詞、13個(gè)雙重否定詞,其詞匯構(gòu)成較為豐富。2019年孫本旺[7]利用同樣的算法得出27 361個(gè)藏文情感詞,其中包含220個(gè)程度副詞和385個(gè)停用詞,這是現(xiàn)有藏文情感詞典中總詞匯量最多的詞典。張瑞[8]構(gòu)建的詞典有15 543個(gè)藏文情感詞。張震[17]構(gòu)建的詞典有9 870個(gè)情感詞,其中有115個(gè)表情詞。這些是現(xiàn)有藏文情感詞典中詞匯量較多的詞典。為了細(xì)致地觀察藏文情感詞典的詞匯信息,該文根據(jù)現(xiàn)有文獻(xiàn)內(nèi)容整理了藏文情感詞典詞匯信息(見表4)。
表4 藏文情感詞典詞匯信息
由表4可以看出,從詞匯量角度分析,藏文情感詞典中詞匯量達(dá)到1萬以上的文獻(xiàn)有四個(gè),它們的詞匯量接近中文權(quán)威性情感詞典,但情感詞典的詞匯質(zhì)量是否達(dá)到相對(duì)成熟的中文情感詞典的水平還得深入研究。
從詞典構(gòu)成分析,大多數(shù)藏文情感詞典除了情感詞外,還包含了程度副詞、否定詞、雙重否定詞、轉(zhuǎn)折詞、表情詞、停用詞等輔助詞。從時(shí)間維度分析,著力構(gòu)建情感詞典的時(shí)間段在2019之前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,情感詞典構(gòu)建工作逐漸退縮。
通過觀察藏文情感詞典構(gòu)建現(xiàn)狀,發(fā)現(xiàn)了藏文情感詞典構(gòu)建中存在的幾個(gè)問題:
(1)藏文口語情感詞典目前處于空白狀態(tài),導(dǎo)致對(duì)語法規(guī)則不正規(guī)文本的口語化句子的識(shí)別率較低,可以從藏文已有口語詞典《藏漢對(duì)照拉薩口語詞典》《安多藏語口語詞典》《藏語康方言詞匯集》中篩選口語情感詞;
(2)詞典擴(kuò)充過程中用深度學(xué)習(xí)方法的很少,深度學(xué)習(xí)方法應(yīng)該更能準(zhǔn)確抓住種子詞的特點(diǎn),應(yīng)該能提高情感詞的自動(dòng)擴(kuò)充性能;
(3)沒有統(tǒng)一的情感詞分類標(biāo)準(zhǔn)和標(biāo)注標(biāo)準(zhǔn),希望將來相關(guān)研究機(jī)構(gòu)和研究人員同心協(xié)力來制定分類標(biāo)準(zhǔn)和標(biāo)注標(biāo)準(zhǔn);
(4)相關(guān)研究機(jī)構(gòu)和研究者之間缺乏共同意識(shí)和共創(chuàng)意識(shí),導(dǎo)致難以構(gòu)建出權(quán)威性或官方性質(zhì)的情感詞典;
(5)藏文目前缺乏特定領(lǐng)域的情感詞典,若能構(gòu)建政治、經(jīng)濟(jì)、教育、新聞、交易、文學(xué)、體育等特定領(lǐng)域的藏文情感詞典,會(huì)提高藏文情感分析的整體水平。
該文根據(jù)近10年藏文情感詞典構(gòu)建的相關(guān)文獻(xiàn)分析了藏文情感詞典構(gòu)建的研究現(xiàn)狀,主要從情感詞的分類、詞典構(gòu)建的方法、已有藏文情感詞典的詞匯量和詞匯構(gòu)成等角度進(jìn)行了研究。情感詞分類研究中通過對(duì)比國(guó)內(nèi)外相關(guān)情感分類理論后用表格的方式統(tǒng)計(jì)了主流分類方法。藏文情感詞典構(gòu)建方法研究方面,統(tǒng)計(jì)了11種相關(guān)文獻(xiàn)中的基準(zhǔn)詞構(gòu)建方法和詞典擴(kuò)充方法。已有藏文情感詞典的詞匯量和詞匯構(gòu)成方面,統(tǒng)計(jì)了已有藏文情感詞典的詞匯數(shù)量和詞匯構(gòu)成。
未來將以文中的研究?jī)?nèi)容作為理論依據(jù),靈活使用歸納出的情感詞分類方法和情感詞典的構(gòu)建方法來正式構(gòu)建一部藏文情感字典,為后續(xù)的藏文情感分析奠定基礎(chǔ)。