荊禮楠 曹永紅
摘 要:語料庫標(biāo)注是發(fā)現(xiàn)語料庫潛在價(jià)值的重要方法。本文回顧已有語料庫標(biāo)注,總結(jié)分析語料庫標(biāo)注的作用及標(biāo)準(zhǔn)化趨勢(shì),綜述國內(nèi)外重要情感標(biāo)注資源,針對(duì)情感標(biāo)注過程中的主要問題,提出初步解決方案,以便更好地開展面向自然語言處理的情感標(biāo)注研究。
關(guān)鍵詞:自然語言處理 標(biāo)注 情感標(biāo)注 情感分析
一、引言
自然語言處理是計(jì)算機(jī)科學(xué)及語言學(xué)關(guān)注計(jì)算機(jī)和人類語言間相互作用的領(lǐng)域。馮志偉(2006)[1]指出“隨著語料庫語言學(xué)崛起,大規(guī)模真實(shí)文本處理成為自然語言處理的主要目標(biāo)。自然語言處理越來越多地使用機(jī)器自動(dòng)學(xué)習(xí)獲取語言知識(shí)?!?/p>
實(shí)現(xiàn)自然文本機(jī)器可讀關(guān)鍵在于標(biāo)注。隨著機(jī)器學(xué)習(xí)廣泛應(yīng)用,標(biāo)注的重要性日益顯現(xiàn)。本文結(jié)合國內(nèi)外研究成果,總結(jié)情感標(biāo)注研究概況,針對(duì)問題提出初步解決方案,便于今后面向自然語言處理的情感標(biāo)注研究的開展。
二、標(biāo)注概述
盡管學(xué)界對(duì)“標(biāo)注”的定義不盡相同,但大都反映了語料標(biāo)注實(shí)質(zhì)——語言符號(hào)的轉(zhuǎn)換(邢富坤,2015 [ 2 ] )。
(一)作用
標(biāo)注價(jià)值主要體現(xiàn)在:
1.語言學(xué)研究
通過統(tǒng)計(jì)分析大規(guī)模語料,可發(fā)現(xiàn)僅靠少數(shù)例子無法發(fā)現(xiàn)的語言現(xiàn)象,使語言知識(shí)顯性化,輔助語言規(guī)律研究,從而推動(dòng)語言學(xué)深入研究。
2.自然語言處理
標(biāo)注使語言實(shí)現(xiàn)計(jì)算機(jī)可讀,推動(dòng)建立大型語料庫,促進(jìn)開發(fā)基于語料庫的應(yīng)用系統(tǒng),推動(dòng)信息檢索、機(jī)器翻譯及情感分析等新興領(lǐng)域發(fā)展。此外,機(jī)器學(xué)習(xí)方法應(yīng)用廣泛,標(biāo)注語料庫可用來訓(xùn)練檢測(cè)及改進(jìn)機(jī)器學(xué)習(xí)算法,經(jīng)改進(jìn)的算法可推動(dòng)建立大型優(yōu)質(zhì)語料庫,節(jié)省人力物力,極大推動(dòng)自然語言處理發(fā)展。
(二)標(biāo)注模式標(biāo)準(zhǔn)化
自語料庫語言學(xué)誕生以來,標(biāo)注模式多種多樣(見表一)。有些逐漸淘汰,如COCOA,有些則成為主流。ISO/TC37/SC4負(fù)責(zé)建設(shè)管理語言資源的國際標(biāo)準(zhǔn)。LAF是其工作核心,是協(xié)調(diào)現(xiàn)有語言資源及開發(fā)新資源的基礎(chǔ)。
三、情感標(biāo)注及研究概況
目前語料庫正處于以互聯(lián)網(wǎng)為語料的第四個(gè)發(fā)展階段。隨著Web2.0興起,尤其微博、論壇、社交及購物網(wǎng)站等崛起,用戶自由表達(dá)觀點(diǎn)情感。因此,海量主觀文本迅速涌現(xiàn),其中蘊(yùn)含豐富情感。為方便信息查找,情感分析應(yīng)運(yùn)而生?;谡Z料庫的統(tǒng)計(jì)學(xué)習(xí)是情感分析的常用方法。因此,為實(shí)現(xiàn)自動(dòng)情感分析,需要情感標(biāo)注,構(gòu)建大型語料庫作為數(shù)據(jù)支撐。情感分析結(jié)果很大程度取決于情感語料庫的規(guī)模與質(zhì)量。
目前國外情感標(biāo)注資源相對(duì)豐富,而國內(nèi)研究剛剛起步,資源匱乏。情感標(biāo)注資源主要包括:博客;新聞;書評(píng);影評(píng);產(chǎn)品評(píng)論;文學(xué)作品(見表二)。
情感標(biāo)注大致可劃分為四類:
(1)主客觀分類(Wiebe, 2005[3]; Aman & Szpakowicz, 2007[4])
(2)情感極性分類:正面/負(fù)面(/中性)(Pang, 2002[5])
(3)情感分類(按范疇、維度或語言學(xué)理論分類)(Michal Ptaszynski, 2014[6]; 張冬瑜等, 2015[7])
(4)細(xì)致觀點(diǎn)劃分:實(shí)體;情感;觀點(diǎn)持有者等(Liu, 2012[8])
不難發(fā)現(xiàn):為滿足應(yīng)用,情感標(biāo)注趨于細(xì)粒度化。
四、問題及解決方案
情感標(biāo)注主要存在以下問題:
(一)情感分類
情感分類是情感分析領(lǐng)域的核心問題,旨在解決情感極性自動(dòng)判斷問題(陳龍,2017[9])。對(duì)情感標(biāo)注而言,情感分類一定程度上決定標(biāo)注體系,影響標(biāo)注質(zhì)量和應(yīng)用(Ide & Romary, 2004[10])。周明(1994[11])認(rèn)為“若類別劃分過粗, 則難以全面描述復(fù)雜現(xiàn)象;若類別劃分過細(xì),則增加標(biāo)注難度、降低標(biāo)注效率, 細(xì)微差別導(dǎo)致結(jié)果差異巨大。
如何選擇合適情感分類,是語料庫領(lǐng)域亟待解決的重點(diǎn)問題之一。此外,不同領(lǐng)域包含不同情感,同一詞匯在不同領(lǐng)域可能表達(dá)不同情感含義。
(二)標(biāo)注標(biāo)準(zhǔn)
缺乏統(tǒng)一建設(shè)標(biāo)準(zhǔn),尤其是標(biāo)注標(biāo)準(zhǔn),導(dǎo)致語料庫建設(shè)各自為政,阻礙資源共享。標(biāo)注隨意性體現(xiàn)在:
(1)標(biāo)注模式:COCOA / TEI / CES
(2)標(biāo)記語言:SGML / XML / 自定義置標(biāo)語言
(3)標(biāo)簽集:同一標(biāo)簽在不同語料庫中有不同含義
(4)標(biāo)注形式:分離式標(biāo)注/ 內(nèi)嵌式標(biāo)注
針對(duì)以上問題,可從兩方面改善:
(三)黃金標(biāo)準(zhǔn)情感語料庫
黃金標(biāo)準(zhǔn)語料庫可為語料庫建設(shè)提供借鑒標(biāo)準(zhǔn),提高互用性;也可用來訓(xùn)練改進(jìn)機(jī)器學(xué)習(xí)算法,使機(jī)器實(shí)現(xiàn)自動(dòng)學(xué)習(xí),推動(dòng)構(gòu)建規(guī)模更大,質(zhì)量更高的情感語料庫,為相關(guān)自然語言處理及語言研究提供充足語料。
(四)情感詞匯表
不同領(lǐng)域包含不同情感,需要專門情感分類體系。此外,同一詞匯在不同領(lǐng)域可表達(dá)不同情感。因此,今后研究應(yīng)嘗試建立專門領(lǐng)域情感分類體系。
當(dāng)前語料庫建設(shè)趨向小型化、專門化,亟須建立合理完善的專門領(lǐng)域情感詞匯表,以滿足語料庫建設(shè)需求。
五、總結(jié)與展望
目前情感標(biāo)注工程在國內(nèi)外如火如荼地開展。然而情感分類混亂,標(biāo)注標(biāo)準(zhǔn)缺乏,導(dǎo)致情感語料庫建設(shè)各自為政,阻礙資源共享。亟需創(chuàng)建黃金標(biāo)準(zhǔn)情感語料庫及合理完善的專門領(lǐng)域情感詞匯表,以滿足語料庫建設(shè)需求,從而更好地開展面向自然語言處理的情感標(biāo)注研究。
參考文獻(xiàn)
[1] 馮志偉.當(dāng)前自然語言處理發(fā)展的幾個(gè)特點(diǎn)[J].暨南大學(xué)華文學(xué)院學(xué)報(bào),2006(1):34-40.
[2] 邢富坤.面向語言處理的語料庫標(biāo)注:回顧與反思[J].解放軍外國語學(xué)院學(xué)報(bào), 2015,38(3):8-13.endprint
[3] Wiebe,J & Wilson,T.& Cardie,C.Annotating expressions of opinions and emotions in language[J].Language Resource and Evaluation,2005,39(2-3):164-210.
[4] Aman,S.& Szpakowicz,S.Identifying expressions of emotion in text[C].In:Proceedings of the 10th International Conference on Text,Speech,and Dialogue(TSD-2007),Lecture Notes in Computer Science,Springer-Verlag.
[5] Pang B.& Lee,L.Cornell movie-review corpus[DB/OL].http://www.cs.Cornell.edu/People/pabo/movie-review-data,
2002.
[6] Michal Ptaszynski et al.Automatically annotating a five-billion-word corpus of Japaneseblogs for sentiment and affect analysis[J].Computer Speech and Language,2014,28:38-55.
[7] 張冬瑜.林鴻飛等.情感隱喻語料庫構(gòu)建與應(yīng)用[J].中國科學(xué):信息科學(xué),2015,45(12):1574-1587.
[8] Bing Liu.Sentiment analysis and opinion mining[M].San Francisco:Morgan Claypool Publishers,2012:12.
[9] 陳龍.管子玉.何金紅.彭進(jìn)業(yè).情感分類研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):1150-1170.
[10] Ide,N.& L,Romary.International standard for a linguistic annotation framework[J].Journal of Natural Language Engineering,2004,10(3):211-225.
[11] 周明.黃昌寧.面向語料庫標(biāo)注的漢語依存體系的探討[J].中文信息學(xué)報(bào), 1994,8(3):35-52.endprint