国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向自然語言處理的情感標(biāo)注:回顧與展望

2018-02-07 19:38荊禮楠曹永紅
安徽文學(xué)·下半月 2018年1期
關(guān)鍵詞:自然語言處理情感分析

荊禮楠 曹永紅

摘 要:語料庫標(biāo)注是發(fā)現(xiàn)語料庫潛在價(jià)值的重要方法。本文回顧已有語料庫標(biāo)注,總結(jié)分析語料庫標(biāo)注的作用及標(biāo)準(zhǔn)化趨勢(shì),綜述國內(nèi)外重要情感標(biāo)注資源,針對(duì)情感標(biāo)注過程中的主要問題,提出初步解決方案,以便更好地開展面向自然語言處理的情感標(biāo)注研究。

關(guān)鍵詞:自然語言處理 標(biāo)注 情感標(biāo)注 情感分析

一、引言

自然語言處理是計(jì)算機(jī)科學(xué)及語言學(xué)關(guān)注計(jì)算機(jī)和人類語言間相互作用的領(lǐng)域。馮志偉(2006)[1]指出“隨著語料庫語言學(xué)崛起,大規(guī)模真實(shí)文本處理成為自然語言處理的主要目標(biāo)。自然語言處理越來越多地使用機(jī)器自動(dòng)學(xué)習(xí)獲取語言知識(shí)?!?/p>

實(shí)現(xiàn)自然文本機(jī)器可讀關(guān)鍵在于標(biāo)注。隨著機(jī)器學(xué)習(xí)廣泛應(yīng)用,標(biāo)注的重要性日益顯現(xiàn)。本文結(jié)合國內(nèi)外研究成果,總結(jié)情感標(biāo)注研究概況,針對(duì)問題提出初步解決方案,便于今后面向自然語言處理的情感標(biāo)注研究的開展。

二、標(biāo)注概述

盡管學(xué)界對(duì)“標(biāo)注”的定義不盡相同,但大都反映了語料標(biāo)注實(shí)質(zhì)——語言符號(hào)的轉(zhuǎn)換(邢富坤,2015 [ 2 ] )。

(一)作用

標(biāo)注價(jià)值主要體現(xiàn)在:

1.語言學(xué)研究

通過統(tǒng)計(jì)分析大規(guī)模語料,可發(fā)現(xiàn)僅靠少數(shù)例子無法發(fā)現(xiàn)的語言現(xiàn)象,使語言知識(shí)顯性化,輔助語言規(guī)律研究,從而推動(dòng)語言學(xué)深入研究。

2.自然語言處理

標(biāo)注使語言實(shí)現(xiàn)計(jì)算機(jī)可讀,推動(dòng)建立大型語料庫,促進(jìn)開發(fā)基于語料庫的應(yīng)用系統(tǒng),推動(dòng)信息檢索、機(jī)器翻譯及情感分析等新興領(lǐng)域發(fā)展。此外,機(jī)器學(xué)習(xí)方法應(yīng)用廣泛,標(biāo)注語料庫可用來訓(xùn)練檢測(cè)及改進(jìn)機(jī)器學(xué)習(xí)算法,經(jīng)改進(jìn)的算法可推動(dòng)建立大型優(yōu)質(zhì)語料庫,節(jié)省人力物力,極大推動(dòng)自然語言處理發(fā)展。

(二)標(biāo)注模式標(biāo)準(zhǔn)化

自語料庫語言學(xué)誕生以來,標(biāo)注模式多種多樣(見表一)。有些逐漸淘汰,如COCOA,有些則成為主流。ISO/TC37/SC4負(fù)責(zé)建設(shè)管理語言資源的國際標(biāo)準(zhǔn)。LAF是其工作核心,是協(xié)調(diào)現(xiàn)有語言資源及開發(fā)新資源的基礎(chǔ)。

三、情感標(biāo)注及研究概況

目前語料庫正處于以互聯(lián)網(wǎng)為語料的第四個(gè)發(fā)展階段。隨著Web2.0興起,尤其微博、論壇、社交及購物網(wǎng)站等崛起,用戶自由表達(dá)觀點(diǎn)情感。因此,海量主觀文本迅速涌現(xiàn),其中蘊(yùn)含豐富情感。為方便信息查找,情感分析應(yīng)運(yùn)而生?;谡Z料庫的統(tǒng)計(jì)學(xué)習(xí)是情感分析的常用方法。因此,為實(shí)現(xiàn)自動(dòng)情感分析,需要情感標(biāo)注,構(gòu)建大型語料庫作為數(shù)據(jù)支撐。情感分析結(jié)果很大程度取決于情感語料庫的規(guī)模與質(zhì)量。

目前國外情感標(biāo)注資源相對(duì)豐富,而國內(nèi)研究剛剛起步,資源匱乏。情感標(biāo)注資源主要包括:博客;新聞;書評(píng);影評(píng);產(chǎn)品評(píng)論;文學(xué)作品(見表二)。

情感標(biāo)注大致可劃分為四類:

(1)主客觀分類(Wiebe, 2005[3]; Aman & Szpakowicz, 2007[4])

(2)情感極性分類:正面/負(fù)面(/中性)(Pang, 2002[5])

(3)情感分類(按范疇、維度或語言學(xué)理論分類)(Michal Ptaszynski, 2014[6]; 張冬瑜等, 2015[7])

(4)細(xì)致觀點(diǎn)劃分:實(shí)體;情感;觀點(diǎn)持有者等(Liu, 2012[8])

不難發(fā)現(xiàn):為滿足應(yīng)用,情感標(biāo)注趨于細(xì)粒度化。

四、問題及解決方案

情感標(biāo)注主要存在以下問題:

(一)情感分類

情感分類是情感分析領(lǐng)域的核心問題,旨在解決情感極性自動(dòng)判斷問題(陳龍,2017[9])。對(duì)情感標(biāo)注而言,情感分類一定程度上決定標(biāo)注體系,影響標(biāo)注質(zhì)量和應(yīng)用(Ide & Romary, 2004[10])。周明(1994[11])認(rèn)為“若類別劃分過粗, 則難以全面描述復(fù)雜現(xiàn)象;若類別劃分過細(xì),則增加標(biāo)注難度、降低標(biāo)注效率, 細(xì)微差別導(dǎo)致結(jié)果差異巨大。

如何選擇合適情感分類,是語料庫領(lǐng)域亟待解決的重點(diǎn)問題之一。此外,不同領(lǐng)域包含不同情感,同一詞匯在不同領(lǐng)域可能表達(dá)不同情感含義。

(二)標(biāo)注標(biāo)準(zhǔn)

缺乏統(tǒng)一建設(shè)標(biāo)準(zhǔn),尤其是標(biāo)注標(biāo)準(zhǔn),導(dǎo)致語料庫建設(shè)各自為政,阻礙資源共享。標(biāo)注隨意性體現(xiàn)在:

(1)標(biāo)注模式:COCOA / TEI / CES

(2)標(biāo)記語言:SGML / XML / 自定義置標(biāo)語言

(3)標(biāo)簽集:同一標(biāo)簽在不同語料庫中有不同含義

(4)標(biāo)注形式:分離式標(biāo)注/ 內(nèi)嵌式標(biāo)注

針對(duì)以上問題,可從兩方面改善:

(三)黃金標(biāo)準(zhǔn)情感語料庫

黃金標(biāo)準(zhǔn)語料庫可為語料庫建設(shè)提供借鑒標(biāo)準(zhǔn),提高互用性;也可用來訓(xùn)練改進(jìn)機(jī)器學(xué)習(xí)算法,使機(jī)器實(shí)現(xiàn)自動(dòng)學(xué)習(xí),推動(dòng)構(gòu)建規(guī)模更大,質(zhì)量更高的情感語料庫,為相關(guān)自然語言處理及語言研究提供充足語料。

(四)情感詞匯表

不同領(lǐng)域包含不同情感,需要專門情感分類體系。此外,同一詞匯在不同領(lǐng)域可表達(dá)不同情感。因此,今后研究應(yīng)嘗試建立專門領(lǐng)域情感分類體系。

當(dāng)前語料庫建設(shè)趨向小型化、專門化,亟須建立合理完善的專門領(lǐng)域情感詞匯表,以滿足語料庫建設(shè)需求。

五、總結(jié)與展望

目前情感標(biāo)注工程在國內(nèi)外如火如荼地開展。然而情感分類混亂,標(biāo)注標(biāo)準(zhǔn)缺乏,導(dǎo)致情感語料庫建設(shè)各自為政,阻礙資源共享。亟需創(chuàng)建黃金標(biāo)準(zhǔn)情感語料庫及合理完善的專門領(lǐng)域情感詞匯表,以滿足語料庫建設(shè)需求,從而更好地開展面向自然語言處理的情感標(biāo)注研究。

參考文獻(xiàn)

[1] 馮志偉.當(dāng)前自然語言處理發(fā)展的幾個(gè)特點(diǎn)[J].暨南大學(xué)華文學(xué)院學(xué)報(bào),2006(1):34-40.

[2] 邢富坤.面向語言處理的語料庫標(biāo)注:回顧與反思[J].解放軍外國語學(xué)院學(xué)報(bào), 2015,38(3):8-13.endprint

[3] Wiebe,J & Wilson,T.& Cardie,C.Annotating expressions of opinions and emotions in language[J].Language Resource and Evaluation,2005,39(2-3):164-210.

[4] Aman,S.& Szpakowicz,S.Identifying expressions of emotion in text[C].In:Proceedings of the 10th International Conference on Text,Speech,and Dialogue(TSD-2007),Lecture Notes in Computer Science,Springer-Verlag.

[5] Pang B.& Lee,L.Cornell movie-review corpus[DB/OL].http://www.cs.Cornell.edu/People/pabo/movie-review-data,

2002.

[6] Michal Ptaszynski et al.Automatically annotating a five-billion-word corpus of Japaneseblogs for sentiment and affect analysis[J].Computer Speech and Language,2014,28:38-55.

[7] 張冬瑜.林鴻飛等.情感隱喻語料庫構(gòu)建與應(yīng)用[J].中國科學(xué):信息科學(xué),2015,45(12):1574-1587.

[8] Bing Liu.Sentiment analysis and opinion mining[M].San Francisco:Morgan Claypool Publishers,2012:12.

[9] 陳龍.管子玉.何金紅.彭進(jìn)業(yè).情感分類研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):1150-1170.

[10] Ide,N.& L,Romary.International standard for a linguistic annotation framework[J].Journal of Natural Language Engineering,2004,10(3):211-225.

[11] 周明.黃昌寧.面向語料庫標(biāo)注的漢語依存體系的探討[J].中文信息學(xué)報(bào), 1994,8(3):35-52.endprint

猜你喜歡
自然語言處理情感分析
基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評(píng)論情感屬性的動(dòng)態(tài)變化
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學(xué)規(guī)范化
文本觀點(diǎn)挖掘和情感分析的研究
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
北川| 怀仁县| 龙口市| 津市市| 呼玛县| 元朗区| 雷州市| 静安区| 马山县| 连山| 崇义县| 息烽县| 岳普湖县| 神农架林区| 泰顺县| 庆云县| 阳春市| 施秉县| 开阳县| 兴宁市| 洛阳市| 连山| 喀喇| 丽江市| 壤塘县| 临沭县| 通辽市| 达州市| 东港市| 山阳县| 福鼎市| 汉阴县| 海伦市| 平原县| 麟游县| 耿马| 扎鲁特旗| 无为县| 阳新县| 鲁山县| 东海县|