賈玉祥, 昝紅英, 范 明, 俞士汶, 王治敏
(1. 鄭州大學 信息工程學院,河南 鄭州 450001;2. 北京大學 計算語言學教育部重點實驗室,北京 100871;3. 北京語言大學 漢語學院,北京 100083)
面向隱喻識別的詞語抽象性度量
賈玉祥1, 昝紅英1, 范 明1, 俞士汶2, 王治敏3
(1. 鄭州大學 信息工程學院,河南 鄭州 450001;2. 北京大學 計算語言學教育部重點實驗室,北京 100871;3. 北京語言大學 漢語學院,北京 100083)
隱喻通常借助具體的概念來表達抽象的概念。如果能判斷出文本中詞語所指的概念是具體還是抽象的,即度量出詞語的抽象程度,那么這將為隱喻的機器識別提供重要的依據(jù)。該文提出基于跨語言知識遷移的漢語詞語抽象性度量方法,把英語中的詞語抽象性知識遷移到漢語中來。提出基于詞語抽象性知識的隱喻識別方法,并詳細分析了詞語抽象性與隱喻之間的關系。實驗表明,知識遷移是可行的,基于抽象性知識的隱喻識別有較高的準確率,可以有效提高從真實文本中抽取隱喻的效率。
隱喻識別;詞語抽象性;跨語言知識遷移
概念有具體和抽象之分,具體概念一般是指可以通過感官(視覺、聽覺、味覺、嗅覺、觸覺)或自身行動來體驗的概念,如馬、房子等,稱為基于體驗來理解的概念;抽象概念是指不能通過感官或自身行動體驗的概念,如思想、理論等,這些概念由其他概念來定義,稱為基于語言來理解的概念[1]。認知科學的研究顯示,具體與抽象概念在人腦中的組織和表示方法是不同的,具體概念按照概念之間的相似性進行組織,抽象概念則是按照概念之間的相關性進行組織的;大腦使用不同的區(qū)域和神經(jīng)系統(tǒng)來處理這兩類概念;具體概念比抽象概念更容易學習、記憶和處理[2]。
具體與抽象的研究主要表現(xiàn)為詞語抽象性的度量。詞語的抽象程度不是“具體”與“抽象”兩個值,而是一個從“具體”到“抽象”的連續(xù)值,值越小,越具體;值越大,越抽象。詞語的抽象性指標是一種重要的詞匯語義知識,在自然語言處理很多任務中都有應用,包括詞典編纂[3]、詞義消歧[4]、詞語相似度計算[5]、文本可理解性計算[6]、隱喻識別[7-11]等,其中最典型的是隱喻識別。
隱喻通常借助具體的概念來表達抽象的概念,以使得表述更容易理解或取得更好的語言表達效果,如金融風暴、人事地震等,用具體的概念“風暴”、“地震”描述抽象的概念“金融”、“人事”,比“金融危機”、“人事巨變”的效果更好。如果能夠度量詞語的抽象程度,就可以為隱喻的識別提供線索,像這樣的“N+N”形式的名名組合隱喻,可以通過抽象名詞與具體名詞的搭配進行識別。
目前漢語詞語抽象性度量及基于此的隱喻識別方面的研究還很少,本文提出一種基于跨語言知識遷移的詞語抽象性度量方法,把英語中的詞語抽象性知識遷移到漢語中,并考察詞語抽象性知識在名名組合隱喻識別中的作用與效果。
詞語抽象性度量的研究多數(shù)由人工標注數(shù)據(jù),其中影響最大的是英語的MRC數(shù)據(jù)庫[12],該數(shù)據(jù)庫中人工為4 292個英語單詞標注了抽象程度信息。Brysbaert等[1]借助Amazon Mechanical Turk眾包平臺,發(fā)動4 000多人參與,為六萬多個英語單詞標注抽象程度信息,最后得到近四萬個單詞的有效信息,抽象程度(準確地說是具體程度concreteness)取值為1~5,值越大越具體,值越小越抽象。我們將以這一數(shù)據(jù)為基礎進行英語到漢語的知識遷移。
Turney等[7]采用自動的方法計算詞語的抽象程度,先選取20個抽象的種子詞和20個具體的種子詞,一個詞的抽象程度等于該詞與抽象種子詞的相似度之和減去該詞與具體種子詞的相似度之和,最后歸一化到0~1之間。詞語相似度使用基于語料庫的LSA方法來計算。Tanaka等[6]利用SVM回歸來計算詞語的抽象程度,選取的特征有: 詞語的視覺表達強度(Bing圖片檢索返回的圖片數(shù)、Flickr照片共享平臺中出現(xiàn)的次數(shù))、詞語流行度(Bing網(wǎng)頁檢索返回的網(wǎng)頁數(shù))、標注多樣性(在Flickr中出現(xiàn)在多少張照片的標注中,相當于逆文檔頻率IDF)、詞語與感官類動詞共現(xiàn)次數(shù)、詞語義項數(shù)、在WordNet語義分類體系中的深度、下位節(jié)點數(shù)、情感值(來自SentiWordNet)以及詞長等。
Kwong[3]從詞典編纂的角度研究詞語抽象性,根據(jù)WordNet中詞語的定義的不同模式來給詞語一個抽象程度的數(shù)值。Kwong[4]考察了不同抽象程度的詞語詞義消歧的結(jié)果,提出在詞義消歧任務中考慮詞語抽象程度這一因素將有助于提高消歧效果。Hill等[5]在詞語相似度計算中區(qū)分了詞語的抽象程度,因為具體詞語之間的相似性與抽象詞語之間的相關性是不同的,不能籠統(tǒng)地認為都是相似性。Tanaka等[6]根據(jù)詞語的抽象程度來計算文本的可理解性,越是具體的文本越容易理解,該工作的背景是信息檢索,檢索出既與查詢相關又容易理解的文本。人眼看到的東西是具體的,基于此可以將大量的圖片信息與文本信息結(jié)合起來,形成多模態(tài)的計算模型,實現(xiàn)從具體到抽象、從易到難的語言理解[6,13]。
詞語抽象性是識別隱喻的重要知識,詞語與上下文之間抽象程度的差異往往成為隱喻出現(xiàn)的標志,因此詞語抽象性知識被單獨或與其他特征一起用于隱喻識別[7-9]。其作為一種語義知識也具有一定程度的語言獨立性,被用于跨語言的隱喻識別[10-11]。英語研究中最常見的隱喻類型有兩種,一種是形容詞隱喻,即“A+N”結(jié)構(形容詞+名詞),另一種是動詞隱喻,即“SVO”結(jié)構(主謂賓)。而漢語中則有另外一種常見的隱喻類型,即“N+N”結(jié)構的名詞隱喻,由兩個連續(xù)的名詞(如,金融風暴)或兩個名詞中間加上“的”“之”等字(如,知識的海洋、沙漠之舟)構成,稱為名名組合隱喻,也是名名組合語義分析的重要研究內(nèi)容。漢語名名組合隱喻識別有基于詞典的方法[14]和基于詞語相關度的方法[15],而詞語抽象性知識還沒有被研究者使用。
3.1 現(xiàn)有的詞語抽象性知識
漢語詞匯知識庫中含有一定的抽象性信息,主要體現(xiàn)在名詞概念上。知網(wǎng)HowNet[16]的名詞語義分類體系中,義原節(jié)點“physical|物質(zhì)”及其下位節(jié)點對應的是具體概念,以其為第一義原的名詞為具體名詞,而義原節(jié)點“mental|精神”及其下位節(jié)點對應的是抽象概念,以其為第一義原的名詞為抽象名詞。同義詞詞林[17]的名詞分為四大類: A人、B物、C時間和空間、D抽象事物。其中B可以認為是具體概念,D可以認為是抽象概念。
漢語詞匯知識庫中的抽象性信息并不系統(tǒng)和完備。除名詞外,形容詞、動詞等,其他詞性的詞的抽象性信息沒有得到體現(xiàn);除了具體與抽象兩極之外,具體與抽象程度的強弱也沒有得到體現(xiàn)。一個完整的詞語抽象性知識庫需要對每一個詞語給出一個反映其抽象程度的數(shù)值。由人工來構建這樣一個知識庫并不容易,一個現(xiàn)實的途徑是提出一個詞語抽象性的度量方法,基于現(xiàn)有資源自動構建。
英語方面詞語抽象性的研究相對較多,并且已經(jīng)存在較大規(guī)模、較高質(zhì)量的詞語抽象性知識庫,我們提出一種基于跨語言知識遷移的詞語抽象性度量方法,把英語中的現(xiàn)有知識遷移到漢語中加以利用,并考察知識遷移的效果。
3.2 英漢詞語抽象性知識的遷移方法
我們采用的英語詞語抽象性知識庫來自文獻[1],包含39 954個詞語的抽象性信息,涵蓋名詞、動詞、形容詞等各種詞性。為了實現(xiàn)知識的遷移,我們借助HowNet中的雙語映射。HowNet(2000版)含有120 496條記錄,一條記錄的格式如下:
NO.=089298 W_C=舞臺 G_C=N E_C= W_E=stage G_E=N E_E= DEF=facilities|設施,space|空間,@perform|表演,entertainment|藝
其中,字段W_C與W_E構成一個中英文單詞映射,即翻譯對,如“舞臺”與“stage”。
英語詞語抽象性知識庫中度量詞語抽象性的指標稱為Concreteness,取值1~5,值越大越具體,越小越抽象,相當于具體程度。我們把這個指標拿過來度量漢語詞語,漢語詞語的Concreteness等于其所有英語譯詞的取值的平均值,即
Concreteness(WC)=
WC表示漢語詞語,Trans(WC)表示W(wǎng)C的英語譯詞的集合,WE是英語詞語。例如,WC=舞臺,Trans(舞臺)={arena, stage},Concreteness(arena)=4.83,Concreteness(stage)=4.64,則Concreteness(舞臺)=4.735。
通過公式(2)線性歸一化到[0,1]。其中,LBConcreteness=1表示Concreteness取值的下界,UBConcreteness=5表示Concreteness取值的上界。則得到NomalizedConcreteness(舞臺)=0.933 8。
詞語的抽象程度Abstractness由公式(3)定義,即
從而Abstractness取值范圍為[0,1]。值越大,越抽象;值越小,越具體。Abstractness(舞臺)=0.066 2。
3.3 詞語抽象性知識的遷移結(jié)果
通過跨語言知識遷移后,我們得到27 401個漢語詞語的抽象程度指標Abstractness,其中抽象程度最高的13個詞語為: 雖、雖然、雖說、的話、假使、恐怕、如果、如若、若、說不定、倘或、倘然、倘使,都是虛詞。整體看來,虛詞的抽象程度都比較高。
可以通過與HowNet及同義詞詞林中的抽象性知識做比較來評價知識遷移的效果。表1給出了HowNet中“physical|物質(zhì)”類名詞(HowNet-P)、“mental|精神”類名詞(HowNet-M)、同時屬于這兩類的名詞(HowNet-PM)的抽象程度分布情況,以及同義詞詞林A、B、C、D四類名詞的抽象程度分布情況(由于有些詞沒有對應的英語譯詞,也就沒有抽象程度值,相當于未登錄詞,這里只計算有抽象程度值的詞)。詞語抽象程度從0到1等分為四個階段[0,0.25)、[0.25,0.5)、[0.5,0.75)、[0.75,1],表1分別給出了每個階段的詞語個數(shù),Total表示各階段詞語總數(shù),Ave.Abs.表示這些詞抽象程度的平均值,%[0,0.5)表示抽象程度小于0.5的詞語的百分比,如果我們認為這些詞語是具體詞,那么該字段表示具體詞的百分比。從表1可以看出,HowNet-P中大部分詞語抽象程度很低,分布在前兩個階段,平均抽象程度只有0.218 6,具體詞占90%以上??傮w上抽象程度大小比較結(jié)果為: HowNet-P < HowNet-PM < HowNet-M,詞林B < A < C < D,這和我們的認知基本上是一致的。
表1 詞語抽象程度的分布
4.1 基于詞語抽象性的隱喻識別方法
一般情況下,名名組合隱喻中的前一個名詞是目標域詞,后一個名詞是源域詞,如“金融風暴”中的“金融”是目標域詞,“風暴”是源域詞,由于目標域詞的修飾而使源域詞的詞義發(fā)生了轉(zhuǎn)移,從源域轉(zhuǎn)移到目標域。也有少數(shù)情況下,前一個名詞是源域詞,后一個名詞是目標域詞,如“泡沫經(jīng)濟”,“泡沫”是源域詞,“經(jīng)濟”是目標域詞,但往往兩個詞調(diào)換次序也是合法的表達,即也可以說“經(jīng)濟泡沫”。通常情況下,源域詞是具體詞,目標域詞是抽象詞,體現(xiàn)了隱喻用具體概念表達抽象概念的思想。
因此,我們定義一個簡單的規(guī)則來識別名名組合隱喻: 如果前一個名詞Noun1是抽象名詞(可以假設Abstractness(Noun1)≥0.5),并且后一個名詞Noun2是具體名詞(假設Abstractness(Noun2)<0.5),則是隱喻表達;否則,是字面表達。
4.2 隱喻識別結(jié)果及分析
為了測試隱喻識別的效果,我們使用文獻[14]中的名名組合實例(這些組合本身已經(jīng)可以判別是否是隱喻,不需要上下文),包括33個名詞,每個名詞給出一個字面名名組合和一個隱喻名名組合(每個詞第一個實例為字面組合,第二個實例為隱喻組合,見表2)。利用本文規(guī)則識別隱喻組合,并與文獻[14]中方法的識別結(jié)果進行比較。比較結(jié)果如表3所示,可見利用詞語抽象性知識識別隱喻取得了很高的準確率,而文獻[14]的方法具有更高的召回率,兩方面知識的結(jié)合有可能取得更好的隱喻識別效果。
表2 字面組合名名組合實例隱喻組合
序號字面組合隱喻組合2大門鑰匙 問題鑰匙 5鳳凰翅膀 理想翅膀 8國家海洋 知識海洋 11公路橋梁 友誼橋梁 14院子大門 北京大門 17啤酒泡沫 價格泡沫 20病人脈搏 市場脈搏 23奶油蛋糕 市場蛋糕 26橋梁工程師靈魂工程師29火車車輪 歷史車輪 32桃樹花朵 祖國花朵
序號字面組合隱喻組合3西瓜種子 生命種子6耕地土壤 腐敗土壤9海潮風暴 金融風暴12小兒心臟 祖國心臟15媽媽懷抱 祖國懷抱18海洋風浪 政治風浪21運動員腳步春天腳步24鋼鐵火花 思想火花27圖書大廈 科學大廈30嬰兒搖籃 文明搖籃33戰(zhàn)斗陣地 輿論陣地
表3 隱喻識別結(jié)果比較
為了進一步觀察詞語抽象性與隱喻之間的關系,我們在圖1~3中分別給出了隱喻名名組合中兩個名詞抽象程度的比較、隱喻名名組合與字面名名組合第一個名詞抽象程度的比較,以及字面名名組合中兩個名詞抽象程度的比較,橫坐標表示實例的序號,縱坐標表示抽象程度取值Abstractness。圖中折線有斷開,斷開處表示該實例的目標名詞沒有抽象程度數(shù)值,即該名詞在我們的詞語抽象性知識庫中是未登錄詞OOV。
由圖1可見,隱喻名名組合中的第一個名詞(Met-Nounl)大多是抽象名詞(Abstractness≥0.5),而第二個名詞大多是具體名詞(Abstractness<0.5),并且前者的抽象程度都大于后者,具有明顯的可區(qū)分性,這可能是隱喻識別準確率高的原因。由圖2可以看出,字面名名組合中第一個名詞(Lit-Nounl)通常是具體名詞,這和隱喻名名組合有比較明顯的區(qū)別。由圖3可以看出,字面名名組合中的兩個名詞都偏向具體名詞,在抽象程度上不容易區(qū)分開來。
圖1 隱喻名名組合兩個名詞抽象程度的比較
圖2 隱喻名名組合與字面名名組合第一個名詞抽象程度的比較
圖3 字面名名組合兩個名詞抽象程度比較
名名組合中詞語抽象程度分布的匯總?cè)绫?所示,可見,隱喻目標域名詞Met-Noun1偏抽象(除實例20和23中的“市場”一詞抽象程度低外),其他名詞都偏具體。33個隱喻源域名詞Noun2中只有30個名詞有抽象程度取值,3個為OOV。為了進一步考察源域名詞的抽象程度分布,我們對王治敏[18]提出的730個源域名詞計算抽象程度,其中有值的名詞472個,抽象程度分布情況如表4WZM-Noun所示。對這472個名詞按抽象程度從高到低排序如下(這里給出前10個和后10個): 天空、潛臺詞、要害、直腸子、魂、朝氣、魂魄、骨肉、光輝、小兒科……箭、橋、橋梁、雨、咽喉、階梯、花瓶、馬、顯微鏡、葉子。
表4 名名組合中詞語抽象程度分布的匯總
4.3 基于詞語抽象性的隱喻抽象考察
從上面的實驗可以看到,基于詞語抽象性知識識別隱喻可以獲得很高的準確率。我們可以針對某一個目標域詞,從大規(guī)模的語料中抽取盡量多的名名組合隱喻。為了驗證方案的可行性,我們以“經(jīng)濟”這個詞為目標域詞,從《人民日報》2000年語料中抽取名名組合(前一個名詞是“經(jīng)濟”),對這些組合按照后一個名詞的抽象程度從低到高排序,然后考察其中隱喻組合的情況,具體如表5所示??梢?,前10個組合中有6個是隱喻組合,前50個組合中有22個隱喻組合,前100個組合中有38個隱喻組合。繼續(xù)向后考察,前200個組合中有68個隱喻組合,前266個組合中有86個隱喻組合。再增大N,后一個名詞的抽象程度Abstractness開始大于或等于0.5,但是仍然會有隱喻出現(xiàn),當N=291時,共發(fā)現(xiàn)隱喻組合92個。由此可見,利用詞語抽象性知識可以大大提高隱喻抽取的效率,為隱喻實例的獲取和隱喻資源的建設提供幫助。
表5 名名組合隱喻抽取情況(Noun1=經(jīng)濟)
本文研究漢語詞語抽象性的度量,提出一種基于跨語言知識遷移的詞語抽象程度計算方法,把英語的詞語抽象性知識遷移到漢語中來。與現(xiàn)有漢語詞匯知識庫中的抽象性信息比較的結(jié)果顯示,知識遷移是有效的。把詞語抽象性知識用于隱喻識別,對二者關系進行了詳細的分析,實驗結(jié)果表明,基于詞語抽象性知識的隱喻識別具有較高的準確率。隱喻計算的障礙在于獲取實例困難,難以形成上規(guī)模的數(shù)據(jù)集。引入詞語抽象性知識,可以比較容易地抽取到更多的隱喻實例,我們初步的實驗也表明了這一點。
我們下一步工作包括兩個方面: 第一,繼續(xù)探索詞語抽象性度量方法,把詞匯知識庫與語料庫結(jié)合起來計算詞語的抽象程度;第二,把詞語抽象性、詞語相關度及詞語的上下文特征等多源知識結(jié)合起來,在機器學習的框架下進行隱喻識別,從真實文本中抽取更多的隱喻實例,構建隱喻知識庫。
[1] Brysbaert M, Warriner A B, Kuperman V. Concreteness ratings for 40 thousand generally known English word lemmas[J]. Behavior research methods, 2014, 46(3): 904-911.
[2] Hill F, Korhonen A, Bentz C. A quantitative empirical analysis of the abstract/concrete distinction[J]. Cognitive science, 2014, 38(1): 162-177.
[3] Kwong O Y. Measuring concept concreteness from the lexicographic perspective[C]//Proceedings of PACLIC, 2011: 60-69.
[4] Kwong O Y. A preliminary study on the impact of lexical concreteness on Word Sense Disambiguation[C]//Proceedings of PACLIC, 2008: 235-244.
[5] Hill F, Reichart R, Korhonen A. Simlex-999: Evaluating semantic models with (genuine) similarity estimation[J]. arXiv preprint arXiv: 1408.3456, 2014.
[6] Tanaka S, Jatowt A, Kato M P, et al. Estimating content concreteness for finding comprehensible documents[C]//Proceedings of the sixth ACM international conference on Web search and data mining, 2013: 475-484.
[7] Turney P, Neuman Y, Assaf D, et al. Literal and metaphorical sense identification through concrete and abstract context[C]//Proceedings of the 2011 Conference on the Empirical Methods in Natural Language Processing, 2011: 680-690.
[8] Dunn J. What metaphor identification systems can tell us about metaphor-in-language[C]//Proceedings of the First Workshop on Metaphor in NLP, 2013: 1-10.
[9] Dunn J. Multi-dimensional abstractness in cross-domain mappings[C]//Proceedings of ACL, 2014: 27-32.
[10] Tsvetkov Y, Mukomel E, Gershman A. Cross-lingual metaphor detection using common semantic features[C]//Proceedings of the First Workshop on Metaphor in NLP, 2013: 45-51.
[11] Tsvetkov Y, Boytsov L, Gershman A, et al. Metaphor detection with cross-lingual model transfer[C]//Proceedings of ACL, 2014: 248-258.
[12] Coltheart M. The MRC psycholinguistic database[J]. The Quarterly Journal of Experimental Psychology, 1981,(33): 497-505.
[13] Hill F, Reichart R, Korhonen A. Multi-modal models for concrete and abstract concept meaning[J]. Transactions of the Association for Computational Linguistics, 2014, (2): 285-296.
[14] 賈玉祥, 俞士汶. 基于詞典的名詞性隱喻識別[J]. 中文信息學報, 2011, 25(2): 99-104.
[15] Jia Y X, Zan H Y, Fan M, et al. Word Relevance Computation for Noun-Noun Metaphor Recognition[C]//Proceedings of Chinese Lexical Semantics Workshop, Springer International Publishing, 2014: 251-259.
[16] 董振東, 董強. 知網(wǎng)[OL]. http://www.keenage.com.
[17] HIT-SCIR. 同義詞詞林(擴展版)[OL]. http://ir.hit.edu.cn.
[18] 王治敏. 漢語名詞短語隱喻識別研究[D]. 北京大學博士學位論文, 2006.
MeasuringWord< class="emphasis_bold">Abstractness
nessforMetaphorRecognition
JIA Yuxiang1, ZAN Hongying1, FAN Ming1, YU Shiwen2, WANG Zhimin3
(1. School of Information Engineering, Zhengzhou University, Zhengzhou, Henan 450001, China;2. MOE Key Laboratory of Computational Linguistics, Peking Univerisity, Beijing 100871, China;3. College of Chinese Studies, Beijing Language and Culture University, Beijing 100083, China)
In metaphors, abstract things are usually described in terms of concrete things. If we can decide whether a word is concrete or abstract, we will provide useful clues for automatic metaphor recognition. This paper proposed a cross-lingual knowledge transfer method to adapt English word abstractness knowledge to Chinese. Then we propose a metaphor recognition method based on word abstractness and analyze in detail the relation between word abstractness and metaphor. Experimental results show that, the cross-lingual knowledge transfer method is feasible to measure Chinese word abstractness, the abstractness-based metaphor recognition method achieves a high precision score, and it can improve the efficiency of metaphor extraction from real texts.
metaphor recognition; word abstractness; cross-lingual knowledge transfer
賈玉祥(1981—),博士,講師,主要研究領域為自然語言處理。
昝紅英(1966—),博士,教授,主要研究領域為自然語言處理。
范明(1948—),教授,主要研究領域為機器學習與數(shù)據(jù)挖掘。
1003-0077(2017)03-0041-07
2015-06-15定稿日期: 2015-09-15
國家自然科學基金(61402419, 61170163);國家社會科學基金(14BYY096);國家重點基礎研究發(fā)展計劃 973 課題(2014CB340504);計算語言學教育部重點實驗室(北京大學)開放課題(201301, 201401)
TP391
: A