王超超,熊德意
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
計(jì)算語(yǔ)義合成性綜述
王超超,熊德意
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
隨著自然語(yǔ)言處理技術(shù)的飛速發(fā)展,單純?cè)谡Z(yǔ)法層上的研究已經(jīng)不能解決目前的問(wèn)題,語(yǔ)義層的研究逐漸成為熱點(diǎn)。計(jì)算語(yǔ)義合成性作為語(yǔ)義學(xué)的關(guān)鍵部分,受到了諸多研究人員的關(guān)注。計(jì)算語(yǔ)義合成性的研究方法可以分為兩大類: 語(yǔ)言學(xué)方法和分布式方法。該文詳細(xì)介紹了它們各自具有代表性的工作,著重闡述了近年來(lái)使用廣泛的深度學(xué)習(xí)方法在計(jì)算語(yǔ)義合成性研究中的應(yīng)用,并對(duì)這兩種方法進(jìn)行了比較;然后對(duì)計(jì)算語(yǔ)義合成性在情感分析以及機(jī)器翻譯中的應(yīng)用做了細(xì)致分析;最后,展望了計(jì)算語(yǔ)義合成性未來(lái)的研究趨勢(shì)。
語(yǔ)義合成;自然語(yǔ)言處理;分布式方法;深度學(xué)習(xí)
自然語(yǔ)言在語(yǔ)言學(xué)上一般被劃分為四個(gè)層次: 語(yǔ)音文字層、語(yǔ)法層、語(yǔ)義層和語(yǔ)用層[1],目前對(duì)于前兩層的研究相對(duì)比較成熟,越來(lái)越多的研究人員開始聚焦于語(yǔ)義層的研究。計(jì)算語(yǔ)義合成性作為語(yǔ)義層研究的重要組成部分,可以利用單詞的語(yǔ)義信息合成短語(yǔ)乃至句子的語(yǔ)義信息,從而進(jìn)一步擴(kuò)大語(yǔ)義信息的表示范圍。因此,近年來(lái)計(jì)算語(yǔ)義合成性在人工智能、自然語(yǔ)言處理的諸多領(lǐng)域得到了廣泛的應(yīng)用[2]。
計(jì)算語(yǔ)義合成性是一個(gè)古老的概念,最早可以追溯到柏拉圖,他在一次對(duì)話中指出: 一句話由名詞和動(dòng)詞組成,如果動(dòng)詞能夠表示名詞當(dāng)前正在執(zhí)行的動(dòng)作,則這句話是正確的[3]。換句話說(shuō),柏拉圖闡述了語(yǔ)義合成性的一般原則,即每句話都具有一定的結(jié)構(gòu);每句話中的各個(gè)部分都具有不同的功能;這句話的意思由它的各組成部分的意思所決定。
1892年,德國(guó)著名哲學(xué)家、邏輯學(xué)家Frege[4]正式提出了計(jì)算語(yǔ)義合成性的概念: 合成表達(dá)的語(yǔ)義由它的各組成部分的語(yǔ)義以及連接它們的規(guī)則所共同決定。它是形式語(yǔ)義學(xué)的一個(gè)基本原則,也是允許語(yǔ)言使用者們理解他們從未聽過(guò)的短語(yǔ)和句子語(yǔ)義的一個(gè)基本原則。形式語(yǔ)義學(xué)以數(shù)學(xué)為工具,利用符號(hào)和公式精確定義和解釋語(yǔ)言的語(yǔ)義,強(qiáng)調(diào)語(yǔ)義解釋和句法結(jié)構(gòu)的統(tǒng)一。1995年,Partee等人[5]進(jìn)一步闡述了計(jì)算語(yǔ)義合成性的概念: 整體語(yǔ)義是部分語(yǔ)義通過(guò)函數(shù)運(yùn)算并按一定的語(yǔ)法規(guī)則組合在一起而得到的語(yǔ)義表示。因此,目前計(jì)算語(yǔ)義合成性的工作主要集中于發(fā)現(xiàn)更好的單詞表示以及更好的合成規(guī)則這兩個(gè)方面。了解單詞的語(yǔ)義以及各個(gè)單詞之間的連接規(guī)則,人類可以很容易識(shí)別句子的語(yǔ)義和創(chuàng)造新的句子,但是對(duì)于計(jì)算機(jī)這仍然是一件非常具有挑戰(zhàn)性的工作。
縱觀國(guó)內(nèi)外研究人員關(guān)于計(jì)算語(yǔ)義合成性的研究現(xiàn)狀,根據(jù)所處階段的不同以及單詞表示方法的不同,我們將計(jì)算語(yǔ)義合成性的研究方法分為以下兩大類[6-7]。
(1) 語(yǔ)言學(xué)方法: 采用語(yǔ)言學(xué)方法進(jìn)行計(jì)算語(yǔ)義合成性的研究主要起源于Montague等[8]的工作,包括諸如λ演算等符號(hào)邏輯表示的方法[9]。這些語(yǔ)言學(xué)方法在語(yǔ)義學(xué)研究中發(fā)揮了重要的作用,它們將語(yǔ)言學(xué)的研究方法與計(jì)算語(yǔ)義合成性的原則有機(jī)結(jié)合,使得我們可以用組合的方法分析語(yǔ)法與語(yǔ)義之間的對(duì)應(yīng)關(guān)系。但是采用語(yǔ)言學(xué)方法僅能簡(jiǎn)單表示已知子表達(dá)式利用合成規(guī)則所得到的合成表達(dá)式正確與否,并不能明確表示單詞、短語(yǔ)以及句子的語(yǔ)義信息,同時(shí)也不能對(duì)結(jié)果進(jìn)行定量分析[2]。
(2) 分布式方法: 近年來(lái)有關(guān)計(jì)算語(yǔ)義合成性的研究多基于分布式方法[10]。分布式方法在單詞表示、識(shí)別單詞之間的語(yǔ)義相關(guān)性以及處理合成性等方面取得了顯著進(jìn)步,有效克服了采用語(yǔ)言學(xué)方法進(jìn)行語(yǔ)義合成性研究時(shí)所出現(xiàn)的表達(dá)能力弱、不便于計(jì)算等問(wèn)題。
對(duì)比發(fā)現(xiàn),分布式方法比語(yǔ)言學(xué)方法在計(jì)算語(yǔ)言合成性的研究中有更具體的單詞表示,且采用了更簡(jiǎn)單的合成運(yùn)算方法[4]。使用分布式方法獲取到的短語(yǔ)和句子的語(yǔ)義信息,可以更方便地應(yīng)用于情感分析以及統(tǒng)計(jì)機(jī)器翻譯等諸多自然語(yǔ)言處理的任務(wù)中。
本文第二章詳細(xì)介紹了語(yǔ)言學(xué)方法在計(jì)算語(yǔ)義合成性研究中的應(yīng)用,第三章詳細(xì)介紹了分布式方法在計(jì)算語(yǔ)義合成性研究中的應(yīng)用,第四章比較了計(jì)算語(yǔ)義合成性研究中的語(yǔ)言學(xué)方法與分布式方法,第五章舉例闡述了近年來(lái)計(jì)算語(yǔ)義合成性在情感分析以及統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域的應(yīng)用。最后總結(jié)了計(jì)算語(yǔ)義合成性的研究現(xiàn)狀并展望了未來(lái)的研究方向。
根據(jù)Montague等[8]所提出的方法,使用語(yǔ)言學(xué)方法進(jìn)行計(jì)算語(yǔ)義合成性研究必須具備以下兩個(gè)先決條件: 擁有能夠提供單詞與邏輯表達(dá)形式相對(duì)應(yīng)的邏輯詞典;能夠提供正確的語(yǔ)義合成規(guī)則。針對(duì)第二點(diǎn),Bach等[11]提出了一種規(guī)則到規(guī)則的假設(shè),即在語(yǔ)法和語(yǔ)義之間存在著一種映射關(guān)系,可以利用語(yǔ)法層的合成運(yùn)算來(lái)近似表示語(yǔ)義層的合成運(yùn)算。
λ演算最早由Church等提出用來(lái)研究函數(shù)定義、函數(shù)應(yīng)用和遞歸的形式系統(tǒng)[12]。在確定語(yǔ)法規(guī)則的基礎(chǔ)上,使用λ演算能有效進(jìn)行語(yǔ)法層的合成運(yùn)算,因此根據(jù)Bach等提出的規(guī)則到規(guī)則的假設(shè),可以將λ演算應(yīng)用于語(yǔ)義層的合成運(yùn)算。以文獻(xiàn)[2]所舉的實(shí)例為例,假如要得到“Every car runs”的合成語(yǔ)義表示,首先從邏輯詞典中獲取每個(gè)單詞的語(yǔ)法類型和邏輯表示形式即λ表達(dá)式,如式(1)所示。
a.everyDet:λP.λQ.?x[P(x)→Q(x)]
b.carN:λy.car(y)
(1)
c.runsVerb:λz.runs(z)
其中,邏輯詞典為存取所有單詞語(yǔ)義信息的邏輯形式的集合,λ表達(dá)式為用λ運(yùn)算符約束每一個(gè)變量的數(shù)學(xué)式。(1a)表示一個(gè)限定詞的語(yǔ)義邏輯表示形式,λP、λQ起到了占位符的作用,并不表示具體值,這些未知的變量可以用一組實(shí)體詞替換;(1b)表示一個(gè)實(shí)體名詞的語(yǔ)義邏輯表示形式,y為它的一個(gè)特征,通過(guò)后續(xù)語(yǔ)法基礎(chǔ)上的進(jìn)一步處理可以對(duì)它進(jìn)一步量化,例如y可取為ford,則該表達(dá)式表示ford類的car;(1c)表示一個(gè)不及物動(dòng)詞的語(yǔ)義邏輯表示形式,z為它的一個(gè)特征,假設(shè)z也取為ford,而ford確實(shí)有runs的屬性,則runs(ford)的語(yǔ)義是正確的。在單詞邏輯表示的基礎(chǔ)上,依據(jù)語(yǔ)法規(guī)則生成如圖1所示帶有詞性特征的簡(jiǎn)單語(yǔ)法樹。
圖1 “Every car runs.”的簡(jiǎn)單語(yǔ)法樹
從圖1所生成的語(yǔ)法樹中可以獲取兩個(gè)簡(jiǎn)單的合成運(yùn)算形式,合成運(yùn)算(1):Det+N→NP,由限定詞與名詞合成一個(gè)名詞短語(yǔ),其具體的計(jì)算過(guò)程如式(2)所示。通過(guò)使用β-歸約獲取名詞短語(yǔ)的語(yǔ)義邏輯表示形式,所謂β-歸約名用一個(gè)簡(jiǎn)單的邏輯表達(dá)式替換較復(fù)雜邏輯表達(dá)式中的變量,最終得到它們合成表示的更簡(jiǎn)單的邏輯表示形式。首先用(1b)替換(1a)中的變量p,再用x替換(1b)中的變量y,通過(guò)兩次β-歸約最終得到名詞短語(yǔ)的邏輯表示形式。
λP.λQ.?x[P(x)→Q(x)](λy.car(y))
→βλQ.?x[(λy.car(y))(x)→Q(x)]
P:=λy.car(y)
→βλQ.?x[car(x)→Q(x)]y:=x
(2)
合成運(yùn)算(2):NP+Verb→S,由名詞短語(yǔ)與動(dòng)詞合成一個(gè)句子,其具體的計(jì)算過(guò)程如式(3)所示,同樣使用多次β-歸約最終得到整句話的語(yǔ)義邏輯表示形式。
λQ.?x[car(x)→Q(x)](λz.runs(z))
→β?x[car(x)→(λz.runs(z))(x)]
(3)
Q:=λz.runs(z)
→β?x[car(x)→runs(x)]z:x
通過(guò)上述計(jì)算最終生成如圖2所示帶有語(yǔ)義特征的語(yǔ)法樹,從樹中可以獲取到“Every car runs”采用邏輯表達(dá)式表示的語(yǔ)義信息即為?x[car(x)→runs(x)]。
圖2 帶有語(yǔ)義特征的語(yǔ)法樹
在計(jì)算語(yǔ)義合成性研究中語(yǔ)言學(xué)方法的一個(gè)最大弊端是: 從詞典中獲取單詞的邏輯表示并不能表示單詞的具體含義,因此不能處理單詞語(yǔ)義相似度比較[13]、語(yǔ)義角色標(biāo)注[14]等諸多問(wèn)題。分布式方法使用向量表示單詞,每個(gè)單詞都具有特定的語(yǔ)義信息。在單詞向量表示的基礎(chǔ)上,參考文獻(xiàn)[2]提出了計(jì)算語(yǔ)義合成性分布式方法的分類體系,本節(jié)詳細(xì)介紹了三種目前常用的語(yǔ)義合成方法,即基于向量混合模型的方法、基于向量矩陣模型的方法和基于深度學(xué)習(xí)的方法。
3.1 基于向量混合模型的語(yǔ)義合成性
Mitchell等[15]基于分布式假設(shè)[16]提出利用向量混合模型來(lái)獲取短語(yǔ)和句子的向量表示,其具體的合成模型如式(4)所示。
(4)
其中,u和是兩個(gè)單詞的初始向量,R是這兩個(gè)單詞之間的語(yǔ)法關(guān)系,K是所需要的背景知識(shí),即構(gòu)造這兩個(gè)詞的合成表達(dá)的意思所需要的附加信息或知識(shí)。在同一個(gè)語(yǔ)料庫(kù)中,詞與詞之間、短語(yǔ)與短語(yǔ)之間以及句子與句子之間通常具有相同的R和K,因此上述合成模型進(jìn)一步簡(jiǎn)化為式(5)。
(5)
假如利用乘法和加法作為合成函數(shù),則可以得到向量乘法和帶權(quán)向量加法這兩種具體的計(jì)算方法:
(6)
(7)
其中帶權(quán)向量加法中的α和β是兩個(gè)可以調(diào)整的表示合成短語(yǔ)中每個(gè)單詞的重要程度的權(quán)值。向量混合模型是分布式方法中的最簡(jiǎn)單的合成運(yùn)算形式,利用向量混合模型方法得到的輸出向量可以看作是相關(guān)的輸入向量的元素的混合。向量混合模型方法十分簡(jiǎn)單,在許多自然語(yǔ)言處理的任務(wù),例如文獻(xiàn)檢索、論文評(píng)分以及一致性評(píng)估等諸多領(lǐng)域得到了廣泛的應(yīng)用,同時(shí)它也是評(píng)價(jià)其他復(fù)雜模型計(jì)算語(yǔ)義合成性優(yōu)劣與否的基礎(chǔ)。
此外,Coecke等[17]將張量積引入到了向量混合模型中來(lái)。張量積是刻畫兩個(gè)不同維度向量之間乘積的函數(shù),對(duì)于兩個(gè)向量u和,它們的張量積可以通過(guò)式(8)計(jì)算得到:
(8)
其中,ci,cj分別為向量u和中每一維的值;ni和nj分別為向量u和的偏置向量。同時(shí),在張量積的基礎(chǔ)上,Coecke等人又提出了將語(yǔ)法特性作為一個(gè)向量融入其中的合成運(yùn)算方法。假設(shè)我們定義u為名詞,為動(dòng)詞,則其計(jì)算過(guò)程如式(9)所示。
(9)
3.2 基于向量矩陣模型的語(yǔ)義合成性
基于向量混合模型的計(jì)算語(yǔ)義合成性在許多自然語(yǔ)言處理的任務(wù)中取得了良好的效果,但是它仍然不能解決語(yǔ)義合成的核心問(wèn)題,即從語(yǔ)法層中最直接的淺層詞的語(yǔ)義獲取相應(yīng)語(yǔ)義層的語(yǔ)義。于是,諸多研究人員在最初的向量混合模型基礎(chǔ)上提出了向量矩陣模型的方法,但是主要聚焦于某些特定短語(yǔ),如動(dòng)詞及其賓語(yǔ)的合成語(yǔ)義信息表示等。本節(jié)我們以Baroni等人[18]所提出的名詞與形容詞的語(yǔ)義合成運(yùn)算為例,說(shuō)明基于向量矩陣模型的語(yǔ)義合成性的相關(guān)問(wèn)題。
Baroni等提出用向量表示名詞,而修飾該名詞的形容詞則看作是用矩陣表示的將名詞的語(yǔ)義信息映射到名詞短語(yǔ)或形容詞名詞短語(yǔ)語(yǔ)義空間的線性函數(shù)。Baroni等在語(yǔ)義合成一般框架的基礎(chǔ)上,提出形容詞名詞語(yǔ)義合成的計(jì)算公式如式(10)所示。
(10)
其中,p是合成的n維的向量,B是修飾名詞的形容詞矩陣,是存儲(chǔ)了名詞的語(yǔ)義信息的向量。
在實(shí)際的應(yīng)用中通常使用某種監(jiān)督學(xué)習(xí)的方法來(lái)獲取各個(gè)權(quán)值矩陣的值,但是并不需要手工標(biāo)記的數(shù)據(jù),只需要在語(yǔ)料庫(kù)中分別訓(xùn)練出不同的形容詞模型,然后再根據(jù)具體的輸入向量對(duì)矩陣值做適當(dāng)?shù)恼{(diào)整,從而確保輸入和輸出向量具有相同的維數(shù)。
采用上述向量矩陣模型處理計(jì)算語(yǔ)義合成性問(wèn)題,比簡(jiǎn)單的向量混合模型取得了更優(yōu)的結(jié)果,同時(shí)也避免了采用張量積時(shí)的繁瑣計(jì)算。但是目前向量矩陣模型仍然局限于動(dòng)詞與名詞、形容詞與名詞的合成語(yǔ)義表示,并沒(méi)有應(yīng)用到所有組成單詞的合成運(yùn)算中。
使用深度學(xué)習(xí)的方法來(lái)進(jìn)行計(jì)算語(yǔ)義合成性的研究,是目前的趨勢(shì)之一。深度學(xué)習(xí)方法本質(zhì)是一類機(jī)器學(xué)習(xí)的算法,最早在2006年由Hinton等人[19]提出,它的概念起源于人工神經(jīng)網(wǎng)絡(luò)的研究,通過(guò)組合低層特征形成更加抽象的高層表示屬性的類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。使用深度學(xué)習(xí)的方法能夠捕獲任意語(yǔ)法類型和長(zhǎng)度的短語(yǔ)和句子的語(yǔ)義。深度學(xué)習(xí)的方法的最大優(yōu)勢(shì)在于: 它能真正充分地利用上下文信息來(lái)預(yù)測(cè)出其鄰近詞,而不像上一節(jié)所述的工作那樣,只利用目標(biāo)詞與相關(guān)詞的同現(xiàn)次數(shù)來(lái)預(yù)測(cè)目標(biāo)詞的語(yǔ)義信息。
圖3 基于深度學(xué)習(xí)方法的合成語(yǔ)義結(jié)構(gòu)圖
Socher等人[20]將深度學(xué)習(xí)的方法應(yīng)用到了計(jì)算語(yǔ)義合成性的研究中,利用如圖3所示的神經(jīng)網(wǎng)絡(luò)研究短語(yǔ)和句子的合成語(yǔ)義信息。對(duì)于輸入的一對(duì)單詞向量c1和c2,利用式(11)可以計(jì)算得到合成向量p:
(11)
其中,[c1;c2]表示兩個(gè)單詞向量的連接。W和b是模型參數(shù),g(x)為如sigmoid或tanh的非線性函數(shù)。如圖3所示,圖中帶有實(shí)心點(diǎn)的框圖表示輸入的單詞或短語(yǔ)的語(yǔ)義向量,帶空心點(diǎn)的框圖表示通過(guò)父節(jié)點(diǎn)重新構(gòu)造生成的與原葉子節(jié)點(diǎn)相對(duì)應(yīng)的節(jié)點(diǎn)。葉子節(jié)點(diǎn)c2、c3通過(guò)式(11)計(jì)算得到它們父節(jié)點(diǎn)的語(yǔ)義向量p1,依此類推,該父節(jié)點(diǎn)語(yǔ)義向量又被用作新的葉子節(jié)點(diǎn)向量計(jì)算更長(zhǎng)距離的短語(yǔ)語(yǔ)義向量。獲取到父節(jié)點(diǎn)向量p1后,通過(guò)式(12)重新構(gòu)造孩子節(jié)點(diǎn)向量。
(12)
對(duì)于每一個(gè)非葉子節(jié)點(diǎn),計(jì)算它們?cè)己⒆庸?jié)點(diǎn)向量與重新構(gòu)造的孩子節(jié)點(diǎn)向量之間的歐幾里德距離作為重構(gòu)誤差,如式(13)所示,通過(guò)尋找到誤差最小的根節(jié)點(diǎn),從而獲取模型的最優(yōu)參數(shù)計(jì)算得到合成短語(yǔ)的語(yǔ)義向量。
(13)
Socher等人[21]后續(xù)又對(duì)這種簡(jiǎn)單的合成模型做了進(jìn)一步的改進(jìn),借鑒向量矩陣模型方法提出了如圖4所示的MV-RNN模型。首先借助于分詞工具并通過(guò)適當(dāng)?shù)恼Z(yǔ)法分析構(gòu)建一棵二元語(yǔ)法樹,然后搜尋樹的每一個(gè)葉子節(jié)點(diǎn)得到其向量和矩陣M。其中,向量存儲(chǔ)的是每一個(gè)節(jié)點(diǎn)自身的內(nèi)部信息,M存儲(chǔ)的是目標(biāo)節(jié)點(diǎn)與它相鄰節(jié)點(diǎn)之間的連接規(guī)則。對(duì)于每一個(gè)單詞,首先將它初始化為一個(gè)n維的向量,然后利用Collobert等人[22]提出的無(wú)監(jiān)督學(xué)習(xí)的方法,對(duì)其進(jìn)行進(jìn)一步的優(yōu)化處理,最終得到的向量中存儲(chǔ)了單詞的語(yǔ)義信息。
圖4 基于MV-RNN模型的語(yǔ)義合成實(shí)例
對(duì)于每一個(gè)單詞的矩陣M,首先將它初始化為M=I+ε,其中I是隨機(jī)初始化的值,ε是高斯噪音,如果向量是n維的,則每一個(gè)單詞的矩陣M是Rn×n的。因此,對(duì)于任意長(zhǎng)為m的短語(yǔ)或句子,可以用向量矩陣對(duì): ((c1,M1),(c2,M2)…,(cm,Mm))表示,其中(c1,M1)和(cm,Mm)分別表示短語(yǔ)或句子中單詞的向量矩陣表示形式。
與上述提到的許多用于計(jì)算語(yǔ)義合成性的方法不同,深度學(xué)習(xí)的方法預(yù)訓(xùn)練的過(guò)程通常非常漫長(zhǎng),例如,計(jì)算中所需要的參數(shù)W和b都是通過(guò)使用多次迭代運(yùn)算而得到的,因此需要大量的訓(xùn)練時(shí)間,而且也并不能確保訓(xùn)練得到的參數(shù)適用于不同的主題。但是基于深度學(xué)習(xí)的方法訓(xùn)練得到的單詞向量表示帶有更豐富的語(yǔ)義信息,采用非線性的合成運(yùn)算得到的短語(yǔ)和句子的語(yǔ)義信息也更準(zhǔn)確。
前文我們分兩個(gè)部分分別闡述了語(yǔ)言學(xué)方法以及分布式方法在計(jì)算語(yǔ)義合成性研究中的應(yīng)用。對(duì)比諸多計(jì)算語(yǔ)義合成性的研究方法,從采用λ演算的語(yǔ)言學(xué)方法到近年來(lái)逐步占據(jù)主導(dǎo)地位的基于向量表示的分布式方法,再到現(xiàn)在基于深度學(xué)習(xí)的方法,在這些方法的不斷演變中,計(jì)算語(yǔ)義合成性的神秘面紗也逐步被揭開。
語(yǔ)言學(xué)的方法在語(yǔ)義學(xué)的研究中發(fā)揮了重要的作用,它綜合利用使得語(yǔ)義合成的過(guò)程得到了簡(jiǎn)化,但是語(yǔ)言學(xué)方法不能明確表示單詞的語(yǔ)義信息,對(duì)單詞合成的短語(yǔ)進(jìn)行邏輯表達(dá)時(shí),僅能簡(jiǎn)單地表示特定子表達(dá)式在一定規(guī)則下所得到的合成表達(dá)式語(yǔ)義的正確與否,并不能定量地分析結(jié)果所包含的語(yǔ)義信息。此外,語(yǔ)言學(xué)方法對(duì)于規(guī)則和函數(shù)具有較強(qiáng)的限制,并不適用于大規(guī)模的數(shù)據(jù)處理。
基于向量模型的分布式方法的引入,使得我們可以通過(guò)簡(jiǎn)單的數(shù)學(xué)運(yùn)算得到短語(yǔ)以及句子的合成語(yǔ)義信息。分布式語(yǔ)義表示,采用向量表示語(yǔ)義,在語(yǔ)義的表示以及可計(jì)算性上得到了極大的改善。尤其是隨著深度學(xué)習(xí)技術(shù)的發(fā)展,能夠真正充分利用整個(gè)語(yǔ)料的上下文信息,雖然其所得的向量每一維的具體意義目前仍無(wú)法解釋,但是通過(guò)相似度計(jì)算等諸多處理方式,能極為方便進(jìn)行語(yǔ)義層面的研究。但是由于深度學(xué)習(xí)的方法包含了多層訓(xùn)練模型,并通常需要預(yù)處理,因此它的訓(xùn)練速度通常較慢,仍然有許多值得改進(jìn)的地方[23]。
迄今為止,計(jì)算語(yǔ)義合成性在諸多自然語(yǔ)言處理的任務(wù)中得到了廣泛的應(yīng)用,本節(jié)著重闡述其在情感分析以及統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中的應(yīng)用。
5.1 計(jì)算語(yǔ)義合成性在情感分析中的應(yīng)用
從大規(guī)模數(shù)據(jù)集中分析用戶情感是一件非常具有挑戰(zhàn)性的工作,但是目前多采用基于“詞袋”模型的方法分析用戶情感,即不考慮詞與詞之間、詞與短語(yǔ)之間以及詞與句子之間的語(yǔ)法語(yǔ)義關(guān)系,判斷出錯(cuò)的情況不可避免[24]。舉例來(lái)說(shuō),有這樣兩個(gè)句子“白細(xì)胞摧毀了病毒的一次攻擊”和“病毒的一次攻擊摧毀了白細(xì)胞”,顯然第一句話表達(dá)了積極的情感,第二句話表達(dá)了消極的情感。但在采用傳統(tǒng)基于“詞袋”模型的方法,不可避免將這兩句話判定為包含同樣的情感。此外,目前對(duì)于用戶情感的描述也存在著一定的局限性,并不能描述用戶復(fù)雜的情感狀態(tài)。
文獻(xiàn)[25]針對(duì)上述問(wèn)題,以深度學(xué)習(xí)方法中的遞歸自動(dòng)編碼器模型(RAE)為基礎(chǔ)將合成語(yǔ)義應(yīng)用到用戶情感分析中,有效解決了缺乏語(yǔ)法結(jié)構(gòu)以及用戶情感復(fù)雜描述的局限性。針對(duì)語(yǔ)料情況,將用戶情感分為五個(gè)大類,例如,“understand,sorry, hugs, wow,just wow”,每一大類中與之相對(duì)應(yīng)有若干個(gè)標(biāo)簽,例如,“excited,cried”等,形成一個(gè)標(biāo)簽庫(kù)。對(duì)于一個(gè)待分析的句子,首先獲取單詞語(yǔ)義向量,此時(shí)的單詞語(yǔ)義向量可以通過(guò)多種方式(如逐點(diǎn)互信息或Word2vec*https://code.google.com/p/word2vec/等)獲取到,再依據(jù)如圖3所示的深度學(xué)習(xí)模型結(jié)構(gòu),每次選取誤差率最小的組合,兩兩組合依次向上迭代,直至到達(dá)根結(jié)點(diǎn)。其中,誤差率通過(guò)式(14)計(jì)算得到。
(14)
其中,Erec為重構(gòu)誤差可通過(guò)式(13)計(jì)算得到。式(13)中的A(x)表示從語(yǔ)句x能夠構(gòu)造樹的全部可能集合,T(y)是返回樹中所有非葉子結(jié)點(diǎn)的索引s的函數(shù),c1和c2為樹中的兩個(gè)葉子結(jié)點(diǎn),表示待合成的兩個(gè)單詞的語(yǔ)義向量表示形式。
此時(shí),我們獲取了目標(biāo)句子或短語(yǔ)帶有語(yǔ)法結(jié)構(gòu)的語(yǔ)義向量表示形式,在此基礎(chǔ)上為所得到的樹中的每個(gè)父結(jié)點(diǎn)增加一個(gè)平滑層d(p;θ):
d(p;θ)=softmax(Wlabelp)
(15)
(16)
對(duì)目標(biāo)函數(shù)采用梯度下降求解,便可求出模型參數(shù)θ。此時(shí),訓(xùn)練一個(gè)簡(jiǎn)單的邏輯回歸分類器利用該模型參數(shù)θ便可以分析待處理句子的情感。實(shí)驗(yàn)結(jié)果表明,將計(jì)算語(yǔ)義合成性應(yīng)用于情感分析中能有效解決基于“詞袋”模型導(dǎo)致誤判的問(wèn)題,此外還大大簡(jiǎn)化了人工處理的成本。
5.2 計(jì)算語(yǔ)義合成性在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用
經(jīng)過(guò)50多年的發(fā)展,統(tǒng)計(jì)機(jī)器翻譯的方法經(jīng)歷了從詞語(yǔ)層面、淺層語(yǔ)法層面、深層語(yǔ)法層面到半語(yǔ)義層面的進(jìn)步[26],近年研究人員逐漸把研究的方向轉(zhuǎn)向語(yǔ)義層的研究。在語(yǔ)義層的研究中,計(jì)算語(yǔ)義合成性的研究也越來(lái)越廣泛。這一節(jié),我們以文獻(xiàn)[27]將計(jì)算語(yǔ)義合成性加入到短語(yǔ)翻譯模型中的工作為例介紹計(jì)算語(yǔ)義合成性在統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域的應(yīng)用。
其主要的思想是: 首先在源語(yǔ)言端和目標(biāo)語(yǔ)言端分別抽取出短語(yǔ),然后將源語(yǔ)言和目標(biāo)語(yǔ)言中的短語(yǔ),通過(guò)多層神經(jīng)網(wǎng)絡(luò)模型映射到一個(gè)低維的淺層語(yǔ)義空間。于是,對(duì)于源語(yǔ)言和目標(biāo)語(yǔ)言的短語(yǔ),都可以用一個(gè)與語(yǔ)言環(huán)境無(wú)關(guān)的特征向量來(lái)表示它的語(yǔ)義信息,最后通過(guò)計(jì)算各特征向量之間的相似度獲得源短語(yǔ)對(duì)到目標(biāo)短語(yǔ)對(duì)的翻譯得分。由于該翻譯得分是這些特征向量之間的平滑函數(shù),所以語(yǔ)義上的微小改變僅會(huì)略微改變翻譯得分的值,確保了翻譯得分能夠保持適當(dāng)?shù)闹?,然后將它作為一個(gè)特征加入到訓(xùn)練模型中。
將語(yǔ)義合成性應(yīng)用到統(tǒng)計(jì)機(jī)器翻譯中,關(guān)鍵在于把源語(yǔ)言和目標(biāo)語(yǔ)言短語(yǔ)映射到同一個(gè)語(yǔ)義空間,然后計(jì)算出翻譯得分[28]。假設(shè)從源語(yǔ)言或者目標(biāo)語(yǔ)言中抽取的短語(yǔ)用向量表示為p,則它映射到語(yǔ)義空間中的特征向量y可采用式(17)計(jì)算得到。
(17)
其中,W1是從輸入層到隱藏層的映射矩陣,W2是從隱藏層到輸出層的映射矩陣。在語(yǔ)義空間的特征向量基礎(chǔ)上,通過(guò)計(jì)算源語(yǔ)言短語(yǔ)向量ps與目標(biāo)語(yǔ)言短語(yǔ)向量pt的相似度來(lái)表示源語(yǔ)言短語(yǔ)和目標(biāo)語(yǔ)言短語(yǔ)的翻譯得分。它的計(jì)算過(guò)程如式(18)所示。
score(s,t)≡simθ(ps,pt)=ysTyt
(18)
其中,s和t為源語(yǔ)言和目標(biāo)語(yǔ)言短語(yǔ),ps和pt分別為源語(yǔ)言語(yǔ)義空間和目標(biāo)語(yǔ)言語(yǔ)義空間下源語(yǔ)言短語(yǔ)和目標(biāo)語(yǔ)言短語(yǔ)語(yǔ)義向量。ys和yt分別為源語(yǔ)言短語(yǔ)和目標(biāo)語(yǔ)言短語(yǔ)在語(yǔ)義空間中得到的特征向量,得到翻譯得分后,將其作為一個(gè)參數(shù)加入到傳統(tǒng)的基于線性對(duì)數(shù)模型的短語(yǔ)機(jī)器翻譯過(guò)程中。英法機(jī)器翻譯上的實(shí)驗(yàn)結(jié)果表明,這種新的模型的BLEU值比傳統(tǒng)的短語(yǔ)翻譯模型提高了0.7~1.0。
目前計(jì)算語(yǔ)義合成性在機(jī)器翻譯中的應(yīng)用多采用這種在單語(yǔ)空間計(jì)算語(yǔ)義向量再投影的方法,在投影的時(shí)候不可避免地會(huì)產(chǎn)生語(yǔ)義丟失的現(xiàn)象。Hermann等[29]提出一種多語(yǔ)言模型,將分布式假設(shè)擴(kuò)展到了多語(yǔ)空間,在多語(yǔ)空間計(jì)算短語(yǔ)乃至句子的合成語(yǔ)義信息,有效避免了投影時(shí)可能出現(xiàn)的語(yǔ)義丟失現(xiàn)象。將通過(guò)這種模型獲得的語(yǔ)義向量應(yīng)用于機(jī)器翻譯中,相信定能有效提升翻譯的質(zhì)量。
本文對(duì)計(jì)算語(yǔ)義合成性的研究方法進(jìn)行了全面的綜述和分析,參考了國(guó)內(nèi)外諸多研究人員有關(guān)計(jì)算語(yǔ)義合成性研究的文章、方法。首先概要介紹了傳統(tǒng)語(yǔ)言學(xué)方法在計(jì)算語(yǔ)義合成性研究中的應(yīng)用,然后對(duì)于近年來(lái)興起的基于單詞向量表示的分布式方法選取了具有代表性的基于向量混合模型、基于向量矩陣模型以及基于深度學(xué)習(xí)的方法做了詳細(xì)的介紹。同時(shí)也介紹了計(jì)算語(yǔ)義合成性在情感分析和統(tǒng)計(jì)機(jī)器翻譯領(lǐng)域中的應(yīng)用。
從本文對(duì)語(yǔ)言學(xué)方法和分布式方法的分析比較中可以看出: 計(jì)算語(yǔ)義合成性質(zhì)量的好壞直接影響了其應(yīng)用的質(zhì)量的好壞,而單詞的表示以及單詞之間的合成規(guī)則直接影響了計(jì)算語(yǔ)義合成性質(zhì)量的好壞。因此,計(jì)算語(yǔ)義合成性研究的重點(diǎn)仍然是尋求更好的單詞向量表示以及更便利、有效的合成規(guī)則。
計(jì)算語(yǔ)義合成性研究是一件非常具有潛力和挑戰(zhàn)性的工作,它可以極大地影響與改善自然語(yǔ)言處理的過(guò)程。但是即使采取目前最新的分布式方法,計(jì)算語(yǔ)義合成性研究仍然沒(méi)有取得最優(yōu)的結(jié)果。采用單詞向量表示的分布式方法的前提是分布式假設(shè)是正確的,然后才可以利用上下文信息表示目標(biāo)單詞的語(yǔ)義信息,但是正如文獻(xiàn)[2]所提出的質(zhì)疑,Harris等人提出的分布式假設(shè)是否正確仍然是一個(gè)需要商榷的命題。此外,對(duì)于介詞、限定詞以及關(guān)系代詞這些功能詞的語(yǔ)義很難有一個(gè)穩(wěn)定正確的表示方法。在單詞向量表示的基礎(chǔ)上,無(wú)論是線性的或者非線性的合成運(yùn)算方法,都沒(méi)有綜合利用語(yǔ)法和語(yǔ)義規(guī)則。而這些問(wèn)題都需要研究人員進(jìn)一步挖掘與探究。
[1] 馮志偉. 自然語(yǔ)言處理的歷史與現(xiàn)狀[J]. 中國(guó)外語(yǔ),2008,01:14-22.
[2] Kartsaklis D. Compositional Operators in Distributed Semantics. Springer Science Reviews[OL]. DOI: 10.1007/s40362-014-0017-z. 2014. www.cs.ox.ac.uk/files/6248/kartsaklis-springer.pdf
[3] Cornford FM,ed. Plato’s theory of knowledge: The theaetetus and the sophist[M]. Courier Dover Publications,2003.
[4] Frege G. ‘über Sinn und Bedeutung’,in P Geach and M Black,eds.Translations from the Philosophical Writings of Gottlob[M]. Oxford: Blackwell,1892: 56-78.
[5] Partee B. Lexical semantics and compositionality[J]. An invitation to cognitive science: Language. 1995. 1: 311-360.
[6] Clark S,Pulman S. Combining Symbolic and Distributional Models of Meaning[C]//Proceedings of the AAAI Spring Symposium on Quantum Interaction,2007: 52-55.
[7] Blacoe W,Lapata M. A comparison of vector-based representations for semantic composition[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics,2012: 546-556.
[8] Montague R. English as a formal language[J]. Linguaggi nella societae nella tecnica. 1970: 189-224.
[9] Moggi E. Computational lambda-calculus and monads[M]. University of Edinburgh,Department of Computer Science,Laboratory for Foundations of Computer Science,1988.
[10] Guevara E. Computing semantic compositionality in distributional semantics[C]//Proceedings of the 9th International Conference on Computational Semantics.Association for Computational Linguistics,2011: 135-144.
[11] Bach E. An extension of classical transformational grammar[C]//Proceedings of the 1976 Conference at Michigan State University,1976: 183-224.
[12] Church A. The calculi of lambda-conversion[M]. Princeton University Press,1985.
[13] 石靜,吳云芳,邱立坤等. 基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)詞義相似度計(jì)算方法[J]. 中文信息學(xué)報(bào),2013,27(1)1-6,80.
[14] 王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語(yǔ)義角色標(biāo)注研究[J]. 中文信息學(xué)報(bào),2011,(25)01: 116-122.
[15] Mitchell J,Lapata M. Vector-based Models of Semantic Composition[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics,2008: 236-244.
[16] Harris Z S. Mathematical structures of language[J]. Wiley. New York. 1968.
[17] Coecke B,Sadrzadeh M,Clark S.Mathematical Foundations for Distributed Compositional Model of Meaning[J]. Lambek Festschrift. Linguistic Analysis. 2010,36: 345-384.
[18] Baroni M,Zamparelli R. Nouns are vectors,adjectives are matrices: Representing adjective-noun constructions in semantic space[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2010: 1183-1193.
[19] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786): 504-507.
[20] Socher R,Lin C C,Manning C,et al. Parsing natural scenes and natural language with recursive neural networks[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11),2011,129-136.
[21] Socher R,Huval B,Manning C D,et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics,2012,1201-1211.
[22] Collobert R,Weston J,Bottou L,et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research,2011,12: 2493-2537.
[23] Mitchell J,Lapata M. Composition in distributional models of semantics[J]. Cognitive science,2010,34(8): 1388-1429.
[24] Pang B,Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics,2002: 79-86.
[25] Socher R,Pennington J,Huang E H,et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2011: 151-161.
[26] 劉群. 統(tǒng)計(jì)機(jī)器翻譯綜述[J]. 中文信息學(xué)報(bào),2003,17(4): 1-12.
[27] Gao J,He X,Yih W,et al. Learning Continuous Phrase Representations for Translation Modeling[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics. Baltimore,Maryland. 2014: 699-709.
[28] He X,Deng L. Maximum expected bleu training of phrase and lexicon translation model[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics,2012: 292-301.
[29] Hermann K M,Blunsom P. Multilingual Models for Compositional Distributed Semantics[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014: 58-68.
A Survey of Computational Semantic Compositionality
WANG Chaochao,XIONG Deyi
(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)
Despite of the rapid development of natural language processing,studies at the syntax level can’t fully satisfy what we need. Semantics is becoming a hot research topic in the NLP community. As the key part of semantics,computational semantic compositionality receives more attention. In this paper,we classify the approaches towards computational semantic compositionality into two categories: linguistic methods and distributional methods. We present some typical studies for each category,including the recent deep learning approaches. After an introduction to these two approaches,we make a comparison between linguistic methods and distributional methods. Then we introduce several applications of computational semantic compositionality on sentiment analysis and machine translation. Finally,we provide some suggestions on future directions of computational semantic compositionality.
semantic compositionality; natural language processing; distributional method; deep learning
王超超(1989—),碩士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。E?mail:chaochaowang@foxmail.com熊德意(1979—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理,機(jī)器翻譯。E?mail:dyxiong@suda.edu.com
2014-6-9 定稿日期: 2015-12-8
江蘇省自然科學(xué)基金青年基金(BK20140355)
1003-0077(2016)03-0001-08
TP391
A