邵艷秋,申資卓,劉世軍
(北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
搭配通常是指由兩個或兩個以上的詞語所組成的一種語言表示,這種表示往往是語言某種習(xí)慣方式的表達(dá)。搭配對于提高機(jī)器翻譯、信息檢索、自動問答等應(yīng)用研究以及句法、語義分析等基礎(chǔ)研究都具有重要的支持作用,同時對于語言學(xué)以及對外漢語教學(xué)等的研究也具有重要意義。
早期搭配研究主要是依靠人工判斷,主觀性很強(qiáng),時間消耗大,比如《英文搭配詞典》就是由一名日本學(xué)者通過窮舉的方法花費(fèi)20年時間完成[1]。隨著計算機(jī)技術(shù)的發(fā)展,搭配研究也開始向自動化發(fā)展,主要表現(xiàn)在搭配抽取技術(shù)方面。國外較早開展搭配自動抽取研究的是Choueka、Klein和Neuwtiz[2],他們將共現(xiàn)次數(shù)達(dá)到一定閾值的相鄰詞串抽取出來作為搭配,但這種方法會漏掉很多彼此不相鄰的搭配,比如make-decision;Church和Hanks[3]改進(jìn)自動抽取技術(shù),提出了用表示詞對聯(lián)系緊密程度的互信息作為評價搭配的指標(biāo),取得了一定進(jìn)展,但該方法也有一定局限性,一些經(jīng)常共現(xiàn)的彼此依賴的詞語會被抽取出來,比如“醫(yī)生、護(hù)士”;Lin[4]基于淺層句法分析抽取搭配;Yang[5]融合頻率、似然比、點(diǎn)互信息、方差等多種統(tǒng)計指標(biāo),利用決策樹方法獲取搭配。
國內(nèi)的搭配研究近些年也有顯著發(fā)展。孫茂松[6]等在借鑒國外研究成果的基礎(chǔ)上,提出了包括強(qiáng)度、離散度以及尖峰三項統(tǒng)計指標(biāo),開啟了基于統(tǒng)計的大規(guī)模語料搭配自動抽取的先河;王萌、俞士汶[7]等抽取量名搭配并對其進(jìn)行定量分析;曲維光[8]等提出了一種基于框架的詞語搭配抽取方法;車萬翔[9]等在1.8 GB的大規(guī)模語料庫中統(tǒng)計詞對個數(shù)、距離及方差,并應(yīng)用t檢驗(yàn)的改進(jìn)方法得到了詞對之間的“搭配強(qiáng)度系數(shù)”值,以此來衡量它們之間這種搭配關(guān)系;徐潤華[10]探討了兩種基于句法分析結(jié)果比對的詞語搭配自動獲取方法,并建設(shè)了大規(guī)模詞語搭配知識庫。黃德根[11]等提出了基于詞向量技術(shù)的搭配抽取方法,并通過對比實(shí)驗(yàn)表明基于詞向量的方法優(yōu)于傳統(tǒng)的多策略融合的方法。目前來看,搭配的自動抽取技術(shù)正在逐漸與語言學(xué)知識融合,從初期純粹利用統(tǒng)計量抽取搭配發(fā)展到如今,搭配的自動抽取已經(jīng)融入了詞性、句法等特征。
語言監(jiān)測研究方面,目前國內(nèi)的主要工作集中于對歷時語料庫的計量分析,通過統(tǒng)計指標(biāo)考察語言的歷時變化,饒高琪等[12]利用了互信息、聯(lián)合熵、變異系數(shù)等9種統(tǒng)計方法,從1946年-2015年的報刊語料中抽取穩(wěn)態(tài)詞進(jìn)行語言監(jiān)測研究。一些國外學(xué)者,近來也采用詞向量技術(shù)、可視化技術(shù)、主題模型來研究歷時的語言數(shù)據(jù),Arendt[13]等提出了在大規(guī)模歷時社會媒體語料上動態(tài)訓(xùn)練詞向量并可視化的方法。Hida[14]等人則利用結(jié)合動態(tài)信息與靜態(tài)信息的主題模型對文本歷時數(shù)據(jù)建模。
本文通過對語料進(jìn)行句法依存分析,提出了一種基于句法依存分析的搭配自動抽取方法,并將此技術(shù)應(yīng)用于近70年《人民日報》語料庫的搭配抽取,通過抽取出來的搭配對語言的發(fā)展變化、社會生活的變遷進(jìn)行分析研究。
Firth提出搭配是指一個詞語的語義由與它經(jīng)常一起出現(xiàn)的另一詞語決定[15],主要用于詞匯層面。孫茂松引用了Benson的觀點(diǎn),認(rèn)為“重復(fù)出現(xiàn)決定了搭配應(yīng)有一定的流通度,而非偶然的個例”,搭配是約束組合而不是自由組合,即搭配不可預(yù)期性[6]。該觀點(diǎn)認(rèn)為“warmest greetings”是搭配,因?yàn)檫@種說法是習(xí)慣使然,沒有規(guī)律可循。林杏光等在編寫搭配詞典時提出了一種“少而精”的原則,認(rèn)為“好詞典”“壞詞典”這種非常常見的搭配不宜錄入搭配詞典,而“百科詞典”“英漢詞典”則可以[1]。申修瑛在《現(xiàn)代漢語詞語搭配研究》中指出,搭配是介于自由組合與慣用語之間的詞語組合方式[16]。
可見,人們往往將搭配的定義與自由組合和約束組合(或慣用語)做比較。在總結(jié)上述觀點(diǎn)的基礎(chǔ)上,本文對自由組合進(jìn)行限定,即認(rèn)為像“好詞典、好學(xué)生”這類擴(kuò)展性很強(qiáng)的組合為自由組合,而認(rèn)為“受到批評、受到譴責(zé)”這類能擴(kuò)展但擴(kuò)展性很有限的組合為非自由組合。其次,本文對“共現(xiàn)”進(jìn)行了界定,認(rèn)為在一句話中彼此有依存關(guān)系的兩個詞語即為共現(xiàn),例如,“我們邀請他參加學(xué)校舉行的運(yùn)動會”這句話中的“參加”和“運(yùn)動會”是有依存關(guān)系的,句法上存在動賓關(guān)系,盡管二者距離比較遠(yuǎn),我們?nèi)詫⑵湟暈楣铂F(xiàn),在一個完整的句子內(nèi),不論詞語之間的間隔有多遠(yuǎn),兩個詞語只要是有依存關(guān)系,即認(rèn)為是共現(xiàn)。而“參加”和“學(xué)?!彪m然距離很近,但二者之間沒有依存關(guān)系,則不視為共現(xiàn)。
綜上,本文定義的搭配為:具有一定共現(xiàn)頻率的非自由組合。該定義中“共現(xiàn)”的含義即為詞語對在句中存在依存關(guān)系;“一定頻率”則通過閾值進(jìn)行控制,只有超過一定閾值才視為是穩(wěn)定的搭配;而“非自由組合”則是上文提到的以一種相對特異的方式相互約束的組合。
以往的搭配抽取通常是將“共現(xiàn)”定義為在一定范圍內(nèi)的共同出現(xiàn)。比如用開窗口的方法抽取搭配就是以一個詞為核心詞,窗口大小設(shè)為n(n一般不大于5),那么該詞前后各n個詞語與其共現(xiàn),在此基礎(chǔ)上統(tǒng)計共現(xiàn)頻率。窗口的設(shè)定太大就會增加計算量,并且會有大量彼此沒有句法或語義聯(lián)系的詞對被抽取出來,窗口如果設(shè)定太小就會漏掉很多間隔比較遠(yuǎn)而聯(lián)系緊密的搭配。因此,這種開窗口的方法雖然對于某些搭配的抽取會有很好的表現(xiàn),但同時也常常會抽取出彼此沒有語法、語義關(guān)系而只是經(jīng)常在一定距離范圍內(nèi)共同出現(xiàn)的非搭配關(guān)系的詞對,而且也會遺漏一些相隔距離遠(yuǎn)而又存在內(nèi)在聯(lián)系的搭配。本文將搭配定義在具有依存關(guān)系基礎(chǔ)之上的一定頻率的非自由組合的“共現(xiàn)”。
本文基于依存句法分析進(jìn)行搭配抽取。依存分析是以句子為單位進(jìn)行分析,將具有句法依存關(guān)系的兩個詞語用依存弧相連接并標(biāo)出相應(yīng)的依存句法關(guān)系。相比于開窗口的方法,將共現(xiàn)定義為彼此有依存關(guān)系的詞對更加準(zhǔn)確,一方面過濾掉了沒有關(guān)系的詞對,另一方面在一個句子范圍內(nèi),不受距離限制。
圖1是句子“我們邀請他參加學(xué)校舉行的運(yùn)動會”經(jīng)過依存句法分析的結(jié)果,有依存弧相連接的兩個詞語在句子中具有句法依存關(guān)系,弧的方向?yàn)楹诵脑~指向依存詞,弧上的標(biāo)簽為詞對的句法依存關(guān)系,如“HED”表示句法上的核心關(guān)系,“SBV”表示主謂關(guān)系,“DBL”表示兼語關(guān)系,“VOB”表示句法上的動賓關(guān)系,“WP”表示標(biāo)點(diǎn)符號,“RAD”表示右附加關(guān)系,“ATT”表示定中關(guān)系。本文采用哈工大社會計算與信息檢索研究中心的LTP平臺提供的句法分析開源工具進(jìn)行依存句法分析。
Fig.1 An example of the tree representation result of dependency parsing圖1 依存句法分析結(jié)果樹狀圖表示示例
基于依存句法的搭配抽取算法,主要通過對大規(guī)模語料進(jìn)行依存句法分析,獲得具有句法關(guān)系的詞對,進(jìn)而計算詞對之間的互信息來表征詞對之間的共現(xiàn)性。這里互信息衡量了兩個詞語之間的相關(guān)性,互信息越大,兩個詞語就越相關(guān)。算法的詳細(xì)步驟如下:
Step 1:語料預(yù)處理,包括對語料進(jìn)行分句、分詞、詞性標(biāo)注等。
Step 2:句法依存分析。將經(jīng)過預(yù)處理的語料作為輸入進(jìn)行句法依存分析(本文采用的句法分析工具是哈工大語言云平臺上的依存句法分析器)。
Step 3:抽取句法依存弧。依據(jù)句法依存分析的結(jié)果生成句法三元組集合。句法三元組是由父節(jié)點(diǎn)詞語、子節(jié)點(diǎn)詞語和依存成分三個部分組成,表示為(w1,w2,Rela_Syn),其中,w1為核心父節(jié)點(diǎn),w2為依存子節(jié)點(diǎn),Syn為詞語w1與w2間的依存句法關(guān)系,遍歷文件,輸出所有的句法三元組。
Step 4:頻次統(tǒng)計。以(w1,w2,Rela_Syn)為對象統(tǒng)計存在某句法關(guān)系Rela_Syn的詞語對的頻次Freq-Syn。然后,將統(tǒng)計得到的Freq-Syn加入句法三元組,從而構(gòu)造出帶有頻次信息的句法四元組集合(w1,w2,Rela-Syn,Freq-Syn)
Step5:計算互信息。構(gòu)造帶有加權(quán)互信息的句法五元組集合?;バ畔⒂嬎愎饺缡?1)所示:
(1)
WSyn=Freq-Syn/Sum-Syn
(2)
其中WSyn為句法權(quán)重,Freq-Syn為步驟4中統(tǒng)計得出的詞語對的頻次,Sum-Syn為語料庫中抽取出的句法三元組的總數(shù)。經(jīng)過計算后,將加權(quán)互信息MI加入句法四元組,從而得到句法五元組(w1,w2,Rela_Syn,Freq-Syn,MI)。
Step 6:設(shè)定閾值抽取搭配。通過抽樣觀察,本文將Freq-Syn的閾值設(shè)定為10,MI的閾值設(shè)定為0.000 1,然后抽取出Freq>=10且MI>=0.000 1的搭配。
根據(jù)上述算法,以句子“我們邀請他參加學(xué)校舉行的運(yùn)動會”為例,經(jīng)step2進(jìn)行句法依存分析后,結(jié)果如表1所示。表中每個詞語單獨(dú)占據(jù)一行,各列從左至右分別表示詞語在句中的位置用序號、詞語、詞性、該詞語的依存節(jié)點(diǎn)即父節(jié)點(diǎn)序號、該詞語的句法成分。例如,詞語“我們”的詞性為代詞r,父節(jié)點(diǎn)為2號節(jié)點(diǎn)“邀請”,擔(dān)當(dāng)動詞“邀請”的主語(SBV)成分。全句核心節(jié)點(diǎn)的父節(jié)點(diǎn)位置標(biāo)為0,如節(jié)點(diǎn)“邀請”是全句的核心詞,其父節(jié)點(diǎn)位置標(biāo)為0。而經(jīng)step3處理之后,會得到諸多帶有句法信息的三元組表示,如(參加,運(yùn)動會,VOB),表示依存弧的方向由“參加”指向“運(yùn)動會”,并且“運(yùn)動會”是“參加”的“直接賓語”,二者之間的關(guān)系是動賓關(guān)系(VOB)。
表1 句法依存分析結(jié)果二維表表示示例
為了評測2.2中提出的算法的有效性,本文構(gòu)建了VOB句法關(guān)系候選搭配集S,即將句法關(guān)系為VOB的五元組抽取出來組成S,然后再設(shè)定閾值進(jìn)行搭配抽取實(shí)驗(yàn)。
經(jīng)實(shí)驗(yàn),從候選搭配集S中,共抽取出句法搭配對268 102個。表2是按互信息倒排后排名前10的句法搭配對。從表2可以看出,抽取出來的“解決 問題”“加大 力度”“開展 活動”等都是合理的搭配,但是,由于句法分析只有11個不同的句法標(biāo)簽,粗粒度分類會對搭配抽取產(chǎn)生相對多的干擾因素,致使搭配抽取的準(zhǔn)確率降低。所以,在上表中“認(rèn)為 是”“說 是”這一類的組合也被分為了VOB。另外,本文對自動抽取的結(jié)果進(jìn)行了評測,采用基于詞典的評測方法,即從自動抽取的搭配中,選出出現(xiàn)次數(shù)較多且收錄在張壽康《現(xiàn)代漢語實(shí)詞搭配詞典》中的5個動詞,分別計算準(zhǔn)確率和召回率。以動詞“受到”為例,其搭配的準(zhǔn)確率為27.2%,召回率為66.7%。
表2 排名前10的句法搭配對
表3 未在詞典中出現(xiàn)的“受到”的搭配詞語集合
由于考慮到詞典收錄搭配的局限性,即從大規(guī)模語料中抽取出的搭配雖然未被詞典收錄,但仍然是常用的搭配,本文又進(jìn)一步對抽取結(jié)果進(jìn)行了人工評測(即不參照詞典,只要評測人認(rèn)為該詞對是搭配就視為正確搭配),仍以“受到”一詞為例,其搭配準(zhǔn)確率為74.7%。表3中列出了動詞“受到”未在搭配詞典中出現(xiàn)的搭配,但經(jīng)過人工判斷確定其屬于搭配,共123個。
目前,語言監(jiān)測的相關(guān)任務(wù)主要是基于獨(dú)立詞語進(jìn)行研究的,為了發(fā)現(xiàn)基于詞語的語言監(jiān)測與基于搭配的語言監(jiān)測的異同,本文利用近70年的《人民日報》語料,以1977年為界,分別對1977年以后和1977年以前的兩個時期的語料進(jìn)行詞頻統(tǒng)計,并對兩個時期的詞頻統(tǒng)計文件進(jìn)行了對比。表4和表5是這兩個時期各自獨(dú)有的詞語按照詞頻倒排后的前20個詞語。
表4中的出現(xiàn)年份表示該詞語第一次出現(xiàn)的年份,從表中的詞語可以大致看出1977年以來社會發(fā)生的變化,比如“鄉(xiāng)鎮(zhèn)企業(yè)”“高新技術(shù)”“第三產(chǎn)業(yè)”等。
表4 1977年以后出現(xiàn)的詞語
表5 1977年以后消失的詞語
表5中的“最后出現(xiàn)的年份”表示該詞最后出現(xiàn)的年份。從表中的詞語可以看出消失的詞語大部分是人名和地名等專有名詞,從這一方面可以反映出專有名詞的生命周期較短,比較容易消失。另一方面,1977年以前的語言風(fēng)格與現(xiàn)在相比還是有一定差異的,首先表現(xiàn)在用詞方面,“米”作為長度單位取代了“公尺”;其次,音譯詞的翻譯風(fēng)格比較隨意,比如“托辣斯”,“塞拉勒窩”。
本文從搭配角度出發(fā)進(jìn)行語言監(jiān)測研究,以1977年為界,根據(jù)2.2提出的算法分別抽取出該界限之前和之后兩個時間段內(nèi)的部分句法搭配,對兩個時段的搭配進(jìn)行比對,生成“1977年以后產(chǎn)生的搭配”和“1977年以后消失的搭配”兩個集合。表6和表7分別列出了這兩個集合按詞頻倒排后的前20個搭配。
從表6和表7中可以看出1977年以后社會發(fā)生的一些大的變化,如發(fā)展經(jīng)濟(jì)、香港回歸、加入世貿(mào)、建設(shè)精神文明等。而1977年之前的一些搭配如“學(xué)習(xí)老三篇”“革命造反派”“斗私批修”等在報紙媒體上已經(jīng)隨著社會的發(fā)展逐步消失了。
表6 1977年以后出現(xiàn)的搭配
表7 1977年以后消失的搭配
本文同時對兩個時代共有的詞語做了分析,通過抽取這些詞語在不同時代的搭配,觀察搭配在不同時代的變化。
實(shí)驗(yàn)步驟如下:
Step 1:語料:抽取出來兩個時代的搭配集合,1977年之前的搭配集合設(shè)為A,1977年之后的搭配集合設(shè)為B。
Step 2:分別以A,B中所有的詞為key,以該詞在1977年之前和之后的所有搭配詞語的集合為value-A和value-B,建立字典Dic-A,Dic-B。
Step 3:設(shè)B中獨(dú)有的詞語計數(shù)器:count=0。
Step 4:遍歷Dic-A中所有key,如果這個key也在Dic-B中,則取出這個key分別在Dic-A和Dic-B中的值:value-A和value-B。遍歷value-B中每個詞,如果不在value-A中則count++。
Step 5:如果B中獨(dú)有的詞語占B總數(shù)的比重超過了50%,就將該詞輸出作為候選。
在候選結(jié)果中,本文選出了幾個代表性的詞語作為示例,如表8所示。表8的搭配在1977年前后發(fā)生的變化反映了這兩個時代社會發(fā)生的變化,比如:從“絕對平均主義”的搭配發(fā)展到“打破、反對、克服平均主義”的搭配,表現(xiàn)了社會分配方式的改變;“繳納、征收農(nóng)業(yè)稅”的搭配變化為“減免農(nóng)業(yè)稅”;“交納公糧”的搭配,變化為“繳納所得稅、保證金、保險費(fèi)”,這表現(xiàn)了稅收方面政策的調(diào)整;“下海捕魚”的搭配變化為“下海經(jīng)商”則體現(xiàn)出了市場經(jīng)濟(jì)的出現(xiàn)等等。
表8 搭配詞語發(fā)生改變
為了更細(xì)致地反映詞語搭配隨時間的歷時變化情況,本文進(jìn)一步基于1956-2015年的《人民日報》語料,以五年為一個時期,進(jìn)行基于搭配變化的語言歷時監(jiān)測,從而通過常用詞語的搭配變化更加具體地展現(xiàn)各個時期國家政策、社會生活的變遷。在實(shí)驗(yàn)結(jié)果中,本文選取了VOB句法關(guān)系的一些常用動賓搭配進(jìn)行展示,如表9-12:
表9 2001-2015各時期搭配表
表10 1986-2000各時期搭配表
表11 1971-1985各時期搭配表
表12 1956-1970各時期搭配表
從表9-12中各時期共有詞語的搭配變化中,可以充分展示出各時期社會的特點(diǎn),以“建設(shè)”一詞為例,從“建設(shè)發(fā)電站、鋼鐵廠”可以反映出新中國成立以后,國家大力發(fā)展重工業(yè)。從“建設(shè)核電站、高速公路”可以反映出改革開放初期,對基礎(chǔ)設(shè)施建設(shè)的重視,從“建設(shè)生態(tài)省、執(zhí)政黨”可以反映出整個社會對環(huán)境、政治的關(guān)注,從“建設(shè)共同體、絲綢之路”可以反映出中國在世界影響力的提升。
這些實(shí)驗(yàn)結(jié)果表明,與基于單獨(dú)的詞語監(jiān)測方法相比,搭配的語境更豐富,表達(dá)的意思更加準(zhǔn)確,更容易讓人理解事件本身,從而反映語言的變化和國家政策、社會生活的變遷。
本文在依存分析的基礎(chǔ)上給出了搭配的定義,基于自動依存分析的結(jié)果,計算句法加權(quán)互信息,抽取出了具有依存句法關(guān)系的搭配對。通過對近70年的《人民日報》平面媒體語料進(jìn)行統(tǒng)計,將語料以1977年為界分為前后兩部分,在這兩部分語料的基礎(chǔ)上進(jìn)行基于依存句法分析的搭配抽取,再對抽取出來的這兩個時間段的搭配進(jìn)行比較。通過比較可以發(fā)現(xiàn)一批新產(chǎn)生的搭配,一批消失的搭配,以及一批搭配詞語發(fā)生改變的搭配。相比于單獨(dú)的詞語監(jiān)測,基于搭配變化的視角進(jìn)行的監(jiān)測研究,能夠更加全面地理解語言的變化以及社會的變遷。