馬天歡
(暨南大學 華文學院,廣東 廣州 510610)
自然語言理解中的“復述”被認為是對相同語義的不同表達[1]。識別語義上等同的文本片段是文本理解應用的一項基礎工作[2]。因而“復述”被認為是判別計算機是否理解自然語言的標準之一。宋睿等[3]認為這是一項“經(jīng)典的自然語言處理研究任務”。目前,對于復述的研究已取得相當豐碩的成果[4]且應用在如機器翻譯、自動問答、自動文摘等領(lǐng)域中,其研究價值可見一斑。
與此相關(guān)的研究包括語義相似性計算[5]、文本蘊涵[6],以及語料中同義詞的識別和挖掘[7],這些都與近義表達密切相關(guān)。
這類研究中,歸納類型是一項重要的研究內(nèi)容。前人[7-9]總結(jié)了主要的幾類復述現(xiàn)象,包括同義詞復述、語態(tài)變換、語序變換、句子結(jié)構(gòu)變化、基于推理的復述等。此外,馬彬彬[10]總結(jié)了13種復述現(xiàn)象,補充了外部知識引入、直述和間述變換等幾類。在文本蘊含方面,任函等[11]歸納了16類蘊涵現(xiàn)象,主要包括詞匯相同而語序不同、詞匯之間存在整體與部分、上下義關(guān)系等;金天華等[12]考察了文本蘊含的成因,并歸納了詞匯、句法異構(gòu)、常識和社會經(jīng)驗三類。
總的來說,在復述及與之相關(guān)的近義表達所研究的對象中,研究者所關(guān)注的語言現(xiàn)象多為脫離語境的詞或句,僅著眼于其靜態(tài)抽象的詞義或句義,如考察所發(fā)現(xiàn)的動詞蘊含關(guān)系只考慮詞的概念義[13],并沒有考慮語言單位在進入真實交際之后所產(chǎn)生的語用意義。
目前僅有少量研究關(guān)注語境語用因素。如有學者發(fā)現(xiàn)目前問答系統(tǒng)研究中缺少對語用信息的重視,提出需要將語法信息、語義信息、語用信息都引入問答系統(tǒng)[14]。陳千等[15]突破了前人僅著眼于單句之間蘊含關(guān)系的局限,考察了多個句子與一個句子間的蘊含關(guān)系,指出這類蘊含關(guān)系的識別需要借助背景材料的語義信息,且覆蓋多個片段,同時還強調(diào)了這種現(xiàn)象的普遍性和重要性。可以說,這項研究指出在篇章中的同義表達不可忽略上下文的背景信息。同時,陳龍等[16]發(fā)現(xiàn)非字面義詞的處理是語言深度理解中的一個棘手問題,從詞典中發(fā)掘出了3 524個非字面義二字詞;如“主流”一詞,認為它的一個義項“比喻事情發(fā)展的主要方面”是其非字面義,而“河流的主要部分”指的是具體的事物,是其字面義。但我們認為,任何詞的義項的確定無不依賴語境,需要在具體的語境之下才能確定其此刻表示的是字面義還是非字面義。
然而,當前文本蘊涵研究存在不足的根本原因是語言學角度的“研究嚴重缺乏,限于傳統(tǒng)邏輯學和語言學的研究”;語言外的知識不可排除在外,語言的理解有賴于語境,包括各類意象圖式、腳本等[17]。遺憾的是目前國內(nèi)漢語復述等同義表達的研究未見有這方面的突破。
總之,漢語當前已有的復述研究已取得不少的成果,但其中不足之處是:研究視角多限于脫離語境的靜態(tài)抽象的詞匯和句子,屬于“無語境”的意義研究模式,忽略了需要考慮語境因素的篇章和話語中的復述現(xiàn)象。而任何語言單位只有進入真實語用中,才有交際價值,且生成它臨時的語用意義。因為意義必須依賴語境[18];且交際中任何詞語、話語的生成和理解,語境都是一個影響詞義的重要變量[19]。同時,“話語”的語用意義存在于句子語義基礎之上,還存在于字面之外的“言外之意”[20]。這是因為話語是實際交際中的詞和句,必須從當下的情境中來解答,它不像句子那樣有固定的意義,因而話語的理解往往需要一定的語用推理[21-22],從字面意義推斷出其中隱含的話語含意[23]。據(jù)此,有些話語甚至并不具有相同的命題內(nèi)容,但其中隱含的語境意義、會話隱涵所傳達的是同一個交際意圖,如此構(gòu)成“同義結(jié)構(gòu)群”[24]。
基于上述認識,本文集中關(guān)注在真實交際中為傳達同一語用意義所采用的不同的表達方式。因此,本文將從漢語母語者的復述文本及其原文中提取出復述句,以語用學的視角考察這些進入使用狀態(tài)的復述現(xiàn)象,揭示它們與游離于語境之外的語言單位的差異,補充現(xiàn)有研究的不足,為自然語言信息處理中對復述句研究提供基于語言事實的參考和依據(jù)。
從現(xiàn)有公開的復述數(shù)據(jù)集來看,每個句子僅有一個或幾個復述句,且多是基于傳統(tǒng)的同義詞替換或句式變換,往往強調(diào)“語義豐富”,鮮見有考慮語用因素而凸顯語用變化的復述句。因此,尤為需要通過復述任務,驅(qū)動說話人或?qū)懽髡咴谡鎸嵉慕浑H情境中產(chǎn)出復述句,然后觀察此類受語用因素干擾的復述句的特征。
為此,我們在漢語母語者的兩個群體——廣州某中學初中二年級和某高校本科三年級中分別隨機抽取兩個班,每班總?cè)藬?shù)均超過40人。在這4個班級中分別采用4篇不同的原文(下稱“母文本”,字數(shù)均在1 000字左右)進行復述測試。這4篇文章來自HSK六級考試中的寫作測試——縮寫(1)真題來自《新漢語水平考試真題集》2012版(HSK六級),國家漢辦/孔子學院總部編。(表1)。這項“縮寫”實質(zhì)上是一項“讀后脫稿筆頭復述”,本文稱其為“復述”。要求如下:①閱讀下面這篇文章,時間為10分鐘,閱讀時不得抄寫、記錄。②10分鐘后收回閱讀材料。在35分鐘內(nèi)筆頭復述原文,不少于400字。
測試結(jié)束后收回復述文本,從每班中隨機選取出40份文本(下稱“子文本”),共計160份。然后將手寫的原始文本轉(zhuǎn)寫為電子文檔(2)本文僅關(guān)注文本的語義內(nèi)容,故轉(zhuǎn)寫時對文中存在的語病做適當?shù)男拚?,即根?jù)我們母語者的語感,盡量還原原作者的意圖。。
要進行文本的比對,需要先將文本切分成一個個更小的單位,才能進行更精確的對應比對。為此,我們嘗試了詞語、句子、小句等為單位,最終選定以“小句”為切分和比對單位。然后確定了文本的分析步驟,具體如下:
步驟一:確定小句的切分標準
對于小句,在概念上我們采納“小句是最小的具有表述性和獨立性的語法單位”的界定[25]。在形式上主要以逗號、句號等標點符號為形式標記。在操作上,主要借鑒文獻[26]的做法。
步驟二:切分子母文本的小句
確定了比對單位以后,按照上述切分標準,對子母文本逐一進行小句切分,結(jié)果如表1所示。
表1 復述母文本及子文本相關(guān)信息
步驟三:人工對齊子母文本的對應小句
將子文本中與母文本小句句意匹配的小句逐一對齊成近義句對,如表2所示。
表2 復述子母文本小句人工對齊比對示例(3)下文的樣例將按此表的格式呈現(xiàn),左邊為母句編號,右邊為對應子句編號,但做了簡化,不以標準表格的形式呈現(xiàn)。
根據(jù)母文本的編號對每一個子文本進行編號,如上據(jù)母文本02產(chǎn)出的第一個子文本編號為02-1,依次類推。小句的編號如第二個母文本的第一個小句編號為0201,其對應的第一個子文本02-1中的第一個小句的編號則為0201-1,依次類推。
按照上述方法,我們對160個復述文本逐一進行以小句為單位的對齊和比對,從中共提取出復述句6 484對。分析發(fā)現(xiàn)這些句對可以歸納為兩大類(本文主要考察句對之間沒有信息損耗的,其他類型句對將另文詳述),具體如表3所示。
表3 篇章中復述句的類型總結(jié)
以上我們從樣本中提取到兩大類共6 484個復述句構(gòu)成一個數(shù)據(jù)集。下面將從語用視角對該數(shù)據(jù)中的樣例進行分類分析。
這類保持整句句式不變而替換局部個別詞語的復述句,我們根據(jù)所替換的詞語,將這類復述句分為四個小類。
第一,改換指稱方式。在漢語中具有指稱功能的語詞主要包括名詞、名詞性成分、代詞和零形式,稱為“指稱語”。進入篇章中的名詞、名詞性成分和代詞往往具有具體的指稱意義,但對同一個對象的指稱表達,可以有不同的方式,這種現(xiàn)象稱為“指同表達”[25]。
在子母文本的比對中發(fā)現(xiàn),句間存在一些表達形式不同,但在具體篇章中具有相同指稱意義的指稱語,其中人稱指稱語最多,示例如表4所示。
表4 人稱指稱語示例
第二,替換語境下詞義相同的詞語。替換近義詞是實現(xiàn)兩個句子形成近義關(guān)系的常見手段,樣本中也有大量這樣的句對。但不同的是,有不少詞語的替換,在脫離語境的情況下,其近義關(guān)系往往不能成立。示例如表5所示。
表5 近義詞替換示例
母句0234說女兒喝咖啡,前文是父親讓她看看咖啡豆煮過之后發(fā)生了什么變化,所以她嘗試喝了一口。子句0234-16的“嘗”非常精準地表達了“喝”在此處最確切的詞義信息。第二例母句0361是出租車司機對上了車的乘客“我”說“碰到您”,根據(jù)交際者的身份關(guān)系,司機“碰到”乘客就是要把乘客“接到”某地。根據(jù)其社會關(guān)系和此時的行為活動,此時“碰到”即“接到”。
當詞語進入真實交際中之后,都會在其所在語境的制約下產(chǎn)生一個特定的“語用意義”,即“此人此時此地用此句是此意”[26]。而復述者在閱讀理解的過程中通過認知加工,再現(xiàn)詞語確切的語用意義,因而是該特定的語境促成了上述兩詞之間的近義關(guān)系。
第三,替換上下義詞語。上下義關(guān)系是詞匯系統(tǒng)中一種重要的語義聚合關(guān)系,但表6中的這些詞對是在所在語境下的上下位詞,詞義有一定的信息差額,形成包孕關(guān)系。
表6 替換上下義詞語示例
在沒有語境制約的情況下,如“干”和“搬”等詞對并不構(gòu)成上下義關(guān)系,但在這一情景之下,說話人所說的“干”的具體所指即“搬”,復述者把該詞的所指范圍縮小、具體化。這種現(xiàn)象稱為“語用收縮”[27-28]。這實際上也是一個推理過程,即尋求某一詞匯或結(jié)構(gòu)在特定條件下的精確意義[22]。
表7中的這一例與前面幾種情況是一個相反的推導過程。
表7 推導過程相反的示例
第四,替換模糊量表達。有些句子中出現(xiàn)了精確的數(shù)量表達,但在其子句中往往被替換為約略籠統(tǒng)的含糊表達,如表8所示。
表8 替換模糊量表達示例
第一例母句是出租車司機談及自己的工作時間長達12小時,用的是精確描寫法。而對應的子句用了“十幾個小時”這樣的概數(shù),雖流失了一些信息,但這樣的表達方式甚至更能傳達說話人此時想強調(diào)的工作時間長,與母句語用等同。而第二例句中父親具體用了多長時間來煮并不重要,子句替換為“不久”同樣能產(chǎn)生與母句等效的語用功能。
這種模糊語言現(xiàn)象是一個完整的語言理論中的一個組成部分,并且模糊語言對語境具有很強的依賴性[29]。這種現(xiàn)象是話語中的“語用松散”,即一個詞匯或結(jié)構(gòu)的四周分布著圍繞其語義原型而出現(xiàn)的可能選項,構(gòu)成一個待選集合,不同的成員與語義原型的接近度不同。這恰好體現(xiàn)在我們的子文本中,即對于一個原詞、原句,不同的子文本有不同的再現(xiàn)方式,這些方式就形成了一個集合,但成員之間以及與詞語、結(jié)構(gòu)都具有一定的近似性[27]。
以上歸納了通過改換詞語形成的復述句的4個子類。從樣本中挖掘出來的語用中可以互相替換的詞語甚至詞集中,充分說明了語境是一個不可忽略的重要因素,即語境可以促進或限制語用中詞語近義關(guān)系的建構(gòu)。這驗證了前人[30-32]研究結(jié)論——詞匯的同義關(guān)系除了依靠簡單的語義聯(lián)系,還需要通過語用推理機制在動態(tài)語境中調(diào)整和選擇而構(gòu)建。因此,純粹依賴以往的“同義詞詞林”等僅著眼于抽象詞義的知識資源還遠遠不夠。
可見,基于語言事實,挖掘語用中詞義的相似性(多詞一義)和詞義的相關(guān)性(一義多詞),并對此類詞對近義關(guān)系形成的機制,以及如何形式化以實現(xiàn)機器的識別、表征和計算,對知識庫的建設乃至與語義相似性相關(guān)的實踐應用都有所裨益。
絕大多數(shù)傳統(tǒng)語法學、修辭學等所考察的“同義形式”和漢語“復述句”相關(guān)的研究都沒有考慮語境因素。而我們從復述文本中提取到大量句對恰恰高度依賴語境。我們將此類復述句歸納為以下三個子類。
第一,推導言語行為意義?!把哉Z行為”是人類言語活動的行為性質(zhì)和行事意義,是字面語力和間接的施為語力[33]。在實施言語行為的過程中,說話人通過其話語意義傳達某一交際意圖,完成某些功能,如拒絕、命令等,且這個用意是在字面意義的基礎上結(jié)合語境推斷出來的。
樣本中出現(xiàn)一些在言語行為意義上構(gòu)成一致的近義句對,如表9所示。
表9 言語行為意義近義句對示例
勸阻句0452是醫(yī)生(說話人)勸阻病人(聽話人)“擔心”,這是醫(yī)生的用意,即以言行事;子句0452-9“沒什么大事”則是以言指事。這兩個話語都是要在聽話人身上達到一個效果——讓病人不要擔心,促使他們放松、不擔心,即“以言成事”(又稱言后行為),這就是說者言語行為的意義,即隱含的用意。
上述這些句對之間并不具有相同的字面意義,但都傳達出同一個交際意圖,達到了同一個交際目的。
此外,還有子文本將母句的言語行為進行抽象的,如表10所示。
表10 語言行為意義抽象示例
如上述前幾例中分別用“不接受”和“讓”抽象原直接引語句中的言語行為。
此外,評價也是一種言語行為,評價意義是說話人所傳達的或褒或貶的意義[34]。在篇章中,作者通過評價事物或人物來表達某種主觀傾向,這種傾向性也是一種言語行為意義。評價意義也是話語中隱含的用意[35]。
表11中的這些樣例就是句對之間的評價傾向性一致。
表11 句對之間評價傾向性一致示例
續(xù)表
如母句0185“喜歡他”暗含著“我”對他持正面評價,也與0185-15“我認為司機很好”有相同的主觀傾向性。
第二,通過語用充實。國內(nèi)外越來越多的學者[36-38]發(fā)現(xiàn)詞匯或結(jié)構(gòu)的使用和理解的過程不是一個簡單的信息編碼—解碼的過程,需要交際者根據(jù)特定的語境條件對其進行不同程度的語用加工。
據(jù)此,在語言運用中通過“語用充實”來確定和獲取交際信息的過程,指的是聽話人根據(jù)語境,“對它們(話語中的詞匯)進行不同程度的語用加工,使其成為特定的語境化信息”,包括“語用收窄”和“語用擴充”兩種類型[27]。本文借用“語用充實”這個術(shù)語來論述子文本通過語用加工來再現(xiàn)原意的現(xiàn)象。
以上的實例多是依賴上文內(nèi)容推導的。除此之外,還有部分復述句需要借助下文信息推斷獲得,如表12所示。
表12 需要借助下文信息推導的示例
表12中,0181-38是從母文本后文“接過他名片的同時,他的手機鈴聲正好響起”獲知他要了司機的“一張名片”。0110-23也是從后文得知他每天工作的具體時長是12個小時。
第三,推導修辭意義。會話中的合作原則及其四個準則,包括數(shù)量準則、質(zhì)量準則、關(guān)聯(lián)準則和方式準則;隱喻、反語、夸張等此類現(xiàn)象都是有意違反會話合作準則,認為違反會話準則時就會產(chǎn)生“特殊會話含意”[39]。這些喻意性結(jié)構(gòu)的字面意義往往不是特定語境下說話人的交際意義;而是始于這個顯性的字面意義推知隱含的信息[38]。比喻、擬人等修辭就是含意的運用,這些修辭性語句的非字面義就是含意[40-41]。
我們從樣本中發(fā)現(xiàn)一些修辭性表達在子文本中被改寫,如表13所示。
表13 修辭性表達在子文本中被改寫示例
續(xù)表
總之,以上所羅列的復述句中,句對之間往往不具有相同邏輯語義真值,但在進入具體特定語境時,卻能生成相同的會話隱涵或言外之意,傳遞同一個交際意圖。這種現(xiàn)象在真實的口頭話語、書面篇章中普遍存在,而我們交際者往往都能“心領(lǐng)神會”地理解,并準確地選用恰當?shù)姆绞阶匀绲乇磉_,這是因為交際雙方除了基本語言知識之外,還具備共知的背景知識和語境信息。
本文的考察復述句都是進入具體篇章中為特定語用目的服務的語句,反過來語境又賦予了它們臨時特定的語用意義。可以看到,在改換詞語的這一類復述句中,有相當一部分近義詞高度依賴語境,而且它們并不總是具有相近的靜態(tài)詞義。也即在特定語境下詞義的差異可能縮小甚至消失,進而形成近義關(guān)系;也可能其差異得以凸顯而限制了近義關(guān)系的建立。而傳統(tǒng)語義學、詞匯學等只限于對詞匯的真值做靜態(tài)觀察和描寫,而事實上進入使用狀態(tài)中的詞意是動態(tài)流變的,詞匯本身的靜態(tài)意義發(fā)生一定的伸縮,甚至變異。詞語近義關(guān)系的成員詞也會根據(jù)情境即時生成建構(gòu)或即時消失??梢?,交際語境共生是語用意義生成的根本途徑,語用環(huán)境是解釋進入使用狀態(tài)的詞語近義關(guān)系必不可少的一個重要因素。
而在重鑄整句這類復述句中,很多情況下僅依賴抽象的句義無法判斷它們的關(guān)系,其近義關(guān)系需要在特定語境的制約下才能成立,即語境對話語近義關(guān)系的形成有促進或限制的作用。這印證了一個說法——語言活動中出現(xiàn)的意義還包括環(huán)境給予的意義??梢姡~語、話語作為語言的基本建筑材料,理解語篇首先是對詞義、句義的理解,而語境是理解詞義、句義不可忽略的因素。如果僅用語義學的意義觀,則無法解釋這些在真實交際中廣泛存在的同義手段。
可見,在真實交際中形成的復述句,相比以往復述句、文本蘊含以及傳統(tǒng)的“變換分析”、“同義形式”等更復雜多樣,其主要特征可以歸納為三點:①需要基于句子本身靜態(tài)抽象的語義和語法等語言學知識;②依賴上下文語用知識、語境信息和百科知識等非語言知識;③需要借助一定的語用推理和邏輯知識。
另一方面,從上述語用中的復述句分析可以看到,此類需要利用語用知識判斷的復述句在真實交際中廣泛存在且類型繁多,是實現(xiàn)機器準確理解語義,并進一步完成其他實踐應用的關(guān)鍵環(huán)節(jié)。這就給我們一個更關(guān)鍵的啟示:根據(jù)上文實例中發(fā)現(xiàn)的篇章語用中復述句的特征和類別,要實現(xiàn)計算機準確地識別此類復述句,相應地需要提供的知識庫包括語義知識、同義詞詞林等語言學知識庫、語境語用知識和百科知識,以及推理知識;且其中語用知識極為關(guān)鍵,是必不可少的背景知識。而知識庫的建設作為自然語言理解中一項基礎而關(guān)鍵的任務,雖已取得不小的成果,但已有的知識庫主要集中在語義知識上,語用知識庫的基礎研究、構(gòu)建和實踐應用還十分薄弱。在這項巨大的系統(tǒng)工程中,包括知識獲取的渠道、建構(gòu)、表示和利用的難題,還有待在日后的研究中逐一攻破。
當然,本文作為一項初步嘗試,樣本量、語篇類型及構(gòu)成的數(shù)據(jù)集仍十分有限。限于篇幅,也未能窮盡所有的類型并做詳盡描寫。但從本文有限的樣本中仍能提取到相當數(shù)量的復述句,且有大量的復述句是難以基于前人總結(jié)的復述現(xiàn)象類型來解釋的。這是與以往復述句研究最大的不同,也是未來復述研究中需引起關(guān)注的重要問題。