《自然語言交流的計算機模型—數(shù)據(jù)庫語義學下的語言理解、推理和生成》(簡稱《自然語言交流的計算機模型》)的中譯本于2016年3月在商務印書館出版了。這是一本有獨創(chuàng)性的計算語言學專著,我作為本書的審校者,希望通過對本書的簡單評介,有助于國內(nèi)讀者理解這本專著的內(nèi)容、方法和意義。
本書作者羅蘭德·豪塞爾(Roland Hausser)是德國愛爾蘭根——紐倫堡大學計算語言學教授。他先后出版了《表面組成語法》《自然人機交流》《計算語言學基礎——人機自然語言交流》和《自然語言交流的計算機模型》等多部專著,發(fā)表文章近百篇。豪塞爾是“左結(jié)合語法”(Left-Associative grammar,簡稱LA)的創(chuàng)始人,后來他又進一步提出了“數(shù)據(jù)庫語義學”(Database Semantics,簡稱DBS)和完整的“語表組合線性內(nèi)部匹配”理論(Surface compositional Linear Internal Matching,簡稱SLIM),在計算語言學界形成了自己獨特的風格。
我與豪塞爾教授曾有一面之交。2002年聯(lián)合國教科文組織(UNESCO)韓國委員會在韓國首爾(Seoul)舉行了一次關于“信息時代的語言問題”的學術研討會,我和豪塞爾都被邀請參加了這次會議。在會議期間的交談中,我對于豪塞爾的理論有了初步的了解,回國之后,我又細讀了他的《計算語言學基礎——人機自然語言交流》(英文版)一書,對于他的理論有了進一步的認識。我認為豪塞爾教授是一位具有獨創(chuàng)精神的計算語言學家。
豪塞爾認為,面向未來的計算語言學的中心任務就是研究一種人類可以用自己的語言與計算機進行自由交流的認知機器。因此,自然語言的人機交流應當是計算語言學的中心任務。計算語言學研究應當通過對說話人的語言生成過程與聽話人解釋語言的過程進行建模,在適宜的計算機上復制信息的自然傳遞過程,從而構(gòu)建一種可與人用自然語言自由交流的、自治的認知機器,這樣的認知機器也就是機器人(robot)。為了實現(xiàn)這一目標,必須對自然語言交流機制的功能模型有深刻的理解。
豪塞爾提出的“語表組合線性內(nèi)部匹配”(SLIM)理論以人作為人機交流的主體,而不是以語言符號為主體,突出了人在人機交流中的主導作用。SLIM理論要求通過完全顯化的機械步驟,使用邏輯和電子的方式來解釋自然語言理解和自然語言生成的過程。因此,SLIM理論與現(xiàn)代語言學中的結(jié)構(gòu)主義、行為主義、言語行為等理論是不同的,具有明顯的創(chuàng)新特色。
SLIM理論強調(diào)“表層成分”(Surface),以語表組合性作為它的方法論原則;SLIM理論強調(diào)“線性”(Linear),以時間線性作為它的實證原則;SLIM理論強調(diào)語言的“內(nèi)部因素”(Internal),以語言的內(nèi)部因素作為它的本體論原則;SLIM理論強調(diào)“匹配”(Matching),以語言和語境信息之間的匹配作為它的功能原則。事實上,SLIM這個名字本身就來自于這四項原則的英文名稱的首字母縮寫。
SLIM理論的技術實現(xiàn)手段叫作“數(shù)據(jù)庫語義學”(DBS)。DBS是把自然語言的理解和生成重新建構(gòu)為“角色轉(zhuǎn)換”(turn-taking)的規(guī)則體系。“角色轉(zhuǎn)換”指的是從“說話人模式”(speaker mode)向“聽話人模式”(hearer mode)的轉(zhuǎn)換,或者從“聽話人模式”向“說話人模式”的轉(zhuǎn)換。
在自然語言的實際交流過程中,第1個過程是聽話人模式中的自然主體從另一個主體或者語境那里獲得信息,第2個過程是自然主體在自己的認知當中分析信息,第3個過程是自然主體思考如何作出反應,第4個過程是自然主體用語言或者行動做出反饋。
DBS的輸入與第1個過程相似,要求計算機或者機器人具備外部界面。接下來匹配語境和認知的內(nèi)容,采用左結(jié)合語法(LA)來模擬第2個過程,這個左結(jié)合語法是處于聽話人模式中的,叫作LA-hear。左結(jié)合語法的第二個變體負責在內(nèi)存詞庫中搜索合適的內(nèi)容,叫作LA-think,這一部分操作對應于第3個過程。左結(jié)合語法的第三個變體的任務是語言生成,叫作LA-speak,模擬第4個過程。如下圖所示:
在這個圖中,聽話人模式的LA-hear模擬第2個過程,說話人模式的LA-think模擬第3個過程,LA-speak模擬第4個過程。
DBS的分析結(jié)果用DBS圖(DBS graph)來表示。DBS圖是一種樹結(jié)構(gòu),但是,DBS圖的樹結(jié)構(gòu)與短語結(jié)構(gòu)語法(phrase structure grammar)和依存語法(dependency grammar)的樹結(jié)構(gòu)有所不同。
數(shù)據(jù)庫語義學(DBS)有兩個基礎:一個是左結(jié)合語法(LA-grammar),一個是單詞數(shù)據(jù)庫(word bank)。左結(jié)合語法和單詞數(shù)據(jù)庫在DBS中緊密結(jié)合在一起。豪塞爾把左結(jié)合語法比作火車頭,把單詞數(shù)據(jù)庫比作火車運行必需的鐵路系統(tǒng)。
單詞數(shù)據(jù)庫存儲單詞的內(nèi)容,其存儲形式是一種非遞歸的特征結(jié)構(gòu),叫作“命題因子”(proplets)①。英文 “proplet”取自“proposition droplet”,表示命題的構(gòu)成部分。
一個命題因子是“屬性——值偶對”的集合。每個單詞或者句子元素的句法語義信息都體現(xiàn)為相應的屬性——值矩陣(attribute-value matrix)。
左結(jié)合語法是按照自然語言的時間線性順序自左向右結(jié)合進行分析與計算的方法。
具體來講,每個句子的第一個詞為整句分析過程中的第一個“句子起始部分”(sentence start),之后輸入“下一個詞”(next word),二者經(jīng)過計算構(gòu)成新的句子起始部分,再繼續(xù)與下一個輸入的單詞進行組合計算。這樣不斷地進行分析,直到句子結(jié)束或者出現(xiàn)語法錯誤才終止。當出現(xiàn)句法歧義或者詞匯歧義時,左結(jié)合語法允許按照不同的推導路徑并行地繼續(xù)運算。
豪塞爾將左結(jié)合語法與短語結(jié)構(gòu)語法進行了對比分析。他指出,左結(jié)合語法與短語結(jié)構(gòu)語法是同質(zhì)的語言分析方法。它們之間的差異在于:短語結(jié)構(gòu)語法依據(jù)的是“替換原則”(the principle of substitution),而左結(jié)合語法依據(jù)的則是“可接續(xù)性原則”(the principle of continuation)。
整個推導過程遵循“時間線性”(time linearity)的原則。所謂“時間線性”,就是“以時間為序,與時間同向”(linear like time and in the direction of time),也就是說,在推導時,要按照時間先后的順序進行,要沿著時間的方向推進。
上面簡要地介紹了豪塞爾的主要理論和研究方法,希望這些介紹能夠幫助讀者更好地理解這本《自然語言交流的計算機模型》。
本書共分三個部分。第一部分介紹了SLIM語言理論的基本框架,包括認知主體的外部界面、數(shù)據(jù)結(jié)構(gòu)和算法。這一部分涉及很多對整個系統(tǒng)至關重要的問題,比如概念的本質(zhì)、概念在識別和行動中的作用、不同符號的指代機制、語境層的形式結(jié)構(gòu),等等。
第二部分系統(tǒng)分析了自然語言的主要結(jié)構(gòu),以英語在聽話人和說話人模式下的示意推導為例。聽話人模式下的分析主要介紹如何嚴格按照時間線性順序?qū)⒑~——論元結(jié)構(gòu)(hypotaxis)和并列結(jié)構(gòu)(parataxis)編碼為命題因子,并把共指(coreference)作為推理基礎上的二級關系來分析。說話者模式下的分析主要介紹如何在詞庫內(nèi)進行以提取內(nèi)容為基礎的自動導航,如何按照相應語言的語法要求輸出正確的詞形、語序,如何析出適當?shù)墓δ茉~,等等。
第三部分介紹英語斷片,作者構(gòu)建了一個功能完整但覆蓋面有限的英語小樣本的交流體系。這部分詳細介紹了如何理解和生成小樣本的文本,對詞匯、LA-hear、LA-think和LA-speak進行了明確定義。
本書為計算語言學的相關研究人員、學生和軟件工程師等提供了一個對自然語言交流進行理論分析的功能框架,這個框架適用于任何自然語言的自動處理。
本書譯者馮秋香是大連理工大學外國語言學及應用語言學碩士,計算機科學與技術方向在讀博士,具備良好的語言學和計算機科學的跨學科背景,又有很扎實的英語功底。她從2009年10月開始,到德國愛爾蘭根——紐倫堡大學學習,師從豪塞爾教授研究“左結(jié)合語法”,她熟悉豪塞爾教授的計算語言學理論,對“數(shù)據(jù)庫語義學”和“語表組合線性內(nèi)部匹配”理論有深入的了解。我覺得,馮秋香是本書最適合的中文譯者,這個中文譯本忠實于原文,譯文準確精當,通順流暢,可讀性強。
商務印書館蔡長虹是本書的責任編輯,她請我審校此書。我根據(jù)她的要求,對照本書的英文原著A Computational Model of Natural Language Communication——Interpretation, Inference and Production in Database Semantics,仔細地審校了馮秋香的中文譯本,逐字逐句地通讀了全部譯稿,完成了本書的審校工作。在這里我愿參考國外有關的材料,進一步介紹一些與本書有關的背景知識,對這本重要的計算語言學著作做簡要的評介,希望這個評介對讀者理解本書有所幫助。
我相信,本書中譯本的出版,一定會增進我國語言學界對于當前國外計算語言學獨創(chuàng)性理論的了解,從而推進我國計算語言學研究的發(fā)展。
注釋:
①譯者馮秋香把“proplets”翻譯為“命題?!?,我建議她改譯為“命題子”或者“命題因子”,她接受了我的建議,改譯為“命題因子”。
參考文獻:
[1]羅蘭德·豪塞爾.自然語言交流的計算機模型——數(shù)據(jù)庫語義學下的語言理解、推理和生成[M].北京:商務印書館,2016.
[2]馮志偉.R.Hausser的左結(jié)合語法[J].外語學刊,2014,(2):30-34.
(馮志偉 浙江杭州 杭州師范大學外國語學院 311121)