劉海濤
(浙江大學(xué)外語學(xué)院,浙江杭州 310058)
索緒爾在其《普通語言學(xué)教程》中指出:“語言是一個(gè)系統(tǒng),它的任何部分都可以而且應(yīng)該從它們共時(shí)的連帶關(guān)系方面去加以考慮?!?語言既是一個(gè)系統(tǒng),它的各項(xiàng)要素都有連帶關(guān)系,而且其中每項(xiàng)要素的價(jià)值都只是因?yàn)橛衅渌黜?xiàng)要素同時(shí)存在的結(jié)果。”[1]127,160
如果語言是一種系統(tǒng),那么我們就需要采用研究系統(tǒng)的一般方法來研究語言。遺憾的是,在索緒爾以后的現(xiàn)代語言學(xué)研究中,我們很難發(fā)現(xiàn)真正意義的從系統(tǒng)科學(xué)角度研究語言的成果。這對于全面理解語言系統(tǒng)的運(yùn)作機(jī)理是不利的。
語言系統(tǒng)具有以下特征:語言是開放的與動態(tài)的,而不是均衡的;語言含有大量相互聯(lián)系的成分;語言具有涌現(xiàn)的特點(diǎn);語言中結(jié)構(gòu)單元的分布是非線性的;語言具有縮放屬性[2]。這些特征是復(fù)雜系統(tǒng)的典型特征。對于復(fù)雜系統(tǒng)的研究,需要專門的理論與方法。方法與理論的缺失,可能是導(dǎo)致語言學(xué)家在此方面研究成果不多的主要原因。
由于缺乏適宜的研究手段,語言學(xué)家對于語言復(fù)雜性的認(rèn)識與研究大多停留在說說而已的層面。盡管如此,語言的復(fù)雜系統(tǒng)觀也在一定程度上有助于我們對語言系統(tǒng)的全面理解,有益于推動語言學(xué)在理論方面的根本性改變。
近年來,隨著系統(tǒng)科學(xué)的發(fā)展,出現(xiàn)了不少研究工具和方法,這使得語言學(xué)家采用實(shí)證的方法研究語言復(fù)雜系統(tǒng)成為可能。從系統(tǒng)的角度研究語言,可從這樣兩方面展開:一是研究語言系統(tǒng)的整體或全局特征;二是將語言視為一個(gè)含有多個(gè)子系統(tǒng)的大系統(tǒng),研究子系統(tǒng)(如:詞匯、句法、語義等)內(nèi)部各個(gè)組成要素之間的關(guān)系以及子系統(tǒng)之間的關(guān)系。前者可采用復(fù)雜網(wǎng)絡(luò)方法,后者可采用現(xiàn)代計(jì)量語言學(xué)的理論與方法[3]。值得注意的是,無論是構(gòu)擬語言復(fù)雜網(wǎng)絡(luò),還是驗(yàn)證計(jì)量語言學(xué)中關(guān)于語言系統(tǒng)的假設(shè)與定律,都需要使用真實(shí)的語言材料。這是因?yàn)檎Z言是一個(gè)動態(tài)的復(fù)雜系統(tǒng),系統(tǒng)中的許多關(guān)系與要素只有在使用中才能被感知與確定。換言之,語言的規(guī)律蘊(yùn)含在使用(及語言材料)之中,語言是語言系統(tǒng)運(yùn)作的產(chǎn)物,而不是一堆靜止的、沒有生命的符號。
語言系統(tǒng)是一種關(guān)系系統(tǒng),這種想法幾乎貫穿了索緒爾之后的語言學(xué)的發(fā)展歷程,從葉姆斯列夫、蘭姆到現(xiàn)代認(rèn)知語言學(xué)理論“認(rèn)知語法”、“構(gòu)式語法”及“詞語法”,都不難見到“關(guān)系”的身影。如果語言是一種關(guān)系系統(tǒng),那么將所有關(guān)系組合在一起就形成了語言系統(tǒng)。形式上,這種基于關(guān)系的系統(tǒng)是一種網(wǎng)絡(luò)。但網(wǎng)絡(luò)不一定就是復(fù)雜網(wǎng)絡(luò)。一般認(rèn)為,復(fù)雜網(wǎng)絡(luò)是一種無法由其組成部分預(yù)測整體行為的網(wǎng)絡(luò),這一點(diǎn)是與認(rèn)知語言學(xué)“整體大于部分之和”的語言觀相吻合的。這也意味著,我們可以采用復(fù)雜網(wǎng)絡(luò)技術(shù)來對語言進(jìn)行分析和研究。
復(fù)雜網(wǎng)絡(luò)分析方法可以在大規(guī)模真實(shí)語料的基礎(chǔ)上,通過實(shí)證的方法,研究語言作為一種關(guān)系系統(tǒng)的整體特征及語言的涌現(xiàn)現(xiàn)象。此種研究有益于發(fā)現(xiàn)語言網(wǎng)絡(luò)與自然界及人類社會其他現(xiàn)實(shí)網(wǎng)絡(luò)的異同,加深對人類知識系統(tǒng)組織結(jié)構(gòu)的認(rèn)識,有助于構(gòu)建更具心理現(xiàn)實(shí)性的人類知識處理體系,提升語言學(xué)研究的學(xué)術(shù)價(jià)值。
復(fù)雜網(wǎng)絡(luò)的行為主要取決于節(jié)點(diǎn)之間的連接(結(jié)構(gòu))及相互作用。從結(jié)構(gòu)方面來看,構(gòu)成網(wǎng)絡(luò)的基本要素并不復(fù)雜,因?yàn)槊總€(gè)網(wǎng)絡(luò)都是由節(jié)點(diǎn)與邊組成的,盡管在不同的現(xiàn)實(shí)網(wǎng)絡(luò)里,節(jié)點(diǎn)與邊的意義也會不同。就語言網(wǎng)絡(luò)而言,節(jié)點(diǎn)一般為各種語言系統(tǒng)元素,如漢字的偏旁部首、漢字、詞等,邊為這些元素間的關(guān)系。研究目的的不同產(chǎn)生了多種多樣的語言網(wǎng)絡(luò)構(gòu)擬方式,常見的有:(1)在類屬詞典的根詞與其同義詞之間建立關(guān)系;(2)在語義詞典的基礎(chǔ)上構(gòu)建意義間的關(guān)系;(3)利用句子中詞的共現(xiàn)形成關(guān)系;(4)利用具有依存句法關(guān)系標(biāo)注的語料庫構(gòu)建語言網(wǎng)絡(luò)等。我們可將(1)(2)兩種基于詞典等語言資源所構(gòu)建的網(wǎng)絡(luò)稱為靜態(tài)語言網(wǎng)絡(luò),而把(3)(4)兩種根據(jù)真實(shí)文本構(gòu)造的語言網(wǎng)絡(luò)稱為動態(tài)語言網(wǎng)絡(luò)。靜態(tài)語言網(wǎng)絡(luò)反映了語言作為一種知識網(wǎng)絡(luò)的狀況,而動態(tài)網(wǎng)絡(luò)可用來研究語言作為一種交際系統(tǒng)的特質(zhì)。如果我們認(rèn)為人類語言系統(tǒng)是在語言的使用中形成與不斷完善的,那么動態(tài)與靜態(tài)的關(guān)系可能是這樣的:靜態(tài)網(wǎng)絡(luò)是動態(tài)行為的產(chǎn)物,靜態(tài)網(wǎng)絡(luò)反過來又服務(wù)于動態(tài)的語言處理。
語言系統(tǒng)是一個(gè)多層級系統(tǒng),從網(wǎng)絡(luò)的角度看,同樣的語言材料,由于構(gòu)造方式不同,可以形成多層次的語言網(wǎng)絡(luò)。例如,使用同樣的幾個(gè)漢語句子,可以形成如下三種不同的網(wǎng)絡(luò):漢字同現(xiàn)網(wǎng)絡(luò)a,漢語句法網(wǎng)絡(luò)b及語義角色網(wǎng)絡(luò)c。網(wǎng)絡(luò)a中的節(jié)點(diǎn)是漢字,節(jié)點(diǎn)關(guān)系是在句中相鄰漢字間形成的,這是一種可用來研究漢語詞匯形成機(jī)制的漢語網(wǎng)絡(luò)。網(wǎng)絡(luò)b的節(jié)點(diǎn)為詞,節(jié)點(diǎn)關(guān)系是句法功能關(guān)系,其理論基礎(chǔ)是依存語法[4],它是由經(jīng)過依存句法標(biāo)注的句子集合轉(zhuǎn)換而來的,是一種漢語句法網(wǎng)絡(luò)。網(wǎng)絡(luò)c是由經(jīng)過語義角色標(biāo)注的句子集合轉(zhuǎn)換得來的,是一種漢語語義網(wǎng)絡(luò)。將這三個(gè)網(wǎng)絡(luò)導(dǎo)入到網(wǎng)絡(luò)分析軟件中,不難看出它們之間是存在較大差異的。例如,虛詞在三個(gè)網(wǎng)絡(luò)中作用和地位明顯不同:在網(wǎng)絡(luò)a中,如果把虛詞移走,那么網(wǎng)絡(luò)中相鄰節(jié)點(diǎn)所展現(xiàn)的是一種構(gòu)成詞的概率;在b中,如果將虛詞從網(wǎng)絡(luò)中移走,剩下的節(jié)點(diǎn)就難以形成一個(gè)聯(lián)通的網(wǎng)絡(luò),這說明虛詞在漢語句法層面占有很重要的地位;網(wǎng)絡(luò)c的節(jié)點(diǎn)均是實(shí)詞,虛詞在語義網(wǎng)絡(luò)的缺失,使得語義網(wǎng)絡(luò)更接近于概念網(wǎng)絡(luò)。如果語言學(xué)家的任務(wù)是研究從線性句子到概念網(wǎng)絡(luò)之間的轉(zhuǎn)換機(jī)制,那么通過這三種網(wǎng)絡(luò)間的差異,就有可能探究概念與語言表達(dá)之間認(rèn)知機(jī)制的差異。因此,語言復(fù)雜網(wǎng)絡(luò)的研究有助于加深我們對人類由思維到語言實(shí)現(xiàn)過程的認(rèn)識。
值得注意的是,這些建構(gòu)原則與結(jié)構(gòu)層面各不相同的語言網(wǎng)絡(luò)均具有小世界和無標(biāo)度特征。也就是說,幾乎所有基于真實(shí)語料的語言網(wǎng)絡(luò)都具有復(fù)雜網(wǎng)絡(luò)的基本特征。對于習(xí)慣于研究語言局部特征的語言學(xué)家或只注重語言網(wǎng)絡(luò)全局特征的自然科學(xué)家而言,不應(yīng)只滿足于發(fā)現(xiàn)與研究各種語言網(wǎng)絡(luò)的普遍特征,而應(yīng)將現(xiàn)有語言學(xué)成果與復(fù)雜網(wǎng)絡(luò)的參數(shù)聯(lián)系在一起研究,探究用復(fù)雜網(wǎng)絡(luò)能解決什么傳統(tǒng)語言學(xué)研究方法解決不了的問題,才是更重要的努力方向。每一位語言網(wǎng)絡(luò)的研究者,都應(yīng)該對以下問題做出回答:網(wǎng)絡(luò)中的節(jié)點(diǎn)及邊表示的是什么?為什么要研究這種語言網(wǎng)絡(luò)?研究了哪些復(fù)雜網(wǎng)絡(luò)參數(shù),這些參數(shù)的語言學(xué)意義是什么?小世界語言網(wǎng)絡(luò)的產(chǎn)生機(jī)理是什么?如何解釋網(wǎng)絡(luò)的增長方式與動態(tài)演化?
目前的復(fù)雜網(wǎng)絡(luò)參數(shù)大多揭示的是網(wǎng)絡(luò)的整體特點(diǎn)。換言之,通過這些參數(shù)有助于了解語言系統(tǒng)的整體或全局特征,而這些特征采用注重局部的語言學(xué)傳統(tǒng)方法是很難獲得的。無論是何種語言網(wǎng)絡(luò),其節(jié)點(diǎn)都是語言系統(tǒng)的組成元素,這些元素之間的關(guān)系是該元素在相應(yīng)的語言結(jié)構(gòu)層面上結(jié)合能力的體現(xiàn)。語言網(wǎng)絡(luò)是構(gòu)成語言系統(tǒng)各元素間關(guān)系的一種現(xiàn)實(shí)抽象,這樣的網(wǎng)絡(luò)也是研究語言構(gòu)成元素活力(生命力)的模型,是維特根斯坦“用法論”的具體實(shí)現(xiàn)。由此可以看出,如果想用復(fù)雜網(wǎng)絡(luò)來研究語言,那么在構(gòu)造語言網(wǎng)絡(luò)時(shí),應(yīng)具有語言學(xué)理據(jù),應(yīng)將網(wǎng)絡(luò)的構(gòu)造盡可能建立在語言學(xué)理論之上。非語言學(xué)家,由于缺乏必要的語言學(xué)知識,所構(gòu)造的網(wǎng)絡(luò)及由此得到的發(fā)現(xiàn),很難得到合理的語言學(xué)解釋,這大大削弱了研究的價(jià)值。下面我們以語言分類為例,看看如何用語言復(fù)雜網(wǎng)絡(luò)來研究語言問題。
“語言類型學(xué)”正在成為一門顯學(xué),究其本質(zhì)來看,類型是與分類密切相關(guān)的。Altmann與Lehfeldt將語言分類視為“普通語言類型學(xué)”的兩大主要任務(wù)之一[5]。在他們看來,語言分類就是構(gòu)建一種建立在語言整體相似性之上的自然語言分類體系。就語言的分類而言,現(xiàn)代語言類型學(xué)的方法存在以下兩個(gè)問題:一是過于重視個(gè)別參數(shù)研究的趨向,這可能導(dǎo)致難以從整體的角度對語言進(jìn)行分類,進(jìn)而影響類型學(xué)研究成果對語言分類的效果;二是資源問題,盡管當(dāng)前的語言類型研究語種庫已有近千種語言,但這些語言的類型數(shù)據(jù)大多不是來自于日常交流中隨處可見的自然話語。根據(jù)此類數(shù)據(jù)得到的結(jié)論,難以全面、真實(shí)地反映一種語言的類型學(xué)特點(diǎn),更難以作為語言分類的理據(jù)。
從整體的角度研究語言的分類有其合理性,當(dāng)人們說某種語言與另一種語言相似或不相似時(shí),一般是從整體的角度出發(fā)的,而不是指的某個(gè)具體的語言特征。此前我們說過,目前的復(fù)雜網(wǎng)絡(luò)參數(shù)大多是用來衡量系統(tǒng)整體特征的,因此構(gòu)擬不同語言的語言網(wǎng)絡(luò),提取它們的網(wǎng)絡(luò)參數(shù),對這些網(wǎng)絡(luò)參數(shù)進(jìn)行對比分析,便有可能達(dá)到從整體的角度對語言進(jìn)行分類的目標(biāo)。同時(shí),如果我們用的是語言的動態(tài)網(wǎng)絡(luò),也就可以保證語言分類的結(jié)果建立在真實(shí)的語言材料之上,其結(jié)果也可反映真正的語言差異。
國際上,這方面最早的研究始于劉海濤有關(guān)兩種不同語體復(fù)雜網(wǎng)絡(luò)的研究[6]。這項(xiàng)研究發(fā)現(xiàn),具有相同直徑的兩種語體的句法網(wǎng)絡(luò),在平均度、平均路徑長度、冪律指數(shù)和聚集系數(shù)方面的差別比較明顯。研究表明,復(fù)雜網(wǎng)絡(luò)有可能成為一種語體分類的方法與工具。這項(xiàng)研究更重要的意義在于,語體分類與語言分類具有極大的相似性,當(dāng)所處理的文本屬于同一種語言不同種類的時(shí)候,我們進(jìn)行的是語體(文本)分類;當(dāng)所處理的文本屬于不同語言時(shí),就是語言分類或語言類型判別研究。
此后,劉海濤構(gòu)造了15個(gè)語言的句法復(fù)雜網(wǎng)絡(luò)[7],并采用復(fù)雜網(wǎng)絡(luò)研究工具對這些語言網(wǎng)絡(luò)進(jìn)行了分類研究。結(jié)果顯示,通過復(fù)雜網(wǎng)絡(luò)的主要參數(shù),即:節(jié)點(diǎn)的平均度、聚類系數(shù)、平均路徑長度、網(wǎng)絡(luò)中心度、直徑、節(jié)點(diǎn)度冪律分布的冪指數(shù)、度分布與冪律擬合的決定系數(shù),可以對人類語言進(jìn)行分類,其準(zhǔn)確性與利用現(xiàn)代語序類型學(xué)主要指標(biāo)進(jìn)行的語言分類準(zhǔn)確性相當(dāng)[8]。再后來,Abramov與 Mehler采用類似的方法與不同的語料再次證明了復(fù)雜網(wǎng)絡(luò)作為語言分類工具的可行性與可靠性[9]。然而,通過復(fù)雜網(wǎng)絡(luò)參數(shù)為什么能對語言進(jìn)行分類呢?復(fù)雜網(wǎng)絡(luò)反映了語言的哪些特征呢?為了研究這些問題,劉海濤與徐春山根據(jù)15種語言的依存句法樹庫構(gòu)造了相應(yīng)的詞形網(wǎng)與詞目網(wǎng),并對這30個(gè)語言網(wǎng)絡(luò)進(jìn)行了研究分析[10]。研究發(fā)現(xiàn),詞目網(wǎng)與詞形網(wǎng)參數(shù)之差可取得更好的語言分類結(jié)果。這說明,采用句法依存網(wǎng)絡(luò)可以反映語言的形態(tài)變化程度及語言的形態(tài)復(fù)雜度。如果復(fù)雜網(wǎng)絡(luò)可以更好地反映一種語言的形態(tài)變化復(fù)雜度,那么其可以用來進(jìn)行語言分類也就不足為奇了,因?yàn)樾螒B(tài)歷來是判別語言類型的一種有效手段。
就方法而言,上述基于復(fù)雜網(wǎng)絡(luò)的語言分類主要存在兩大問題:一是構(gòu)建句法依存網(wǎng)絡(luò)所用的語料在語義內(nèi)容和語體方面的一致性難以保證。所選語料在語義內(nèi)容和語體上的不一致性有可能影響相應(yīng)的句法依存網(wǎng)絡(luò)在拓?fù)浣Y(jié)構(gòu)上的異同,進(jìn)而影響語言分類的結(jié)果;二是句法依存網(wǎng)絡(luò)的構(gòu)建需要耗費(fèi)大量人力物力。盡管已有多種依存句法分析器可供選用,但如果要滿足語言學(xué)研究的要求,仍需人工對自動分析結(jié)果進(jìn)行逐詞逐句的校改。因此,我們需要尋找一種更易獲得的語言網(wǎng)絡(luò)來作為句法依存網(wǎng)絡(luò)的替代品。
為了克服以上研究所用依存樹庫資源難以獲得的問題,劉海濤、叢進(jìn)研究了在基于復(fù)雜網(wǎng)絡(luò)的語言分類中使用平行詞同現(xiàn)網(wǎng)絡(luò)替代句法依存網(wǎng)絡(luò)的可行性[11]。他們采用12種斯拉夫語言和2種非斯拉夫語言的平行文本,構(gòu)建了14個(gè)詞同現(xiàn)網(wǎng)絡(luò)。研究發(fā)現(xiàn),通過這些網(wǎng)絡(luò)的主要參數(shù)的恰當(dāng)組合,聚類分析能將斯拉夫諸語言與非斯拉夫語言區(qū)分開來,并可將12種斯拉夫語言正確地劃分到各自的語支中去。另外,聚類也能反映某些斯拉夫語言在其語支內(nèi)部的親緣關(guān)系。這表明,平行詞同現(xiàn)網(wǎng)絡(luò)能夠被用于語言的精細(xì)分類,而且在基于復(fù)雜網(wǎng)絡(luò)的語言分類中可被用作句法依存網(wǎng)絡(luò)的一種更為便捷的替代品。
近年來,Amancio等人又將基于復(fù)雜網(wǎng)絡(luò)進(jìn)行文本分類的方法拓展到文學(xué)作品的斷代、譯文質(zhì)量評估、語言復(fù)雜度判別等領(lǐng)域[12]。
通過以上事例,不難看出,采用復(fù)雜網(wǎng)絡(luò)方法來進(jìn)行語言(文本)分類研究,不但克服了類型學(xué)研究中語種庫語料為非真實(shí)語料及參數(shù)選擇中過于注重微觀的問題,所得到的結(jié)果更能體現(xiàn)語言的整體類型學(xué)特征,也拓展了復(fù)雜網(wǎng)絡(luò)在人文、社會與生命科學(xué)等領(lǐng)域的應(yīng)用。
從跨學(xué)科及學(xué)科整合的角度看,此種研究不但有助于我們更好地理解語言的結(jié)構(gòu)和組織,有益于認(rèn)識語言的普遍性和特殊性,有益于對語言知識網(wǎng)絡(luò)的認(rèn)識,也有助于推進(jìn)語言學(xué)研究的科學(xué)化與中國語言學(xué)的國際化。
當(dāng)然,作為一種新的語言學(xué)研究方法,還有許多問題需要解決,但可以肯定的是,這是一條可以通向美好未來的路,一條越走越寬的路,值得更多的同行參與。為了語言學(xué)的科學(xué)化與中國語言學(xué)的國際化,讓我們一起上路吧!
[1]索緒爾.普通語言學(xué)教程[M].高名凱,譯.北京:商務(wù)印書館,1980.
[2]Kretzschmar W A.The Linguistics of Speech[M].New York:Cambridge University Press,2009.
[3]劉海濤,黃 偉.計(jì)量語言學(xué)的現(xiàn)狀、理論與方法[J].浙江大學(xué)學(xué)報(bào):人文社會科學(xué)版,2012,43(2):178-192.
[4]劉海濤.依存語法的理論與實(shí)踐[M].北京:科學(xué)出版社,2009.
[5]Altmann G,Lehfeldt W.Allgemeine Sprachtypologie:Prinzipien und Messverfahren[M].Munich:Fink,1973.
[6]Liu H.The complexity of Chinese dependency syntactic networks[J].Physica A,2008,387(12):3048-3058.
[7]劉海濤.語言復(fù)雜網(wǎng)絡(luò)的聚類研究[J].科學(xué)通報(bào),2010,55(27-28):2667-2674.
[8]Liu H.Dependency direction as a means of word-order typology:A method based on dependency treebanks[J].Lingua,2010,120:1567-1578.
[9]Abramov O,Mehler A.Automatic Language Classification by means of Syntactic Dependency Networks[J].Journal of Quantitative Linguistics,2011,18(4):291-336.
[10]Liu H,Xu C.Can syntactic network indicate morphological complexity of a language?[J].EPL,2011,93(2):28005.
[11]劉海濤,叢 進(jìn).基于平行詞同現(xiàn)網(wǎng)絡(luò)的語言聚類[J].科學(xué)通報(bào),2013,58(5-6):432-437.
[12]Amancio D R,et al.Complex networks analysis of language complexity[J].EPL,2012,100(5):58002.