劉海濤
(浙江大學(xué)外國(guó)語(yǔ)言文化與國(guó)際交流學(xué)院,浙江杭州310058)
現(xiàn)代語(yǔ)言學(xué)的奠基人之一索緒爾在其《普通語(yǔ)言學(xué)教程》中指出:“語(yǔ)言是一個(gè)系統(tǒng),它的任何部分都可以而且應(yīng)該從它們共時(shí)的連帶關(guān)系方面去加以考慮……語(yǔ)言既是一個(gè)系統(tǒng),它的各項(xiàng)要素都有連帶關(guān)系,而且其中每項(xiàng)要素的價(jià)值都只是因?yàn)橛衅渌黜?xiàng)要素同時(shí)存在的結(jié)果?!盵1]127,160此后,丹麥語(yǔ)言學(xué)家葉姆斯列夫進(jìn)一步強(qiáng)化了語(yǔ)言系統(tǒng)就是“關(guān)系”系統(tǒng)的理念。受葉姆斯列夫的影響,美國(guó)語(yǔ)言學(xué)家蘭姆創(chuàng)建了完全基于關(guān)系的語(yǔ)言學(xué)理論“層次語(yǔ)法”[2],實(shí)現(xiàn)了語(yǔ)言是一種關(guān)系網(wǎng)絡(luò)的思想。認(rèn)知語(yǔ)言學(xué)的代表性理論“認(rèn)知語(yǔ)法”和“構(gòu)式語(yǔ)法”等均將語(yǔ)言視為一種可用節(jié)點(diǎn)及其關(guān)系描述的系統(tǒng)(或網(wǎng)絡(luò))。英國(guó)語(yǔ)言學(xué)家哈德森甚至以《語(yǔ)言網(wǎng)絡(luò)》作為其“詞語(yǔ)法”理論新作的標(biāo)題[3]。這些事例說(shuō)明,在語(yǔ)言學(xué)界,語(yǔ)言是一種網(wǎng)絡(luò)的思想已相當(dāng)普遍。
那么,語(yǔ)言是一種什么樣的系統(tǒng)或網(wǎng)絡(luò)呢?徐思益認(rèn)為:“語(yǔ)言系統(tǒng)是由語(yǔ)言的層級(jí)關(guān)系、類聚關(guān)系和組合關(guān)系構(gòu)成的從有限到無(wú)限、縱橫交錯(cuò)的網(wǎng)絡(luò)結(jié)構(gòu)體?!盵4]2由此可以看出,語(yǔ)言網(wǎng)絡(luò)是一種復(fù)雜程度很高的網(wǎng)絡(luò),但復(fù)雜程度高的網(wǎng)絡(luò)不一定就是現(xiàn)代網(wǎng)絡(luò)科學(xué)中所指的復(fù)雜網(wǎng)絡(luò)。一般認(rèn)為,復(fù)雜網(wǎng)絡(luò)是一種無(wú)法由其組成部分預(yù)測(cè)整體行為的網(wǎng)絡(luò)。認(rèn)知語(yǔ)言學(xué)認(rèn)為,“整體大于部分之和”是語(yǔ)言結(jié)構(gòu)的一個(gè)基本特點(diǎn),因此,按照復(fù)雜網(wǎng)絡(luò)的定義,語(yǔ)言是一種復(fù)雜網(wǎng)絡(luò),這也意味著我們可以采用復(fù)雜網(wǎng)絡(luò)技術(shù)對(duì)語(yǔ)言進(jìn)行分析和研究。
如果語(yǔ)言是一個(gè)復(fù)雜網(wǎng)絡(luò),那么采用復(fù)雜網(wǎng)絡(luò)的技術(shù)與方法來(lái)研究語(yǔ)言是很有必要的,因?yàn)槲覀冸y以采用傳統(tǒng)的語(yǔ)言學(xué)研究方法發(fā)現(xiàn)語(yǔ)言系統(tǒng)的(整體)特征。由語(yǔ)言構(gòu)成的信息網(wǎng)絡(luò)是信息時(shí)代的主體,因此,研究語(yǔ)言結(jié)構(gòu)的語(yǔ)言學(xué)必定也會(huì)成為像物理學(xué)一樣非常重要的學(xué)科。如同物理學(xué)研究物質(zhì)世界的規(guī)律一般,語(yǔ)言學(xué)研究的是信息世界的規(guī)律[5]1-4。復(fù)雜網(wǎng)絡(luò)分析方法可以在大規(guī)模真實(shí)語(yǔ)料的基礎(chǔ)上,通過(guò)實(shí)證的方法研究語(yǔ)言網(wǎng)絡(luò)的種種特征,進(jìn)而加深我們對(duì)人類語(yǔ)言結(jié)構(gòu)及其復(fù)雜性的了解。這種方法也有助于彌補(bǔ)其他語(yǔ)言學(xué)方法在發(fā)現(xiàn)語(yǔ)言規(guī)律時(shí)的不足與缺憾,有益于語(yǔ)言的定量及形式化研究。從宏觀角度看,采用復(fù)雜網(wǎng)絡(luò)分析技術(shù)研究語(yǔ)言有助于厘清語(yǔ)言網(wǎng)絡(luò)與自然界及人類社會(huì)其他真實(shí)網(wǎng)絡(luò)的異同,加深對(duì)人類知識(shí)系統(tǒng)組織結(jié)構(gòu)的認(rèn)識(shí),構(gòu)建面向計(jì)算機(jī)處理的知識(shí)體系,進(jìn)而提升語(yǔ)言學(xué)研究的學(xué)術(shù)價(jià)值。從微觀角度看,復(fù)雜網(wǎng)絡(luò)方法有益于我們對(duì)以下問(wèn)題的了解:語(yǔ)言網(wǎng)絡(luò)的特征,語(yǔ)言不同層面(網(wǎng)絡(luò))結(jié)構(gòu)的特征及相互關(guān)系,網(wǎng)絡(luò)作為語(yǔ)言研究手段的可能性,動(dòng)態(tài)和靜態(tài)語(yǔ)言網(wǎng)絡(luò)的相互關(guān)系,語(yǔ)言網(wǎng)絡(luò)和信息網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系,語(yǔ)言網(wǎng)絡(luò)作為計(jì)算機(jī)處理語(yǔ)言的知識(shí)源,某些特殊詞語(yǔ)在語(yǔ)言體系中的用法及地位等。
為了采用復(fù)雜網(wǎng)絡(luò)方法來(lái)研究語(yǔ)言網(wǎng)絡(luò),我們首先要構(gòu)造語(yǔ)言網(wǎng)絡(luò)。在構(gòu)造網(wǎng)絡(luò)的過(guò)程中,我們是以語(yǔ)言學(xué)理論為基礎(chǔ),還是采用更便于實(shí)現(xiàn)的隨機(jī)建網(wǎng)方法呢?語(yǔ)言學(xué)理論支持的語(yǔ)言網(wǎng)絡(luò)與隨機(jī)語(yǔ)言網(wǎng)絡(luò)的特征會(huì)有很大的不同嗎?如何用注重整體特征的網(wǎng)絡(luò)方法來(lái)研究語(yǔ)言的局部特征呢?如果局部特性不能影響網(wǎng)絡(luò)的整體特性,這些整體特征對(duì)于語(yǔ)言學(xué)研究的價(jià)值何在?語(yǔ)言網(wǎng)絡(luò)如何體現(xiàn)語(yǔ)言系統(tǒng)的各種關(guān)系呢?不同層面的語(yǔ)言網(wǎng)絡(luò)具有相同的復(fù)雜網(wǎng)絡(luò)特征嗎?語(yǔ)言網(wǎng)絡(luò)可以改善自然語(yǔ)言處理系統(tǒng)的性能嗎?語(yǔ)言網(wǎng)絡(luò)研究對(duì)于計(jì)算語(yǔ)言學(xué)有何價(jià)值呢?語(yǔ)言網(wǎng)絡(luò)只是一種隱喻,還是語(yǔ)言研究的利器呢?本文的主要任務(wù)就是盡可能回答這些問(wèn)題,討論的重點(diǎn)為漢語(yǔ)相關(guān)語(yǔ)言網(wǎng)絡(luò)。
眾多研究表明,人類處于一個(gè)充滿復(fù)雜網(wǎng)絡(luò)的世界之中[6-7]。因此,復(fù)雜網(wǎng)絡(luò)研究不但在數(shù)理學(xué)科、生命學(xué)科和工程學(xué)科中起著越來(lái)越重要的作用,而且也開(kāi)始滲透到人文和社會(huì)科學(xué)領(lǐng)域。據(jù)統(tǒng)計(jì),在目前的復(fù)雜網(wǎng)絡(luò)研究中,約有三分之一的研究是與人文社會(huì)科學(xué)密切相關(guān)的,其數(shù)量?jī)H次于生物分子領(lǐng)域[7]69,72。
復(fù)雜網(wǎng)絡(luò)科學(xué)不僅為我們提供了認(rèn)識(shí)真實(shí)世界復(fù)雜性的科學(xué)視角,而且正在成為改造客觀世界的新方法。在這種大背景下,用復(fù)雜網(wǎng)絡(luò)方法來(lái)研究和考察對(duì)人類具有重要意義的語(yǔ)言,也成為各國(guó)學(xué)者的一個(gè)研究熱點(diǎn)。
為了便于理解下文,這一部分先介紹復(fù)雜網(wǎng)絡(luò)分析方法的一般概念與常用的分析指標(biāo)。復(fù)雜網(wǎng)絡(luò)可以分為無(wú)向網(wǎng)與有向網(wǎng),所謂無(wú)向指的是連接節(jié)點(diǎn)之間的邊沒(méi)有方向,有向指的是節(jié)點(diǎn)之間的邊有方向。圖1所示為兩個(gè)節(jié)點(diǎn)數(shù)為10,但邊連接不同的無(wú)向網(wǎng)絡(luò),這意味著圖中節(jié)點(diǎn)B與C之間的邊既可以表示B-C,也可表示C-B。
為了衡量一個(gè)網(wǎng)絡(luò)的復(fù)雜性,最常用的復(fù)雜網(wǎng)絡(luò)參數(shù)是平均路徑長(zhǎng)度、聚類系數(shù)和度分布[8]。
網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)i和j之間的距離dij是連接這兩個(gè)節(jié)點(diǎn)的最短路徑上的邊數(shù)。如圖1(a)中,節(jié)點(diǎn)A與C之間的最短路徑為3(A-E-B-C),而圖1(b)中這兩個(gè)節(jié)點(diǎn)中的最短路徑為1(A-C)。
網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)之間距離的最大值稱為網(wǎng)絡(luò)的直徑。由此定義可以得到圖1(a)的直徑為3,圖1(b)的直徑為5。
圖1 網(wǎng)絡(luò)示例① 圖 1與圖 2均引自M.Steyvers&J.B.T enenbaum,″The Large-Scale Structure of Semantic Networks:Statistical Analy ses and a Model of Semantic Growth,″Cognitive Science,Vol.29,No.1(2005),pp.41-78。
一個(gè)無(wú)向網(wǎng)絡(luò)的平均路徑長(zhǎng)度L是任意兩個(gè)節(jié)點(diǎn)之間距離的平均值,則:
式中N為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)。由此式可以得到1(a)的L為1.8,1(b)的L為2.18。
利用網(wǎng)絡(luò)的平均路徑長(zhǎng)度,我們可以來(lái)衡量網(wǎng)絡(luò)是否具有小世界特點(diǎn)。小世界概念反映了這樣一種事實(shí):盡管大多數(shù)網(wǎng)絡(luò)的規(guī)模都很大,但網(wǎng)絡(luò)中任意兩個(gè)節(jié)點(diǎn)間大多存在一條較短的路徑。如果一個(gè)網(wǎng)絡(luò)既有較短的平均路徑長(zhǎng)度L,又有較高的聚類系數(shù),這種網(wǎng)絡(luò)就是一種小世界網(wǎng)絡(luò)[10]。
所謂聚類系數(shù)是一種用來(lái)衡量網(wǎng)絡(luò)聚類傾向或小集群形態(tài)的指標(biāo)。設(shè)網(wǎng)絡(luò)節(jié)點(diǎn)i有ki條邊與其他節(jié)點(diǎn)相連,則該節(jié)點(diǎn)就與這ki個(gè)節(jié)點(diǎn)構(gòu)成了一個(gè)子網(wǎng)絡(luò)(或集群)。如果將Ei視為這ki個(gè)節(jié)點(diǎn)之間實(shí)際存在的邊數(shù),那么Ei與這ki個(gè)節(jié)點(diǎn)間最多可有的邊數(shù)ki(ki-1)/2之比就是節(jié)點(diǎn)i的聚類系數(shù)Ci:
從結(jié)構(gòu)特點(diǎn)來(lái)看,上式等價(jià)于下面這個(gè)更直觀的公式:
所謂與節(jié)點(diǎn)i相連的三元組是指包括節(jié)點(diǎn)i的三個(gè)節(jié)點(diǎn),并且至少存在從節(jié)點(diǎn)i到其他兩個(gè)節(jié)點(diǎn)的兩條邊。由此可以看出,聚類系數(shù)反映的是網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰接點(diǎn)也互為鄰節(jié)點(diǎn)的比例,即小集群結(jié)構(gòu)的完美程度。拿圖1中的節(jié)點(diǎn) A來(lái)說(shuō),在圖1(a)中,A有三個(gè)三元組(A-E-K,A-G-K,A-E-G),但沒(méi)有三角形,因此節(jié)點(diǎn) A的聚類系數(shù)Ca為零;在圖1(b)中,A同樣有三個(gè)三元組(A-C-H,A-C-J,A-H-J),并且有兩個(gè)三角形(A-C-H,A-H-J),因此該網(wǎng)絡(luò)中的Ca為0.67。
整個(gè)網(wǎng)絡(luò)的聚類系數(shù)C為所有節(jié)點(diǎn)聚類系數(shù)Ci的平均值,即:
其中N為網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)。由此可以算出圖1(a)的C為零,圖1(b)的C為0.56。一般來(lái)說(shuō),如果真實(shí)網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)具有相同的節(jié)點(diǎn)和邊,真實(shí)網(wǎng)絡(luò)的聚類系數(shù)要遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)。
一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)i的度ki指的是與該節(jié)點(diǎn)相連的其他節(jié)點(diǎn)的數(shù)目(或邊數(shù)),它在一定程度上反映了節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性,體現(xiàn)了節(jié)點(diǎn)與其他節(jié)點(diǎn)結(jié)合的能力。如節(jié)點(diǎn)G在圖1(a)中的度為3,在圖1(b)中為5。因?yàn)閳D1為無(wú)向網(wǎng),所以我們沒(méi)有必要對(duì)度作進(jìn)一步的區(qū)分。在一個(gè)有向網(wǎng)中,我們應(yīng)該按照邊的方向計(jì)算節(jié)點(diǎn)的入度與出度,一個(gè)節(jié)點(diǎn)的度是它的入度與出度之和。所有節(jié)點(diǎn)的度ki的平均值稱為網(wǎng)絡(luò)的平均度〈k〉。圖1(a)與圖1(b)的平均度都是3。節(jié)點(diǎn)的度分布通常用分布函數(shù)P(k)來(lái)描述,該函數(shù)表示一個(gè)隨機(jī)選定的節(jié)點(diǎn)的度恰好為k的概率。圖2為圖1中兩個(gè)網(wǎng)絡(luò)的度分布示例。圖2顯示,在圖1(a)中含有2個(gè)度為2的節(jié)點(diǎn),6個(gè)度為3的節(jié)點(diǎn),2個(gè)度為4的節(jié)點(diǎn);在圖1(b)中度為1的節(jié)點(diǎn)有1個(gè),度為2的節(jié)點(diǎn)有2個(gè),度為3的節(jié)點(diǎn)有4個(gè),度為4的節(jié)點(diǎn)有2個(gè),度為5的節(jié)點(diǎn)有1個(gè)。
圖2 示例網(wǎng)絡(luò)的度分布
隨機(jī)網(wǎng)絡(luò)的度分布服從泊松分布,而一些真實(shí)網(wǎng)絡(luò)的度分布一般服從冪律分布。人們也把服從冪律分布的網(wǎng)絡(luò)叫做無(wú)尺度(scale-free)網(wǎng)絡(luò)[11]。
平均相鄰節(jié)點(diǎn)度表示的是一個(gè)節(jié)點(diǎn)的度和它的相鄰節(jié)點(diǎn)度之間的相關(guān)性。在一個(gè)網(wǎng)絡(luò)中,如果度大(小)的節(jié)點(diǎn)傾向于連接度大(小)的節(jié)點(diǎn),則該網(wǎng)絡(luò)是正相關(guān)的;如果度大(小)的節(jié)點(diǎn)傾向于和度小(大)的節(jié)點(diǎn)連接,則這個(gè)網(wǎng)絡(luò)是負(fù)相關(guān)的。社會(huì)網(wǎng)絡(luò)是正相關(guān)網(wǎng)絡(luò)的典型代表,而生物和技術(shù)網(wǎng)絡(luò)則多為負(fù)相關(guān)。社會(huì)網(wǎng)絡(luò)與生物網(wǎng)絡(luò)在這一方面為何會(huì)有如此差別仍不清楚,一個(gè)可能的原因是:在這兩類網(wǎng)絡(luò)形成的過(guò)程中,人類的參與程度是有明顯差別的,社會(huì)網(wǎng)絡(luò)受人類影響的程度顯然要大于生物網(wǎng)絡(luò)。
利用以上這些參數(shù)我們一般就可以判斷一個(gè)網(wǎng)絡(luò)的性質(zhì),如網(wǎng)絡(luò)是否為小世界網(wǎng)絡(luò)或無(wú)尺度網(wǎng)絡(luò)。當(dāng)然,復(fù)雜網(wǎng)絡(luò)的統(tǒng)計(jì)描述不僅限于這些參數(shù),其他比較常用的參數(shù)還有脆弱性、同類性、緊密中心度、介數(shù)中心度等。限于篇幅,這里不再詳述。
復(fù)雜網(wǎng)絡(luò)的行為主要取決于兩個(gè)方面:一是連接路徑(結(jié)構(gòu)),二是交換和相互作用(動(dòng)力學(xué))。從結(jié)構(gòu)方面來(lái)看,無(wú)論網(wǎng)絡(luò)的規(guī)模有多大,結(jié)構(gòu)多復(fù)雜,構(gòu)成網(wǎng)絡(luò)的基本要素卻并不復(fù)雜。所有的網(wǎng)絡(luò)都是由節(jié)點(diǎn)與邊組成的,但在不同的現(xiàn)實(shí)世界網(wǎng)絡(luò)里,節(jié)點(diǎn)與邊所代表的事物是不一樣的。就語(yǔ)言網(wǎng)絡(luò)而言,節(jié)點(diǎn)可以是各種語(yǔ)言學(xué)單位,如漢字的偏旁部首、漢字、詞等,邊可以是語(yǔ)言中各層級(jí)元素間的關(guān)系。而網(wǎng)絡(luò)動(dòng)力學(xué)的重點(diǎn)是尋求導(dǎo)致節(jié)點(diǎn)之間相互作用與聯(lián)系的動(dòng)力源,因此,網(wǎng)絡(luò)動(dòng)力學(xué)是與應(yīng)用領(lǐng)域密切相關(guān)的。換言之,我們可以通過(guò)研究語(yǔ)言網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)發(fā)現(xiàn)語(yǔ)言網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的共性,通過(guò)語(yǔ)言網(wǎng)絡(luò)動(dòng)力學(xué)的研究來(lái)探求語(yǔ)言網(wǎng)絡(luò)的特殊性。這里主要探討語(yǔ)言網(wǎng)絡(luò)的結(jié)構(gòu)。
國(guó)內(nèi)外均有學(xué)者對(duì)語(yǔ)言網(wǎng)絡(luò)進(jìn)行了一定的研究。就構(gòu)造語(yǔ)言網(wǎng)絡(luò)的方法而言,一般采用的方法有:(1)在類屬詞典的根詞與其同義詞之間建立關(guān)系;(2)在諸如Wordnet的詞庫(kù)基礎(chǔ)上構(gòu)建意義間的關(guān)系;(3)利用句子中詞的共現(xiàn)形成關(guān)系;(4)利用具有依存句法關(guān)系標(biāo)注的語(yǔ)料庫(kù)構(gòu)建語(yǔ)言網(wǎng)絡(luò)等[12]。我們可將前兩種基于詞典等語(yǔ)言資源所構(gòu)建的網(wǎng)絡(luò)稱為靜態(tài)語(yǔ)言網(wǎng)絡(luò),而把后兩種根據(jù)真實(shí)文本構(gòu)造的語(yǔ)言網(wǎng)絡(luò)稱為動(dòng)態(tài)語(yǔ)言網(wǎng)絡(luò)。靜態(tài)語(yǔ)言網(wǎng)絡(luò)反映的是語(yǔ)言作為一種知識(shí)網(wǎng)絡(luò)的狀況,而動(dòng)態(tài)網(wǎng)絡(luò)可以衡量語(yǔ)言作為一種交際系統(tǒng)的某些特質(zhì)。
同樣的語(yǔ)言材料,由于構(gòu)造方式不同,所形成的語(yǔ)言網(wǎng)絡(luò)也會(huì)有差異。圖3是由三個(gè)句子構(gòu)成的三種漢語(yǔ)網(wǎng)絡(luò),即:“老張?jiān)谧雷由戏帕艘槐緯?“老張的學(xué)生讀過(guò)一本有趣的書”,“那本書的封面舊了”。
圖3 漢語(yǔ)網(wǎng)絡(luò)示例
圖3 (a)網(wǎng)絡(luò)中的節(jié)點(diǎn)是漢字,節(jié)點(diǎn)關(guān)系是在句中相鄰漢字間形成的,這是一種可用來(lái)研究漢語(yǔ)詞匯形成機(jī)制的漢語(yǔ)詞匯網(wǎng)絡(luò)。圖3(b)網(wǎng)絡(luò)的節(jié)點(diǎn)為詞,節(jié)點(diǎn)關(guān)系是一種依存句法關(guān)系。這個(gè)網(wǎng)絡(luò)的語(yǔ)言學(xué)理論基礎(chǔ)是依存語(yǔ)法[13],它是由經(jīng)過(guò)依存句法標(biāo)注的句子集合轉(zhuǎn)換而來(lái)的,是一種漢語(yǔ)句法網(wǎng)絡(luò)。圖3(c)網(wǎng)絡(luò)是由經(jīng)過(guò)語(yǔ)義角色或論元結(jié)構(gòu)標(biāo)注的句子集合轉(zhuǎn)換得來(lái)的,是一種漢語(yǔ)語(yǔ)義網(wǎng)絡(luò)。盡管構(gòu)成這三種網(wǎng)絡(luò)的節(jié)點(diǎn)有限,但我們已經(jīng)可以看出漢語(yǔ)網(wǎng)絡(luò)在詞匯、句法和語(yǔ)義層面是存在較大差異的。例如,虛詞在三個(gè)網(wǎng)絡(luò)中作用和地位明顯不同:在圖3(a)的詞匯網(wǎng)絡(luò)中,如果把虛詞移走,那么網(wǎng)絡(luò)中相鄰節(jié)點(diǎn)間組成詞的概率就會(huì)大大增加;在圖3(b)中,如果將虛詞從網(wǎng)絡(luò)中移走,剩下的節(jié)點(diǎn)就不是一個(gè)聯(lián)通的網(wǎng)絡(luò)了,這說(shuō)明虛詞在漢語(yǔ)句法層面占有很重要的地位;圖3(c)網(wǎng)絡(luò)的節(jié)點(diǎn)均是實(shí)詞,虛詞在語(yǔ)義網(wǎng)絡(luò)的缺失,使語(yǔ)義網(wǎng)絡(luò)更接近于一種概念網(wǎng)絡(luò)。三種網(wǎng)絡(luò)間的差異有可能反映的是概念與語(yǔ)言表達(dá)之間的認(rèn)知機(jī)制的差異,因此,語(yǔ)言復(fù)雜網(wǎng)絡(luò)的研究有助于加深我們對(duì)人類由思維到語(yǔ)言實(shí)現(xiàn)過(guò)程的認(rèn)識(shí)。當(dāng)然,為了對(duì)漢語(yǔ)網(wǎng)絡(luò)進(jìn)行更深入的研究,我們需要采用專門的復(fù)雜網(wǎng)絡(luò)算法和軟件程序來(lái)統(tǒng)計(jì)、計(jì)算此前提出的諸如平均路徑長(zhǎng)度、聚類系數(shù)和度分布等網(wǎng)絡(luò)參數(shù),進(jìn)而對(duì)語(yǔ)言網(wǎng)絡(luò)的特性有一個(gè)整體的把握和了解。
圖3所示網(wǎng)絡(luò)不但有助于我們了解不同的構(gòu)造方式對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)的影響,也有益于樹(shù)立不同層面語(yǔ)言網(wǎng)絡(luò)有差異的觀念。但從圖3的三個(gè)網(wǎng)絡(luò)中,我們很難體會(huì)到語(yǔ)言網(wǎng)絡(luò)的復(fù)雜性,主要原因在于圖3的網(wǎng)絡(luò)所含節(jié)點(diǎn)太少,導(dǎo)致節(jié)點(diǎn)之間的聯(lián)系難以體現(xiàn)真實(shí)語(yǔ)言網(wǎng)絡(luò)的復(fù)雜性。圖4為根據(jù)中央電視臺(tái)“新聞聯(lián)播”文本所構(gòu)造的一個(gè)依存句法網(wǎng)絡(luò)。雖然這個(gè)網(wǎng)絡(luò)只含有4 000個(gè)節(jié)點(diǎn),但從直觀上已經(jīng)展示出語(yǔ)言網(wǎng)絡(luò)所具有的復(fù)雜性了。
與大多數(shù)其他語(yǔ)言相比,漢語(yǔ)采用漢字而非拼音文字,這使構(gòu)造漢語(yǔ)網(wǎng)絡(luò)時(shí)有了更多的選擇,也為我們研究語(yǔ)言網(wǎng)絡(luò)提供了更多的素材。
李健瑜利用可以組成字的部首之間的關(guān)系[14],構(gòu)造了一個(gè)以漢字部首為節(jié)點(diǎn)的網(wǎng)絡(luò)。如,部首“女”與部首“己”、“又”、“氵”可以組成漢字“妃”、“奴”和“汝”,因此在這些部首之間就有連接。
香港中文大學(xué)的彭剛等利用詞內(nèi)所含漢字之間的關(guān)系,構(gòu)造了節(jié)點(diǎn)為漢字的普通話和粵語(yǔ)網(wǎng)絡(luò)[15],王建偉、榮莉莉也采用類似的方法構(gòu)造并研究了一個(gè)漢字網(wǎng)絡(luò)[16]。此種網(wǎng)絡(luò)中的節(jié)點(diǎn)為漢字,如果兩個(gè)漢字之間可以形成詞,則在兩者之間建立一個(gè)連接。如漢字“車”與“火”、“貨”、“汽”、“站”、“庫(kù)”等之間就有連接。也有學(xué)者構(gòu)造并研究了以字為節(jié)點(diǎn)、以同現(xiàn)關(guān)系為連接的漢字網(wǎng)絡(luò)[17],如圖3(a)所示樣例。
李勇等采用詞組中是否含有同一漢字的方法,構(gòu)造了一個(gè)漢語(yǔ)詞組網(wǎng)絡(luò)[18]。在這個(gè)漢語(yǔ)詞組網(wǎng)絡(luò)中,詞組為網(wǎng)絡(luò)中的節(jié)點(diǎn),如果兩個(gè)詞組中含有同一個(gè)漢字,則在兩者之間建立一條連接。如“網(wǎng)絡(luò)”與“電網(wǎng)”、“網(wǎng)球”、“聯(lián)絡(luò)”等節(jié)點(diǎn)都有連接。
劉海濤采用依存語(yǔ)法標(biāo)注了“新聞聯(lián)播”與“實(shí)話實(shí)說(shuō)”文本,并在此基礎(chǔ)上構(gòu)建了兩個(gè)漢語(yǔ)依存句法網(wǎng)絡(luò)[19];劉知遠(yuǎn)等構(gòu)造并研究了漢語(yǔ)詞同現(xiàn)網(wǎng)絡(luò)和一個(gè)由短語(yǔ)結(jié)構(gòu)樹(shù)庫(kù)轉(zhuǎn)換得到的漢語(yǔ)依存句法網(wǎng)絡(luò)[20]。此種句法網(wǎng)絡(luò)的示例可見(jiàn)圖3(b)的樣例。
劉海濤通過(guò)對(duì)真實(shí)文本進(jìn)行語(yǔ)義角色標(biāo)注,構(gòu)造并研究了漢語(yǔ)的動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)[21]。這是一種節(jié)點(diǎn)為實(shí)詞、連接為語(yǔ)義或論元關(guān)系的網(wǎng)絡(luò)。示例見(jiàn)圖3(c)的樣例。
值得注意的是,這些建構(gòu)原則各不相同的語(yǔ)言網(wǎng)絡(luò)均具有小世界和無(wú)標(biāo)度特征。換言之,幾乎所有語(yǔ)言網(wǎng)絡(luò)都具有復(fù)雜網(wǎng)絡(luò)的基本特征。
毫無(wú)疑問(wèn),以上這些研究對(duì)于認(rèn)識(shí)語(yǔ)言網(wǎng)絡(luò)的普遍性是有意義的,但也存在一些不足和有待進(jìn)一步研究的問(wèn)題:
(1)研究者在構(gòu)造語(yǔ)言網(wǎng)絡(luò)時(shí),大多采用自動(dòng)的方式,沒(méi)有經(jīng)過(guò)深入的語(yǔ)言結(jié)構(gòu)分析。這雖然有助于提高語(yǔ)言網(wǎng)絡(luò)的構(gòu)造速度,但所構(gòu)建的網(wǎng)絡(luò)可能沒(méi)有反映語(yǔ)言的真實(shí)結(jié)構(gòu),難以與語(yǔ)言學(xué)理論產(chǎn)生密切的聯(lián)系。
(2)由于構(gòu)造網(wǎng)絡(luò)的基礎(chǔ)主要是詞典等資源,這樣所構(gòu)建的網(wǎng)絡(luò)大多是一種靜態(tài)語(yǔ)言網(wǎng)絡(luò),不足以反映語(yǔ)言的實(shí)際使用情況。
(3)對(duì)語(yǔ)言表層的關(guān)注過(guò)多,幾乎沒(méi)有考慮更深層次的句法、語(yǔ)義和概念網(wǎng)絡(luò)。
(4)研究重點(diǎn)一般為網(wǎng)絡(luò)的整體統(tǒng)計(jì)特征,對(duì)網(wǎng)絡(luò)局部及局部和整體之間的關(guān)系研究不夠。
圖4 語(yǔ)言網(wǎng)絡(luò)全景
在對(duì)二十多種語(yǔ)言網(wǎng)絡(luò)進(jìn)行考察之后,Mehler認(rèn)為,所有的語(yǔ)言網(wǎng)絡(luò)研究都應(yīng)該對(duì)以下問(wèn)題作出回答[22]:網(wǎng)絡(luò)的節(jié)點(diǎn)及連接它們的邊表示的是什么?為什么要研究這種語(yǔ)言網(wǎng)絡(luò)?研究了哪些小世界或復(fù)雜網(wǎng)絡(luò)參量?如果網(wǎng)絡(luò)是小世界的,其產(chǎn)生原因是什么?對(duì)網(wǎng)絡(luò)的增長(zhǎng)方式與動(dòng)力學(xué)有何考慮?遺憾的是,現(xiàn)有的大多數(shù)語(yǔ)言網(wǎng)絡(luò)研究都不能很好地回答這些問(wèn)題。筆者認(rèn)為,問(wèn)題的根本在于語(yǔ)言學(xué)理論與復(fù)雜網(wǎng)絡(luò)研究的脫節(jié)。
總的說(shuō)來(lái),現(xiàn)有的大多數(shù)研究過(guò)于注重網(wǎng)絡(luò)的整體特征,忽視了局部現(xiàn)象和整體特征之間的聯(lián)系,所得到的結(jié)果往往難以用語(yǔ)言學(xué)理論來(lái)解釋。這種缺乏解釋的研究既不利于復(fù)雜網(wǎng)絡(luò)本身的研究,也無(wú)助于從網(wǎng)絡(luò)的角度認(rèn)識(shí)語(yǔ)言。
許多中外語(yǔ)言學(xué)家都意識(shí)到,語(yǔ)言不是一種簡(jiǎn)單系統(tǒng),而是一種復(fù)雜系統(tǒng)。語(yǔ)言的以下特征使它足以成為一種復(fù)雜系統(tǒng)[23]:語(yǔ)言是開(kāi)放的、動(dòng)態(tài)的,而不是均衡的;語(yǔ)言含有大量相互聯(lián)系的成分;語(yǔ)言具有涌現(xiàn)的特點(diǎn);語(yǔ)言中結(jié)構(gòu)單元的分布是非線性的;語(yǔ)言具有縮放屬性。
嚴(yán)格說(shuō)來(lái),由于缺乏適宜的研究手段,語(yǔ)言學(xué)家對(duì)于語(yǔ)言復(fù)雜性的認(rèn)識(shí)基本還停留在隱喻的層面[24]11。盡管只是隱喻的說(shuō)法,語(yǔ)言的系統(tǒng)觀與網(wǎng)絡(luò)觀也在一定程度上有助于對(duì)語(yǔ)言的全面理解,有益于推動(dòng)語(yǔ)言學(xué)在理論方面的根本性改變。王士元認(rèn)為,復(fù)雜理論的應(yīng)用使近年來(lái)應(yīng)用語(yǔ)言學(xué)的研究更顯精實(shí)[25]iii。復(fù)雜網(wǎng)絡(luò)的迅速發(fā)展及其在各個(gè)領(lǐng)域的應(yīng)用,產(chǎn)生了大量的研究工具和方法,這些工具和方法使語(yǔ)言學(xué)家通過(guò)復(fù)雜網(wǎng)絡(luò)技術(shù)研究(語(yǔ)言)復(fù)雜系統(tǒng)成為可能。
由于復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域的特殊性與專業(yè)性,目前活躍在這一領(lǐng)域的主要研究者大多為理工科背景的學(xué)者。他們對(duì)語(yǔ)言網(wǎng)絡(luò)的研究更多關(guān)注的是語(yǔ)言網(wǎng)絡(luò)的整體特點(diǎn)、語(yǔ)言網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的共性等問(wèn)題,對(duì)于語(yǔ)言網(wǎng)絡(luò)作為語(yǔ)言研究手段的問(wèn)題則鮮有論及。這樣的研究當(dāng)然有其學(xué)術(shù)價(jià)值,但從語(yǔ)言學(xué)的角度看也存在著很多問(wèn)題。有關(guān)這些問(wèn)題此前已有提及,此不贅述,這一部分主要討論復(fù)雜網(wǎng)絡(luò)作為語(yǔ)言研究手段的問(wèn)題、可行性和一些已有的成果。
筆者認(rèn)為,如果要用復(fù)雜網(wǎng)絡(luò)來(lái)研究語(yǔ)言,那么在構(gòu)造語(yǔ)言網(wǎng)絡(luò)時(shí),應(yīng)具有語(yǔ)言學(xué)理?yè)?jù),應(yīng)將網(wǎng)絡(luò)的構(gòu)造建立在語(yǔ)言學(xué)理論之上。非語(yǔ)言學(xué)家由于缺乏必要的語(yǔ)言學(xué)知識(shí),所構(gòu)造的網(wǎng)絡(luò)在語(yǔ)言學(xué)家看來(lái)幾乎沒(méi)有研究?jī)r(jià)值。這方面最明顯的例子是在構(gòu)造以詞為節(jié)點(diǎn)的網(wǎng)絡(luò)時(shí),人們最常用的方法是采用詞共現(xiàn)的方式來(lái)生成網(wǎng)絡(luò)。所謂詞共現(xiàn)網(wǎng)絡(luò)就是在相鄰詞之間建立一條連接。從技術(shù)上講,這種網(wǎng)絡(luò)是非常容易實(shí)現(xiàn)的,因此受到了眾多研究者的青睞。然而,按照最適宜于構(gòu)建語(yǔ)言句法網(wǎng)絡(luò)的依存語(yǔ)法來(lái)看,在一個(gè)符合句法的句子分析中,詞間關(guān)系不一定都是在相鄰詞之間產(chǎn)生的。通過(guò)對(duì)20種語(yǔ)言依存關(guān)系的統(tǒng)計(jì)發(fā)現(xiàn),只有大約50%—60%的依存關(guān)系是在相鄰詞之間產(chǎn)生的[26]。因此,利用詞共現(xiàn)網(wǎng)絡(luò)來(lái)研究人類語(yǔ)言幾乎沒(méi)有語(yǔ)言學(xué)上的價(jià)值,詞共現(xiàn)網(wǎng)絡(luò)更不等價(jià)于依存句法網(wǎng)絡(luò)。但在許多復(fù)雜網(wǎng)絡(luò)研究者眼里,這兩者是相同的。如Brede和Newth論文標(biāo)題中所指的句法依存網(wǎng)絡(luò),實(shí)際上只是詞共現(xiàn)網(wǎng)絡(luò)[27]。
從網(wǎng)絡(luò)結(jié)構(gòu)上看,詞共現(xiàn)網(wǎng)絡(luò)與依存句法網(wǎng)絡(luò)的差異也是明顯的。圖5為兩個(gè)英文句子“The student has a book(那個(gè)學(xué)生有一本書)”與“He reads the interesting book(他讀那本有趣的書)”所構(gòu)成的詞共現(xiàn)網(wǎng)絡(luò)和依存句法網(wǎng)絡(luò)。由圖5可見(jiàn),兩種網(wǎng)絡(luò)的差異是明顯的。這也說(shuō)明,在語(yǔ)言復(fù)雜網(wǎng)絡(luò)的研究中,語(yǔ)言學(xué)家的參與是非常必要的,否則,就有可能出現(xiàn)許多沒(méi)有語(yǔ)言學(xué)價(jià)值的語(yǔ)言網(wǎng)絡(luò)研究。
現(xiàn)在的問(wèn)題是,為什么由兩個(gè)句子組成的詞共現(xiàn)與句法示例網(wǎng)絡(luò)的差異明顯,而當(dāng)我們將網(wǎng)絡(luò)的節(jié)點(diǎn)增加,網(wǎng)絡(luò)所展現(xiàn)的整體統(tǒng)計(jì)特征卻會(huì)如此接近,以致兩者之間難以區(qū)分呢?句法在構(gòu)造句法網(wǎng)絡(luò)的過(guò)程中難道真的沒(méi)有什么作用嗎?
圖5 詞共現(xiàn)網(wǎng)絡(luò)與依存句法網(wǎng)絡(luò)示例
為了研究這個(gè)問(wèn)題,劉海濤與胡鳳國(guó)在同一個(gè)漢語(yǔ)經(jīng)依存句法標(biāo)注語(yǔ)料庫(kù)(樹(shù)庫(kù))的基礎(chǔ)上,構(gòu)建了兩種隨機(jī)依存樹(shù)庫(kù),并將這三個(gè)依存樹(shù)庫(kù)轉(zhuǎn)換為三種語(yǔ)言網(wǎng)絡(luò)[28]。他們的研究表明,三種網(wǎng)絡(luò)均為小世界與無(wú)尺度網(wǎng)絡(luò)。Brede和New th采用詞共現(xiàn)與隨機(jī)網(wǎng)絡(luò)也得到了類似結(jié)論[27]。換言之,如果我們要用本文第一部分介紹的那些統(tǒng)計(jì)指標(biāo)來(lái)衡量一個(gè)語(yǔ)言網(wǎng)絡(luò)是否合乎句法的話,可能是沒(méi)有定論的。對(duì)這個(gè)問(wèn)題,似乎可以這樣理解,采用整體統(tǒng)計(jì)指標(biāo)的復(fù)雜網(wǎng)絡(luò)方法不適合研究細(xì)微的句法問(wèn)題[29]。圖5所展現(xiàn)的兩者之間的這種差異在更大的網(wǎng)絡(luò)中消失了,這種無(wú)法用局部來(lái)解釋整體的特征,也正是復(fù)雜網(wǎng)絡(luò)的一個(gè)主要特點(diǎn)。但這不能成為研究者們可以用非句法的網(wǎng)絡(luò)來(lái)研究句法網(wǎng)絡(luò)的理由,而應(yīng)成為激勵(lì)研究者尋求更適宜的復(fù)雜網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo)的動(dòng)力。
如果有語(yǔ)言學(xué)理論支持的語(yǔ)言網(wǎng)絡(luò)與隨機(jī)語(yǔ)言網(wǎng)絡(luò)的特征沒(méi)有明顯的不同,我們?nèi)绾斡米⒅卣w特征的網(wǎng)絡(luò)方法來(lái)研究語(yǔ)言的局部特征呢?如果局部的語(yǔ)言特性不會(huì)影響網(wǎng)絡(luò)的整體特性,這些整體特征對(duì)于語(yǔ)言學(xué)研究的價(jià)值何在呢?在這種情況下,復(fù)雜網(wǎng)絡(luò)還能作為語(yǔ)言研究的工具嗎?對(duì)于這些問(wèn)題,筆者的理解是:局部與整體之間必然有聯(lián)系,但問(wèn)題在于現(xiàn)在的統(tǒng)計(jì)指標(biāo)不能很好地反映這種聯(lián)系。語(yǔ)言網(wǎng)絡(luò)整體特征的研究一方面有利于從宏觀的角度比較語(yǔ)言系統(tǒng)與人類社會(huì)及自然界的其他系統(tǒng)的特點(diǎn),另一方面也可將此種方法應(yīng)用于語(yǔ)言研究中某些注重整體的領(lǐng)域,如語(yǔ)體研究、語(yǔ)言類型研究等。
語(yǔ)言是一種分層次的系統(tǒng),每一層次的基本單位可以組合為更高層次的單位。如偏旁部首組成漢字,漢字組成詞,詞組成句子,句子組成篇章等。這種由看得見(jiàn)的語(yǔ)言學(xué)單元所構(gòu)成的語(yǔ)言網(wǎng)絡(luò),我們可以稱之為表層語(yǔ)言網(wǎng)絡(luò)。通過(guò)對(duì)表層語(yǔ)言網(wǎng)絡(luò)的研究,我們可以更好地認(rèn)識(shí)語(yǔ)言單位的組合能力與結(jié)合模式。例如,在以部首為節(jié)點(diǎn)的字網(wǎng)絡(luò)中,我們可以研究“氵”的構(gòu)字能力;在以字為節(jié)點(diǎn)的詞網(wǎng)絡(luò)中,我們可以研究“網(wǎng)”的構(gòu)詞能力;在以詞為節(jié)點(diǎn)的句法網(wǎng)絡(luò)中,我們可以研究“的”的句法地位等。這樣的研究不僅是定量的,而且也是全局的,可以在一定程度上彌補(bǔ)其他語(yǔ)言學(xué)研究方法的不足。
為了比較研究同一種語(yǔ)言中不同語(yǔ)體的網(wǎng)絡(luò)特點(diǎn),劉海濤構(gòu)造了“新聞聯(lián)播”和“實(shí)話實(shí)說(shuō)”兩種不同語(yǔ)體的句法網(wǎng)絡(luò)[19]。研究表明,盡管兩種網(wǎng)絡(luò)直徑相同,但在平均度、平均路徑長(zhǎng)度、冪律指數(shù)和聚類系數(shù)方面均有明顯差異。對(duì)不同語(yǔ)體的字、詞共現(xiàn)網(wǎng)絡(luò)的研究也表明,復(fù)雜網(wǎng)絡(luò)的相關(guān)特征是可以反映語(yǔ)體特點(diǎn)的[17]。
語(yǔ)言學(xué)家關(guān)注的另一個(gè)問(wèn)題是,在不同結(jié)構(gòu)層次上構(gòu)造的語(yǔ)言網(wǎng)絡(luò),它們的網(wǎng)絡(luò)特征有差別嗎?對(duì)于漢語(yǔ)而言,同一文本的字、詞網(wǎng)絡(luò)有差別嗎?同一類型文本的句法網(wǎng)絡(luò)與語(yǔ)義網(wǎng)絡(luò)有明顯的不同嗎?如果復(fù)雜網(wǎng)絡(luò)可以反映語(yǔ)言結(jié)構(gòu)層次的特點(diǎn),那么,這種方法對(duì)于了解語(yǔ)言的結(jié)構(gòu)特點(diǎn)是有用的。研究表明,相同文本的字、詞共現(xiàn)網(wǎng)絡(luò)雖然都是小世界與無(wú)尺度的網(wǎng)絡(luò),但兩者的統(tǒng)計(jì)特征還是有明顯差別的。比較漢語(yǔ)句法網(wǎng)絡(luò)與語(yǔ)義角色(論元結(jié)構(gòu))網(wǎng)絡(luò)的統(tǒng)計(jì)特征,可以看出,盡管語(yǔ)義網(wǎng)絡(luò)也是小世界和無(wú)尺度網(wǎng)絡(luò),但它與句法網(wǎng)絡(luò)在層級(jí)結(jié)構(gòu)和節(jié)點(diǎn)度相關(guān)性方面存在明顯不同[21]。
網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu)可用網(wǎng)絡(luò)的聚類系數(shù)和節(jié)點(diǎn)度的相關(guān)性來(lái)度量。真實(shí)網(wǎng)絡(luò)一般具有較明顯的層級(jí)性,即:低度節(jié)點(diǎn)的相鄰節(jié)點(diǎn)互連的概率大,而高度節(jié)點(diǎn)的相鄰節(jié)點(diǎn)互連的概率則較小。與句法網(wǎng)絡(luò)相比,語(yǔ)義網(wǎng)絡(luò)的層級(jí)性較差。研究也表明,語(yǔ)義網(wǎng)絡(luò)的節(jié)點(diǎn)度與其相鄰節(jié)點(diǎn)度之間的相關(guān)性要弱于句法網(wǎng)絡(luò)[21]。由于句法網(wǎng)絡(luò)的負(fù)相關(guān)反映的是實(shí)詞和虛詞之間的聯(lián)系,因此,缺少虛詞的語(yǔ)義網(wǎng)絡(luò)幾乎沒(méi)有明顯的相關(guān)性也就不難理解了。度相關(guān)性也引出了語(yǔ)言是何種系統(tǒng)的老問(wèn)題,即語(yǔ)言是一種生物網(wǎng)絡(luò)還是一種社會(huì)網(wǎng)絡(luò)。從句法網(wǎng)絡(luò)的角度看,語(yǔ)言是一種生物網(wǎng)絡(luò),這一點(diǎn)似乎與喬姆斯基等人所倡導(dǎo)的生物語(yǔ)言學(xué)是一致的[30]。但語(yǔ)義網(wǎng)絡(luò)所展現(xiàn)的弱相關(guān)性又告誡我們,不同語(yǔ)言層面的結(jié)構(gòu)特征可能是有差異的。
與字、詞、句法等表層語(yǔ)言網(wǎng)絡(luò)不同,語(yǔ)義網(wǎng)絡(luò)是一種深層語(yǔ)言網(wǎng)絡(luò)。語(yǔ)義網(wǎng)絡(luò)又可以分為兩種:一種是通過(guò)真實(shí)文本進(jìn)行語(yǔ)義角色或論元結(jié)構(gòu)分析所得到的語(yǔ)義網(wǎng)絡(luò),這種網(wǎng)絡(luò)可以稱之為動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)。動(dòng)態(tài)語(yǔ)義網(wǎng)絡(luò)有助于研究與交際過(guò)程相關(guān)的各種語(yǔ)義問(wèn)題,有利于更好地研究語(yǔ)義處理策略與系統(tǒng)。也有根據(jù)詞典等語(yǔ)言資源構(gòu)造的語(yǔ)義網(wǎng)絡(luò),這種語(yǔ)義網(wǎng)絡(luò)是一種靜態(tài)語(yǔ)義網(wǎng)絡(luò),它所反映的是人類存儲(chǔ)知識(shí)的方式和結(jié)構(gòu)。在這樣的網(wǎng)絡(luò)中,節(jié)點(diǎn)一般為概念(或?qū)嵲~),節(jié)點(diǎn)之間的關(guān)系可以是上下位、部分與整體、同義、反義等語(yǔ)義關(guān)系[12]4。靜態(tài)語(yǔ)義網(wǎng)絡(luò)對(duì)于義類和概念詞典的研究及知識(shí)庫(kù)的開(kāi)發(fā)都有用處。
劉海濤用《安徒生童話全集》中的前20篇童話構(gòu)建了丹麥語(yǔ)、漢語(yǔ)、英語(yǔ)及世界語(yǔ)的四個(gè)語(yǔ)言網(wǎng)絡(luò),并計(jì)算了這些網(wǎng)絡(luò)的主要復(fù)雜網(wǎng)絡(luò)特征參數(shù)[31]。數(shù)據(jù)顯示,內(nèi)容相同、(語(yǔ)言)形式不同的網(wǎng)絡(luò)具有相似的復(fù)雜網(wǎng)絡(luò)特征。這在一定程度上證明了翻譯文本整體特征具有可度量性,語(yǔ)言之間存在可譯性。該研究也表明,盡管這四種網(wǎng)絡(luò)都具有小世界與無(wú)尺度的特征,但其復(fù)雜網(wǎng)絡(luò)特征參數(shù)值之間的差異也體現(xiàn)了語(yǔ)言結(jié)構(gòu)的不同。從這個(gè)意義上說(shuō),復(fù)雜網(wǎng)絡(luò)不僅是一種可用來(lái)研究網(wǎng)絡(luò)共性的方法,也可用來(lái)發(fā)現(xiàn)網(wǎng)絡(luò)的個(gè)性。
復(fù)雜網(wǎng)絡(luò)注重整體的特質(zhì),使它非常適宜于研究某些詞(類)對(duì)語(yǔ)言系統(tǒng)的影響。這方面最值得研究的是漢語(yǔ)虛詞在漢語(yǔ)句法體系中的作用。一般認(rèn)為,由于漢語(yǔ)的實(shí)詞沒(méi)有形態(tài)變化,虛詞便成了漢語(yǔ)的主要句法手段之一。如果虛詞是漢語(yǔ)的主要句法手段,那么從漢語(yǔ)句法網(wǎng)絡(luò)中將虛詞移走,可能會(huì)導(dǎo)致漢語(yǔ)句法網(wǎng)絡(luò)的統(tǒng)計(jì)特征發(fā)生重大變化。陳芯瑩以概率配價(jià)模式理論[13]106-111為基礎(chǔ),利用復(fù)雜網(wǎng)絡(luò)分析技術(shù)研究了漢語(yǔ)句法網(wǎng)絡(luò)中虛詞的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)。她的研究發(fā)現(xiàn)①參見(jiàn)陳芯瑩《漢語(yǔ)虛詞的復(fù)雜網(wǎng)絡(luò)特征研究》,中國(guó)傳媒大學(xué)2009年碩士學(xué)位論文。:
(1)“的”是漢語(yǔ)句法網(wǎng)絡(luò)的全局中心節(jié)點(diǎn)。它的被支配能力是網(wǎng)絡(luò)中最強(qiáng)的,同時(shí)它還具備很強(qiáng)的支配能力。而且“的”的這些網(wǎng)絡(luò)特性受語(yǔ)體影響較小。從網(wǎng)絡(luò)中剔除“的”節(jié)點(diǎn),會(huì)造成句法網(wǎng)絡(luò)的平均度下降、平均路徑長(zhǎng)度增加、直徑增加、密度降低,并導(dǎo)致孤立節(jié)點(diǎn)的產(chǎn)生。
(2)“了”是網(wǎng)絡(luò)中的局部中心節(jié)點(diǎn),不是全局中心節(jié)點(diǎn)。它具有較強(qiáng)的被支配能力,但不具備支配能力。刪除“了”會(huì)造成網(wǎng)絡(luò)的平均度下降,但其對(duì)網(wǎng)絡(luò)的影響比“的”要小;還會(huì)使平均路徑長(zhǎng)度增加、直徑增加、密度降低,其影響均大于“的”;不會(huì)使網(wǎng)絡(luò)產(chǎn)生孤立節(jié)點(diǎn)。
(3)介詞“在”接近網(wǎng)絡(luò)的全局中心節(jié)點(diǎn)。但“在”的支配能力與被支配能力受語(yǔ)體影響較大,在書面語(yǔ)體中的被支配能力強(qiáng)于在口語(yǔ)體中的被支配能力。剔除“在”會(huì)使網(wǎng)絡(luò)的平均度下降,但其影響比“的”要小;使平均路徑長(zhǎng)度增加、直徑增加、密度降低,其影響均大于“的”,與“了”相當(dāng);會(huì)使網(wǎng)絡(luò)產(chǎn)生孤立節(jié)點(diǎn)。
此種研究用直觀、定量的方式,從系統(tǒng)、整體的角度來(lái)考察虛詞在漢語(yǔ)句法系統(tǒng)中的使用和地位,有助于加深對(duì)漢語(yǔ)句法網(wǎng)絡(luò)的全面了解。這樣的研究也表明,漢語(yǔ)缺乏形態(tài)并不意味著它沒(méi)有句法,也不意味著它是一種所謂的“意合語(yǔ)言”。
語(yǔ)言網(wǎng)絡(luò)對(duì)于語(yǔ)言的整體概括能力,也使通過(guò)語(yǔ)言網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)參數(shù)來(lái)進(jìn)行語(yǔ)言的類型學(xué)研究成為可能。劉海濤構(gòu)造了15個(gè)句法復(fù)雜網(wǎng)絡(luò),并采用復(fù)雜網(wǎng)絡(luò)研究工具對(duì)這些語(yǔ)言網(wǎng)絡(luò)進(jìn)行了研究[32]。研究結(jié)果顯示,通過(guò)復(fù)雜網(wǎng)絡(luò)的主要參數(shù),即節(jié)點(diǎn)的平均度、聚類系數(shù)、平均路徑長(zhǎng)度、網(wǎng)絡(luò)中心度、直徑、節(jié)點(diǎn)度冪律分布的冪指數(shù)、度分布與冪律擬合的決定系數(shù),可以對(duì)人類語(yǔ)言進(jìn)行分類,其準(zhǔn)確性與利用現(xiàn)代語(yǔ)序類型學(xué)主要指標(biāo)進(jìn)行語(yǔ)言分類的準(zhǔn)確性相當(dāng)[33]。這種方法不但克服了類型學(xué)研究中語(yǔ)種庫(kù)語(yǔ)料為非真實(shí)語(yǔ)料及參數(shù)選擇中過(guò)于注重微觀的問(wèn)題,所得到的結(jié)果更能體現(xiàn)語(yǔ)言的整體類型學(xué)特征,也拓展了復(fù)雜網(wǎng)絡(luò)在人文、社會(huì)與生命科學(xué)等領(lǐng)域的應(yīng)用。
語(yǔ)言復(fù)雜網(wǎng)絡(luò)也可用于計(jì)算語(yǔ)言學(xué)相關(guān)領(lǐng)域,如:同義詞的選用,通過(guò)網(wǎng)絡(luò)的統(tǒng)計(jì)性質(zhì)來(lái)判定文本的質(zhì)量,通過(guò)比較兩種語(yǔ)言的詞共現(xiàn)網(wǎng)絡(luò)評(píng)價(jià)機(jī)器翻譯的質(zhì)量,作家風(fēng)格的研究,將詞網(wǎng)絡(luò)用于拼寫校正軟件的開(kāi)發(fā)等[7]。此種應(yīng)用的基礎(chǔ)一般是一個(gè)以詞為節(jié)點(diǎn)的語(yǔ)言網(wǎng)絡(luò),通過(guò)比較網(wǎng)絡(luò)的各種統(tǒng)計(jì)性質(zhì)來(lái)判定文本的質(zhì)量或?qū)ξ谋具M(jìn)行分類。
廣義上講,基于復(fù)雜網(wǎng)絡(luò)的方法與在自然語(yǔ)言處理領(lǐng)域廣為應(yīng)用的基于圖的方法差別不大,盡管這兩個(gè)領(lǐng)域所用的術(shù)語(yǔ)與目標(biāo)有些不同。因此,以復(fù)雜網(wǎng)絡(luò)作為語(yǔ)言資源,可用各種已成熟的圖算法來(lái)進(jìn)行一些面向應(yīng)用的開(kāi)發(fā)與研究。這方面的可用領(lǐng)域有:句法、語(yǔ)義范疇的自動(dòng)識(shí)別,歧義消解,信息檢索,自動(dòng)分析,文本摘要及關(guān)鍵詞提取等[34]。
語(yǔ)言是一種(復(fù)雜)網(wǎng)絡(luò)。長(zhǎng)久以來(lái),由于缺乏適宜的研究工具,語(yǔ)言的網(wǎng)絡(luò)觀更多的只是一種隱喻。復(fù)雜網(wǎng)絡(luò)研究的盛行,使我們有可能采用真正的網(wǎng)絡(luò)分析工具來(lái)研究語(yǔ)言網(wǎng)絡(luò)。遺憾的是,目前語(yǔ)言網(wǎng)絡(luò)的研究者大多是理工科的學(xué)者,所以他們的研究一般關(guān)注的是語(yǔ)言網(wǎng)絡(luò)的普遍特征。這種只注重共性、忽視個(gè)性的研究方式,既不利于語(yǔ)言網(wǎng)絡(luò)個(gè)性的發(fā)現(xiàn),也無(wú)助于從復(fù)雜網(wǎng)絡(luò)的角度來(lái)探索語(yǔ)言結(jié)構(gòu)的本質(zhì)規(guī)律。
筆者認(rèn)為,如果要用復(fù)雜網(wǎng)絡(luò)來(lái)研究語(yǔ)言,那么在構(gòu)造語(yǔ)言網(wǎng)絡(luò)時(shí),應(yīng)具有語(yǔ)言學(xué)理?yè)?jù),換言之,網(wǎng)絡(luò)的構(gòu)造應(yīng)建立在語(yǔ)言學(xué)理論之上。只有這樣,復(fù)雜網(wǎng)絡(luò)才可能作為一種語(yǔ)言研究的工具,語(yǔ)言學(xué)家也才有可能走出語(yǔ)言網(wǎng)絡(luò)的隱喻世界。
研究表明,復(fù)雜網(wǎng)絡(luò)的相關(guān)特征不僅可以反映語(yǔ)體特點(diǎn),可以作為區(qū)分語(yǔ)言各個(gè)層面結(jié)構(gòu)的手段,而且適宜于研究某些詞(類)對(duì)語(yǔ)言系統(tǒng)的影響。但僅有這些是不夠的,我們還需要進(jìn)一步挖掘復(fù)雜網(wǎng)絡(luò)分析技術(shù)的潛力。為了更好地利用網(wǎng)絡(luò)手段來(lái)研究語(yǔ)言,研究者一要選好適宜的研究領(lǐng)域,二要在注重研究共性的基礎(chǔ)上,加強(qiáng)對(duì)網(wǎng)絡(luò)個(gè)性的研究。對(duì)于語(yǔ)言系統(tǒng)的研究來(lái)說(shuō),我們不但可通過(guò)復(fù)雜網(wǎng)絡(luò)來(lái)研究語(yǔ)言系統(tǒng)與其他系統(tǒng)的共性,更應(yīng)通過(guò)社會(huì)網(wǎng)絡(luò)分析等方法來(lái)挖掘語(yǔ)言網(wǎng)絡(luò)的個(gè)性。這種局部與整體的結(jié)合、共性與個(gè)性的統(tǒng)一,有助于我們更好地理解語(yǔ)言結(jié)構(gòu)的本質(zhì)。
具體而言,值得在以下方面作進(jìn)一步的深入研究:由特殊語(yǔ)言結(jié)構(gòu)組成的語(yǔ)言網(wǎng)絡(luò)反映的是語(yǔ)言網(wǎng)絡(luò)的共性還是個(gè)性?如何尋求更適宜的語(yǔ)言學(xué)理論來(lái)研究語(yǔ)言網(wǎng)絡(luò)的增長(zhǎng)與演化?局部結(jié)構(gòu)與整體特征之間的關(guān)系可以用統(tǒng)計(jì)特征來(lái)表示嗎?如何通過(guò)語(yǔ)言習(xí)得來(lái)擴(kuò)大語(yǔ)言網(wǎng)絡(luò)的規(guī)模?相同類型的語(yǔ)言網(wǎng)絡(luò),其統(tǒng)計(jì)特征具有跨語(yǔ)言的相似性嗎?語(yǔ)言網(wǎng)絡(luò)可以作為語(yǔ)言對(duì)比或翻譯研究的工具嗎?語(yǔ)言網(wǎng)絡(luò)與認(rèn)知有什么聯(lián)系?
未來(lái)的路很長(zhǎng),但很光明。因?yàn)檎Z(yǔ)言網(wǎng)絡(luò)的研究不但有助于我們更好地理解語(yǔ)言的結(jié)構(gòu)和組織,認(rèn)識(shí)語(yǔ)言的普遍性和特殊性,有益于對(duì)語(yǔ)言信息網(wǎng)絡(luò)的認(rèn)識(shí),研制更好的自然語(yǔ)言處理系統(tǒng),也有益于提升語(yǔ)言學(xué)研究的現(xiàn)代化水平和學(xué)術(shù)價(jià)值。
[1][瑞士]索緒爾:《普通語(yǔ)言學(xué)教程》,高名凱譯,北京:商務(wù)印書館,1980年。[F.De Saussure,Course in General Linguistics,trans.by Gao Mingkai,Beijing:The Commercial Press,1980.]
[2]S.M.Lamb,Outline of Stratif icational Grammar,Washington:Georgetown University Press,1966.
[3]R.A.Hudson,Language Networks:The New Word Grammar,Oxford:Oxford University Press,2007.
[4]徐思益:《語(yǔ)言研究探索》,北京:商務(wù)印書館,2009年。[Xu Siyi,Exploration in Language Research,Beijing:The Commercial Press,2009.]
[5]馮志偉:《現(xiàn)代語(yǔ)言學(xué)名著導(dǎo)讀?序》,北京:北京大學(xué)出版社,2008年。[Feng Zhiwei,Readings of Modern Linguistics:Preface,Beijing:Peking University Press,2008.]
[6]汪小帆、李翔、陳關(guān)榮:《復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用》,北京:清華大學(xué)出版社,2006年。[Wang Xiaofan,Li Xiang&Chen Guanrong,Complex Network and Its Application,Beijing:Tsinghua University Press,2006.]
[7]L.da F.Costa,O.N.Oliveira Jr.&G.Travieso,et al,″Analyzing and Modeling Real-World Phenomena with Complex Networks:A Survey of Applications,″http://arxiv.org/PS_cache/arxiv/pdf/0711/0711.3199v3.pdf,2010-09-15.
[8]R.Albert&A.L.BarabáSi,″Statistical Mechanics of Complex Networks,″Reviews of Modern Physics,Vol.74,No.1(2002),pp.47-97.
[9]M.Steyvers&J.B.Tenenbaum,″The Large-Scale Structure of Semantic Networks:Statistical Analyses and a Model of Semantic Growth,″Cognitive Science,Vol.29,No.1(2005),pp.41-78.
[10]D.Watts,Small Worlds:The Dynamics of Networks between Order and Randomness,Princeton:Princeton University Press,1999.
[11]A.L.Barabá Si&R.Albert,″Emergence of Scaling in Random Networks,″Science,Vol.286,No.5439(1999),pp.509-512.
[12]R.Solé,B.Mutra&S.Valverde,et al,″Language Networks:Their Structure,Function and Evolution,″http://www.santafe.edu/research/working-papers/abstract/7f172d0b8df9c491f4b12d0349b45e5a,2010-09-10.
[13]劉海濤:《依存語(yǔ)法的理論與實(shí)踐》,北京:科學(xué)出版社,2009年。[Liu Haitao,Dependency Grammar:From Theory to Practice,Beijing:Science Press,2009.]
[14]J.Li&J.Zhou,″Chinese Character Structure Analysis Based on Complex Networks,″Physica A,Vol.380(2007),pp.629-638.
[15]G.Peng,J.W.Minett&W.S.-Y.Wang,″The Networks of Syllables and Characters in Chinese,″Journal of Quantitative Linguistics,Vol.15,No.3(2008),pp.243-255.
[16]王建偉、榮莉莉:《基于復(fù)雜網(wǎng)絡(luò)理論的中文字字網(wǎng)絡(luò)的實(shí)證研究》,《大連海事大學(xué)學(xué)報(bào)》2008年第4期,第15-18頁(yè)。[Wang Jianwei&Rong Lili,″An Empirical Study on Chinese Word-Word Network Based on Complex Network Theory,″Journal of Dalian Maritime University,No.4(2008),pp.15-18.]
[17]Y.Shi,W.Liang&J.Liu,et al,″Structural Equivalence between Co-occurrences of Characters and Words in the Chinese Language,″http://www.eie.polyu.edu.hk/ ~ cktse/pdf-paper/NOLTA08-Shi.pdf,2010-09-12.
[18]Y.Li,et al,″Structural Organization and Scale-Free Properties in Chinese Phrase Networks,″Chinese Science Bulletin,Vol.50,No.13(2005),pp.1304-1308.
[19]H.T.Liu,″The Complexity of Chinese Dependency Syntactic Networks,″Physica A,Vol.387,No.12(2008),pp.3048-3058.
[20]劉知遠(yuǎn)、鄭亞斌、孫茂松:《漢語(yǔ)依存句法網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)性質(zhì)》,《復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)》2008年第2期,第37-45頁(yè)。[Liu Zhiyuan,Zheng Yabin&Sun Maosong,″Complex Network Properties of Chinese Syntactic Dependency Network,″Complex Systems and Complexity Science,No.2(2008),pp.37-45.]
[21]H.T.Liu,″Statistical Properties of Chinese Semantic Networks,″Chinese Science Bulletin,Vol.54(2009),pp.2781-2785.
[22]A.Mehler,″Large Text Networks as an Object of Corpus Linguistic Studies,″in A.Lüdeling&M.Kyt?(eds.),Corpus Linguistics:An InternationalHandbook,Vol.1,Berlin&New York:De Gruyter,2008,pp.328-382.
[23]W.A.Kretzschmar,The Linguistics of Speech,New York:Cambridge University Press,2009.
[24]D.Larsen-Freeman&L.Cameron,Complex Systems and Applied Linguistics,Oxford:Oxford University Press,2008.
[25]王士元編:《語(yǔ)言涌現(xiàn):發(fā)展與演化》,臺(tái)北:“中央研究院”語(yǔ)言學(xué)研究所,2008年。[Wang Shiyuan(ed.),The Emergence ofLanguage Development and Evolution,Taipei:Institute ofLinguistics,Academia Sinica,2008.]
[26]H.T.Liu,″Dependency Distance as a Metric of Language Comprehension Difficulty,″Journal of Cognitive Science,Vol.9,No.2(2008),pp.159-191.
[27]M.Brede&D.Newth,″Patterns in Syntactic Dependency Networks from Authored and Randomised Texts,″Complexity International,Vol.12(2008),Paper ID:msid23.
[28]H.T.Liu&F.G.Hu,″What Role Does Syntax Play in a Language Network ?″EPL(Europhysics Letters),Vol.83,No.1(2008),Paper ID:18002.
[29]H.T.Liu,Y.Zhao&W.Huang,″How Do Local Syntactic Structures Influence Global Properties in Language Networks?″Glottometrics,Vol.20(2010),pp.38-58.
[30]C.Boeckx&K.K.Grohmann,″The Biolinguistics Manifesto,″Biolinguistics,Vol.1(2007),pp.1-8.
[31] 劉海濤:《翻譯的復(fù)雜網(wǎng)絡(luò)視角》,《北華大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》2010年第4期,第 59-63頁(yè)。[Liu Haitao,″T ranslation Studies from Complex Networks,″J ournal of Beihua University(Social Sciences),No.4(2010),pp.59-63.]
[32]劉海濤:《語(yǔ)言復(fù)雜網(wǎng)絡(luò)的聚類研究》,《科學(xué)通報(bào)》2010年第 27-28期,第2667-2674頁(yè).[Liu Haitao,″A Clustering Study on Linguistic Complex Networks,″Chinese Science Bulletin,No.27-28(2010),pp.2667-2674.]
[33]H.T.Liu,″Dependency Direction as a M eans of Word-Order Typology:A Method Based on Dependency T reebanks,″Lingua,Vol.120,No.6(2010),pp.1567-1578.
[34]M.Choudhury&A.Mukherjee,″The Structure and Dynamics of Linguistic Networks,″in N.Ganguly,A.Deutsch,A.Mukherjee,et al(eds.),Dynamics on and of Complex Networks,Boston:Birkhaeuser,2009,pp.145-166.