索倫·維希曼 冉啟斌
摘? 要:通過對(duì)直接以IPA轉(zhuǎn)寫進(jìn)行距離計(jì)算、轉(zhuǎn)寫為ASJP碼后進(jìn)行計(jì)算、轉(zhuǎn)寫為修訂版ASJP碼進(jìn)行計(jì)算的比較,發(fā)現(xiàn)采用修訂版ASJP碼后的計(jì)算效果最符合漢語方言的實(shí)際表現(xiàn)。同時(shí),還分析了65個(gè)漢語方言語檔的系統(tǒng)發(fā)育樹和系統(tǒng)發(fā)育網(wǎng)絡(luò),結(jié)果顯示:東北官話與閩方言之間的親緣關(guān)系最遠(yuǎn),處于其間的依次是西北官話、西南官話、北方官話/中原官話、晉方言、客贛徽湘等方言、吳方言、粵方言;客贛徽湘等方言過渡性特征明顯;漢語方言中接觸表現(xiàn)突出,閩方言和吳方言內(nèi)部接觸相對(duì)少一些,北方方言和過渡性方言的內(nèi)部接觸非常多。
關(guān)鍵詞:漢語方言;詞匯距離;計(jì)算分析;系統(tǒng)發(fā)育樹;系統(tǒng)發(fā)育網(wǎng)絡(luò)
一、引言
ASJP(相似性自動(dòng)判斷程序,Automated Simil-arity Judgement Program)數(shù)據(jù)庫(kù)是馬普研究院建立的大型跨語言關(guān)聯(lián)數(shù)據(jù)(Cross-Linguistic Linked Data)資源庫(kù)之一。ASJP數(shù)據(jù)庫(kù)收錄每種語言至少40個(gè)核心詞的語音形式,用以進(jìn)行詞匯語音形式相似度的計(jì)算判斷。最新版數(shù)據(jù)庫(kù)(第18版)收集有世界范圍7655個(gè)語檔(doculect)的材料,按ISO639-3編碼,這7655個(gè)語檔涉及全球5067種語言(https://asjp.clld.org/)。
通過列文斯坦編輯距離(Levenshtein Distance)可以計(jì)算任意兩個(gè)字符串之間的距離,從而也就可以計(jì)算語檔詞匯的語音形式之間的距離(簡(jiǎn)稱“詞匯距離”)。ASJP網(wǎng)站提供有各類計(jì)算工具和程序。Müller(2009a,2009b,2010,2013)先后計(jì)算繪制了多個(gè)版本的世界語言語檔系統(tǒng)發(fā)育樹圖,為研究語言的分化與分類提供了新的視角。
第18版ASJP數(shù)據(jù)庫(kù)中收集了包括上古漢語、中古漢語、東干語在內(nèi)的19個(gè)與漢語有關(guān)的語檔材料。相對(duì)于豐富的漢語方言資源,19個(gè)語檔的數(shù)量并不大。同時(shí),使用ASJP計(jì)算方法對(duì)漢語方言進(jìn)行研究其有效性如何,在計(jì)算的一些具體細(xì)節(jié)上是否有進(jìn)行調(diào)整的空間等,都是值得研究的問題。本文采用ASJP的計(jì)算模式和方法,對(duì)初步收集到的65個(gè)漢語方言語檔材料進(jìn)行計(jì)算分析。
二、研究材料與方法
(一)研究材料
在以往研究中,研究者采用編輯距離對(duì)不同的材料進(jìn)行距離測(cè)算的有王璐(2014),江荻(2017),趙志靖、江荻(2018)等。王璐(2014)以30個(gè)三音節(jié)詞、20個(gè)句子的語音轉(zhuǎn)寫,測(cè)量吳方言5個(gè)方言點(diǎn)之間的距離。江荻(2017)通過計(jì)算核心詞編輯距離及詞匯相似度,對(duì)195種藏緬語族語言進(jìn)行自動(dòng)分類。趙志靖、江荻(2018)則對(duì)侗臺(tái)語族語言進(jìn)行計(jì)算分類以及親緣關(guān)系程度的描述。
本文研究材料為65個(gè)漢語方言點(diǎn)各40個(gè)核心詞的語音形式。各方言點(diǎn)具體參見附錄1“65個(gè)漢語方言語檔名單”。這些語檔涉及官話、晉、吳、贛、湘、徽、粵、閩、客家等方言點(diǎn)。各語檔核心詞的國(guó)際音標(biāo)(IPA)標(biāo)寫來源于《漢語方言詞匯》、劉俐李等《現(xiàn)代漢語方言核心詞·特征詞集》以及各地方言調(diào)查報(bào)告、方言志、地方方言研究等。限于篇幅,每個(gè)語檔的具體來源從略。目前ASJP模式的距離計(jì)算主要處理字符串之間的距離,因此各語檔的IPA轉(zhuǎn)寫不包括聲調(diào)。按ASJP數(shù)據(jù)庫(kù)的模式,各個(gè)語檔的信息除40個(gè)詞的語音形式外,還包括各語檔的ISO639-3代碼(如該方言有的話)以及該方言點(diǎn)所在地的經(jīng)緯度等信息。
(二)研究方法
按ASJP模式的做法,通常將40個(gè)核心詞的IPA形式轉(zhuǎn)換為ASJP碼。這樣做的目的主要是使軟件程序能夠?qū)υ~的語音形式進(jìn)行計(jì)算。IPA與ASJP碼的對(duì)應(yīng)情況如附錄2所示(前面部分為元音,后面部分為輔音)。出于探索的目的,本文先報(bào)道直接依據(jù)40個(gè)核心詞IPA進(jìn)行計(jì)算的結(jié)果;再報(bào)道轉(zhuǎn)換為ASJP碼后的計(jì)算結(jié)果。
計(jì)算與作圖的有關(guān)情況如下:首先使用ASJP有關(guān)軟件程序計(jì)算各語檔之間的詞匯距離,可以形成距離矩陣。ASJP模式的距離計(jì)算有LDN距離(歸一化萊文斯坦距離)、LDND距離(歸一化萊文斯坦距離商)的不同(可參看冉啟斌、索倫·維希曼,2018:52~53),本文研究均依據(jù)LDND距離。在距離矩陣基礎(chǔ)上使用分子生物學(xué)軟件MEGA7與SplitsTree4分別繪制模擬的漢語方言系統(tǒng)發(fā)生學(xué)樹圖(phylogenetic tree,或稱系統(tǒng)發(fā)育樹,使用Neighbor-Joining Tree法)和系統(tǒng)發(fā)生學(xué)網(wǎng)絡(luò)圖(phylogenetic network,或稱系統(tǒng)發(fā)育網(wǎng)絡(luò),使用NeighborNet法),并進(jìn)行相關(guān)分析。
三、漢語方言語檔系統(tǒng)發(fā)育樹分析
(一)依據(jù)IPA標(biāo)寫直接進(jìn)行距離計(jì)算
由于收集到的漢語方言記音材料存在不統(tǒng)一之處,后期我們對(duì)少部分記音符號(hào)進(jìn)行過局部統(tǒng)一。使用前述語料和方法,依據(jù)65個(gè)漢語方言語檔的IPA直接進(jìn)行距離計(jì)算,形成距離矩陣,并使用MEGA繪制出65個(gè)漢語方言語檔的系統(tǒng)發(fā)生學(xué)樹圖。
在系統(tǒng)發(fā)育樹上,根節(jié)點(diǎn)之下以吳方言、粵方言為主的方言語檔首先與其他方言語檔分開;然后銀川、陽江分布在一個(gè)節(jié)點(diǎn)之下,與其他方言語檔分開;再后官話方言、閩方言、吳方言等分布在一個(gè)節(jié)點(diǎn)之下,與其他語檔分開(進(jìn)一步的分支節(jié)點(diǎn)還有很多,為避免繁復(fù)此處從略)。顯然這個(gè)發(fā)生學(xué)關(guān)系不符合我們關(guān)于漢語方言歷史的基本認(rèn)知,且不少距離較遠(yuǎn)的方言語檔在發(fā)生學(xué)關(guān)系上混雜在一起。
同時(shí)可以看到,有的方言語檔連接在相同的直接節(jié)點(diǎn)上,說明它們應(yīng)該是直接分化形成的;然而事實(shí)上它們并不具有很近的分化關(guān)系。例如萍鄉(xiāng)和北京,很難想象萍鄉(xiāng)話和北京話具有最直接的分化來源。類似的還有南通、沈陽,徐州、福州,銀川、陽江,揚(yáng)州、筠連等。它們的關(guān)系相對(duì)較遠(yuǎn),卻連接在相同的直接上位節(jié)點(diǎn)上。
此外,有的語檔處在相同的末端節(jié)點(diǎn),表明它們應(yīng)該具有很密切的親緣關(guān)系;而漢語方言的事實(shí)證明它們的發(fā)生學(xué)關(guān)系并不近。例如績(jī)溪和大同處在同一個(gè)末端節(jié)點(diǎn)之下,事實(shí)是績(jī)溪話和大同話無論在方言歸屬還是地理上都距離較遠(yuǎn)。類似的還有溫州和長(zhǎng)沙,婁底和開平等。