国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語方言自動(dòng)聚類與分區(qū)及相關(guān)計(jì)算方法

2022-04-30 08:25:04
關(guān)鍵詞:官話分區(qū)方言

江 荻

一、方言自動(dòng)分區(qū)研究方法概述

確定方言之間關(guān)系是個(gè)極為復(fù)雜的事情,除了社會(huì)歷史文化因素,主要涉及詞匯異同、語音對(duì)應(yīng)關(guān)系和詞形借用,這是一個(gè)費(fèi)時(shí)費(fèi)力的緩慢發(fā)現(xiàn)過程。為此,近30年來,方言學(xué)界探索了一系列數(shù)學(xué)統(tǒng)計(jì)和計(jì)算機(jī)算法輔助研究方法來改善相關(guān)研究,稱為方言關(guān)系計(jì)量法。計(jì)量法一方面試圖取得更精細(xì)的方言關(guān)系數(shù)據(jù),另一方面嘗試簡(jiǎn)化研究手續(xù)和加快獲取研究結(jié)果。迄今,主要有以下三類計(jì)量方法:特征統(tǒng)計(jì)法、詞源統(tǒng)計(jì)法、詞匯相似度計(jì)量法。

(一)特征統(tǒng)計(jì)法

分類學(xué)中,特征是事物分類的基本依據(jù)。由于特征能反映事物的結(jié)構(gòu)和形式,同時(shí)特征又是人們?cè)谑挛锉容^研究中普遍熟悉的內(nèi)容,因此提取特征來反映事物之間的異同產(chǎn)生了特征統(tǒng)計(jì)觀念。最早開展?jié)h語方言特征統(tǒng)計(jì)的學(xué)者有鄭錦全(1988)和陸致極(1987)等學(xué)者,我們以前者的研究為例。鄭錦全(1988)的目的是考察漢語方言之間的親疏關(guān)系,通過對(duì)漢語方言多個(gè)特征進(jìn)行觀察和統(tǒng)計(jì)來實(shí)現(xiàn)方言分類。鄭文考察的特征主要有詞匯異同、語音異同,后者又分為聲母特征、韻母特征和聲調(diào)特征。

依據(jù)特征分類有以下幾個(gè)步驟,選擇特征、特征賦值(量化)、特征相關(guān)關(guān)系分析和聚類分析。鄭錦全(1988)以《漢語方言詞匯》為統(tǒng)計(jì)材料,其中收錄了905個(gè)普通話詞條和18個(gè)方言的相應(yīng)詞匯形式,并由這兩個(gè)參項(xiàng)構(gòu)成二維數(shù)據(jù)表,即橫行為方言點(diǎn),縱列為詞匯形式。然后用1/0(“有/無”)對(duì)字段賦值,例如“太陽”,北京、濟(jì)南的賦值為1,西安、太原的賦值為0;“日頭”,北京、濟(jì)南的賦值為0,西安、太原的賦值為1。參見表1。

表1 為方言詞匯賦值舉例

由于各方言詞匯差異,905個(gè)詞條分解為6 454個(gè)詞匯變項(xiàng)。最后,將賦值數(shù)據(jù)代入相關(guān)度計(jì)算公式(本文略),得出方言之間的系數(shù),進(jìn)一步繪出相關(guān)關(guān)系樹圖,參見圖1。

圖1 《漢語方言詞匯》詞匯特征相關(guān)樹圖

圖2 《漢語方音字匯》聲母特征相關(guān)樹圖

統(tǒng)計(jì)語音特征的時(shí)候,由于詞匯長度特征不同,用詞不一,鄭文改用《漢語方音字匯》為材料。對(duì)每個(gè)聲母特征按照出現(xiàn)頻次進(jìn)行統(tǒng)計(jì),這跟上文詞匯賦值方法不一樣。鄭氏還特別注意共時(shí)語音跟古代語音的銜接關(guān)系,這一點(diǎn)是采用共時(shí)音值跟歷史音類對(duì)比方式開展的。例如來自中古p的方言p跟來自中古b的p分為兩類。觀察表2:

表2 鄭錦全的漢語方音字匯聲母出現(xiàn)頻次統(tǒng)計(jì)(舉例)

豎列第一個(gè)聲母表示歷史音類,第二個(gè)聲母表示方言聲母音值,橫行是方言點(diǎn),代表《漢語方音字匯》17個(gè)方言點(diǎn),表內(nèi)則是聲母在方言點(diǎn)出現(xiàn)的次數(shù)。然后計(jì)算各方言聲母相關(guān)系數(shù),最后繪出根據(jù)聲母特征得出的方言關(guān)系樹圖。參見圖2。

特征統(tǒng)計(jì)法是一種顯性方法,因此一直為人們所重視。例如,楊鼎夫、夏應(yīng)存的《閩方言分區(qū)的計(jì)量研究》(1994)是一篇以聲韻母特征為對(duì)象的方言分區(qū)論文,涉及35個(gè)閩方言點(diǎn)的親疏關(guān)系研究以及分區(qū)。楊蓓(2003)雖然還是以語音特征為主,但采用的是吳語方言的聲學(xué)信號(hào)作為實(shí)驗(yàn)對(duì)象,并輔以詞匯相關(guān)度予以論證。王士元、沈鐘偉的《方言關(guān)系的計(jì)量表述》(1992)是一篇概述性論文,以吳方言的44個(gè)親屬稱謂詞匯形式為例討論分類分布現(xiàn)象,較為全面地對(duì)特征選取、計(jì)算方法和操作過程做了詳細(xì)敘述。項(xiàng)夢(mèng)冰的《聚類分析在漢語方言研究中的運(yùn)用》(2015)也是很典型的特征統(tǒng)計(jì),但文章焦點(diǎn)卻是對(duì)聚類分析方法的檢測(cè),判斷其有效性。謝建猷、張宗(2014)以廣西方言為對(duì)象開展方言分區(qū)研究,并將分析結(jié)果與人工分區(qū)進(jìn)行對(duì)比,結(jié)論是,對(duì)方言特征的人工統(tǒng)計(jì)分區(qū)跟計(jì)算機(jī)計(jì)量分區(qū)可以實(shí)現(xiàn)殊途同歸,即二者都可實(shí)現(xiàn)分區(qū)目的。這項(xiàng)對(duì)比研究肯定了計(jì)算機(jī)分類和分區(qū)的作用和價(jià)值,是一次相當(dāng)有益的嘗試。

(二)詞源統(tǒng)計(jì)法

詞源統(tǒng)計(jì)法源自語言年代學(xué)(glottochronology),用來衡量相關(guān)語言從共同母語來源分離出來的程度,由于它是對(duì)假定有親緣關(guān)系語言中一組組詞匯項(xiàng)目的變化速度進(jìn)行定量比較,從而推算這些語言分離后的時(shí)間差距,因此也叫做詞匯統(tǒng)計(jì)法(lexicostatistics)。

語言年代學(xué)最初由斯瓦迪士(Swadesh 1952)提出,他受到化學(xué)上發(fā)明的碳-14年代測(cè)定法的啟示,認(rèn)為,一定存在一組基本的詞來描述存在于各種語言中的普遍現(xiàn)象。這種基本詞匯包括表示身體部分的詞(頭、手等),表示自然物體的詞(月亮、山脈等),表示共同活動(dòng)的詞(來、睡覺等),以及表示一些其他范疇的詞。實(shí)際上,要確定這樣一種基本詞匯是相當(dāng)困難的。斯瓦迪士先提出了200詞,后又減少到100詞。相對(duì)于歷史語言學(xué)的比較法,語言年代學(xué)算是一門新的技術(shù)。語言年代學(xué)自20世紀(jì)50年代初提出后,由于其本身固有的一些嚴(yán)重缺陷,長期以來該方法一直未獲得較大成功案例的支持,加之用途有限,引起的爭(zhēng)議也不少,所以往往被人們忽視,使得該方法未得到廣泛運(yùn)用。進(jìn)入21世紀(jì)以來,由于生物學(xué)種系發(fā)生樹理論的不斷完善和計(jì)算機(jī)的巨大進(jìn)步,從語言年代學(xué)概念派生出更單純的詞源統(tǒng)計(jì)法又開始受到歷史語言學(xué)家的重視。

詞源統(tǒng)計(jì)法是借用生物學(xué)上關(guān)于物種進(jìn)化關(guān)系的分析方法來分析語言的親緣關(guān)系。理論基礎(chǔ)是有親屬關(guān)系的語言在演化過程中,其基本詞匯的演變轉(zhuǎn)化程度不同。詞源統(tǒng)計(jì)分析不僅可以顯示各種語言的親疏關(guān)系,更可以顯示出語言之間的親緣距離。國內(nèi)開展過此類研究的有鄧曉華、王士元(2009)對(duì)于苗瑤語族、藏緬語族和壯侗語族的分類研究,林天送等(2010)對(duì)閩方言所做的語言或方言的計(jì)量分類研究。

詞源統(tǒng)計(jì)分析的基礎(chǔ)和前提是同源詞的選取。如何優(yōu)選同源詞,設(shè)計(jì)一種通用基本詞匯表是詞源統(tǒng)計(jì)分析的最重要步驟之一。這個(gè)問題一直存在較大爭(zhēng)論。同源詞同樣有歷史文化層次的差別,有的同源詞較容易被借用,有的同源詞被借用的概率較低。其次,擇詞依賴于專家經(jīng)驗(yàn),也容易引起爭(zhēng)議。詞源統(tǒng)計(jì)研究常見的選擇是斯瓦迪士100詞表或200詞表。

開展?jié)h語方言詞源計(jì)算研究影響度較高的是徐通鏘的研究(1991),他在《歷史語言學(xué)》專著中獨(dú)辟一章(17章:語言年代學(xué))介紹斯瓦迪士的語言年代學(xué)及其計(jì)算公式,又以漢語方言詞源討論分區(qū)和分類。徐文提出:“可以利用(斯瓦迪士100詞)這個(gè)修正表計(jì)算漢語在發(fā)展中的詞匯保留率,以檢驗(yàn)斯瓦迪士、李茲的保留率常數(shù)的可靠性。計(jì)算的對(duì)象以基本詞根語素(Basic-root-morphemes)為準(zhǔn),不算前綴、后綴等詞綴,只要某一詞根語素(不管是單用還是保留在復(fù)合詞中)的意義古今沒有什么變化,就算是同源的成分”。經(jīng)過計(jì)算,獲得古今漢語同源詞根語素比率為66%。對(duì)古漢語年代初步擬為距今2 300年,即先秦漢語年代。再將這些數(shù)據(jù)代入斯瓦迪士語言年代學(xué)公式,則計(jì)算出古今漢語一千年詞根語素保留率為0.834 74。最后,據(jù)此測(cè)算漢語方言之間的同源詞比率,發(fā)現(xiàn)廈門話和蘇州話的共同保留率為59%,北京話跟廈門話之間的共同保留率是56%。

表3 百詞表中漢語七大方言同源詞比率(徐通鏘 1991)

再用李茲(R.B.Lees 1953)公式測(cè)算分化的年代,得到如下結(jié)果:

(三)詞匯相似度計(jì)量法

近十余年,以詞匯相似度為題的研究陸續(xù)開展起來。邵慧君、秦綠葉(2008)在詞匯相似度上不僅以語素為統(tǒng)計(jì)對(duì)象,同時(shí)增加了構(gòu)詞法參項(xiàng)的統(tǒng)計(jì)。文章認(rèn)為,如果比較對(duì)象的語素部分相同,構(gòu)詞法不同,則它們相關(guān)關(guān)系的區(qū)分主要體現(xiàn)在構(gòu)詞法的不同。構(gòu)詞法差別越大,則相關(guān)系數(shù)越小。這是一個(gè)很有意思的創(chuàng)新,其中可能蘊(yùn)含了詞源的差異。如果兩個(gè)方言共同繼承自早期方言,則不同構(gòu)詞結(jié)構(gòu)要么來自第三方言的借用,要么是各方言自身詞匯創(chuàng)新。無論哪種來源,二者都產(chǎn)生差異,需要人工判定。文章在賦值上完全以方言語素為單位,甚至考慮了有音無字的情況。依照通用的Jaccard分類方法,方言之間語素和構(gòu)詞法出現(xiàn)的情況有“雙有”、“有無”、“無有”、“雙無”四種,賦值則以0和1對(duì)應(yīng)“有”和“無”來賦值。對(duì)于兩種方言中同一詞項(xiàng)的多種反映形式,文章處理強(qiáng)于徐通鏘(1991)僅選擇對(duì)應(yīng)第一項(xiàng)的僵硬辦法。文章提出:“當(dāng)兩種方言中同一詞項(xiàng)有多種反映形式時(shí),先找兩種方言中所有的形式,綜合考察它們的詞素和構(gòu)詞法在兩種方言中的‘雙有’、‘有無’、‘無有’的情況,然后確定這三個(gè)系數(shù)的值,最后根據(jù)公式從而求得這個(gè)詞項(xiàng)中兩種方言的相關(guān)系數(shù)?!痹诖嘶A(chǔ)上,文章分別計(jì)算了廣州粵語跟梅州客家話的詞匯相關(guān)關(guān)系,廉江粵語跟廉江客家話的相關(guān)關(guān)系。參見表4和表5:

表4 廣粵—梅客詞匯相關(guān)關(guān)系

表5 廉粵—廉客詞匯相關(guān)關(guān)系

文章分析說:廉江地區(qū)粵客方言的平均相關(guān)系數(shù)高于廣梅的粵客方言平均相關(guān)系數(shù),說明廉江地區(qū)粵、客方言由于接觸頻繁,使得其詞匯的融合程度加深,它們的相關(guān)系數(shù)也因此增大。文章最后對(duì)廉江粵客詞匯相似的結(jié)果做了歷史文化方面的解析,探討了詞匯相似度與方言接觸的關(guān)系和接觸程度。

類似的研究還有粟春兵、王文勝(2011),所使用方法與上述邵文基本一致,通過方言詞匯相關(guān)度的計(jì)量,對(duì)梧州話和倒水話1 300多詞項(xiàng)進(jìn)行定量統(tǒng)計(jì)分析,討論了梧州粵語和周邊勾漏粵語的相似程度。鄭偉娜的《四邑方言詞匯相似度比較分析》(2017)是一篇純粹以詞匯形式為對(duì)象的相似度計(jì)量文章,文章主要貢獻(xiàn)是指出王士元、沈鐘偉(1992)的計(jì)量法和加權(quán)平均法均存在不足之處,提出語素加權(quán)法,即將每個(gè)詞目權(quán)重設(shè)定為1,并根據(jù)詞中語素的重要程度為每個(gè)語素加權(quán),又在語素加權(quán)的基礎(chǔ)上,將構(gòu)詞法納入考慮,計(jì)算其相似度。其中,構(gòu)詞法參數(shù)納入應(yīng)該是參考了邵慧君等的方法。加權(quán)方法則涉及詞源價(jià)值。例如,文章提出:“阿公”和“阿爺”的附加語素相同、核心語素不同,而“紅薯”和“番薯”的修飾語素不同、核心語素相同,在不加權(quán)的情況下,兩組詞相似度一致;若是加權(quán),則可能反映出第二組詞在語源上更加接近。文章具體加權(quán)操作等技術(shù)問題此處不贅,其結(jié)論是:粵語四邑方言七個(gè)點(diǎn)與廣州話的親疏遠(yuǎn)近關(guān)系可以通過詞匯相似度計(jì)算獲得。

以上三種計(jì)量方法各有側(cè)重,特征統(tǒng)計(jì)限定于單一特征的考察,覆蓋面相對(duì)較窄;詞源統(tǒng)計(jì)過于依賴專家的同源經(jīng)驗(yàn)擇詞,包含可能的主觀偏差;詞匯相似度統(tǒng)計(jì)多用漢字,本質(zhì)上也是一種特征分析,甚至?xí)艿綕h字同形符號(hào)的影響。為此可以說,這三類計(jì)量方法都是客體受限的、非整體的對(duì)象考察方法。針對(duì)這樣的狀況,學(xué)術(shù)界開始尋找更適合的計(jì)算模型,其中數(shù)學(xué)上的Levanstein Distance(萊文斯坦距離,或稱編輯距離 1966)對(duì)兩兩語言之間字符串的語音相似性和詞匯對(duì)應(yīng)性都有效用,可計(jì)算性較強(qiáng)(M.Serva 2008)。其次,Levenshtein算法數(shù)理邏輯上稱為“動(dòng)態(tài)規(guī)劃”,逐項(xiàng)計(jì)算字符串單元時(shí)會(huì)同時(shí)調(diào)用之前單元運(yùn)用的數(shù)值,即動(dòng)態(tài)規(guī)劃的子問題之間不完全獨(dú)立,一個(gè)子問題可能會(huì)影響后續(xù)不同階段的狀態(tài)??傊琇evenshtein算法是動(dòng)態(tài)規(guī)劃思想的經(jīng)典算法,每對(duì)子字符串的距離都由之前數(shù)個(gè)距離值共同決定。這意味著方言之間關(guān)系可以通過詞項(xiàng)的全局性算法加以解決。

二、聚類分析的方法和理據(jù)

(一)序列比對(duì)方法

人們說的話記錄下來呈現(xiàn)為符號(hào)的線性序列,兩個(gè)符號(hào)序列是否相同需要對(duì)比分析。這種方法在本實(shí)驗(yàn)中稱為詞形序列比對(duì)或序列對(duì)比。序列比對(duì)是通過將兩兩語言或方言的詞形相互比較來尋找詞形可能具備的特性和對(duì)應(yīng)關(guān)系。也可以說,序列比對(duì)是運(yùn)用某種特定數(shù)學(xué)模型或算法,找出兩個(gè)或多個(gè)序列的最大匹配符號(hào),比對(duì)的結(jié)果反映了序列之間的相似關(guān)系,即詞形的相似關(guān)系和程度。再進(jìn)一步可以判斷序列之間的同源性,推測(cè)序列之間的演化關(guān)系。

比對(duì)一般采用雙序列方式,即對(duì)兩個(gè)詞形的構(gòu)成音素進(jìn)行比對(duì)操作,在各個(gè)音素之間建立對(duì)應(yīng)關(guān)系。兩個(gè)音素是否構(gòu)成相似對(duì)應(yīng)需要事先設(shè)置規(guī)則,這樣就能在確定的序列位置判斷兩兩音素是否相同、相似,或者相異。本文雙序列比對(duì)采用動(dòng)態(tài)規(guī)劃中較為成熟的Levenshtein距離,又稱編輯距離,該方法由俄國數(shù)學(xué)家Vladimir Levenshtein(1966)提出,用來衡量?jī)蓚€(gè)字符序列之間的差異程度。Levenshtein距離的計(jì)算方法是統(tǒng)計(jì)一個(gè)字符串變化成為另一個(gè)字符串所需要操作字符的次數(shù),一般取最小操作次數(shù),字符操作包括增加字符、刪除字符、替換字符。操作次數(shù)表現(xiàn)為一種客觀量,可以直接作為符號(hào)序列之間差異的賦值數(shù)或權(quán)值,即每種操作的成本(即距離)為1。例如,源字符串cat與目標(biāo)字符串hat,比對(duì)二者,從cat變化到hat需要將字符c替換為h,因此Levenshtein距離為1;又如cat與cafe,將后者設(shè)置為目標(biāo)字符串,則需要將前者t替換為f,再增加字符e,共需要經(jīng)過1次替換和1次增加,因此距離值為2。Levenshtein距離計(jì)算公式如下:

通常,Levenshtein距離計(jì)算過程采用矩陣方式逐步分解,并用回溯路徑加以驗(yàn)證和理解。此處我們用簡(jiǎn)單比對(duì)方式對(duì)源字符串saturday轉(zhuǎn)變?yōu)槟繕?biāo)字符串sunday略作說明。序列比對(duì)有一條原則是“獲得序列之間最大的相似性排列”,因此圖3中只有c是合適的比對(duì),操作賦值為3,a和b的賦值都大于3。字符下的下劃線代表該字符經(jīng)歷過替換、增加或刪除操作。

saturdaysunday

saturdaysunday

saturdaysunday

(二)構(gòu)建系統(tǒng)發(fā)生樹

在理解Levenshtein距離計(jì)算方法的基礎(chǔ)上,我們進(jìn)一步考察系統(tǒng)發(fā)生樹的構(gòu)建方法。語言之間相似距離計(jì)算的結(jié)果產(chǎn)生后,人們常用一種直觀的圖形方式來表示語言之間的相似關(guān)系,這種方式借鑒自生物分類學(xué)和當(dāng)代分子生物學(xué),稱為種系發(fā)生樹(phyligenetic tree),也稱進(jìn)化樹或演化樹(evolutionary tree)。語言系統(tǒng)發(fā)生樹蘊(yùn)含了語言演化的淵源關(guān)系,因此也被看作是語言之間的親緣關(guān)系樹。系統(tǒng)演化樹可以呈現(xiàn)語言之間的相關(guān)距離數(shù)值,如果能夠?qū)v史事件時(shí)間或者考古等其他反映的歷史時(shí)間與語言關(guān)聯(lián)起來,作為計(jì)算的參數(shù)加入系統(tǒng)發(fā)生樹的構(gòu)建,則可以將距離數(shù)值轉(zhuǎn)化為歷史時(shí)間,由此估算語言起源和演變發(fā)生的真實(shí)時(shí)間。本文暫時(shí)未將真實(shí)歷史時(shí)間加入其中,因此僅討論方言之間的距離關(guān)系。

構(gòu)建系統(tǒng)樹的方法目前主要采用計(jì)算機(jī)來完成。較為常見的進(jìn)化樹構(gòu)建軟件很多,采用不同的數(shù)學(xué)模型。例如UPGMA(Unweighted Pair Group Method with Arithmetic Mean,平均連接聚類法)、ME(Minimum Evolution,最小進(jìn)化法)和NJ(Neighbor-Joining,鄰接法)等。本項(xiàng)實(shí)驗(yàn)采用MEGA軟件對(duì)數(shù)據(jù)進(jìn)行處理并構(gòu)建語言演化樹。MEGA是美國學(xué)者開發(fā)的一款功能極為強(qiáng)大的分子進(jìn)化遺傳分析軟件,全稱是Molecular Evolutionary Genetics Analysis。它最強(qiáng)大的功能是計(jì)算遺傳距離、構(gòu)建分子系統(tǒng)樹,適合用于分析語言演化,算法模型包括最大簡(jiǎn)約法、最大似然法等統(tǒng)計(jì)學(xué)方法。

目前,世界范圍內(nèi),Levenshtein距離方法已廣泛用于各種科學(xué)研究領(lǐng)域,尤為計(jì)算生物學(xué)領(lǐng)域所采用。在自然語言處理領(lǐng)域,人們也開始采用該方法,并取得很好的效果,例如機(jī)器自動(dòng)分詞、術(shù)語識(shí)別和提取、語義內(nèi)容計(jì)算等等。特別應(yīng)該提到的是,德國馬普研究院(Max-Planck-Gesellschaft)的進(jìn)化語言學(xué)研究所(Institute of evolutionary Linguistics)在20世紀(jì)90年代就設(shè)立了ASJP項(xiàng)目(The Automated Similarity Judgment Program,自動(dòng)相似性判斷),利用世界數(shù)千種語言采集的40個(gè)基本詞匯來自動(dòng)重建語言之間的關(guān)系和世界語言分類,并取得積極的效果,引用面相當(dāng)廣泛(Holman et al. 2011)。

近年來,國內(nèi)以Levenshtein距離方法研究語言和方言的成果還不多,例如江荻(2017)、趙志靖、江荻(2018)、冉啟斌、索倫·維希曼(2018)。漢語方面則只有索倫·維希曼、冉啟斌(2019)。

Levenshtein距離算法模型對(duì)方言語音數(shù)據(jù)、特征和結(jié)構(gòu)進(jìn)行分析和歸納,將相似程度最大的字符串(詞語)聚為一類,相似程度最低的聚到另外的類,多個(gè)聚類之間就會(huì)形成相似程度的隊(duì)列。這就是我們所說的方言關(guān)系的遠(yuǎn)近親疏關(guān)系。計(jì)算機(jī)聚類算法實(shí)際上給人們提供了關(guān)于方言分類或分區(qū)的數(shù)據(jù),在這個(gè)基礎(chǔ)上,人們結(jié)合傳統(tǒng)分類來觀察算法的優(yōu)劣。如果聚類結(jié)果與傳統(tǒng)分類完全不吻合,或者完全不相干,則可以懷疑算法設(shè)置不合適;如果聚類結(jié)果與傳統(tǒng)分區(qū)大致吻合,又有不同,則需要考察其他因素。例如不同方言數(shù)據(jù)編碼符號(hào)不規(guī)范不統(tǒng)一,或者計(jì)算參數(shù)設(shè)置不合理,或者方言點(diǎn)選取地理上疏密度差距過大等等??傊瑱z查數(shù)據(jù)規(guī)范性,調(diào)節(jié)算法細(xì)節(jié)設(shè)置,平衡方言選點(diǎn)數(shù)量,通過反復(fù)實(shí)驗(yàn)達(dá)到算法模型的最優(yōu)狀態(tài)。

還應(yīng)該提到,按照系統(tǒng)發(fā)生樹理論,我們運(yùn)用的MEGA軟件也提供了“樹根”或外類群設(shè)置功能。本實(shí)驗(yàn)也以俄語和法語作為根或外類群對(duì)漢語方言聚類進(jìn)行測(cè)試,但非常明顯的是,無論是否采用樹根測(cè)試,漢語方言內(nèi)部聚類(或分區(qū))并未受到影響,這是漢語方言同屬一種語言的證明。下文第3節(jié)的實(shí)驗(yàn)不納入根和外類群數(shù)據(jù)。

三、漢語方言的自動(dòng)聚類和分區(qū)

(一)方言數(shù)據(jù)

本文采集的數(shù)據(jù)大致按照學(xué)界觀點(diǎn)分布于各個(gè)分區(qū),總計(jì)186個(gè)方言點(diǎn)。按照現(xiàn)有分區(qū)可作如下歸類,并列出方言點(diǎn)名稱,名稱后括號(hào)內(nèi)列出該分區(qū)的數(shù)據(jù)文件代碼和方言點(diǎn)數(shù)量。

東北官話(HDB:9):長春、哈爾濱、海拉爾、黑河、佳木斯、錦州、齊齊哈爾、沈陽、通化

北京官話(HBJ:7):北京(西城)、承德、朝陽、門頭溝、密云、平谷、延慶

冀魯官話(HBF:12):保定、滄州、德州、濟(jì)南、聊城、石家莊、泰安、唐山、天津、濰坊、邢臺(tái)、淄博

膠遼官話(HJL:7):大連、丹東、蓬萊、青島、煙臺(tái)、營口、諸城

蘭銀官話(HL:10):哈密、酒泉、蘭州、山丹、烏魯木齊、武威、吳忠、銀川、張掖、中衛(wèi)

晉語(HJ:12):長治、大同、呼和浩特、離石、臨河、呂梁、綏德、太原、吳堡、忻州、陽原、張家口

西南官話(HN:23):畢節(jié)、常德、成都、重慶、大理、達(dá)縣、桂林、貴陽、漢源、吉首、昆明、黎平、柳州、蒙自、南充、天門、武漢、襄樊、西昌、宜昌、昭通、自貢、遵義

中原官話(HZ:28):寶雞、蚌埠、鄲城、敦煌、阜陽、贛榆、固原、淮北、開封、臨洮、臨夏、漯河、洛陽、門源、南陽、濮陽、睢寧、宿遷、西安、西寧、信陽、新沂、西峽、許昌、徐州、延安、鄭州、駐馬店

江淮方言,簡(jiǎn)稱淮(HS:9):合肥、淮安、南京、如皋、泰州、蕪湖、鹽城、揚(yáng)州、鎮(zhèn)江

贛語(HG:9):東鄉(xiāng)、高安、吉安、黎川、南昌、上高、萬載、修水、余干

徽語(HH:10):淳安、建德、績(jī)溪、流口、秋口、歙縣、壽昌、遂安、屯溪、溪口

吳語(HW:10):崇明、杭州、黃巖、溧陽、寧波、衢州、上海、蘇州、溫州、永康

閩語(HM:10):潮州、福州、???、建甌、雷州、泉州、臺(tái)北、文昌、廈門、中山

粵語(HY:11):東莞、封開、廣州、邁話、南寧、韶關(guān)、臺(tái)山、藤縣、香港、新會(huì)、陽江

客家話(HK:9):北流、從化、柳城、龍南、梅縣、寧都-客、石城、銅鼓、新竹

湘語(HX:10):長沙、衡陽、婁底、寧鄉(xiāng)、雙峰、武岡、湘潭、湘鄉(xiāng)、永州、株洲

各方言選點(diǎn)上有兩個(gè)特點(diǎn),一是代表性方言點(diǎn),例如省市自治區(qū)中通常會(huì)選擇省會(huì)城市;二是各方言點(diǎn)數(shù)量上大致相近,唯中原官話和西南官話地理分布太廣,選點(diǎn)數(shù)量較多。

少量方言區(qū)或方言點(diǎn)的歸屬傳統(tǒng)分區(qū)和分片存在一定爭(zhēng)議。例如,徽語究竟獨(dú)立為與吳語、贛語平行的方言區(qū)還是歸入?yún)钦Z下劃片(如吳語徽嚴(yán)片)。本文以《中國語言地圖》的分區(qū)為準(zhǔn),將徽語列為分區(qū)方言。

(二)全部方言聚類圖

本文從186個(gè)方言獲取的聚類如圖4所示。全部材料設(shè)置為16個(gè)方言分區(qū),北方方言有8個(gè)分區(qū),108個(gè)方言點(diǎn),南方方言有8個(gè)分區(qū),78個(gè)方言點(diǎn)。圖中列出參與分區(qū)的方言點(diǎn)名稱,包括分區(qū)代碼和方言點(diǎn)地名的拼音形式,代碼所指參見3.1節(jié)分區(qū)名稱約定。例如HBJ代表北京官話,HG代表贛語,HG_nanchang表示贛語南昌話。

本項(xiàng)實(shí)驗(yàn)基本是共時(shí)平面聚類,這是因?yàn)槲覀儾辉O(shè)立方言根概念。根據(jù)歷史語言學(xué)原則,如果各方言之間存在可能的母語或母語方言,就有可能把方言分區(qū)看作母語方言的演進(jìn)和分化。但在實(shí)踐上,人們已經(jīng)十分明確,漢語各地方言雖然可能存在早期的起源區(qū)域,但總體上是歷史人口遷徙和方言接觸逐步造成的(葛劍雄,1997)。

聚類圖中有一個(gè)值得指出的現(xiàn)象是,北方方言和南方方言出現(xiàn)交互混淆的現(xiàn)象。圖4顯示出,湘語中的新湘話,包括長沙、株洲、湘潭這個(gè)城市群的方言間入了西南官話群。再就是江淮方言,該方言基本是在吳語基礎(chǔ)上跟不斷南下的歷代北方人的方言長期融合而逐漸形成的(詹伯彗、張振興,2017)。不過,江淮方言的綜合性特征使其在圖4中處于南北方言交界位置??赡芗扔心戏椒窖蕴卣?,也吸收了北方方言特征,本文不稱“官話”,改稱江淮方言(或淮語),暫并入南方方言。圖4中,我們用具體方言名稱標(biāo)示出混入其他方言分區(qū)的方言點(diǎn),請(qǐng)注意帶框方言點(diǎn)名稱。

圖4 186個(gè)方言點(diǎn)聚類圖(分區(qū))

(三)南方方言分區(qū)實(shí)驗(yàn)

這一節(jié)我們觀察南方方言的分區(qū)。Levenshtein距離算法聚類如圖5所示。

該項(xiàng)分區(qū)的一項(xiàng)重要特點(diǎn)似乎顛覆了我們習(xí)慣的觀念,即南方方言差別大,相混情況嚴(yán)重。實(shí)際上,本項(xiàng)實(shí)驗(yàn)中的南方8大方言分區(qū),多數(shù)方言點(diǎn)未發(fā)生特別的互混現(xiàn)象。

本項(xiàng)實(shí)驗(yàn)展示出南方8大方言相互之間的層次或關(guān)聯(lián)關(guān)系。根據(jù)本次實(shí)驗(yàn),南方方言總體框架之下,又可分出兩個(gè)集群,一是粵語—客家—閩語群,其中粵語和客家更接近;其次是吳語—湘語—徽語—江淮群,而贛語則與吳、湘、徽均有關(guān)聯(lián)。大致呈現(xiàn)為圖6所示狀態(tài):

從地理上看,贛語跟粵、閩、客也存在密切關(guān)系。據(jù)《中國語言地圖》,贛、客主要是不同時(shí)期歷史移民形成,而客家話地理上處在贛南、閩西、粵北、湘東之間,贛語則西接湘語,湘語又歷史上跟吳語密切。為此,贛、客地理分布的獨(dú)特性把所有南方方言串聯(lián)起來了。

吳語跟徽語的關(guān)系主要來自移民影響。據(jù)葛劍雄(1997),徽州地區(qū)秦漢時(shí)期屬于吳語區(qū),西晉永嘉之亂導(dǎo)致北人大量遷入,此后唐代以來又有大量移民,加之該地四面環(huán)山,語言封閉發(fā)展,逐漸與吳語差別拉大,形成新的方言。

圖5 南方方言聚類與分區(qū)(右圖接續(xù)左圖)

圖6 南部方言關(guān)系

湘語最早源頭可能是古代楚語,“是‘楚語’的嫡系或支系,同時(shí)也是吳語的近親”(袁家驊,1991)。甚至還有“吳湘一體”的說法(橋本萬太郎,1978)。只是后來贛客遷入和形成,將吳語和湘語分隔開來,各自獨(dú)立發(fā)展,造成不同方言區(qū)域。

本文主要目的是探索漢語方言自動(dòng)聚類和分區(qū)的可能性,但是,我們也發(fā)現(xiàn),如果算法模型設(shè)置恰當(dāng),對(duì)于分區(qū)之下的方言片,本系統(tǒng)也具有較好的自動(dòng)分類價(jià)值。下面舉例討論。仔細(xì)觀察各分區(qū)內(nèi)部方言,也會(huì)發(fā)現(xiàn)十分有趣的現(xiàn)象。(1)海南省三亞市邁話的歸屬一直存在爭(zhēng)議,有人認(rèn)為可歸為閩語(梁猷剛,1984),或作為混合方言(黃谷甘、李如龍,1987),有人則歸為粵語(歐陽覺亞、江荻、鄒嘉彥,2019)。在本實(shí)驗(yàn)中,邁話處于粵語最邊沿,正與邁話的地理分布相應(yīng),也算是粵語西南部分布的末端。(2)上文3.2節(jié)提到長沙—湘潭—株洲新湘語城市群混入西南官話,本次單獨(dú)南方方言運(yùn)行后,則該群回歸湘語,說明這些方言點(diǎn)還是擁有大量湘語特征。(3)據(jù)林倫倫、陳小楓(1996)研究,廣東省中山縣隆都等地有少量居民說閩語,這是十分典型的粵語包圍中的閩語方言島。由于粵語長期的影響,該地閩語已吸收大量粵語詞匯語音特征,分辨不容易。本項(xiàng)實(shí)驗(yàn)對(duì)這類具有混合特征的方言也具有較強(qiáng)的區(qū)分作用,中山閩語的分類位置處于廣東和廣西閩語的最邊沿。

總體來說,南方方言的聚類和分區(qū)中沒有任何一個(gè)方言點(diǎn)的歸屬與傳統(tǒng)分區(qū)不一致。說明Levenshtein距離模型具有較強(qiáng)的聚類分析功能,而本實(shí)驗(yàn)的設(shè)置也符合漢語方言事實(shí)。

(四)北方方言分區(qū)實(shí)驗(yàn)

北方方言地理分布面積遠(yuǎn)超南方方言,共分出8類。觀察圖7不難發(fā)現(xiàn)除了晉語,其他各類方言分區(qū)都有相互間入的其他分區(qū)方言,本圖已將主要間入其他分區(qū)的方言點(diǎn)標(biāo)出(帶框方言點(diǎn))。

圖7 北方方言聚類與分區(qū)(右圖接續(xù)左圖)

以下針對(duì)某些間入其他分區(qū)的方言點(diǎn)逐個(gè)說明,沒有互間或輕微混間的分區(qū)不加討論。

(1)東北官話聚類。這個(gè)分區(qū)中插入了膠遼官話的丹東和大連。但是,十分明顯的是,這兩個(gè)方言點(diǎn)地理位置緊靠東北方言。換句話說,傳統(tǒng)分區(qū)將地理上與東北方言相連的部分方言歸入膠遼方言是否合適?因?yàn)檫@兩大分區(qū)之間隔著遼闊的渤海。當(dāng)然,這個(gè)問題極為復(fù)雜(大連、營口、丹東甚至是不同分區(qū)小片),涉及歷史移民現(xiàn)象。下文還會(huì)看到渤海北面的遼寧營口(蓋桓片)與渤海南面山東蓬萊、煙臺(tái)(登連片)構(gòu)成聚類,這都涉及選擇分區(qū)標(biāo)準(zhǔn)問題。上文曾討論詞匯的一致性和語音的對(duì)應(yīng)性,我們相信更有利的決策應(yīng)據(jù)此權(quán)衡。

(2)東北官話的海拉爾和哈爾濱、錦州分別間入冀魯官話(河北群)和北京官話。已知的情況是,東北官話與北京官話語音上的相近多于二者的相異,估計(jì)重要的區(qū)別可能來自詞匯。我們推測(cè)哈爾濱和錦州詞匯上與北京官話相差不大可能促成這樣的混入。海拉爾間入膠遼官話的原因還需進(jìn)一步研究。

(3)中原官話聚類。該分區(qū)橫貫中國中部地區(qū),分布區(qū)域是:江蘇、安徽、河北、河南、山西南部、陜西大部、甘肅、寧夏、青海、四川、新疆,從東至西大約在北緯34±2°范圍之內(nèi),其跨度之廣,遠(yuǎn)遠(yuǎn)超過其他方言分區(qū),本實(shí)驗(yàn)采集了28個(gè)方言點(diǎn),是分區(qū)實(shí)驗(yàn)中數(shù)據(jù)最多的。正是由于中原官話形成一條長形地域,它的北南兩面均受到其他官話方言擠壓,不可避免有一些其他方言的間入,或者其自身方言也可能間入其他方言。例如它的南面與西南官話相交,其中武漢、貴陽、湖南的常德就混入進(jìn)來,還有膠遼官話的蓬萊、煙臺(tái)和營口也穿插進(jìn)來,其中的原因還需考證。反過來,最東面的徐州等徐淮片的中原方言點(diǎn)混入冀魯官話,原因應(yīng)從地理上解讀。

(4)蘭銀官話聚類。蘭銀官話方言點(diǎn)集中在甘肅、寧夏,因移民原因也出現(xiàn)在新疆北部地區(qū)。蘭銀官話與中原官話有不少共同區(qū)域,因而也有相互混入的方言點(diǎn)。青海的西寧和門源按照語言特征一般歸入中原方言,本實(shí)驗(yàn)間入蘭銀官話,說明受到周邊蘭銀方言接觸的影響。但也有部分間入蘭銀官話的中原方言點(diǎn)還不容易解釋,例如河南的西峽和南陽鄧州點(diǎn)。

(5)冀魯官話聚類。本實(shí)驗(yàn)的冀魯官話分為兩個(gè)小聚類,一是河北聚類,一是山東聚類。后者之中混入了膠遼官話的青島和諸城兩個(gè)方言點(diǎn),其中原因應(yīng)該不難解讀,與方言相鄰和接觸有一定關(guān)系。

以上討論只是對(duì)自動(dòng)分類模型產(chǎn)出結(jié)果的初步觀察,不能作為分類正確與否的標(biāo)準(zhǔn)。這里特別需要提出一條經(jīng)驗(yàn):本實(shí)驗(yàn)經(jīng)歷了上百次方言點(diǎn)數(shù)量調(diào)整,發(fā)現(xiàn)增減方言數(shù)量是調(diào)節(jié)分區(qū)準(zhǔn)確性的重要手段。這是因?yàn)槊總€(gè)方言,甚至每個(gè)詞都是影響方言關(guān)系緊密程度的一環(huán),相近方言點(diǎn)數(shù)量多,內(nèi)部關(guān)聯(lián)密切就更容易聚類,數(shù)量少則聚類就松散。例如我們?cè)诳倲?shù)為70左右方言點(diǎn)計(jì)算時(shí),曾針對(duì)信陽歸屬中原官話還是西南官話進(jìn)行實(shí)驗(yàn)(信陽地理位置處于兩個(gè)分區(qū)邊沿),通過增減或替換信陽周邊這兩個(gè)分區(qū)方言點(diǎn)數(shù)量,發(fā)現(xiàn)如果西南官話數(shù)量增多,勾連信陽話中的西南官話特征增強(qiáng),信陽有可能轉(zhuǎn)而歸入西南官話。這說明信陽方言點(diǎn)自身包含了兩個(gè)分區(qū)的特征,并形成一定的均衡性。

四、結(jié) 語

方言原本是在歷史過程中形成的,有歷史演變因素,也有方言共時(shí)接觸影響因素。漢語方言之間的親疏遠(yuǎn)近關(guān)系通常表征為分區(qū)和劃片,分區(qū)和劃片實(shí)際上是將語言親緣關(guān)系映射為地理分布,將語言的歷時(shí)演變關(guān)系轉(zhuǎn)換為共時(shí)平面呈現(xiàn)。這種事實(shí)讓我們有機(jī)會(huì)采用數(shù)學(xué)或計(jì)算機(jī)算法對(duì)方言之間的關(guān)系開展研究,本文采用Levenshtein距離數(shù)學(xué)模型和聚類分析實(shí)現(xiàn)了傳統(tǒng)依賴方言特征比較的分區(qū),其中的原因之一就是方言產(chǎn)生過程中自身發(fā)展的邏輯性、規(guī)律性和相似性。雖然實(shí)驗(yàn)結(jié)果與傳統(tǒng)分區(qū)對(duì)照是判斷本算法模型效度和精度的準(zhǔn)則,同時(shí)卻又能反過來為分類設(shè)置的分區(qū)標(biāo)準(zhǔn)提供新的思路。

我們相信,本文采用的Levenshtein距離算法對(duì)漢語方言分區(qū)劃片,乃至具體單個(gè)方言的區(qū)片歸屬均能提供參考意見,為漢語方言研究提供了新的研究方向。

猜你喜歡
官話分區(qū)方言
方嚴(yán)的方言
東方少年(2022年28期)2022-11-23 07:09:46
上海實(shí)施“分區(qū)封控”
方言
說說方言
留住方言
浪莎 分區(qū)而治
Negative transfer of Henan Dialectto English Pronunciation
青春歲月(2015年21期)2015-12-15 11:52:47
基于SAGA聚類分析的無功電壓控制分區(qū)
基于多種群遺傳改進(jìn)FCM的無功/電壓控制分區(qū)
征集官話易祛除官話難
新源县| 昆山市| 盘锦市| 苏尼特左旗| 古浪县| 崇信县| 河北省| 嘉祥县| 宜兰县| 独山县| 龙泉市| 镇原县| 牡丹江市| 兴业县| 西乌| 长沙县| 湘乡市| 永新县| 高密市| 奉化市| 延寿县| 和平区| 石渠县| 利川市| 时尚| 中方县| 黄大仙区| 泸州市| 寿宁县| 天峻县| 奈曼旗| 德阳市| 库尔勒市| 德江县| 涞水县| 界首市| 廉江市| 红河县| 丹江口市| 万年县| 垦利县|