国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

字書(shū)字料庫(kù)異體關(guān)系拓?fù)鋱D的設(shè)計(jì)與實(shí)現(xiàn)

2022-06-18 02:45柳建鈺
關(guān)鍵詞:異體字字書(shū)字段

柳建鈺,秦 冕

(渤海大學(xué) 文學(xué)院,遼寧 錦州 121013)

字料庫(kù)(Chinese Character Form Database)是指以文字的整理和文字學(xué)的研究為目標(biāo),按照語(yǔ)言學(xué)和文字學(xué)的原則,收集實(shí)際使用中能夠代表特定文字或文字變體的真實(shí)出現(xiàn)過(guò)的文字書(shū)寫(xiě)形態(tài),運(yùn)用計(jì)算機(jī)技術(shù)建成的具有一定規(guī)模的大型電子文字資源庫(kù)[1]。字料庫(kù)的出現(xiàn)為新時(shí)代的漢字學(xué)研究提供了嶄新的研究方法與手段。字料庫(kù)不僅可以存儲(chǔ)和加工海量字料數(shù)據(jù),而且可以在此基礎(chǔ)上為漢字字際關(guān)系研究提供強(qiáng)有力的平臺(tái)與數(shù)據(jù)支撐,是當(dāng)前漢字字際關(guān)系研究不可或缺的有力工具。

異體關(guān)系是漢字字際關(guān)系典型類型之一,也是目前所有字際關(guān)系中最受學(xué)者關(guān)注、研究難度相當(dāng)大的一種類型。在建設(shè)字書(shū)字料庫(kù)的過(guò)程中,我們對(duì)學(xué)界漢字異體關(guān)系研究的理論與實(shí)踐進(jìn)行了深入考察,并對(duì)字料庫(kù)異體關(guān)系標(biāo)注問(wèn)題進(jìn)行了充分探討[2]。隨著研究的不斷深入,我們對(duì)字料庫(kù)異體關(guān)系整理的相關(guān)問(wèn)題有了新的思考。比如對(duì)于異體關(guān)系層級(jí)系統(tǒng)的標(biāo)注與圖形化展示就是當(dāng)前一個(gè)非常值得關(guān)注的問(wèn)題。李國(guó)英先生根據(jù)異體字形成的方式,將異體字分為異構(gòu)字和異寫(xiě)字兩種類型,并認(rèn)為整理異體字最好把異構(gòu)、異寫(xiě)的層級(jí)關(guān)系描寫(xiě)清楚,排比出譜系[3]。周曉文等學(xué)者從漢字字形整理的角度將字形分為字種、字式、字樣三級(jí)單位,通過(guò)選取字種代表字串聯(lián)起整個(gè)異體關(guān)系層級(jí)系統(tǒng),其中代表字下一級(jí)為字式組(異構(gòu)關(guān)系),字式組下一級(jí)為字樣組(異寫(xiě)關(guān)系),由此將一組異體字分成三個(gè)層級(jí)[4]。郭敬燕在此基礎(chǔ)上在代表字下又分出一級(jí)異體字、二級(jí)異體字等層級(jí),其中一級(jí)異體字只有異構(gòu)字,二級(jí)(或以上)異體字主要為異寫(xiě)字[5]。孫建偉認(rèn)為區(qū)分異寫(xiě)字、異構(gòu)字的核心標(biāo)準(zhǔn)為構(gòu)形理?yè)?jù),由此他進(jìn)一步指出,異寫(xiě)字包括筆畫(huà)層面的異體字和靜態(tài)的構(gòu)件層面的異體字兩類,異構(gòu)字指動(dòng)態(tài)的構(gòu)件層面的異體字。同時(shí),他對(duì)古文隸定字與傳承字、手寫(xiě)變異字與傳承字、避諱字與傳承字、訛字與正字、造意本不同但在使用中功能重合之字的異寫(xiě)、異構(gòu)關(guān)系進(jìn)行了討論[6]。邱龍升認(rèn)為同一異體字組的異體字產(chǎn)生有先有后,應(yīng)該從異體字的動(dòng)態(tài)演變順序來(lái)構(gòu)建異體關(guān)系層級(jí)系統(tǒng)。他認(rèn)為異體字主要有三級(jí),每一層級(jí)與本字之間的關(guān)系逐漸疏遠(yuǎn)[7]。這些學(xué)者的研究成果為我們進(jìn)一步研究該問(wèn)題打下了堅(jiān)實(shí)基礎(chǔ)。

本文將以渤海大學(xué)CCFD 字書(shū)字料庫(kù)異體關(guān)系的標(biāo)注為研究對(duì)象,介紹字料庫(kù)異體關(guān)系界面現(xiàn)有標(biāo)注系統(tǒng),總結(jié)其優(yōu)點(diǎn)與不足。在此基礎(chǔ)上,提出增加“異體關(guān)系拓?fù)鋱D”界面的優(yōu)化意見(jiàn),并詳細(xì)闡述這一界面所包含的主要內(nèi)容、標(biāo)注流程、標(biāo)注示例以及應(yīng)用價(jià)值等相關(guān)問(wèn)題。

一 字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)概說(shuō)

本部分主要介紹字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng),包括九個(gè)基本字段以及三大標(biāo)注層次,并歸納現(xiàn)有系統(tǒng)的優(yōu)點(diǎn)與不足。

(一)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)簡(jiǎn)介

渤海大學(xué)CCFD 字書(shū)字料庫(kù)是國(guó)內(nèi)首個(gè)字書(shū)字料庫(kù)系統(tǒng),它以歷代字書(shū)中真實(shí)出現(xiàn)過(guò)的字料為收錄對(duì)象,對(duì)字料進(jìn)行了包括字頭基本信息、字頭構(gòu)形信息和字際關(guān)系信息在內(nèi)的全方位標(biāo)注。目前,字書(shū)字料庫(kù)已收錄歷代字書(shū)近70 部,標(biāo)注完成的字料信息達(dá)200 多萬(wàn)條。字書(shū)字料庫(kù)將所需標(biāo)注的漢字基本屬性如“字體類別”“構(gòu)形模式”“筆畫(huà)數(shù)”“構(gòu)件組合類型”等都設(shè)計(jì)成字段存放于不同的界面之中?,F(xiàn)有異體關(guān)系界面標(biāo)注系統(tǒng)所設(shè)計(jì)的基本屬性字段如圖1 所示。

圖1 字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注界面

具體來(lái)說(shuō),包括字頭列表、異體字頭、狹義或部分、異體產(chǎn)生原因、異體產(chǎn)生途徑、異體關(guān)系大類、異體關(guān)系中類、異體關(guān)系小類、相關(guān)參證文獻(xiàn)等九種?;緲?biāo)注框架可分為三個(gè)層次,每個(gè)層次之間相對(duì)獨(dú)立,可以相互組配,以求最大限度地標(biāo)注出每個(gè)異體字的區(qū)別性特征。

第一層次:將異體字分為“狹義異體字”與“部分異體字”。這組名稱來(lái)源于裘錫圭先生,他將用法(音義)完全相同的字稱為狹義異體字,將用法(音義)部分相同的字稱為部分異體字,兩者合在一起稱為廣義異體字[8]。設(shè)計(jì)這一字段的主要原因在于要兼顧漢字整理層面與學(xué)術(shù)研究層面兩方面的需要。

第二層次:根據(jù)異體字的產(chǎn)生原因及途徑對(duì)異體字進(jìn)行劃分,“漢字系統(tǒng)自身原因”下對(duì)應(yīng)“造字方法不同”“字體演變”“使用流通”“其他原因”四種途徑;“漢字系統(tǒng)外因”下對(duì)應(yīng)“歷史原因”“地域原因”“社會(huì)政治原因”“其他原因”四種途徑(本部分主要參考了章瓊先生《現(xiàn)代漢語(yǔ)通用字對(duì)應(yīng)異體字整理》的研究成果)[9]。

第三層次:根據(jù)漢字構(gòu)形學(xué)理論進(jìn)行劃分,首先將異體關(guān)系分為“異寫(xiě)字”“異構(gòu)字”“復(fù)生異體字”三大類?!爱悩?gòu)字”下可分為“構(gòu)形方式相同”與“構(gòu)形方式不同”兩個(gè)中類。“異寫(xiě)字”下可分為“筆畫(huà)異寫(xiě)字”與“構(gòu)件異寫(xiě)字”兩個(gè)中類?!皬?fù)生異體字”下可分為“兩種以上異寫(xiě)”與“異構(gòu)且異寫(xiě)”兩個(gè)中類。六個(gè)中類下又進(jìn)一步作了切分,共分為47 個(gè)小類。大類、中類與小類之間可以在程序內(nèi)實(shí)現(xiàn)關(guān)聯(lián)互動(dòng)。

(二)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)的優(yōu)點(diǎn)與不足

字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)從三個(gè)層次六個(gè)小類對(duì)異體關(guān)系進(jìn)行了全面分析,其優(yōu)點(diǎn)在于:首先,將狹義異體字與部分異體字共同收錄,再以字段屬性選項(xiàng)的形式予以區(qū)分,有利于兼顧漢字整理層面與學(xué)術(shù)研究層面的不同需求;其次,從異體字產(chǎn)生的原因以及途徑對(duì)異體字進(jìn)行梳理,拓寬了異體關(guān)系分類與研究的視野,有助于從動(dòng)態(tài)角度把握和研究異體關(guān)系;最后,對(duì)異寫(xiě)字與異構(gòu)字進(jìn)行了細(xì)致區(qū)分,盡可能全面地展現(xiàn)異寫(xiě)字與異構(gòu)字內(nèi)部的細(xì)微差別。三個(gè)層次從不同角度對(duì)異體關(guān)系進(jìn)行了劃分與整理,從而形成了一個(gè)多元立體的異體關(guān)系標(biāo)注系統(tǒng)。

但現(xiàn)有標(biāo)注系統(tǒng)也存在不足。首先,現(xiàn)有標(biāo)注系統(tǒng)將異寫(xiě)與異構(gòu)所判定的對(duì)象分為兩類,一是字種正字,一是其他異體字。系統(tǒng)將所有異體字置于同一層面上進(jìn)行異寫(xiě)、異構(gòu)的判定。然而異寫(xiě)與異構(gòu)并非位于同一層次,每一個(gè)異構(gòu)字都可能產(chǎn)生異寫(xiě)字,異寫(xiě)字處于異構(gòu)字的下位次[10]。若是將一組異體關(guān)系中的每一個(gè)異寫(xiě)字與異構(gòu)字都直接同字種正字進(jìn)行異體關(guān)系對(duì)比歸類,勢(shì)必會(huì)引發(fā)斷鏈甚至判斷失誤的問(wèn)題。如:“流”與“”,《漢語(yǔ)大字典》(第二版)中溝通了二者的異體關(guān)系,可他們?cè)谧中紊舷嗳ポ^遠(yuǎn),溝通起來(lái)比較困難。實(shí)際上,“流——”三字本是因簡(jiǎn)省筆畫(huà)和形體混同而產(chǎn)生的一組異寫(xiě)字,“流”字異寫(xiě)為“”,之后“流”又異寫(xiě)作“”(詳見(jiàn)下文)。若忽視這一演變過(guò)程中的關(guān)鍵鏈條而直接溝通“流”與“”的異體關(guān)系,便會(huì)引發(fā)無(wú)法溝通或牽強(qiáng)附會(huì)的問(wèn)題。

不僅如此,異體關(guān)系還存在層級(jí)系統(tǒng)性,即父級(jí)與子級(jí)的關(guān)系,一組異體字中任意一個(gè)成員都有可能產(chǎn)生其異寫(xiě)或異構(gòu)形體,此時(shí)這一成員相對(duì)于由它產(chǎn)生的異寫(xiě)或異構(gòu)形體來(lái)說(shuō)屬于父級(jí)字,而由它產(chǎn)生的異體字屬于子級(jí)字,如此層層推衍開(kāi)來(lái),便構(gòu)成了異體關(guān)系的層級(jí)系統(tǒng)。描寫(xiě)和展示異體關(guān)系的層級(jí)系統(tǒng)有助于理清異體字組諸多字形的衍生順序,對(duì)包括異體關(guān)系認(rèn)同、字位主形的確定、字種正字的優(yōu)選等在內(nèi)的異體字整理工作具有重要價(jià)值。但這一層級(jí)系統(tǒng)在字書(shū)字料庫(kù)異體關(guān)系現(xiàn)有標(biāo)注系統(tǒng)中尚無(wú)法得到體現(xiàn)。

鑒于此,對(duì)異體關(guān)系屬性庫(kù)現(xiàn)有標(biāo)注字段進(jìn)行優(yōu)化補(bǔ)充就顯得非常必要,而要將異體關(guān)系的層級(jí)系統(tǒng)信息體現(xiàn)在現(xiàn)有異體關(guān)系屬性庫(kù)中,需要借助異體關(guān)系拓?fù)鋱D來(lái)實(shí)現(xiàn)。

二 異體關(guān)系拓?fù)鋱D的主要價(jià)值

拓?fù)鋱D是從拓?fù)鋵W(xué)引用的名稱,又稱拓?fù)浣Y(jié)構(gòu)圖,它由多個(gè)節(jié)點(diǎn)和鏈路構(gòu)成網(wǎng)絡(luò)結(jié)構(gòu),是一種能夠以簡(jiǎn)單化和規(guī)則化的圖形來(lái)傳遞信息的量化圖,也是當(dāng)前大數(shù)據(jù)可視化技術(shù)采用的主要有效表現(xiàn)形式之一。所謂異體關(guān)系拓?fù)鋱D,就是以拓?fù)鋱D的形式來(lái)展現(xiàn)異體關(guān)系的層級(jí)系統(tǒng)信息。在字書(shū)字料庫(kù)框架內(nèi)設(shè)計(jì)并實(shí)現(xiàn)異體關(guān)系拓?fù)鋱D具有多方面的重要價(jià)值。

首先,異體關(guān)系拓?fù)鋱D可以清晰直觀地展現(xiàn)異體字組內(nèi)諸成員的父子、兄弟關(guān)系以及他們的動(dòng)態(tài)衍生過(guò)程。只要理清了衍生過(guò)程,不論是位于哪一層級(jí)的異體成員,都能做到“身世清晰”。異體字的產(chǎn)生有一個(gè)積少成多的過(guò)程,一組異體字中,哪一個(gè)字是字種正字,哪一個(gè)(或幾個(gè))字是由字種正字演變而來(lái)的二級(jí)字,哪一個(gè)(或幾個(gè))字是由二級(jí)字演變而來(lái)的三級(jí)字……弄清楚這些問(wèn)題,對(duì)于異體字整理工作至關(guān)重要。借助異體關(guān)系拓?fù)鋱D來(lái)實(shí)現(xiàn)對(duì)異體字的分級(jí)整理,就可以使一組異體字的動(dòng)態(tài)衍生過(guò)程清晰、簡(jiǎn)潔地展示出來(lái)。

其次,異體關(guān)系拓?fù)鋱D可以將異寫(xiě)與異構(gòu)之間的復(fù)雜關(guān)系清晰地展現(xiàn)出來(lái)。一般來(lái)說(shuō),異寫(xiě)是異構(gòu)的下位層次,異寫(xiě)字是異構(gòu)字形體書(shū)寫(xiě)變異而形成的。但實(shí)際上,每一個(gè)異構(gòu)字或者異寫(xiě)字都有可能產(chǎn)生新的異寫(xiě)與異構(gòu)形體,異寫(xiě)與異構(gòu)的層級(jí)關(guān)系并不像我們想象的那樣簡(jiǎn)單。通過(guò)異體關(guān)系拓?fù)鋱D,我們可以將復(fù)雜的異寫(xiě)、異構(gòu)關(guān)系清晰化,有利于進(jìn)一步總結(jié)異寫(xiě)字、異構(gòu)字產(chǎn)生與發(fā)展的具體規(guī)律。

再次,異體關(guān)系拓?fù)鋱D可以與字書(shū)字料庫(kù)現(xiàn)有的異體關(guān)系標(biāo)注系統(tǒng)互為補(bǔ)充。字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)重在分析異體字的產(chǎn)生原因、產(chǎn)生途徑以及異寫(xiě)與異構(gòu)及其小類。而異體關(guān)系拓?fù)鋱D重在展現(xiàn)異體關(guān)系內(nèi)部的層級(jí)系統(tǒng)以及一組異體字的動(dòng)態(tài)演變過(guò)程,二者相互補(bǔ)充、互為表里,不僅能夠最大限度地將一組異體字所涉及的各種現(xiàn)象分析清楚,而且能夠同時(shí)滿足學(xué)術(shù)研究層面與漢字整理層面的雙重需求,進(jìn)一步擴(kuò)大字書(shū)字料庫(kù)異體關(guān)系界面的服務(wù)范圍[11]。

三 字書(shū)字料庫(kù)異體關(guān)系拓?fù)鋱D的設(shè)計(jì)

前文說(shuō)過(guò),異體關(guān)系拓?fù)鋱D是以拓?fù)鋱D的形式來(lái)展現(xiàn)異體關(guān)系的層級(jí)系統(tǒng)信息。要實(shí)現(xiàn)如上功能,可以將“異體關(guān)系拓?fù)鋱D”設(shè)計(jì)為一個(gè)獨(dú)立界面補(bǔ)充在字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)中,標(biāo)注完異體關(guān)系相關(guān)屬性后,就可以在拓?fù)鋱D界面顯示出異體關(guān)系的層級(jí)系統(tǒng)信息。下面,本文將依次對(duì)異體關(guān)系拓?fù)鋱D界面設(shè)計(jì)過(guò)程中涉及的層級(jí)單位、標(biāo)注原則、所含字段、異體關(guān)系標(biāo)注流程以及注意事項(xiàng)等五個(gè)方面的問(wèn)題進(jìn)行探討。

(一)層級(jí)單位

構(gòu)建異體關(guān)系層級(jí)系統(tǒng)的前提是要確定漢字的層級(jí)單位。王寧先生將漢字分為三個(gè)層面。(1)字樣。在同一形制下,記錄同一個(gè)詞,構(gòu)形、構(gòu)意相同、寫(xiě)法也相同的字稱為一個(gè)字樣。字樣是認(rèn)同別異的基礎(chǔ)單位。(2)字位。在同一體制下,記錄同一個(gè)詞,構(gòu)形、構(gòu)意相同,僅僅是寫(xiě)法不同的字樣,稱作異寫(xiě)字。異寫(xiě)字認(rèn)同后歸納到一起,稱為一個(gè)字位。(3)字種。形體結(jié)構(gòu)不同而音義都相同、記錄同一個(gè)詞、在任何環(huán)境下都可以互相置換的字,稱作異構(gòu)字。異構(gòu)字聚合在一起,稱為一個(gè)字種[12]。本文采取王寧先生的單位名稱與內(nèi)涵,以字樣、字位、字種三級(jí)單位來(lái)指稱異體關(guān)系內(nèi)部的層級(jí)關(guān)系。層級(jí)單位確定之后,便可以選取代表字了。異體關(guān)系中的代表字分別為字位主形與字種正字。字位主形是一組異寫(xiě)字中的代表字形。一般來(lái)說(shuō),一組異寫(xiě)字中,有一個(gè)字樣為本字,其他字樣均為本字的書(shū)寫(xiě)變體,選定字位主形時(shí),優(yōu)先選取這一字樣。字種正字是一組異構(gòu)字中的代表字。字種正字往往優(yōu)先選取現(xiàn)代漢語(yǔ)通用字字形,有時(shí)這些字形并非本字,也并非構(gòu)形理?yè)?jù)最完整的字,但是它在使用中流通度最高,具有代表意義以及辨識(shí)度。由此異體關(guān)系層級(jí)系統(tǒng)便可以建立起來(lái)了。

(二)標(biāo)注原則

1.開(kāi)放性原則

一組異體字其內(nèi)部成員的數(shù)量往往是不固定的,它會(huì)受到所選取字書(shū)不同、采集標(biāo)準(zhǔn)或手段不同、支撐材料的多寡等多種因素的影響。以“流”字為例,《漢語(yǔ)大字典》(第二版)中收錄“流”的異體字為9 個(gè),而臺(tái)灣《異體字字典》(第六版)中收錄“流”的異體字有21 個(gè),多出來(lái)的大都是異寫(xiě)字形。收字?jǐn)?shù)量的不固定直接導(dǎo)致了拓?fù)鋱D層級(jí)數(shù)的不固定。字書(shū)字料庫(kù)目前所收異體字以《漢語(yǔ)大字典》(第二版)為字料基礎(chǔ),隨著入庫(kù)字書(shū)字料的不斷增加以及學(xué)界研究成果的不斷豐富,字料庫(kù)所收異體字的數(shù)量也會(huì)不斷增加。因此,異體關(guān)系拓?fù)鋱D標(biāo)注必須遵循開(kāi)放性原則,要隨時(shí)準(zhǔn)備迎接更多異體成員的加入。

2.共時(shí)性與歷時(shí)性相統(tǒng)一原則

雖說(shuō)異體關(guān)系的判定要在共時(shí)層面或同一形制下進(jìn)行,但這并不妨礙我們從歷時(shí)的角度來(lái)考察異體關(guān)系的動(dòng)態(tài)演變過(guò)程。共時(shí)層面上的異體字隨著時(shí)間的累積,有一部分會(huì)徹底“消亡”不再使用;有一部分功能發(fā)生變化,異體特征消失;有一部分固定下來(lái),進(jìn)入新的形制并一直保持其原有的異體關(guān)系;還有一部分是由原有字形產(chǎn)生的字形變體,這些字形變體經(jīng)過(guò)使用流通后固定下來(lái),源源不斷地進(jìn)入原有的異體關(guān)系中,歷代字書(shū)收字?jǐn)?shù)目的不斷增加很大一部分是這些新增異體字的“貢獻(xiàn)”。因此,我們現(xiàn)在所看到的楷書(shū)層面上的異體字,其內(nèi)部實(shí)際上是具有動(dòng)態(tài)層級(jí)系統(tǒng)的,層級(jí)之間具有父子關(guān)系。子級(jí)字由父級(jí)字產(chǎn)生,同時(shí)又可以作為父級(jí)字產(chǎn)生新的子級(jí)字。異體關(guān)系拓?fù)鋱D既要在同一形制上溝通一組字的異體關(guān)系,同時(shí)又要通過(guò)層級(jí)關(guān)系來(lái)展現(xiàn)一組異體字的動(dòng)態(tài)演變過(guò)程,要滿足共時(shí)性與歷時(shí)性相統(tǒng)一原則。

3.異寫(xiě)關(guān)系與異構(gòu)關(guān)系區(qū)分原則

異寫(xiě)本是異構(gòu)的下位層次,異體關(guān)系拓?fù)鋱D的建立正是為了清晰地展現(xiàn)一組異體字中異寫(xiě)與異構(gòu)的層級(jí)關(guān)系,因此必須將異寫(xiě)與異構(gòu)進(jìn)行明確區(qū)分。但若想僅通過(guò)層級(jí)來(lái)表現(xiàn)異寫(xiě)與異構(gòu)的區(qū)別是不現(xiàn)實(shí)的,因?yàn)楫悓?xiě)與異構(gòu)并非絕對(duì)地分層而立。同一字樣,既可以存在其異寫(xiě)字,同時(shí)又可以存在其異構(gòu)字。例如通過(guò)調(diào)查字書(shū)字料庫(kù)可知,“哲”字既有兩個(gè)異構(gòu)形體“悊”“嚞”,又存在“埑”“?!薄啊薄啊彼膫€(gè)異寫(xiě)形體,它們均與“哲”字直接相關(guān),因此都應(yīng)位于“哲”的下一級(jí)。此時(shí)層級(jí)已經(jīng)不能區(qū)分異寫(xiě)與異構(gòu)了,因此我們采取不同形式的連接線來(lái)區(qū)分異寫(xiě)與異構(gòu),異構(gòu)字我們以粗線來(lái)連接,異寫(xiě)字以細(xì)線來(lái)連接,如此一來(lái),便能清晰地顯現(xiàn)同一層級(jí)中哪些字是異寫(xiě)字,哪些字是異構(gòu)字。

4.狹義異體字與部分異體字兼收原則

學(xué)界對(duì)于異體字的界定存在廣狹之分。從功能上說(shuō),音義全同的異體字為狹義異體字,音義部分相同的異體字為部分異體字,二者合在一起稱為廣義異體字?!稘h語(yǔ)大字典》(第二版)、《通用規(guī)范漢字表》等權(quán)威性字書(shū)、字表均將狹義異體字與部分異體字共同收錄。這是因?yàn)槎吣軌蛟诓煌瑢用嫔习l(fā)揮作用。狹義異體字整理主要在學(xué)術(shù)層面發(fā)揮作用,廣義異體字整理主要在應(yīng)用層面發(fā)揮作用。一旦把部分異體字納入異體字的整理范疇,許多音義部分相同的字形將會(huì)被取消,但實(shí)際上這些字形的記詞職能并沒(méi)有完全被保留下來(lái)的字取代[13],這就會(huì)影響表達(dá)的準(zhǔn)確性,造成學(xué)術(shù)研究上的不便。漢字整理的任務(wù)是要告訴人們使用漢字時(shí)要用哪個(gè)字形或者不用哪個(gè)字形,將部分異體字作為整理對(duì)象是具有合理性的。異體關(guān)系拓?fù)鋱D的建立既要滿足學(xué)術(shù)研究的需要,又要在漢字整理層面發(fā)揮作用,因此必須將狹義異體字與部分異體字共同納入拓?fù)鋱D當(dāng)中。

雖然要將狹義異體字與部分異體字共同納入拓?fù)鋱D中以便研究,但也不能將二者混淆,否則會(huì)造成使用者的混亂。為了在拓?fù)鋱D中將二者清晰地區(qū)分開(kāi)來(lái),我們采取了不同的標(biāo)注方式,狹義異體字用藍(lán)色線條連接,部分異體字用紅色線條連接。

(三)所含字段

字書(shū)字料庫(kù)異體關(guān)系拓?fù)鋱D界面除了拓?fù)鋱D圖形本身,還應(yīng)包括“異體字頭”“狹義或部分”“異寫(xiě)或異構(gòu)”“所屬層級(jí)”“父級(jí)異體”“子級(jí)異體”六個(gè)基本字段。每一組異體字的異體關(guān)系拓?fù)鋱D,都是在這六個(gè)基本字段的標(biāo)注過(guò)程中形成的。其基本界面如圖2 所示。

圖2 異體關(guān)系拓?fù)鋱D界面

1.異體字頭

此字段下設(shè)選項(xiàng)與字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系界面的“異體字頭”字段下設(shè)選項(xiàng)保持一致,隨著異體關(guān)系界面“異體字頭”的變化而變化。設(shè)置此字段的意義在于存放異體字頭,用于拓?fù)鋱D的點(diǎn)選標(biāo)注。

2.狹義或部分

此字段下設(shè)選項(xiàng)與字料庫(kù)現(xiàn)有異體關(guān)系界面的“異體字頭”字段下設(shè)選項(xiàng)保持一致,用于區(qū)分狹義異體字與部分異體字。這一字段的標(biāo)注結(jié)果直接反映在拓?fù)鋱D中所標(biāo)注異體字的連接線顏色上,此字段選擇狹義異體字,拓?fù)鋱D中的異體字連接線顏色為藍(lán)色;選擇部分異體字,拓?fù)鋱D當(dāng)中的異體字連接線顏色為紅色。

3.異寫(xiě)或異構(gòu)

這一字段用于標(biāo)注異體字的類別,某一異體字究竟屬于異寫(xiě)字還是異構(gòu)字是異體關(guān)系拓?fù)鋱D標(biāo)注的關(guān)鍵屬性,也是標(biāo)注難度最大的屬性。對(duì)于這一屬性的判定要參考字料庫(kù)異體關(guān)系界面現(xiàn)有的標(biāo)注成果以及其他參證文獻(xiàn),且判定結(jié)果需要經(jīng)過(guò)專業(yè)人員校驗(yàn)審查。這一字段的標(biāo)注結(jié)果直接反映在拓?fù)鋱D中所標(biāo)注異體字的連接線上,此字段選擇異寫(xiě),連接線為細(xì)線,此字段選擇異構(gòu),連接線為粗線。

4.所屬層級(jí)

雖然異體關(guān)系層級(jí)單位只有字種、字位、字樣三級(jí),但異體關(guān)系層級(jí)系統(tǒng)可以是多層的,層級(jí)數(shù)根據(jù)異體關(guān)系的復(fù)雜程度而定,因此這一字段下雖然設(shè)置了“一級(jí)”“二級(jí)”“三級(jí)”等選項(xiàng),但級(jí)數(shù)可以自由增加,以保證層級(jí)系統(tǒng)的開(kāi)放性與包容性。此字段與拓?fù)鋱D自動(dòng)關(guān)聯(lián),標(biāo)注者通過(guò)為異體字頭中的某一異體字標(biāo)注層級(jí)數(shù),來(lái)固定這一異體字在拓?fù)鋱D中的位置;而用戶可通過(guò)點(diǎn)擊拓?fù)鋱D當(dāng)中的某一異體字,來(lái)觀察這一異體字在此字段中顯示的層級(jí)數(shù)。其中一級(jí)為字種正字,照此順序向下排列字級(jí)。

5.父級(jí)異體

此字段包含的選項(xiàng)與異體字頭內(nèi)選項(xiàng)保持一致,可通過(guò)點(diǎn)選來(lái)標(biāo)注某一異體字在拓?fù)鋱D中的父級(jí)字也就是其來(lái)源字或上位字。通過(guò)這一字段可以展現(xiàn)某個(gè)異體字的來(lái)源。異體字的父級(jí)字只能有一個(gè)。

6.子級(jí)異體

此字段包含的選項(xiàng)與異體字頭內(nèi)選項(xiàng)保持一致,可通過(guò)點(diǎn)選來(lái)標(biāo)注某一異體字在拓?fù)鋱D當(dāng)中的子級(jí)字(也就是變形字或下位字)。要注意的是,一個(gè)異體字只能有一個(gè)父級(jí)字,但可以有一個(gè)或多個(gè)子級(jí)字,故而此字段是多項(xiàng)選擇字段,可以同時(shí)選擇一個(gè)或多個(gè)異體字頭。

(四)代表字的選取

前文提到,在異體關(guān)系拓?fù)鋱D當(dāng)中字位主形與字種正字發(fā)揮著系聯(lián)與統(tǒng)領(lǐng)整個(gè)系統(tǒng)的重要作用,因此必須要按照一定的原則選取代表字。字位主形是一組異寫(xiě)字中的代表字形;字種正字即一組異構(gòu)字中的代表字形。選取代表字是為了將字位與字種內(nèi)的不同形體串聯(lián)起來(lái),使其層級(jí)關(guān)系清晰明確。

首先,代表字的選取因目的和適用范圍的不同而不同。例如用于中國(guó)大陸地區(qū)現(xiàn)代社會(huì)用字規(guī)范的異體字整理,其代表字應(yīng)該優(yōu)先選取規(guī)范的簡(jiǎn)化字;而用于中國(guó)臺(tái)灣地區(qū)社會(huì)用字規(guī)范的異體字整理,其代表字就應(yīng)該優(yōu)先選取臺(tái)灣地區(qū)社會(huì)所通用的規(guī)范繁體字。其次,代表字的選取必須堅(jiān)持一致性原則,要用新字形作代表字,層級(jí)系統(tǒng)內(nèi)的所有代表字都應(yīng)選取新字形。要用舊字形作代表字,那么層級(jí)系統(tǒng)內(nèi)的所有代表字都應(yīng)選取舊字形[14]。再次,代表字必須具有值得被優(yōu)先選取的特性。王寧先生提出了字形優(yōu)選的五項(xiàng)標(biāo)準(zhǔn):“1.有利于形成和保持嚴(yán)密的文字系統(tǒng)。2.盡量保持和維護(hù)漢字的表意示源功能。3.最大限度地減少筆畫(huà)。4.字符之間有足夠的區(qū)別度。5.盡可能估計(jì)字符的社會(huì)流通度?!保?5]根據(jù)這五條標(biāo)準(zhǔn)并結(jié)合異體字整理與標(biāo)注的實(shí)際情況,我們認(rèn)為,在選取字位主形與字種正字時(shí),應(yīng)該優(yōu)先選取社會(huì)流通度高且具有辨識(shí)度與代表性的字形(這項(xiàng)工作需要首先建立基于大規(guī)模古今真實(shí)文本的漢字字料庫(kù),在此基礎(chǔ)上生成古今文本用字字頻統(tǒng)計(jì)數(shù)據(jù),從而確定字符的社會(huì)流通度);在流通度差距較小的情況下,應(yīng)該優(yōu)先選取構(gòu)形理?yè)?jù)更為完整的字形。

(五)異體關(guān)系標(biāo)注流程

異體關(guān)系拓?fù)鋱D對(duì)異體關(guān)系的標(biāo)注流程為:首先,進(jìn)入字書(shū)字料庫(kù)異體關(guān)系界面點(diǎn)擊拓?fù)鋱D按鈕,進(jìn)入當(dāng)前字頭的拓?fù)鋱D標(biāo)注界面,此時(shí)字種正字已經(jīng)位于拓?fù)鋱D中一級(jí)字的位置上了;其次,將界面現(xiàn)有標(biāo)注系統(tǒng)內(nèi)的字段與拓?fù)鋱D內(nèi)的字段進(jìn)行系聯(lián)對(duì)接,即將現(xiàn)有系統(tǒng)內(nèi)“異體字頭”字段中的內(nèi)容對(duì)接到拓?fù)鋱D中“異體字頭”“父級(jí)異體”“子級(jí)異體”三個(gè)字段當(dāng)中,將現(xiàn)有標(biāo)注系統(tǒng)“狹義或部分”字段中的內(nèi)容對(duì)接到拓?fù)鋱D中“狹義或部分”字段,完成標(biāo)注前的準(zhǔn)備工作;再次,由專業(yè)人員對(duì)當(dāng)前字頭的異寫(xiě)異構(gòu)、層級(jí)數(shù)、父級(jí)異體、子級(jí)異體等屬性進(jìn)行標(biāo)注。隨著標(biāo)注工作的進(jìn)行,異體關(guān)系拓?fù)鋱D也會(huì)隨之建立。等標(biāo)注工作完成,異體關(guān)系拓?fù)鋱D也建立完畢。最后,對(duì)照拓?fù)鋱D的演示圖示對(duì)異體層級(jí)系統(tǒng)標(biāo)注內(nèi)容進(jìn)行校驗(yàn)審核,若有錯(cuò)誤及時(shí)改正,若無(wú)錯(cuò)誤,點(diǎn)擊保存。

需要特別指出的是,拓?fù)鋱D當(dāng)中的每一層級(jí)都可能產(chǎn)生不同的“字位主形”或“字種正字”。作為子級(jí)字的上層代表字,父級(jí)字不是一組異寫(xiě)字的主形,便是一組異構(gòu)字的正字。但是如此多的“字位主形”與“字種正字”放在一起勢(shì)必會(huì)為異體層級(jí)系統(tǒng)的梳理與構(gòu)建帶來(lái)不便,而且這些“字位主形”與“字種正字”是同一系統(tǒng)中的不同層級(jí)的代表字。為了更好地串聯(lián)一組異體字的所有成員,使其層級(jí)關(guān)系清晰明確,不論異體關(guān)系存在多少層級(jí),一組異體字中的字種正字只指位于一級(jí)層次的那個(gè)字樣,字位主形指的是優(yōu)選出字種正字的那一組候選字形,其余層次的父級(jí)字均用代表字來(lái)指稱即可。

四 拓?fù)鋱D系統(tǒng)與字料庫(kù)現(xiàn)有異體關(guān)系系統(tǒng)的對(duì)接

字料庫(kù)中現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)可以清晰展現(xiàn)異體字的產(chǎn)生原因、產(chǎn)生途徑、異寫(xiě)或是異構(gòu)以及異寫(xiě)與異構(gòu)的具體類型,但是現(xiàn)有標(biāo)注系統(tǒng)只能顯示字種正字與其他每個(gè)異體字之間的單線聯(lián)系,而不能顯示該組異體字的層級(jí)系統(tǒng)信息。如此一來(lái),與字種正字不直接相關(guān)的那些異體字的來(lái)源、關(guān)系以及整個(gè)異體字組的演變過(guò)程及規(guī)律都無(wú)法得到有效體現(xiàn),由此產(chǎn)生了一些標(biāo)注方面的問(wèn)題。而異體關(guān)系拓?fù)鋱D能很好地解決這一問(wèn)題,通過(guò)拓?fù)鋱D所展示的層級(jí)系統(tǒng),我們可以清晰地看到異體字之間的關(guān)系,理清每個(gè)異體字的來(lái)源及演變過(guò)程,異體字組內(nèi)諸成員的發(fā)展脈絡(luò)便清晰可見(jiàn)。由此可見(jiàn),異體關(guān)系拓?fù)鋱D與字書(shū)字料庫(kù)現(xiàn)有的異體關(guān)系標(biāo)注系統(tǒng)互為補(bǔ)充,二者結(jié)合在一起,不僅能夠把握異體字的整體分類,而且可以理清異體字的內(nèi)部層級(jí)系統(tǒng),真正達(dá)到科學(xué)、系統(tǒng)、大規(guī)模地整理異體字的目標(biāo)。

異體關(guān)系拓?fù)湎到y(tǒng)是在字書(shū)字料庫(kù)現(xiàn)有異體關(guān)系標(biāo)注系統(tǒng)的基礎(chǔ)上進(jìn)一步發(fā)展起來(lái)的。拓?fù)湎到y(tǒng)標(biāo)注的字料來(lái)源以及層級(jí)數(shù)、父級(jí)子級(jí)、異寫(xiě)異構(gòu)的判定依據(jù)均以現(xiàn)有系統(tǒng)的標(biāo)注成果為基礎(chǔ),這就要求拓?fù)湎到y(tǒng)在建設(shè)過(guò)程中必須要做好與現(xiàn)有系統(tǒng)的對(duì)接工作。想要做好這一工作,首先要找出二者的共同點(diǎn)。第一,拓?fù)湎到y(tǒng)中的異體字頭、父級(jí)異體、子級(jí)異體、狹義或部分可以與現(xiàn)有系統(tǒng)的標(biāo)注成果直接對(duì)接。第二,拓?fù)湎到y(tǒng)是按照異寫(xiě)和異構(gòu)來(lái)進(jìn)行層級(jí)劃分的,而現(xiàn)有標(biāo)注系統(tǒng)已經(jīng)對(duì)一組異體字的異寫(xiě)與異構(gòu)關(guān)系進(jìn)行了初步整理,雖然只是字種正字與其他字形的直接對(duì)比結(jié)果,與拓?fù)湎到y(tǒng)存在本質(zhì)區(qū)別,但我們?nèi)阅荛g接利用現(xiàn)有標(biāo)注成果對(duì)其內(nèi)在層級(jí)關(guān)系進(jìn)行判斷,使拓?fù)湎到y(tǒng)的標(biāo)注工作“有理可依”。因此,在進(jìn)行異體關(guān)系現(xiàn)有系統(tǒng)的標(biāo)注工作時(shí),要有意識(shí)地標(biāo)注出異體字之間的父子關(guān)系,為拓?fù)湎到y(tǒng)的標(biāo)注工作打好基礎(chǔ)。

五 字書(shū)字料庫(kù)異體關(guān)系拓?fù)鋱D標(biāo)注舉例

下面以“流”字為例,對(duì)字書(shū)字料庫(kù)異體關(guān)系拓?fù)鋱D進(jìn)行標(biāo)注實(shí)驗(yàn)。

“流”字在《漢語(yǔ)大字典》(第二版)中的異體字有9 個(gè),分別是“”“”“ ”“”“”“”“”“”“”。下面我們進(jìn)行逐字分析。

5.

同“流”?!队衿に俊罚骸?,古文流?!保?0]

圖3 “流”字異體關(guān)系拓?fù)鋱D

六 結(jié)語(yǔ)

以上,我們以渤海大學(xué)CCFD 字書(shū)字料庫(kù)異體關(guān)系的標(biāo)注為研究對(duì)象,介紹了字料庫(kù)異體關(guān)系界面現(xiàn)有標(biāo)注系統(tǒng),總結(jié)了其優(yōu)點(diǎn)與不足,又提出了增加“異體關(guān)系拓?fù)鋱D”界面的優(yōu)化意見(jiàn),并詳細(xì)闡述了這一界面所包含的主要內(nèi)容、標(biāo)注流程、標(biāo)注示例、應(yīng)用價(jià)值等相關(guān)問(wèn)題。

異體關(guān)系拓?fù)鋱D將異體關(guān)系數(shù)據(jù)轉(zhuǎn)化為視覺(jué)圖像,能夠幫助我們高效直觀地獲取數(shù)據(jù)中蘊(yùn)含的異體關(guān)系層級(jí)信息,使我們有可能更容易發(fā)現(xiàn)數(shù)據(jù)背后隱藏的異體發(fā)生規(guī)律,是當(dāng)前異體關(guān)系整理與展示模式的重要變革,將會(huì)成為當(dāng)前異體關(guān)系深入整理的主要研究對(duì)象之一。與此同時(shí),字料庫(kù)這一數(shù)字化漢字整理新平臺(tái)的問(wèn)世為當(dāng)前異體關(guān)系層級(jí)系統(tǒng)的建構(gòu)提供了海量的字料基礎(chǔ)和強(qiáng)大的技術(shù)支持,無(wú)疑會(huì)將異體字科學(xué)化、可視化整理工作推向一個(gè)新的高度。希望學(xué)界能夠積極關(guān)注并投身于基于字料庫(kù)的異體關(guān)系拓?fù)溲芯?,共同推進(jìn)漢字異體整理研究工作的順利深入開(kāi)展。

【責(zé)任編輯 王 濤】

猜你喜歡
異體字字書(shū)字段
東巴文字典異體字的整理與編纂規(guī)范
帶鉤或不帶鉤選擇方框批量自動(dòng)換
我國(guó)古代字書(shū)芻議
漢文佛典:譜寫(xiě)漢字研究新篇章
清代《崇儒尊釋雙龍告示碑》考釋
簡(jiǎn)化字規(guī)范問(wèn)題例說(shuō)
雁字書(shū)
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
“無(wú)字書(shū)”