国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

書(shū)同文字與再造書(shū)契
——論古籍?dāng)?shù)字化時(shí)代的字符統(tǒng)一與文本規(guī)范

2023-10-30 12:21:06李飛躍
關(guān)鍵詞:字符集異體字古籍

李飛躍

清華大學(xué) 人文學(xué)院,北京 100084

當(dāng)前,古籍?dāng)?shù)字化的重心已由圖像掃描向數(shù)碼識(shí)別轉(zhuǎn)變,古籍?dāng)?shù)據(jù)庫(kù)也已從全文檢索向關(guān)系型、結(jié)構(gòu)化的智慧型數(shù)據(jù)庫(kù)演變。古籍?dāng)?shù)字資源的生產(chǎn)、使用、轉(zhuǎn)化等全過(guò)程首先離不開(kāi)字符的規(guī)范,但字體字形多樣、字際關(guān)系復(fù)雜和編碼系統(tǒng)不一,以及各種文本庫(kù)和數(shù)據(jù)平臺(tái)的內(nèi)碼、格式不同,嚴(yán)重阻礙了古籍的整理、編輯、存儲(chǔ)、呈現(xiàn)、檢索、轉(zhuǎn)換和深度利用。加上字符標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)和文本形態(tài)等方面存在的問(wèn)題,造成目前的古籍電子文本和數(shù)據(jù)庫(kù),連最基礎(chǔ)的字頻統(tǒng)計(jì)都無(wú)法做到精確,極大限制了古籍?dāng)?shù)字化和智能化的發(fā)展。隨著人工智能技術(shù)的應(yīng)用,古籍識(shí)別效率和準(zhǔn)確率大幅提升。不僅大量異體異形字順勢(shì)進(jìn)入各種數(shù)據(jù)庫(kù),一些域外漢字隨之流通,廢棄漢字被激活。各家造字和認(rèn)同標(biāo)準(zhǔn)不一,也給古籍?dāng)?shù)據(jù)庫(kù)建設(shè)埋下了隱患。如果對(duì)字符集和文本庫(kù)建設(shè)問(wèn)題思慮不周或處置不當(dāng),大量噪音與“蟻穴”將使古籍?dāng)?shù)字化難以持續(xù)深入,數(shù)字文獻(xiàn)和信息平臺(tái)建設(shè)不得不反復(fù)回頭解決字符認(rèn)同和文本對(duì)齊問(wèn)題,將對(duì)科學(xué)研究和文化教育事業(yè)造成不可估量的損失。2022年4月,中辦國(guó)辦印發(fā)了《關(guān)于推進(jìn)新時(shí)代古籍工作的意見(jiàn)》,提出要統(tǒng)籌實(shí)施國(guó)家古籍?dāng)?shù)字化工程,加強(qiáng)古籍?dāng)?shù)據(jù)流通和協(xié)同管理,實(shí)現(xiàn)古籍?dāng)?shù)字化資源匯聚共享,“積極開(kāi)展古籍文本結(jié)構(gòu)化、知識(shí)體系化、利用智能化的研究和實(shí)踐,加速推動(dòng)古籍整理利用轉(zhuǎn)型升級(jí)”(1)《中辦國(guó)辦印發(fā)意見(jiàn) 推進(jìn)新時(shí)代古籍工作》,《人民日?qǐng)?bào)》,2022年4月12日,第1版。。黨的二十大報(bào)告強(qiáng)調(diào)要“實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略,健全現(xiàn)代公共文化服務(wù)體系,創(chuàng)新實(shí)施文化惠民工程”(2)習(xí)近平:《高舉中國(guó)特色社會(huì)主義偉大旗幟 為全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家而團(tuán)結(jié)奮斗——在中國(guó)共產(chǎn)黨第二十次全國(guó)代表大會(huì)上的報(bào)告》,《人民日?qǐng)?bào)》,2022年10月26日,第4版。。字符集和文本庫(kù)作為古籍?dāng)?shù)字化和文化大數(shù)據(jù)的基礎(chǔ),不僅關(guān)系到中華歷史文明的賡續(xù),也影響著中華民族現(xiàn)代文明的創(chuàng)造。

一、古籍中常見(jiàn)的字符不規(guī)范問(wèn)題

古文字不僅有篆、隸、楷、行、草等不同寫法,更有繁、簡(jiǎn)、俗、古、外等各異書(shū)體。不同的時(shí)代、區(qū)域和行業(yè),都會(huì)產(chǎn)生諸多異體字和異形字。繁簡(jiǎn)字、異體字、俗體字、避諱字、同形字、同源字、通假字等術(shù)語(yǔ),反映了字際關(guān)系的復(fù)雜。古今字是影響漢字規(guī)范的最大因素,今字既可承擔(dān)古字的某一義項(xiàng)(本義、引申義),也可承擔(dān)古字的全部義項(xiàng)。多數(shù)情況下,今字只分擔(dān)古字中的某一個(gè)意義,“今字產(chǎn)生以后,古字并未完全消失,而后人常常出于仿古的習(xí)慣還會(huì)使用古字來(lái)代替今字”(3)許嘉璐:《古代漢語(yǔ)(上)》,北京:高等教育出版社,1992年,第67頁(yè)。。新舊字從筆形、筆畫(huà)、筆順、部件、結(jié)構(gòu)等方面出現(xiàn)多重差異。繁體字系統(tǒng)內(nèi),仍有繁簡(jiǎn)差異。繁簡(jiǎn)轉(zhuǎn)化時(shí),部分漢字有了相對(duì)明確的轉(zhuǎn)換標(biāo)準(zhǔn),但有些需依據(jù)語(yǔ)境和功能來(lái)判斷。歷代基本用字不斷遞增,如古代收字最多的韻書(shū)《集韻》,無(wú)論一個(gè)字有多少種不同寫法,有據(jù)則收,“凡古文,見(jiàn)經(jīng)史諸書(shū)可辨識(shí)者取之”(4)曾棗莊、劉琳:《全宋文》卷395,上海:上海辭書(shū)出版社;合肥:安徽教育出版社,2006年,第171頁(yè)。,故有一字二三體甚至八九體者。手寫體更甚,如“壽”字在古代書(shū)法中就有5000多種寫法。不同時(shí)代和地區(qū)的古籍使用了不同字體、字形和特殊字符,尤其一些專業(yè)古籍如地方文獻(xiàn)、民族文獻(xiàn)、宗教文獻(xiàn)和域外漢籍等所用字符極為浩繁。其規(guī)范只能是依據(jù)現(xiàn)有通則,如《通用規(guī)范漢字表》收錄規(guī)范漢字外,附錄收繁體字2574個(gè)、簡(jiǎn)體字1023個(gè)。受漢字排印技術(shù)影響,新舊字形在印刷出版物中曾長(zhǎng)期混用。隨著這些文獻(xiàn)的電子化,也大量進(jìn)入了數(shù)據(jù)庫(kù),成為字符集的重要來(lái)源。CJK 20902編碼字符集中,也有近6000字存在新舊字形問(wèn)題。分別造字、不同字符集和數(shù)據(jù)庫(kù)的碼位和字形對(duì)應(yīng)關(guān)系各異,不僅會(huì)造成無(wú)法顯示和檢索,也將造成數(shù)據(jù)結(jié)構(gòu)錯(cuò)亂,合并成庫(kù)之后再難對(duì)齊和統(tǒng)一替換。

簡(jiǎn)體字與規(guī)范字也存在大量“二簡(jiǎn)字”的問(wèn)題。1977年發(fā)布的《二簡(jiǎn)(草案)》,后來(lái)雖被廢止,但部分“二簡(jiǎn)字”已成為常用字,《漢語(yǔ)大字典》、《漢語(yǔ)大詞典》、《現(xiàn)代漢語(yǔ)詞典》和《通用規(guī)范漢字表》出現(xiàn)“二簡(jiǎn)字”273例,Unicode字符集收錄“二簡(jiǎn)字”269例。有些甚至取代“原字”成為正體字,如咨(諮)、板(舢、舨)、燉(燉)、亮(喨)等。此外,民間還保留著一些其他的“二簡(jiǎn)字”書(shū)寫形式?!凹热唤y(tǒng)一碼對(duì)這些字進(jìn)行了編碼,那么這些字就能夠通過(guò)一些特殊輸入法(如:田氏二簡(jiǎn)字輸入法)編輯出來(lái)被電腦識(shí)別。也就是說(shuō),這批漢字目前暫時(shí)貯存在數(shù)字編碼之中,一旦條件成熟,這些字形仍有可能從封存狀態(tài)中掙脫出來(lái)重新被起用。統(tǒng)一碼對(duì)這些漢字進(jìn)行編碼,事實(shí)上為‘二簡(jiǎn)字’脫離手寫環(huán)境,在數(shù)碼環(huán)境中傳播創(chuàng)造了條件?!?5)李寶生:《遺存“二簡(jiǎn)字”研究》,湖南師范大學(xué)碩士學(xué)位論文,2021年,第7-8、76頁(yè)。字體簡(jiǎn)化或歸類合并,哪些漢字需要認(rèn)同,如何認(rèn)同,有時(shí)候并無(wú)統(tǒng)一標(biāo)準(zhǔn)。即便是在字體、字形、字碼等層面實(shí)現(xiàn)了統(tǒng)一,在音、形、義等方面仍需界定。尤其在不同修辭和語(yǔ)境中,諸如簡(jiǎn)體字內(nèi)部的“帖貼、分份、象像、他它、申伸、聯(lián)連、畫(huà)劃”等,它們的認(rèn)同與歸并仍需得到學(xué)術(shù)研究的支撐。

同是繁體字,寫法不盡相同,大陸的“顔”與臺(tái)灣地區(qū)的“顏”、臺(tái)灣地區(qū)的“峰”與香港的“峯”等書(shū)寫方式和出版物樣態(tài)不同。臺(tái)灣地區(qū)也在推行標(biāo)準(zhǔn)字體,如1982年公布的《常用“國(guó)”字標(biāo)準(zhǔn)字體表》,此外還公布了《次常用“國(guó)”字標(biāo)準(zhǔn)字體表》、《異體字表》、《罕用字體表》等。將大陸的《現(xiàn)代漢語(yǔ)通用字表》(7000字)與臺(tái)灣地區(qū)的《標(biāo)準(zhǔn)字體表》(4808字)對(duì)比,可見(jiàn)“在4786個(gè)常用字或通用字中,大陸和臺(tái)灣地區(qū)的現(xiàn)行漢字字形存在或多或少差異的共有2839字,占比較總字?jǐn)?shù)的59%”(6)費(fèi)錦昌:《海峽兩岸現(xiàn)行漢字字形的比較分析》,《語(yǔ)言文字應(yīng)用》,1993年第1期,第41頁(yè)。。大陸繁體字不等同于港臺(tái)繁體字,兩岸三地的簡(jiǎn)體字也存在差異:“香港《常用字》中的簡(jiǎn)體字與大陸簡(jiǎn)化字相同或相似的字形有2718個(gè)字,占總收字的50.3%;臺(tái)灣地區(qū)《常用“國(guó)”標(biāo)字》中簡(jiǎn)體字與大陸簡(jiǎn)化字相同或相似的有2623字,占總收字的54.5%?!?7)黃艷萍:《兩岸三地現(xiàn)行漢字字形研究與書(shū)同文》,西南大學(xué)碩士學(xué)位論文,2012年,第18頁(yè)。以往這些差異在印刷或電子文本層面影響不大,但會(huì)對(duì)字符編碼造成較大影響。

古籍還雜有滿、蒙、彝等民族文字,日、韓、拉丁文等外國(guó)文字。中文編碼字符集簡(jiǎn)繁并存,含有越南喃字、韓文吏讀字、日本和字及簡(jiǎn)化漢字等。這些漢字在古籍文本中,隨著印本交流和電子文本匯聚,越來(lái)越多出現(xiàn)混用。從《四部叢刊》到今天的域外漢籍叢刊,或選為底本而影印、翻排(如《春秋正義》所選日本正宗寺手抄本),使得日、韓、越等國(guó)漢字也順勢(shì)進(jìn)入出版系統(tǒng)。日本略字與中國(guó)簡(jiǎn)化字有的大同小異甚至完全相同,如“單”與日文略字“単”、“藝”與“蕓”,前后兩字的國(guó)際編碼不同。而諸如“淺”等中日漢字簡(jiǎn)體,也存在字形不同而碼點(diǎn)相同的問(wèn)題。其他使用漢字的國(guó)家,有不同的標(biāo)準(zhǔn)源。中文正字“靑”,通行字是“青”,因而國(guó)標(biāo)源早期只提交了“青”;日本源只有新字體“青”,韓國(guó)源則只提交了“靑”。國(guó)標(biāo)源、日本源、越南源等都從“青”,只有韓國(guó)源從“靑”,于是CJK基本集據(jù)字源分離原則為“靑”和“青”分配了不同的碼位,造成一系列同類字也被分離成兩個(gè)字(8)尉遲治平:《再論中文漢字字符集》,《語(yǔ)言研究》,2020年第1期,第81頁(yè)。。

一些專業(yè)典籍如宗教、術(shù)數(shù)、醫(yī)學(xué)古籍的用字量大,異構(gòu)和異寫字多,常采用類推簡(jiǎn)化的方式。漢字認(rèn)同,實(shí)質(zhì)是大量消減異體字。國(guó)家圖書(shū)館“數(shù)字方志”項(xiàng)目第一期項(xiàng)目總字量逾2億字,為控制造字量,“將14萬(wàn)多個(gè)提取出的異體字、刻寫錯(cuò)字等都進(jìn)行了認(rèn)同處理,從而將造字量控制到4866個(gè)”(9)藍(lán)德康:《關(guān)于完成國(guó)家圖書(shū)館古代“地方志”全文數(shù)字化一期工程的要點(diǎn)》,《第四屆中國(guó)古籍?dāng)?shù)字化國(guó)際學(xué)術(shù)研討會(huì)論文集》,北京:五洲傳播出版社,2015年,第69-78頁(yè)。?!跺玫浼肺淖至砍^(guò)20億字,通過(guò)集外字認(rèn)同,實(shí)現(xiàn)了“最大特色是文本精確無(wú)缺字”(10)《瀚堂典藏》資料庫(kù)說(shuō)明:https://www.hytung.cn/Introductions/Introduction.aspx,2022年10月1日。。漢字的差異是歷史和文化造成的,如果用來(lái)表達(dá)或認(rèn)同為已有字符,不僅會(huì)丟失文字和文化信息,也會(huì)割裂字際、符號(hào)、知識(shí)之間原有的關(guān)聯(lián),事實(shí)上改變了古籍面貌和文本性質(zhì)。漢字的處理需要不同的層級(jí)標(biāo)準(zhǔn),在“字種”范疇下處理繁簡(jiǎn)、形體差異問(wèn)題。應(yīng)基于符號(hào)系統(tǒng)而非單個(gè)字形來(lái)界定每個(gè)字,但對(duì)于同形異字,哪怕字形一致,也歸為不同的字。古籍中有合文、重文現(xiàn)象,這些符號(hào)也應(yīng)視為一字。每一個(gè)通假字、俗體甚至錯(cuò)別字都有其意義和價(jià)值,尤其在方言和民俗學(xué)中有表音、特指功能。是否保留異體字要考慮到版本和研究宗旨,在確立標(biāo)準(zhǔn)作出取舍的同時(shí),也應(yīng)避免所蘊(yùn)含的文化信息隨之遺失。

避諱字、草體字(手寫)和對(duì)音字,極大增加了古今漢字轉(zhuǎn)換的復(fù)雜性。避諱常用改字、空字、缺筆等方法,唐高宗《臨文不諱詔》說(shuō):“比見(jiàn)鈔寫古典,至于朕名,或缺其點(diǎn)畫(huà),或隨便改換,恐六籍雅言,會(huì)意多爽;九流通義,指事全違,誠(chéng)非立書(shū)之本意。”(11)王欽若等編:《冊(cè)府元龜·帝王部·名諱》,北京:中華書(shū)局,1960年,第36頁(yè)。雖已經(jīng)指出這種辦法不利于文意的正確表達(dá),但避諱字已成為文本和文化的一部分。不改回原字會(huì)影響文本的準(zhǔn)確性,而改回原字的標(biāo)準(zhǔn)與邊界也難以簡(jiǎn)單劃定,有些改字可能已成為新的用字規(guī)范。正體也是不斷發(fā)生變化的,如“婿”與“壻”,許慎《說(shuō)文》所選正體是“壻”,今則用“婿”。繁簡(jiǎn)字、正異字、正俗字等字際關(guān)系因地域和時(shí)代而別,如秦文字以“環(huán)”為返還之“還”,楚文字以“緩”為寬厚之“寬”等(12)吳曉懿:《戰(zhàn)國(guó)書(shū)法研究》,濟(jì)南:山東教育出版社,2018年,第102頁(yè)。?!奥尻?yáng)”與“雒陽(yáng)”,漢光武之后因?yàn)椤皾h水德,忌水,故去‘洛’‘水’而加‘隹’”,而曹魏因行次為土,“故除‘隹’加水,變‘雒’為‘洛’”(13)《二十五史》,上海:上海古籍出版社;上海:上海書(shū)店,1986年,第515、1077頁(yè)。。這些異體字由歷史累積形成,無(wú)法簡(jiǎn)單轉(zhuǎn)換或統(tǒng)一。前后統(tǒng)一后,會(huì)將這些歷史文化信息遮蔽。

20世紀(jì)50年代的漢字編碼曾采用當(dāng)時(shí)的電報(bào)碼或四角號(hào)碼,70年代出現(xiàn)了鍵盤編碼、漢字的點(diǎn)陣描述和輸出等。目前,無(wú)論向量造字還是曲線輪廓造字,并非將字庫(kù)中所有文字直接描繪出來(lái),而是將一定數(shù)量有代表性的字拆分,獲取橫、豎、撇、捺、折等字根和部件,然后組合成所需字符。異體字、異形字是基于印刷甚至手寫層面的規(guī)范,在電子層面更細(xì)顆粒度上又需要重新規(guī)范。繁簡(jiǎn)、正俗之外,新舊問(wèn)題最為突出。古文字部件及其數(shù)量、位置的差異的異體字,筆畫(huà)相對(duì)位置、長(zhǎng)度和粗細(xì)等差異的異形字,同時(shí)期的同一字呈現(xiàn)字形差異較為常見(jiàn)。古籍?dāng)?shù)據(jù)庫(kù)中同字不同碼現(xiàn)象尤為常見(jiàn),如“文淵閣《四庫(kù)全書(shū)》電子版”有“彝(5F5D)、彛(5F5B)、彜(5F5C)、彞(5F5E)”等四種,檢一字而其他字失檢。GBK字符集中也有同字多碼現(xiàn)象,包括“吳呉、尙尚、捜搜、寜寧、宮宮、愼慎、恵惠、徴徵、徳德”等常用字(14)劉凌、劉志基:《中文字符集竟這樣不完備——傳統(tǒng)文化如何在數(shù)字化時(shí)代傳播》,《文匯學(xué)人》,2019年6月14日。。王寧先生指出:“新字形是對(duì)舊有的宋體字書(shū)寫屬性的改造,如果把新字形與所謂的‘舊字形’對(duì)照起來(lái),他們之間是異寫字的關(guān)系;而且,這些新字形大多數(shù)也是從歷史字形中選出的,也是符合真實(shí)存在的原則的?!?15)王寧:《論漢字規(guī)范的社會(huì)性與科學(xué)性——新形勢(shì)下對(duì)漢字規(guī)范問(wèn)題的反思》,《中國(guó)社會(huì)科學(xué)》,2004年第3期,第177頁(yè)。異寫關(guān)系是抄寫內(nèi)的認(rèn)同,甚至也在印刷形態(tài)漢字標(biāo)準(zhǔn)的容錯(cuò)范圍之內(nèi)?!皡?呂”、“説/說(shuō)”、“耕/畊”、“亙/亙”、“衆(zhòng)/眾”等,在手寫和印刷文本中不難判定是同一字,但在字符集中就是完全不同的字。除非建立字際關(guān)聯(lián)和文字認(rèn)同,類似情況只能作為不同字處理。

二、數(shù)字化讓古籍字符的統(tǒng)一成為突出問(wèn)題

文字在計(jì)算機(jī)中是以編碼而非圖形來(lái)存儲(chǔ)和表達(dá)的,數(shù)字化就是將傳統(tǒng)的語(yǔ)言文字符號(hào)轉(zhuǎn)化為數(shù)字編碼符號(hào),抽象字符被映射或被分配到編碼空間中特定的碼位,字符及其對(duì)應(yīng)編碼的集合就是字符集。字是信息處理的基本單元,計(jì)算機(jī)中的文字可用字體、字號(hào)、架構(gòu)、顏色、變形、旋轉(zhuǎn)等屬性來(lái)描述,一般是用一兩個(gè)或四個(gè)字節(jié)(Byte)來(lái)記錄一個(gè)文字或符號(hào),字符與編碼表示之間一一對(duì)應(yīng)。筆畫(huà)不等高、不等寬,大小不一、姿態(tài)各異,部件的數(shù)量、位置、形狀、組合不同,都會(huì)產(chǎn)生異體字和異碼字。每種字符集都有一種或幾種編碼方案,如果沒(méi)有按文件保存時(shí)的編碼格式進(jìn)行解碼,就會(huì)顯示為亂碼。一些重要古籍?dāng)?shù)據(jù)庫(kù)的早期電子文本正是建立在各自符碼基礎(chǔ)之上的,從字形、字體到編碼并不完全統(tǒng)一。在電子文本和數(shù)據(jù)庫(kù)系統(tǒng)中,一般是先將其與集內(nèi)字進(jìn)行認(rèn)同,無(wú)法認(rèn)同的分配Unicode私用區(qū)的碼位。這就造成古文字在數(shù)據(jù)庫(kù)中不完全是“一字一碼”,還有“一字形一碼”。

字形不同,屬性描述不一,計(jì)算機(jī)對(duì)漢字的處理結(jié)果也不一樣。在文獻(xiàn)的口頭與抄印傳播時(shí)代,這種差異影響不大,但在數(shù)碼時(shí)代,會(huì)基于不同碼點(diǎn)而被賦予不同編碼,變成事實(shí)上無(wú)關(guān)的兩個(gè)字。字符集中的漢字在形、音、義三要素之外多出了編碼要素,它在計(jì)算機(jī)屏幕上顯示的是字形,在系統(tǒng)里儲(chǔ)存的是數(shù)字。這也帶來(lái)了新的出錯(cuò)幾率,容易產(chǎn)生亂碼和重碼。大陸或臺(tái)灣內(nèi)部的漢字字形也缺乏一致性,僅“文淵閣《四庫(kù)全書(shū)》電子版”就單獨(dú)定義了一萬(wàn)多個(gè)特殊漢字。國(guó)家圖書(shū)館“數(shù)字方志”項(xiàng)目,“選取明至民國(guó)間刻印的方志100種(50000余頁(yè)),文字總量超過(guò)2000萬(wàn)字,完全按字形比對(duì),集內(nèi)字只占38%,除了少量模糊字外(低于0.5%),其余都是集外字”(16)肖禹:《古籍?dāng)?shù)字化中的集外字處理問(wèn)題研究》,《圖書(shū)館研究》,2013年第5期,第28頁(yè)。。加上操作人員不能識(shí)別古籍中的異形字,視為不同的漢字錄入,或依樣摹畫(huà)而生造出大量集外字,又滋生了新的不規(guī)范問(wèn)題。

計(jì)算機(jī)上同一字符在不同字體下顯示不同,即使同一組異體字的內(nèi)碼完全相同,因鏈接的字體文件不同也會(huì)出現(xiàn)差異。而數(shù)據(jù)庫(kù)檢索是通過(guò)部首、筆畫(huà)、筆順等特征快速定位漢字,如果字符不精準(zhǔn)就會(huì)影響查全查準(zhǔn)和跨系統(tǒng)顯示。因此,2013年國(guó)務(wù)院批準(zhǔn)發(fā)布了由教育部組織研制的《通用規(guī)范漢字表》,收錄8105個(gè)漢字(17)教育部語(yǔ)言文字信息管理司組編:《信息時(shí)代漢字規(guī)范的新發(fā)展——〈通用規(guī)范漢字表〉文獻(xiàn)資料集》,北京:商務(wù)印書(shū)館,2015年,第49-51頁(yè)。。教育部等12部門聯(lián)合發(fā)布的《關(guān)于貫徹〈通用規(guī)范漢字表〉的通知》明確指出,“一般應(yīng)采用歷史通行字形,避免自造新字”(18)費(fèi)錦昌主編:《語(yǔ)言文字規(guī)范應(yīng)用手冊(cè)》,上海:上海辭書(shū)出版社,2016年,第5頁(yè)。。“表外字不再類推”應(yīng)成為古籍整理的一般原則,尤其是諸如人名、地名、物名等專名,名從其祖,不輕易改動(dòng)。

全球曾有數(shù)百種獨(dú)立編碼系統(tǒng),難免會(huì)有相同數(shù)碼代表不同字符或不同的數(shù)碼代表相同字符的情況。漢字以往是北美和西歐華人使用HZ碼,香港、澳門和臺(tái)灣地區(qū)使用BIG5碼,中國(guó)大陸、新加坡及東南亞地區(qū)使用國(guó)標(biāo)碼(GB)。三種中文內(nèi)碼自成體系,使用時(shí)需作碼位轉(zhuǎn)換,在一個(gè)文檔或數(shù)據(jù)庫(kù)中可以顯示的內(nèi)容,到了另一個(gè)界面便成為亂碼或不能正確顯示,因當(dāng)前編碼無(wú)法解析接收到的二進(jìn)制數(shù)據(jù)。在中國(guó)大陸版本的Windows操作系統(tǒng)中,GBK是一種常用的編碼方式,而C++等編程語(yǔ)言在編寫源文件或與外部系統(tǒng)交互時(shí)可能會(huì)采用Unicode編碼。由于這些系統(tǒng)和語(yǔ)言會(huì)采用不同的編碼方式,如果沒(méi)有正確處理編碼轉(zhuǎn)換,可能會(huì)造成系統(tǒng)間的編碼不匹配或源文件的編譯錯(cuò)誤。從Windows 7開(kāi)始,系統(tǒng)帶有宋、仿、黑、楷四款字體字庫(kù),其他字體相對(duì)不完整,少數(shù)民族字符、民間俗體字符和域外漢籍字符尤顯不足。

漢字字符集的建設(shè),隨著統(tǒng)一編碼標(biāo)準(zhǔn)的采用而迅速發(fā)展。1993年,國(guó)際標(biāo)準(zhǔn)化組織(ISO)頒布的ISO/IEC10646編碼(Unicode)是“通用多八位編碼字符集”,每個(gè)數(shù)字代表一個(gè)字符,共用字符通常使用相同的數(shù)字編碼。通用字符集在國(guó)際標(biāo)準(zhǔn)化組織(ISO)和多語(yǔ)言軟件制造商組成的統(tǒng)一碼聯(lián)盟基礎(chǔ)上迅速發(fā)展起來(lái)。GB2312-80和GBK標(biāo)準(zhǔn)無(wú)法達(dá)到古籍的用字量,但在Unicode編碼的ISO 10646標(biāo)準(zhǔn)下,已有方正字符集、青鳥(niǎo)華光字符集、漢儀字符集和文鼎字符集等,尤其宋體-方正超大字庫(kù)(70244字)基本包含了中、日、韓、越的主要漢字,解決了絕大多數(shù)古籍的用字問(wèn)題。2022年最新發(fā)布的Unicode15.0,所收漢字字符已達(dá)97046個(gè),其中基本漢字20902個(gè)。字的數(shù)量隨時(shí)代的發(fā)展一直在增加,考慮到異體異形字,漢字總量遠(yuǎn)不止10萬(wàn)個(gè)。一些學(xué)者呼吁建立承載中華文化的文字與符號(hào)總和的“中華字符集”(19)沈克成:《書(shū)同文:現(xiàn)代漢字論稿》,上海:上海錦繡文章出版社,2008年,第702頁(yè)。。目前,能處理10萬(wàn)漢字以上的字符集已有多款。

1993年,國(guó)際標(biāo)準(zhǔn)化組織頒布ISO/IEC10646標(biāo)準(zhǔn)即Unicode字符集,其內(nèi)碼是通過(guò)字體檢索程序而在字體庫(kù)中找到相應(yīng)字體,再以圖形方式顯示出來(lái)。Unicode9.0已定義128172個(gè)字符,囊括了《康熙字典》、《漢語(yǔ)大字典》等主要工具書(shū)所收漢字。Unicode主要收錄楷體、宋體等通行字體,不包括已有古籍的全部字體,一大批有價(jià)值和特點(diǎn)的古文字、俗體字、異體字、避諱字、生僻字等還沒(méi)有對(duì)應(yīng)的編碼。1995年12月,全國(guó)信息化標(biāo)準(zhǔn)化技術(shù)委員會(huì)頒布了《漢字?jǐn)U展內(nèi)碼規(guī)范》(GBK)編碼標(biāo)準(zhǔn),收錄了21003個(gè)漢字。GBK可用于漢魏以前的典籍整理工作,但涉及字書(shū)、佛典、敦煌遺書(shū)等,仍會(huì)出現(xiàn)大量缺字。超出GBK字符集的漢字顯示,需安裝超大字符集。同時(shí),還要在編輯軟件中選擇已被擴(kuò)充的字符集作為顯示字體,否則將無(wú)法識(shí)別或顯示為亂碼。一些大型古籍?dāng)?shù)據(jù)庫(kù)是通過(guò)造字來(lái)轉(zhuǎn)錄文獻(xiàn)的,如“文淵閣《四庫(kù)全書(shū)》電子版3.0”總字量逾8億字,在Unicode5.0字符集的基礎(chǔ)上造12592字?!端膸?kù)全書(shū)》電子版能較好地處理冷僻字和異體字,但這些字符被復(fù)制或剪切,脫離其系統(tǒng)便會(huì)顯示為亂碼。中華書(shū)局古聯(lián)公司的《中華經(jīng)典古籍庫(kù)》一二期逾3億字,在Unicode5.0字符集的基礎(chǔ)上補(bǔ)充造字近1萬(wàn)字?!吨腥A經(jīng)典古籍庫(kù)》四期材料的總字量約7.5億字,在Unicode8.0字符集基礎(chǔ)上已新造31305個(gè)字。事實(shí)上,要將所有漢字字形窮盡式收入編碼字符集不可能也不可行。大量異體異形字將會(huì)影響漢字的學(xué)習(xí)、使用,沖擊和破壞現(xiàn)行漢字規(guī)范體系。

計(jì)算機(jī)漢字庫(kù)是在漢字沒(méi)有系統(tǒng)整理的前提下構(gòu)建的,與已有漢字譜系存在斷層?!澳壳霸谕ㄓ秒娔X字符集中已編碼漢字的總數(shù)已達(dá)74588個(gè),除了核心部分GBK的20902字,CJK擴(kuò)展集的5萬(wàn)多字在數(shù)據(jù)庫(kù)中并不能用,無(wú)法實(shí)現(xiàn)檢索、查詢、統(tǒng)計(jì)等各種處理;而GBK的20902個(gè)字和擴(kuò)展A的6582個(gè)字以外的編碼漢字無(wú)法實(shí)現(xiàn)上網(wǎng)查詢?!?20)劉凌、劉志基:《中文字符集竟這樣不完備——傳統(tǒng)文化如何在數(shù)字化時(shí)代傳播》,《文匯學(xué)人》,2019年6月14日。古籍?dāng)?shù)字化不同階段產(chǎn)生的字符錯(cuò)訛現(xiàn)象,也成為古籍?dāng)?shù)據(jù)庫(kù)的隱患。集外字的不同處理方式,實(shí)則讓古籍電子版成批次增加了訛誤率。如早期古籍?dāng)?shù)據(jù)庫(kù)采用的代字法,生僻字用偏旁部首或接近的字代替,或以符號(hào)代替并在括號(hào)內(nèi)描述說(shuō)明。以圖形文件代替生僻漢字、采用造字軟件造字或建立生僻字資源庫(kù)等方法,加劇了電子文本之間的差異。圖片或符號(hào)代替冷僻字,本身并非文字,也無(wú)法將圖片轉(zhuǎn)回文字和全文檢索。外掛漢字平臺(tái),也會(huì)遇到字庫(kù)不兼容的問(wèn)題。這些情況極大影響古籍?dāng)?shù)據(jù)庫(kù)的質(zhì)量和應(yīng)用,讓建成可直接引用的古籍?dāng)?shù)據(jù)庫(kù)為期尚遠(yuǎn)。

列入國(guó)家“十一五”文化發(fā)展規(guī)劃綱要的“中華字庫(kù)”工程,要“建立全部漢字及少數(shù)民族文字的編碼和主要字體字符庫(kù)。重點(diǎn)研發(fā)漢字的編碼體系、輸入、輸出、存儲(chǔ)、傳輸以及兼容等關(guān)鍵技術(shù)”。預(yù)計(jì)建立40萬(wàn)字的可編碼超大漢字字符集,涵蓋甲骨文、金文、小篆、隸書(shū)、行草書(shū)、楷書(shū)等文字發(fā)展演變過(guò)程中的重要階段,其中楷書(shū)漢字約30萬(wàn),古漢字約10萬(wàn)。同時(shí),為確保文字字形來(lái)源真實(shí)可回溯,“從海量文獻(xiàn)中提取文字樣本的原字圖和各類數(shù)據(jù),保留每個(gè)文字樣本原貌和用例,以備回溯覈?!薄!爸腥A字庫(kù)”“預(yù)計(jì)不重復(fù)字量為100萬(wàn)字,制作成供工程研發(fā)過(guò)程中使用的中間字庫(kù)。由于漢字形體的發(fā)展演變受文字簡(jiǎn)易律和漢字構(gòu)形系統(tǒng)的雙重制約,不重復(fù)字量不可能無(wú)限膨脹,以這100萬(wàn)中間字庫(kù)作為最終編碼的30萬(wàn)楷書(shū)字表的篩選基礎(chǔ),能夠涵蓋楷書(shū)漢字的各類形體現(xiàn)象?!?21)張翼飛:《古籍?dāng)?shù)字化中的字符集問(wèn)題與解決方案》,《出版發(fā)行研究》,2016年第3期,第77-80頁(yè)。此外,中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程支持項(xiàng)目“中華精品字庫(kù)工程”100款歷代書(shū)法名家字庫(kù)、方正電子系列超大字庫(kù)等,都是重要的漢字字符集。

盡管如此,現(xiàn)有字符集仍難以實(shí)現(xiàn)對(duì)各種文字的全刻畫(huà)與全覆蓋。隨著古籍電子化的迅猛發(fā)展,曾經(jīng)廢棄的大量漢字被激活。在不斷涌現(xiàn)的繁體字、異體字、訛寫字、俗寫字和域外漢字的面前,仍然會(huì)出現(xiàn)不少缺字。通過(guò)臨時(shí)占用自定義區(qū)字符編碼的自造字系臨時(shí)替代碼,在編程環(huán)境中會(huì)因內(nèi)碼差異而變成它字或亂碼。Unicode標(biāo)準(zhǔn)為所有字符分配獨(dú)立的碼點(diǎn),雖便于異體字顯示,但不利于異體字的輸入、檢索與處理。擴(kuò)大收字范圍并不能完全解決集外字問(wèn)題,不僅會(huì)導(dǎo)致Unicode私用區(qū)碼位被耗盡,“一些早期無(wú)法進(jìn)行漢字認(rèn)同且已被編碼的新造集外字需要與集內(nèi)字進(jìn)行認(rèn)同,如何自動(dòng)或半自動(dòng)地實(shí)現(xiàn)集外字向集內(nèi)字的認(rèn)同與轉(zhuǎn)換是一個(gè)亟待解決的問(wèn)題”(22)辛睿龍、王雅坤:《古籍?dāng)?shù)字化中漢字處理的現(xiàn)狀、問(wèn)題及策略》,《圖書(shū)館理論與實(shí)踐》,2017年第9期,第105頁(yè)。。

創(chuàng)建超大字庫(kù)不但不能一勞永逸解決問(wèn)題,甚至還會(huì)滋生新的問(wèn)題,如王寧先生所說(shuō),ISO10646(CJK)國(guó)際編碼字符集,估計(jì)擴(kuò)D完成后收字總量會(huì)超過(guò)10萬(wàn),“中國(guó)歷來(lái)的字書(shū)沒(méi)有一本曾收字十萬(wàn),也就是說(shuō)中國(guó)人自古以來(lái)用不了十萬(wàn)的漢字,那么這些字從哪兒來(lái)?我想,除了大量的異體字以外,必然還有為數(shù)不少的廢字、死字和錯(cuò)字,現(xiàn)在還有人主張?jiān)倮^續(xù)放,他們認(rèn)為,‘多放了有什么關(guān)系,進(jìn)了電腦再整理’。這種倚仗計(jì)算機(jī)的巨大容量任意將屬性不明的漢字進(jìn)入編碼的‘技術(shù)自大’作法,實(shí)在非常的荒唐”(23)沈克成:《書(shū)同文:現(xiàn)代漢字論稿》,第698-699頁(yè)。。漢字的使用規(guī)范是建立在多樣性和通用性基礎(chǔ)上的,只有多樣而缺乏通行,有許多字不能重現(xiàn),“萬(wàn)碼奔騰”反而不利于漢字的應(yīng)用、表達(dá)。一字形一碼打破了原有文字譜系,無(wú)形中割裂了字際關(guān)系。不能因?yàn)樾碌脑熳旨夹g(shù)讓一些字被激活,而消解已有的漢字應(yīng)用規(guī)范和表意系統(tǒng)。

三、文字的統(tǒng)一規(guī)范是歷史趨勢(shì)和時(shí)代命題

如何走出困境,歷史經(jīng)驗(yàn)可為我們提供借鑒。每個(gè)時(shí)代都有各種古體字、時(shí)行正體字和新興俗體字,馬衡《金文編序》云:“試觀殷商之甲骨刻辭,宗周之彝器款識(shí),往往一字?jǐn)?shù)形,隨意增省,是其明證?!?24)清華大學(xué)國(guó)學(xué)研究院主編:《馬衡文存》,南京:江蘇人民出版社,2020年,第407頁(yè)。伴隨著文字的使用,已出現(xiàn)繁體與簡(jiǎn)體之別。今天的一些簡(jiǎn)體字,就可以上溯到甲骨文時(shí)期。東周諸侯割據(jù),“律令異法,衣冠異制,言語(yǔ)異聲,文字異形”。秦代書(shū)體就有八種:“一曰大篆,二曰小篆,三曰刻符,四曰蟲(chóng)書(shū),五曰摹印,六曰署書(shū),七曰殳書(shū),八曰隸書(shū)?!?25)許慎:《說(shuō)文解字》卷15,北京:中華書(shū)局,2020年,第492-493頁(yè)。文字不同嚴(yán)重阻礙了思想交流和文化統(tǒng)一,圣賢因而提出了統(tǒng)一文字的設(shè)想,如《管子·君臣》云:“衡石一稱,斗斛一量,丈尺一綧制,戈兵一度,書(shū)同名,車同軌,此至正也……先王之所以一民心也?!?26)李山、軒新麗譯注:《管子》卷10,北京:中華書(shū)局,2019年,第513頁(yè)?!抖Y記·中庸》載:“(子曰)今天下車同軌,書(shū)同文,行同倫?!?27)鄭玄注,王鍔點(diǎn)校:《禮記注》卷16,北京:中華書(shū)局,2021年,第693頁(yè)。彼時(shí)的“書(shū)同名”、“書(shū)同文”,是一種文化理想還是政令實(shí)踐,學(xué)界尚無(wú)定論。

同文字的說(shuō)法雖然早已有之,但秦朝“書(shū)同文字”確是史上明文記載的大規(guī)模文字規(guī)范運(yùn)動(dòng)。公元前211年,李斯奏定“一法度衡石丈尺。車同軌。書(shū)同文字”(28)司馬遷:《史記》卷6,北京:中華書(shū)局,2014年,第307—308頁(yè)。。“書(shū)同文字”又稱“同書(shū)文字”、“書(shū)同文”、“同文書(shū)”,如《史記·李斯列傳》中“同文書(shū)”、《六國(guó)年表》始皇二十七年和《李斯列傳》始皇三十四年載有“同天下書(shū)”和“同文書(shū)”。此外,秦瑯琊臺(tái)刻石中也提到“器械一量,同書(shū)文字”,《漢書(shū)·藝文志》載為“書(shū)必同文”(29)班固撰,顏師古注:《漢書(shū)》卷30,北京:中華書(shū)局,1962年,第1721頁(yè)。?!皶?shū)同文字”以小篆統(tǒng)一字體外,同時(shí)提倡隸書(shū),廢除雜亂紛紜的六國(guó)異體。據(jù)許慎《說(shuō)文解字》記載:“秦始皇帝初兼天下,丞相李斯乃奏同之,罷其不與秦文合者。斯作《倉(cāng)頡篇》,中車府令趙高作《爰?xì)v篇》,太史令胡毋敬作《博學(xué)篇》,皆取史籀大篆,或頗省改,所謂小篆者也。是時(shí)秦?zé)郎缃?jīng)書(shū),滌除舊典,大發(fā)隸卒,興役戍,官獄職務(wù)繁,初有隸書(shū),以趣約易,而古文由此絕矣。”(30)許慎撰,陶生魁點(diǎn)校:《說(shuō)文解字》卷15,北京:中華書(shū)局,2020年,第493頁(yè)。

秦“篆改”以周《史籀篇》為范本,以秦國(guó)大篆為基礎(chǔ),“或頗省改”,“罷其不與秦文合者”,形成規(guī)范化、標(biāo)準(zhǔn)化的統(tǒng)一字體小篆?!皶?shū)同文”以前的漢字與小篆相比較,主要措施有固定偏旁寫法、確定偏旁的位置、廢除異體異構(gòu)、統(tǒng)一書(shū)寫筆畫(huà)等(31)高明:《略論漢字形體演變的一般規(guī)律》,《考古與文物》,1980年第2期,第124-125頁(yè)。,朝著線條化、均勻化和儉省化的方向發(fā)展。秦始皇統(tǒng)一六國(guó)后,巡游天下,所到處如嶧山、泰山、芝罘、東觀、瑯琊、碣石、會(huì)稽皆刻石作頌??淌紴槔钏箷?shū)寫的“小篆”,書(shū)寫線條圓勻、結(jié)構(gòu)統(tǒng)一定型、字形呈縱勢(shì)長(zhǎng)方等特點(diǎn)結(jié)體規(guī)整,粗細(xì)一致,大小均勻,布局嚴(yán)謹(jǐn),少用通假,易于書(shū)寫和辨識(shí)??淌伞按怪鴥x矩”,確立規(guī)范。每立一碑,就等于公布了一批標(biāo)準(zhǔn)小篆和正式標(biāo)準(zhǔn)文字,事實(shí)上是在制定和推行規(guī)范字表。以這六篇碑文字體為規(guī)范,便可以整理出其他小篆字體。

秦統(tǒng)一文字,不僅是統(tǒng)一篆書(shū)為小篆,也促進(jìn)了向隸書(shū)的統(tǒng)一?!稘h書(shū)·藝文志》云:“是時(shí)始造隸書(shū)矣,起于官獄多事,茍趨省易,施之于徒隸也?!?32)班固撰,顏師古注:《漢書(shū)》卷30,北京:中華書(shū)局,1962年,第1721頁(yè)。因?yàn)椤扒丶扔米?,奏事繁多,篆字難成,即令隸人佐書(shū),曰隸字”,“隸書(shū)者,篆之捷也”(33)房玄齡等:《晉書(shū)》卷36,北京:中華書(shū)局,1974年,第1064頁(yè)。。小篆和隸書(shū)兩種文字用于不同場(chǎng)合,“士人的經(jīng)典書(shū)籍和慶祝大典的金石銘文用小篆,官吏的政令文書(shū)和百姓的書(shū)信文件用隸書(shū)”(34)〔美〕梁少熊:《秦皇秦俑新探》,西安:陜西人民出版社,2019年,第44頁(yè)。,結(jié)果是古文和大篆遂不行?!半`變”將點(diǎn)、橫、豎、撇等筆畫(huà)規(guī)范下來(lái),是漢字體系由線條化向筆畫(huà)化轉(zhuǎn)變,進(jìn)一步簡(jiǎn)化和改變了漢字的結(jié)構(gòu)和字形。隸書(shū)使文字書(shū)寫更加規(guī)范,朝著標(biāo)準(zhǔn)化方向邁進(jìn)了一大步。

文字是人類用符號(hào)記錄表達(dá)信息的方式和工具,漢字是迄今持續(xù)使用時(shí)間最長(zhǎng)的文字。它之所以能成為上古各大文字體系中的唯一傳承者,正在于應(yīng)用中的不斷規(guī)范與統(tǒng)一,讓信息可以被跨時(shí)空記錄和解讀?!渡袝?shū)》序曰:“古者伏羲氏之王天下也,始畫(huà)八卦,造書(shū)契,以代結(jié)繩之政,由是文籍生焉?!?35)《尚書(shū)正義》,十三經(jīng)注疏本,北京:中華書(shū)局,2009年,第235頁(yè)。伏羲造書(shū)契,是原始時(shí)期的文字。最早的漢字是刻符,甲骨文也是源自契刻。《尚書(shū)》序又說(shuō):“書(shū)者,文字。契者,刻木而書(shū)其側(cè),故曰書(shū)契也。一云,以書(shū)契約其事也?!?36)《尚書(shū)正義》,十三經(jīng)注疏本,北京:中華書(shū)局,2009年,第235頁(yè)?!皶?shū)”即寫,又指文字;“契”即刻,刻木以紀(jì)數(shù)、紀(jì)事之謂。契刻最早便是用來(lái)計(jì)數(shù)的,既是上古的文字、文書(shū),也是古代的編碼字符。

“造書(shū)契”的實(shí)質(zhì)是對(duì)古文字進(jìn)行分類總結(jié)與統(tǒng)一規(guī)范?!吨芏Y·質(zhì)人》云:“掌稽市之書(shū)契?!编嵭ⅲ骸皶?shū)契,取予市物之券也,其券之象書(shū)兩札刻其側(cè)?!?37)《周禮注疏》卷15,十三經(jīng)注疏本,北京:中華書(shū)局,2009年,第1589頁(yè)?!皶?shū)契”也指券約等書(shū)面憑證,是契約的文字書(shū)寫形式。書(shū)契不僅是信息傳遞手段,也是信用符號(hào)。《禮記·曲禮》有“獻(xiàn)栗者執(zhí)右契”句,其“契”即契約之義?!读凶印ふf(shuō)符》載:“宋人有游于道、得人遺契者,歸而藏之,密數(shù)其齒。告鄰人曰:‘吾富可待矣。’”(38)楊伯峻:《列子集釋》卷8,北京:中華書(shū)局,1979年,第271頁(yè)。符左契右,相與合齒。“右契”代表債權(quán),可充當(dāng)貨幣用作支付手段而流通,故曰“吾富可待矣”,而“圣人執(zhí)左契,而不責(zé)于人”(39)陳鼓應(yīng):《老子注譯及評(píng)介》79章,北京:中華書(shū)局,2009年,第340頁(yè)。。這種信用體系的建立,既緣于約定俗成,也出于強(qiáng)制規(guī)范。據(jù)許慎《說(shuō)文解字?jǐn)ⅰ匪段韭伞吩疲骸皩W(xué)僮十七已上始試,諷籀書(shū)九千,乃得為史。又以八體試之。郡移大史并課,最者,以為尚書(shū)史。書(shū)或不正,輒舉劾之?!?40)許慎撰,陶生魁點(diǎn)校:《說(shuō)文解字》卷15,北京:中華書(shū)局,2020年,第493頁(yè)。歷代類似西漢對(duì)書(shū)寫規(guī)范的要求,確保了文字的一致性,為政治文化的統(tǒng)一與中華文明的延續(xù)奠定了基礎(chǔ)。

“周宣王太史作籀書(shū)”、“李斯作小篆”、“程邈作隸書(shū)”等,可以看作早期的統(tǒng)一字符集和標(biāo)準(zhǔn)文本庫(kù)?!渡n頡》、《爰?xì)v》、《博學(xué)》三篇,“斷六十字以為一章,凡五十五章”,則李斯等人所定的規(guī)范字就有3300個(gè)。漢代合并三篇為《倉(cāng)頡篇》,仍用秦文;漢武帝時(shí)司馬相如作《凡將篇》、元帝時(shí)史游作《急就篇》、成帝時(shí)李長(zhǎng)作《元尚篇》,“皆《蒼頡》中正字也”(41)班固撰,顏師古注:《漢書(shū)》卷30,第1721頁(yè)。。隨著俗體流行,訛體別字增多,漢字字體從隸書(shū)向楷書(shū)進(jìn)一步演化?!额伿霞矣?xùn)》云:“晉、宋以來(lái),多能書(shū)者。故其時(shí)俗,遞相染尚,所有部帙,楷正可觀,不無(wú)俗字,非為大損。到梁天監(jiān)之間,斯風(fēng)未變;大同之末,訛替滋生。蕭子云改易字體,邵陵王頗行偽字;朝野翕然,以為楷式,畫(huà)虎不成,多所傷敗。至為‘一’字,唯見(jiàn)數(shù)點(diǎn),或妄斟酌,逐便轉(zhuǎn)移。爾后墳籍,略不可看。北朝喪亂之余,書(shū)跡鄙陋,加以專輒造字,猥拙甚于江南。乃以百念為憂,言反為變,不用為罷,追來(lái)為歸,更生為蘇,先人為老,如此非一,遍滿經(jīng)傳。”(42)顏之推撰,王利器集解:《顏氏家訓(xùn)集解》,北京:中華書(shū)局,1993年,第574-575頁(yè)。漢字在使用過(guò)程中,會(huì)滋生越來(lái)越多的變體異形,甚至為解決臨時(shí)記錄問(wèn)題而不斷生造字。歷朝歷代都在通過(guò)對(duì)正體、俗體和通用體的分辨來(lái)正字正文,如唐顏師古考定五經(jīng)文字作《字樣》,唐玄度作《新加九經(jīng)字樣》。唐顏元孫《干祿字書(shū)》、宋郭忠恕《佩觿》、遼釋行均《龍龕手鏡》、元李文仲《字鑒》、明焦竑《俗書(shū)刊誤》和清龍啟端《字學(xué)舉隅》等不斷厘定文字和規(guī)范用字。尤其《康熙字典》,對(duì)清以前的漢字作了系統(tǒng)性總結(jié)和規(guī)范。

《荀子·解蔽》云:“好書(shū)者眾矣,而《倉(cāng)頡》獨(dú)傳者,一也?!?43)王先謙:《荀子集解》卷15,北京:中華書(shū)局,1988年,第401頁(yè)。倉(cāng)頡造書(shū)契和李斯作《倉(cāng)頡篇》,因其規(guī)范與統(tǒng)一,才能沿用千古而體系不墜。據(jù)容庚《金文編》著錄,在秦統(tǒng)一文字之前的“寶”字就有194種形態(tài),“眉”字有104種,而小篆分別用一個(gè)字就可代表。許慎《說(shuō)文解字·序》說(shuō):“蓋文字者,經(jīng)藝之本,王政之始。前人所以垂后,后人所以識(shí)古?!?44)許慎撰,陶生魁點(diǎn)校:《說(shuō)文解字》卷15,北京:中華書(shū)局,2020年,第494-495頁(yè)。正因?yàn)槲淖值慕y(tǒng)一,才有思想和文化的統(tǒng)一,“在造成政治統(tǒng)一和文化統(tǒng)一的一切文化力量中,文字的一致性(與方言的多樣性正好形成對(duì)比)幾乎肯定是最有影響的因素”(45)崔瑞德、魯惟一編,楊品泉等譯:《劍橋中國(guó)秦漢史》,北京:中國(guó)社會(huì)科學(xué)出版社,1992年,第73頁(yè)。。任繼愈曾有推論:“假若中國(guó)沒(méi)有‘書(shū)同文’這樣得力的措施,古代中國(guó)采取拼音文字,中國(guó)將不會(huì)是今天統(tǒng)一的形勢(shì),也許分成多少個(gè)獨(dú)立割據(jù)的小國(guó)?!?46)任繼愈:《從“書(shū)同文”到“語(yǔ)同音”》,《中國(guó)的文化與文人》,北京:現(xiàn)代出版社,2017年,第267頁(yè)。書(shū)契的首要作用是信息交流,字符集、文本庫(kù)與類推規(guī)則和強(qiáng)制標(biāo)準(zhǔn)相輔相成,共同構(gòu)筑了漢字文化的基礎(chǔ)體系。

漢字由意符、音符和記號(hào)等組成,符號(hào)選取因人而異,自《說(shuō)文解字》起,一字多形就是字書(shū)常態(tài)。正異并用在手抄和雕版印刷時(shí)代,尚有一定的并存空間。隨著活字字模、電子印刷的廣泛應(yīng)用,越來(lái)越出現(xiàn)了統(tǒng)一趨向。在計(jì)算機(jī)中,需用碼點(diǎn)對(duì)一組異體字檢索和定位。在舊字形中筆畫(huà)往往有變體,如撇有長(zhǎng)撇、短撇,點(diǎn)有豎點(diǎn)、側(cè)點(diǎn)、長(zhǎng)點(diǎn)、短點(diǎn)等。新舊字形不僅關(guān)系到筆畫(huà)、筆順與結(jié)構(gòu),還關(guān)系到對(duì)漢字的進(jìn)一步拆解和向量化統(tǒng)計(jì)分析。造字需在不同系統(tǒng)、平臺(tái)上能顯示和轉(zhuǎn)換,同時(shí)能進(jìn)行關(guān)聯(lián)和認(rèn)同?!霸僭鞎?shū)契”是為了完成數(shù)據(jù)、信息與知識(shí)的再次對(duì)接,加速推動(dòng)古代文明和傳統(tǒng)文化在數(shù)字時(shí)代的轉(zhuǎn)型升級(jí)。

隨著大量機(jī)器文本的涌現(xiàn)和滲入,包括中華古籍在內(nèi)的人類文本的集結(jié)也已迫在眉睫。除大眾熟知的微軟小冰等作詩(shī)機(jī)器人出沒(méi)在論壇、刊物、著作及各媒體終端外,寫稿機(jī)器人已在批量生產(chǎn)各種資訊甚至文藝作品。一些網(wǎng)絡(luò)社區(qū)、文本發(fā)表平臺(tái),正在出現(xiàn)越來(lái)越多的人機(jī)結(jié)合文本甚至機(jī)器文本(47)2018年12月,據(jù)《紐約雜志》旗下刊物Intelligencer統(tǒng)計(jì),實(shí)際上只有不到60%的網(wǎng)絡(luò)流量直接來(lái)自人類。Max Read,“How Much of the Internet Is Fake?Turns Out,a Lot of It,Actually”,Intelligencer,DEC,26,2018.,由算法邏輯生產(chǎn)出來(lái)的詩(shī)歌數(shù)量將遠(yuǎn)超以往人類所有詩(shī)歌的總和。由人工智能實(shí)驗(yàn)室OpenAI發(fā)布的對(duì)話式大型語(yǔ)言模型ChatGPT更是以其雷霆萬(wàn)鈞之勢(shì),改變著人類的語(yǔ)言形態(tài)和知識(shí)版圖。在機(jī)器文本大量滲入之前,對(duì)人類各語(yǔ)種的標(biāo)準(zhǔn)文本及時(shí)匯總和整存,已十分緊迫。

漢文古籍約20萬(wàn)種50多萬(wàn)個(gè)版本,已經(jīng)數(shù)字化的有10多萬(wàn)種??梢哉f(shuō),我們已經(jīng)錯(cuò)過(guò)了利用統(tǒng)一字符集來(lái)創(chuàng)建標(biāo)準(zhǔn)文本庫(kù)的最佳歷史時(shí)期。但窗口期仍在,因?yàn)檫@些古籍主要是影像掃描即原樣數(shù)字化,可檢索的文本式數(shù)字化古籍?dāng)?shù)量仍有限,深度加工的知識(shí)型數(shù)字化古籍剛剛開(kāi)始。字符不統(tǒng)一與文本不規(guī)范,對(duì)前兩種數(shù)字化古籍類型影響有限?;谏疃葮?biāo)引的關(guān)系型、結(jié)構(gòu)化古籍?dāng)?shù)據(jù)庫(kù)、知識(shí)庫(kù),需要建立在字符和文本高度統(tǒng)一的基礎(chǔ)之上。尹小林曾提出“元古籍”的概念,即對(duì)原版古籍進(jìn)行系統(tǒng)規(guī)范的數(shù)字化,以區(qū)別于后世的古籍整理與選編(48)尹小林:《系列筆談之五:古籍專題資源庫(kù)的建設(shè)》,《數(shù)字人文》,2022年第4期。。這種元古籍?dāng)?shù)據(jù)庫(kù)的構(gòu)建,不僅是回到古籍善本的數(shù)字轉(zhuǎn)化,更意味著字符編碼、字際關(guān)系和文本格式的強(qiáng)制統(tǒng)一。古籍?dāng)?shù)字化在大規(guī)模光學(xué)字符識(shí)別(OCR)的同時(shí),又朝著深度標(biāo)引和知識(shí)關(guān)聯(lián)方向飛速發(fā)展。好在古籍?dāng)?shù)字化總量尚未過(guò)半,智能化初啟,以史為鑒,需要我們抓住這個(gè)重大機(jī)遇,果斷堅(jiān)定地推行書(shū)同文字,履行好在數(shù)字化時(shí)代再造書(shū)契的歷史使命。

四、創(chuàng)建以簡(jiǎn)體規(guī)范字為基礎(chǔ)的標(biāo)準(zhǔn)文本庫(kù)

古籍領(lǐng)域的繁簡(jiǎn)共存,極大制約了古籍?dāng)?shù)字化的發(fā)展。常用古漢字約40000余字(49)張軸材以《四庫(kù)全書(shū)》、《四部叢刊》為基礎(chǔ)語(yǔ)料進(jìn)行字頻統(tǒng)計(jì),認(rèn)為除大規(guī)模字書(shū)的特殊需求之外,中國(guó)古籍?dāng)?shù)字化所需的漢字字量為30000個(gè)左右。北京書(shū)同文數(shù)字化技術(shù)有限公司編:《古籍漢字字頻統(tǒng)計(jì)》,北京:商務(wù)印書(shū)館,2008年,第24-25頁(yè)。,其中半數(shù)為異體字、繁體字、通假字、避諱字等,相互轉(zhuǎn)換缺乏統(tǒng)一標(biāo)準(zhǔn)與精確機(jī)制。繁簡(jiǎn)是相對(duì)的概念,繁體不等于古體,也不存在確定不變的繁體字。山東掖縣云峰山魏碑石刻有100多個(gè)簡(jiǎn)體字,隋唐楷書(shū)中也已出現(xiàn)了許多今天常用的簡(jiǎn)體字,敦煌寫本等文獻(xiàn)中更為常見(jiàn)。宋代以后,簡(jiǎn)體字大量出現(xiàn)在雕版印刷的書(shū)籍里。宋元明清12種民間刻本中所用的簡(jiǎn)體字達(dá)6240個(gè),平均每個(gè)繁體字有3.9個(gè)不同簡(jiǎn)化字,其中300多個(gè)與今用簡(jiǎn)化字完全相同(50)劉復(fù)、李家瑞編:《宋元以來(lái)俗字譜》,北平:中央研究院歷史語(yǔ)言研究所,1930年,第1-138頁(yè)。。錢玄同《減省現(xiàn)行漢字筆畫(huà)案》指出:“數(shù)千年來(lái),漢字的字體是時(shí)時(shí)刻刻在那兒被減省的。從殷周之古篆變到宋元之簡(jiǎn)體,時(shí)時(shí)刻刻向著簡(jiǎn)易的方面進(jìn)行,可說(shuō)是沒(méi)有間斷。”(51)前國(guó)語(yǔ)研究會(huì)編:《國(guó)語(yǔ)月刊·漢字改革號(hào)》,北京:文字改革出版社,1957年,第161頁(yè)。簡(jiǎn)體或省寫在民間普遍使用,在抄寫本中大量存在,尤其在現(xiàn)代印刷品和電子文本中已成為絕對(duì)主流。

繁簡(jiǎn)體的區(qū)分是一個(gè)量度和時(shí)間問(wèn)題,它們不僅有交叉,還有中間形態(tài)與溢出形態(tài)。有些數(shù)據(jù)庫(kù)還為簡(jiǎn)繁字、異體字、古今字等建立一系列詞典,將關(guān)鍵詞字符串和該詞典進(jìn)行匹配查詢,以解決正體、異體之間交互檢索的問(wèn)題。堅(jiān)持保真原則,“盡量不做簡(jiǎn)繁代換、正形異體代換,盡可能地保持原有字形”(52)北京書(shū)同文數(shù)字化技術(shù)有限公司編:《古籍漢字字頻統(tǒng)計(jì)》,第14頁(yè)。,結(jié)果是《四庫(kù)全書(shū)》、《四部叢刊》各種異體兼收。繁簡(jiǎn)字的轉(zhuǎn)換與文本語(yǔ)境相關(guān),繁體字系統(tǒng)無(wú)法簡(jiǎn)單統(tǒng)為一字。一些特殊的用法,如《禮記·月令》“修宮室,壞墻垣,補(bǔ)城郭”,“壞”(péi,泥封)不能轉(zhuǎn)換為“壞”(53)楊琳:《理想電子古籍的標(biāo)準(zhǔn)》,《第二屆中國(guó)古籍?dāng)?shù)字化國(guó)際學(xué)術(shù)研討會(huì)論文集》,北京:五洲傳播出版社,2011年,第47頁(yè)。。一對(duì)多的簡(jiǎn)繁字轉(zhuǎn)換,準(zhǔn)確率提升需依據(jù)詞庫(kù),如“干”對(duì)應(yīng)“干、幹、乾”等,先據(jù)標(biāo)識(shí)位自動(dòng)轉(zhuǎn)入詞庫(kù),再據(jù)詞庫(kù)底表自動(dòng)轉(zhuǎn)換。但這需要做到詞語(yǔ)窮舉,實(shí)則難以完全實(shí)現(xiàn)。數(shù)據(jù)庫(kù)中的字符已不是簡(jiǎn)單地繁簡(jiǎn)二分,而是匯聚各種不同字體字形的系統(tǒng),它們?cè)跀?shù)字層面都是等值的,無(wú)法簡(jiǎn)單地通過(guò)繁簡(jiǎn)轉(zhuǎn)化來(lái)統(tǒng)一。

如果運(yùn)用簡(jiǎn)體,這些轉(zhuǎn)換和細(xì)分便不至影響古籍庫(kù)的質(zhì)量。簡(jiǎn)化漢字是“采用同一代替、替換聲旁、草書(shū)楷化、偏旁簡(jiǎn)化類推等方法制定的一批筆畫(huà)較少的漢字。這些漢字取代了對(duì)應(yīng)的筆畫(huà)較多的漢字作為同行的正體”(54)中國(guó)標(biāo)準(zhǔn)出版社編:《信息技術(shù)詞匯國(guó)家標(biāo)準(zhǔn)匯編》,北京:中國(guó)標(biāo)準(zhǔn)出版社,2000年,第365頁(yè)。,其規(guī)律性得以強(qiáng)化。簡(jiǎn)化字具備新形化特征,繁體字也同樣具備新形化特征,都面臨著電子文本中的部件重新刻畫(huà)問(wèn)題。字符編碼已超出了繁簡(jiǎn)二元化的區(qū)分,異體字通常會(huì)被賦予多個(gè)碼點(diǎn),無(wú)法標(biāo)示一組異體字之間的關(guān)系。數(shù)據(jù)庫(kù)中異體字相關(guān)聯(lián)的就是它們之間的碼點(diǎn),起筆不同,一點(diǎn)之別都會(huì)被識(shí)別為完全不同的字。以繁體字為標(biāo)準(zhǔn),反而會(huì)滋生更多異體字。如“呂”、“并”等繁體規(guī)范字,會(huì)與“呂”、“並併竝”等異體字相混。繁體字可以形成單個(gè)相對(duì)精確的文本集,但無(wú)法實(shí)現(xiàn)由此及彼的精準(zhǔn)查詢和解決文本之間的融合貫通。

簡(jiǎn)體字是基礎(chǔ)規(guī)范用字,當(dāng)前漢字規(guī)范的最新標(biāo)準(zhǔn)是國(guó)務(wù)院頒布的《通用規(guī)范漢字表》和國(guó)家標(biāo)準(zhǔn)委頒布的《古籍印刷通用字規(guī)范字形表》,它們保證了編碼唯一性和數(shù)字化漢字的通用性?!锻ㄓ靡?guī)范漢字表》收錄規(guī)范漢字8105個(gè)(附錄收繁體字、簡(jiǎn)體字計(jì)11702個(gè)),《新華字典》(第11版)共收錄11200多字,《現(xiàn)代漢語(yǔ)詞典》(第7版)收錄13000多字(含繁體和異體)。《通用規(guī)范漢字表》所附“規(guī)范字與繁體字、異體字對(duì)照表”收錄800組左右的異體字,可以說(shuō)繁體、異體字與簡(jiǎn)體規(guī)范字共同構(gòu)成了當(dāng)前的通用字符集。由文化部和中國(guó)文字改革委員會(huì)聯(lián)合發(fā)布的《第一批異體字整理表》收字1865個(gè),包含了810組異體字?!稘h語(yǔ)大字典·異體字表》收集異體字約11900組,是對(duì)異體字最全面的一次整理。有學(xué)者主張,對(duì)古籍整理中“底本中的異體字、古體字、俗寫字、避諱字等,統(tǒng)一以規(guī)范漢字糾正”(55)王益軍:《中醫(yī)古籍??迸c整理》,《中國(guó)中醫(yī)藥現(xiàn)代遠(yuǎn)程教育》,2014年第4期,第105頁(yè)。。一些古籍整理細(xì)則也規(guī)定“對(duì)異體字,逕改用正體字”(56)鄧鐵濤主編:《鄧鐵濤醫(yī)學(xué)文集》,北京:人民衛(wèi)生出版社,2001年,第491頁(yè)。,在信息化、規(guī)范化、標(biāo)準(zhǔn)化的電子文本中尤其被強(qiáng)調(diào)和推行。

1955年頒行的《第一批異體字整理表》規(guī)定:“從實(shí)施日起,全國(guó)出版的報(bào)紙、雜志、圖書(shū)一律停止使用表中括弧內(nèi)的異體字。但翻印古書(shū)須用原文原字的,可作例外?!?57)教育部語(yǔ)言文字信息管理司組編:《語(yǔ)言文字規(guī)范標(biāo)準(zhǔn)》,北京:商務(wù)印書(shū)館,2017年,第661頁(yè)。之后古籍出版多采用通行字,建立在這些古籍整理本基礎(chǔ)上的電子文本和數(shù)據(jù)庫(kù)也主要采用規(guī)范字體。根據(jù)2000年通過(guò)的《中華人民共和國(guó)通用語(yǔ)言文字法》、2013年公布的《通用規(guī)范漢字表》,簡(jiǎn)體就是由國(guó)家來(lái)推動(dòng)的強(qiáng)制統(tǒng)一規(guī)范。1981年,國(guó)家標(biāo)準(zhǔn)總局曾發(fā)布《中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)信息交換用漢字編碼字符集·基本集(GB 2312-80)》,是使用簡(jiǎn)體中文的地區(qū)強(qiáng)制使用的唯一中文編碼,共收錄了6763個(gè)簡(jiǎn)體漢字、682個(gè)符號(hào)。照排系統(tǒng)、銀行系統(tǒng)等主要采用的就是這一標(biāo)準(zhǔn),原有數(shù)據(jù)也是基于GB 2312編碼字符集的方正照排系統(tǒng)的累積。中文編碼字符集標(biāo)準(zhǔn)首次發(fā)布于2000年,而2022年發(fā)布的新版《信息技術(shù) 中文編碼字符集》(GB 18030-2022)強(qiáng)制性國(guó)家標(biāo)準(zhǔn)收錄漢字87887個(gè),較上一版增加錄入了1.7萬(wàn)余個(gè)生僻漢字,可覆蓋我國(guó)絕大部分人名、地名用生僻字以及文獻(xiàn)、科技等專業(yè)領(lǐng)域的用字。

圍繞用字規(guī)范,國(guó)家發(fā)布的一系列國(guó)家標(biāo)準(zhǔn)和配套規(guī)范,連同各行政機(jī)關(guān)和商業(yè)機(jī)構(gòu)推行字符統(tǒng)一的措施,共同構(gòu)成了漢字應(yīng)用的規(guī)范系統(tǒng),也是漢字信息化、古籍?dāng)?shù)字化和知識(shí)庫(kù)構(gòu)建的基礎(chǔ)準(zhǔn)則?!兜谝慌愺w字整理表》精簡(jiǎn)了漢字?jǐn)?shù)量(廢除異體字1055個(gè)),隨后公布的《漢字簡(jiǎn)化方案》精簡(jiǎn)了筆畫(huà)數(shù)。1965年發(fā)布《印刷通用漢字字形表》,之后《簡(jiǎn)化字總表》第二版采用了新鉛字排印。《印刷通用漢字字形表》對(duì)同一宋體字筆畫(huà)或結(jié)構(gòu)不同的一般選其便于辨認(rèn)、書(shū)寫的字形,促進(jìn)了宋體楷化,字符筆勢(shì)傾向橫寫、折筆改直筆、筆畫(huà)結(jié)構(gòu)連接、偏旁數(shù)量精簡(jiǎn)等。1988年發(fā)布的《現(xiàn)代漢語(yǔ)常用字表》和《現(xiàn)代漢語(yǔ)通用字表》(《印刷通用漢字字形表》基礎(chǔ)上增訂),2000年實(shí)施的《GB13000.1字符集漢字字序(筆畫(huà)序)規(guī)范》和2013年公布的《通用規(guī)范漢字表》等,在字形、字量、字級(jí)、字序等方面作出了明確規(guī)定。尤其《通用規(guī)范漢字表》是現(xiàn)代記錄漢語(yǔ)的通用規(guī)范字集,社會(huì)一般應(yīng)用領(lǐng)域的漢字使用以之為準(zhǔn),原有相關(guān)字表停用。隨著《學(xué)術(shù)出版規(guī)范古籍整理》、《中醫(yī)古籍整理規(guī)范》等國(guó)家和行業(yè)標(biāo)準(zhǔn)的發(fā)布,業(yè)界正據(jù)各自標(biāo)準(zhǔn)推進(jìn)用字統(tǒng)一,如要求“底本中的異體字、古字、俗寫字,日本版本中的當(dāng)用漢字、手寫體,除特殊設(shè)計(jì)的校注項(xiàng)目外,統(tǒng)一以規(guī)范字律齊”(58)中華中醫(yī)藥學(xué)會(huì):《中醫(yī)古籍整理規(guī)范》,北京:中國(guó)中醫(yī)藥出版社,2012年,第4頁(yè)。。

與此同時(shí),地名、人名的規(guī)范也在加速推進(jìn)。2016年,工信部發(fā)布《工業(yè)和信息化部關(guān)于進(jìn)一步防范和打擊通訊信息詐騙工作的實(shí)施意見(jiàn)》,要求三大運(yùn)營(yíng)商在2016年底實(shí)名率達(dá)100%。強(qiáng)制實(shí)名制讓各運(yùn)營(yíng)商不得不采取特殊措施使超GBK集生僻字姓名客戶能夠入網(wǎng),卻滋生了在其他系統(tǒng)和環(huán)節(jié)無(wú)法兼容的問(wèn)題。新字形成了印刷文本及電子文本的基礎(chǔ),也是Unicode編碼的基礎(chǔ)來(lái)源。GB18030涵蓋了《簡(jiǎn)化字總表》、《現(xiàn)代漢語(yǔ)通用字表》、《現(xiàn)代漢語(yǔ)常用字表》、《印刷通用漢字字形表》的全部漢字。2021年發(fā)布的國(guó)家標(biāo)準(zhǔn)GB/Z 40637—2021《古籍印刷通用字規(guī)范字形表》,規(guī)定了古籍印刷通用字收字和宋體字形規(guī)范原則,給出了14250個(gè)古籍印刷通用字的字形、字音?;趪?guó)家標(biāo)準(zhǔn)研發(fā)文本庫(kù),用以支持和規(guī)范字符的輸入、顯示和交換,促進(jìn)信息網(wǎng)絡(luò)為中心的多媒體用字規(guī)范與統(tǒng)一。標(biāo)準(zhǔn)文本庫(kù)類似歷史上的刻石、石經(jīng)、韻書(shū)和字書(shū)等,為各種文本提供參校,替換不規(guī)范字符。這種標(biāo)準(zhǔn)文本庫(kù)將因其通用性而被越來(lái)越多人使用,成為數(shù)字時(shí)代的關(guān)鍵基礎(chǔ)設(shè)施。

漢字簡(jiǎn)化是近代以來(lái)漢字改革的主要內(nèi)容,也讓簡(jiǎn)體字與繁體字成為兩種不同的字符系統(tǒng)。GB 2312所收6763字中的2200余常用簡(jiǎn)化漢字,與古籍中的常用字并不同。它對(duì)現(xiàn)代文獻(xiàn)用字覆蓋率可達(dá)99.99%,而《四庫(kù)全書(shū)》、《四部叢刊》等古籍使用其中漢字5680個(gè),覆蓋率僅為72.57%(59)朱巖:《中國(guó)古籍用字字頻與分布統(tǒng)計(jì)分析》,《國(guó)家圖書(shū)館學(xué)刊》,2004年第3期,第93頁(yè)。。簡(jiǎn)體標(biāo)準(zhǔn)明確,規(guī)則簡(jiǎn)單,而繁體字經(jīng)久多歧,缺乏統(tǒng)一標(biāo)準(zhǔn)。盡管編碼空間還充裕,但同一個(gè)字的各類形體如大小、風(fēng)格、筆勢(shì)等都予刻畫(huà),也是短期難以窮盡。隨著現(xiàn)代印刷文獻(xiàn)尤其電子文獻(xiàn)所占比重越來(lái)越大,簡(jiǎn)體文本日益成為主流。電子化是一次新的標(biāo)準(zhǔn)化,必然是有一定之規(guī)的簡(jiǎn)體,而非尋求眾多繁體中的一種。繁體字庫(kù)的查全、查準(zhǔn)和利用率不如簡(jiǎn)體,以現(xiàn)行通用的簡(jiǎn)體規(guī)范字為基礎(chǔ),從應(yīng)用層面來(lái)解決繁簡(jiǎn)轉(zhuǎn)換問(wèn)題,方能邁開(kāi)標(biāo)準(zhǔn)文本庫(kù)建設(shè)的第一步。否則,即便創(chuàng)建了繁體字文本庫(kù),缺乏字符、語(yǔ)義的歷時(shí)標(biāo)注,沒(méi)有字際關(guān)系的研究支撐,也會(huì)極大限制其數(shù)字功能的發(fā)揮。建立在規(guī)范簡(jiǎn)體字基礎(chǔ)上的文本才有通用性,也才有資格和條件提供精準(zhǔn)檢索、字頻統(tǒng)計(jì)等基礎(chǔ)功能。

當(dāng)然,以簡(jiǎn)體字為基礎(chǔ)也會(huì)造成不必要、不合理的合并。除簡(jiǎn)化字方案的強(qiáng)行合并外,還有在實(shí)踐操作中參照《漢字簡(jiǎn)化方案》和《漢字簡(jiǎn)化總表》制定的簡(jiǎn)化規(guī)則進(jìn)行類推簡(jiǎn)化。甚至運(yùn)用可以作偏旁的簡(jiǎn)化字和簡(jiǎn)化偏旁進(jìn)行類推,把包含相同偏旁的漢字成批簡(jiǎn)化,構(gòu)造簡(jiǎn)體字(60)李國(guó)英:《簡(jiǎn)論類推簡(jiǎn)化》,史定國(guó)主編:《簡(jiǎn)化字研究》,北京:商務(wù)印書(shū)館,2004年,第95頁(yè)。。無(wú)限類推簡(jiǎn)化會(huì)造成大量同形字,破壞漢字結(jié)構(gòu),割裂歷史。有鑒于此,1986年國(guó)家重新發(fā)布《簡(jiǎn)化字總表》時(shí)強(qiáng)調(diào):“今后,對(duì)漢字的簡(jiǎn)化應(yīng)持謹(jǐn)慎態(tài)度,使?jié)h字的形體在一個(gè)時(shí)期內(nèi)保持相對(duì)穩(wěn)定?!?61)中國(guó)文字改革委員會(huì)等編:《簡(jiǎn)化字總表》,北京:語(yǔ)文出版社,1986年,第1頁(yè)。2013年公布的《〈通用規(guī)范漢字表〉解讀》中明確規(guī)定“表外字不再類推”,如果類推,需要報(bào)請(qǐng)國(guó)家語(yǔ)委等主管部門批準(zhǔn)(62)王寧主編:《〈通用規(guī)范漢字表〉解讀》,北京:商務(wù)印書(shū)館,2013年,第45-48頁(yè)。。一些機(jī)構(gòu)已通過(guò)建立詞表、對(duì)應(yīng)關(guān)聯(lián)等方式研發(fā)了較為精確的繁簡(jiǎn)轉(zhuǎn)換系統(tǒng),不再擴(kuò)大漢字應(yīng)用的差異,事實(shí)上采取了“繁、簡(jiǎn)二元并存”方式,以保持現(xiàn)有漢字規(guī)范的穩(wěn)定(63)黃德寬:《論漢字規(guī)范的現(xiàn)實(shí)基礎(chǔ)及路徑選擇》,《語(yǔ)言文字應(yīng)用》,2007年第4期,第6頁(yè)。。將來(lái)可以采取深度標(biāo)引、詞表關(guān)聯(lián)、詞向量表示等方式,解決字體字形之間的復(fù)雜關(guān)系。

與統(tǒng)一字符集和標(biāo)準(zhǔn)文本庫(kù)的建設(shè)相輔,還可基于字際關(guān)系及其歷史傳承研制相應(yīng)總表?!爸腥A字庫(kù)工程”總體組從27億字楷書(shū)漢字文獻(xiàn)中搜集整理未編碼字140萬(wàn)余,經(jīng)過(guò)認(rèn)同、去重等流程,最終形成80萬(wàn)楷書(shū)漢字的中間字庫(kù)。在此基礎(chǔ)上研制的《漢字代表字表(異體關(guān)系總表)》包括代表字、異構(gòu)字、部件異寫字、筆畫(huà)異寫字等,其中“代表字”就是最主要的漢字,具有規(guī)定性、通行性、理?yè)?jù)性、系統(tǒng)性等特征。一方面是整理楷書(shū)正字、隸定字的字際關(guān)系數(shù)據(jù)和相關(guān)的時(shí)代數(shù)據(jù),建立起古漢字縱向的演變序列和橫向的字際關(guān)系序列;另一方面是整理異體關(guān)系數(shù)據(jù),建立起楷書(shū)漢字橫向的字際關(guān)系序列?!犊偙怼芬远鄬蛹?jí)的異體關(guān)系為組織方式,實(shí)現(xiàn)了對(duì)中間字庫(kù)楷書(shū)字符的有效管理。一些漢字在不同歷史時(shí)期,有其習(xí)慣寫法。古漢字如“唯”有時(shí)會(huì)寫成上下結(jié)構(gòu),嚴(yán)格隸定是“售”。如果簡(jiǎn)單地把古今漢字的字際關(guān)系混為一表,就易產(chǎn)生混亂。鑒于此,總體組還研制了《漢字歷史傳承總表》,集合了甲骨文、金文、楚簡(jiǎn)、帛書(shū)、玉石、金器、漆器、陶瓦、璽印等各種載體、各個(gè)時(shí)代的古文字,梳理了從商周到唐宋的文字發(fā)展脈絡(luò)和樣貌(64)參引自“中華字庫(kù)工程”第27包結(jié)項(xiàng)報(bào)告(內(nèi)部資料),感謝項(xiàng)目總體組授權(quán)使用。。這一成果不僅有助于生成不同時(shí)代、地區(qū)、民族和行業(yè)的常用字表,還將有助于創(chuàng)建簡(jiǎn)體規(guī)范字符集及標(biāo)準(zhǔn)文本庫(kù)。

古籍?dāng)?shù)量眾多,形態(tài)各異,從字符到文本的統(tǒng)一規(guī)范不可能一蹴而就。應(yīng)先嘗試建立古籍文本模型,從文字、符號(hào)、圖形、圖像、版式、結(jié)構(gòu)等方面描述古籍文本特性。電子文本、數(shù)據(jù)集、數(shù)據(jù)庫(kù)事實(shí)上承擔(dān)了數(shù)字化時(shí)代古籍的版本功能,一些古籍?dāng)?shù)據(jù)庫(kù)不明版本來(lái)源,或回避了版本,或?qū)⒉煌姹倦s糅到一個(gè)庫(kù)中。統(tǒng)計(jì)分析正是基于編碼系統(tǒng)及其與文本的對(duì)應(yīng)關(guān)系,而非印刷、抄寫等紙本書(shū)的基礎(chǔ)上。紙書(shū)不能作為統(tǒng)計(jì)對(duì)象,因?yàn)闊o(wú)論抄寫本還是印刷本,其字符存在異體異形概率較高。只有先實(shí)現(xiàn)字符層面的統(tǒng)一和文本集的標(biāo)準(zhǔn)化,才能實(shí)現(xiàn)大數(shù)據(jù)層面的統(tǒng)計(jì)分析和深度利用。問(wèn)題是,異體字、繁簡(jiǎn)字、正俗字都統(tǒng)一之后,字體字形被強(qiáng)制規(guī)范的電子版將替代和覆蓋原版,也就不再是原書(shū)形態(tài)。有些雖然區(qū)分了版本,但底本不同,如“文淵閣《四庫(kù)全書(shū)》”有三種電子版,“二十五史”的數(shù)字版本多達(dá)七種(65)毛建軍:《古籍?dāng)?shù)字化理論與實(shí)踐》,北京:航空工業(yè)出版社,2009年,第107、99、111、135頁(yè)。。為滿足文化界對(duì)數(shù)字善本的需求,首都師范大學(xué)電子文獻(xiàn)研究所與北京國(guó)學(xué)時(shí)代文化傳播股份有限公司曾于2008年啟動(dòng)“古籍電子定本工程”,也展示了部分古籍定本(66)“古籍電子定本工程”,http://www.guoxue.com/zt/dzdb/,2022年9月1日。。但這種電子定本由于缺少學(xué)術(shù)研究和國(guó)家層面的雙重支持,未能實(shí)現(xiàn)預(yù)期。如果國(guó)家有關(guān)部門能創(chuàng)建、指定或認(rèn)證古籍?dāng)?shù)字權(quán)威版本,可直接征引并形成校訂機(jī)制,將極大提升科研效率和節(jié)省文化成本。

五、數(shù)據(jù)融通是構(gòu)建新型數(shù)據(jù)庫(kù)與知識(shí)庫(kù)的基礎(chǔ)

隨著信息技術(shù)的發(fā)展,基于紙質(zhì)文獻(xiàn)特征的知識(shí)聚合已不能滿足用戶的個(gè)性化需求?;谧址幋a、語(yǔ)義標(biāo)注、文本格式等元數(shù)據(jù)要素的聚合,可實(shí)現(xiàn)深層、多維和動(dòng)態(tài)的知識(shí)關(guān)聯(lián),解決古籍資源的數(shù)據(jù)庫(kù)孤立、內(nèi)容交叉或異構(gòu)問(wèn)題。1984年,欒貴明等就指出,隨著計(jì)算機(jī)的普及,“我國(guó)幾千年來(lái)汗牛充棟而又星羅棋布的古文典籍,可盡行收入方寸之地,召之即來(lái)。使用微型機(jī)對(duì)這些古籍進(jìn)行版本研究、文句???、文字訂正、字義詮釋、篇章會(huì)注、作品編年、古語(yǔ)今譯,乃至標(biāo)點(diǎn)、分段等等都將成為現(xiàn)實(shí)。”(67)欒貴明、李秦:《微電腦與古文獻(xiàn)研究》,《古籍整理出版情況簡(jiǎn)報(bào)》,1984年8月20日,總第127期。這些暢想之所以未能很快實(shí)現(xiàn),至少在學(xué)術(shù)應(yīng)用層面還有一定距離,很大原因是受制于統(tǒng)一標(biāo)準(zhǔn)下的字符集、文本庫(kù)建設(shè)。隨著命名實(shí)體識(shí)別與標(biāo)引技術(shù)的發(fā)展和應(yīng)用,越來(lái)越多的專名將被聚合、歸類,相應(yīng)也就要求校驗(yàn)對(duì)齊和相互認(rèn)同。只有從字形、字體層面實(shí)現(xiàn)規(guī)范統(tǒng)一,古典文獻(xiàn)才能高質(zhì)高效地進(jìn)入到語(yǔ)義關(guān)聯(lián)、智能化階段。

字符集改動(dòng)對(duì)文獻(xiàn)數(shù)據(jù)的影響會(huì)成指數(shù)級(jí)放大,字符集的擴(kuò)充與認(rèn)同要做到求全與求穩(wěn)的平衡。針對(duì)古籍?dāng)?shù)字化過(guò)程中產(chǎn)生的大量集外字,有學(xué)者主張,“逐一分析這些集外字,由于書(shū)寫變異造成筆畫(huà)細(xì)微差異的字占58%,占集外字的絕大多數(shù),這些字完全可以認(rèn)同為集內(nèi)字”(68)肖禹:《古籍?dāng)?shù)字化中的集外字處理問(wèn)題研究》,《圖書(shū)館研究》,2013年第5期,第28頁(yè)。。有些已經(jīng)認(rèn)同的漢字,隨著對(duì)其意義、用法的深入了解,后來(lái)又認(rèn)為是不同的漢字。前后標(biāo)準(zhǔn)不一,會(huì)造成新的文獻(xiàn)斷層,使文獻(xiàn)恢復(fù)變得極為困難。鑒于一些數(shù)據(jù)庫(kù)的異體字不具有通用性,可構(gòu)建動(dòng)態(tài)的異體字?jǐn)?shù)據(jù)庫(kù),作為正體與異體字之間的中介。在古籍文本的異體字形后標(biāo)記相應(yīng)的正體字,“在檢索時(shí)無(wú)論關(guān)鍵詞是正體字形還是異體字形,都可以得到正確的結(jié)果,并且這種文本的異體字檢索并不需要依賴異體字?jǐn)?shù)據(jù)庫(kù),具有更好的獨(dú)立性”(69)高天俊:《Unicode標(biāo)準(zhǔn)下古籍?dāng)?shù)字化的異體字處理》,《現(xiàn)代語(yǔ)文》,2011年第9期,第115頁(yè)。。集內(nèi)字中的漢字關(guān)聯(lián),“文淵閣《四庫(kù)全書(shū)》電子版3.0”提供了異體字、通假字、繁簡(jiǎn)字、古今字和新舊字關(guān)聯(lián),“中華經(jīng)典古籍庫(kù)”也在“檢索選項(xiàng)”設(shè)有“應(yīng)用漢字關(guān)聯(lián)”選項(xiàng)??蔀檎w字或代表字分配碼點(diǎn),異體字形采用二級(jí)編碼和代表字鏈接,以解決字符的輸入和檢索,以及文本之間的連接與轉(zhuǎn)換問(wèn)題。

簡(jiǎn)體字的規(guī)范、新字形的推廣、統(tǒng)一碼的使用,讓古籍?dāng)?shù)據(jù)庫(kù)在字符層面較抄印本發(fā)生了重大改變。抄印本對(duì)字的處理具有多樣化、隨機(jī)性特點(diǎn),文本語(yǔ)境容許字在部首、讀音、形體方面的差異,甚至借助形體差異而表達(dá)一定的義涵,如假借、避諱、諧音等。數(shù)字文本是基于字符集的制作,可確保每字及其代碼相互區(qū)分,卻切斷了字際關(guān)聯(lián)。從抄印文本到數(shù)字文本,實(shí)則發(fā)生了一次系統(tǒng)性更替。以往漢字已基于形、音、義形成了一定譜系,轉(zhuǎn)換成編碼后,原有關(guān)聯(lián)已被削弱。編碼也成為與形、音、義并列的要素,甚至是更重要的要素。如果對(duì)讀音、義項(xiàng)等進(jìn)行系統(tǒng)分析,借助標(biāo)引或詞表庫(kù),其關(guān)聯(lián)也應(yīng)是基于編碼系統(tǒng)。

要研發(fā)異體字、異形字智能轉(zhuǎn)換系統(tǒng),基于通用字體和字形制訂漢字標(biāo)準(zhǔn)字根、字模,建立漢字索引標(biāo)準(zhǔn)、控制功能標(biāo)準(zhǔn)、編碼和輸入方法標(biāo)準(zhǔn)等。同時(shí),也應(yīng)認(rèn)識(shí)到數(shù)字文本不可能完全再現(xiàn)古籍的全部信息。數(shù)百種漢字字體,除宋體、仿宋、楷體、黑體等常用印刷字體外,其他字體的數(shù)字標(biāo)準(zhǔn)仍需進(jìn)一步明確和規(guī)范。在標(biāo)準(zhǔn)文本庫(kù)的基礎(chǔ)上創(chuàng)建和關(guān)聯(lián)各種子庫(kù),如基于漢字本體及演變的甲骨文、金文、竹簡(jiǎn)帛書(shū)、小篆、隸等各種字庫(kù),與漢字關(guān)系密切的少數(shù)民族及日、韓、越等近裔漢文字庫(kù)。它們基于元數(shù)據(jù)和索引,與標(biāo)準(zhǔn)庫(kù)建立銜接和轉(zhuǎn)換機(jī)制。方正公司為方正超大字符集開(kāi)發(fā)的“方正典碼輸入法”,以及海峰五筆、新概念五筆、倉(cāng)頡輸入法世紀(jì)版等已基本解決超大字符集的輸入問(wèn)題。今后可以依據(jù)歷代文獻(xiàn)的字頻統(tǒng)計(jì),創(chuàng)建不同時(shí)代和書(shū)體的字符集。同時(shí),改進(jìn)檢索方式和方法,不僅可用代碼檢索,還能依靠部首、筆畫(huà)、音序、聲符、語(yǔ)義等進(jìn)行深層檢索。

標(biāo)準(zhǔn)文本庫(kù)不是對(duì)抄本和印本文獻(xiàn)的復(fù)現(xiàn),而是整合與超越。創(chuàng)建元數(shù)據(jù)處理標(biāo)準(zhǔn),才能實(shí)現(xiàn)對(duì)元數(shù)據(jù)的統(tǒng)一描述、規(guī)范標(biāo)引、連接整合。一部(類)書(shū)的精準(zhǔn)用字量和字頻統(tǒng)計(jì),不僅要求有規(guī)范的形體、統(tǒng)一的編碼,還要求有嚴(yán)謹(jǐn)?shù)捏w例和統(tǒng)一的格式。通過(guò)光學(xué)字符識(shí)別軟件將含有文字的單層圖形文件轉(zhuǎn)換成集可閱讀可編輯于一體的文本文件,再進(jìn)行清理、校對(duì)、元數(shù)據(jù)提取等,形成眾多規(guī)范化文本文件。一個(gè)字符的統(tǒng)一編碼是確定的,但在實(shí)際傳輸過(guò)程中,編碼的實(shí)現(xiàn)方式(轉(zhuǎn)換格式)有所不同。不同機(jī)構(gòu)開(kāi)發(fā)的古籍電子產(chǎn)品往往有不同的文件格式,從而帶來(lái)了格式轉(zhuǎn)換和字段映射問(wèn)題。目前的數(shù)字化古籍格式有txt、doc、html、exe、pdf、wdl、pdg、ebk、edb等多種類型,它們是基于統(tǒng)一碼、倉(cāng)頡碼、大五碼或其他字符集而形成的。標(biāo)準(zhǔn)文本庫(kù)建設(shè)應(yīng)基于純文本格式,同時(shí)提供多格式轉(zhuǎn)換和多媒介遷移。引入數(shù)字資源唯一標(biāo)識(shí)符系統(tǒng)(CDOI),探索中文語(yǔ)料的批量可逆轉(zhuǎn)碼和數(shù)字資源統(tǒng)一調(diào)度。采用文本編碼倡議(TEL)的電子文本通用標(biāo)準(zhǔn),制定收集轉(zhuǎn)換策略以生成Access、Excel等格式數(shù)據(jù),提高易用性。

應(yīng)統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn)以實(shí)現(xiàn)跨庫(kù)檢索功能,使數(shù)據(jù)庫(kù)間資源互通有無(wú),并支持多種硬件平臺(tái)、服務(wù)器、操作系統(tǒng)和工作方式。為避免強(qiáng)制統(tǒng)一造成文字的歷史、文化信息損失,可通過(guò)字表等方式實(shí)現(xiàn)異體或異形字的關(guān)聯(lián)與認(rèn)同。統(tǒng)一顯示與差異轉(zhuǎn)換共存,以不影響字符集整體間的融通。未來(lái)古籍?dāng)?shù)據(jù)庫(kù)不僅可以進(jìn)行特征檢索(題名、作者、關(guān)鍵詞),還可實(shí)現(xiàn)新舊、正異、簡(jiǎn)繁轉(zhuǎn)換,以及中日、中韓、中越等不同形體漢字的關(guān)聯(lián)檢索,輔助帝王年號(hào)、干支紀(jì)年與公元紀(jì)年的在線換算,提供釋義、釋形、避諱等背景知識(shí)的推薦,以及生成各種類書(shū)、辭典及定制文本集等。文本庫(kù)鏈接各種數(shù)據(jù)庫(kù),可基于編年、地名、人名、職官、典故等進(jìn)行文獻(xiàn)聚合,也可根據(jù)朝代、地域、流派、作家、文體等條件實(shí)現(xiàn)個(gè)人訂制,以及研究成果的可視化呈現(xiàn)。知識(shí)圖譜與可視化工具可以更容易地進(jìn)行觀察和模擬計(jì)算,將原始文本中看不見(jiàn)的信息以新的樣貌為人們所看見(jiàn)。

文本庫(kù)不僅是保存和整合機(jī)構(gòu)知識(shí)資源內(nèi)容的場(chǎng)所,還是一個(gè)提供可計(jì)算可分析數(shù)據(jù)資源的平臺(tái),以有效支持資源獲取、數(shù)據(jù)加工、知識(shí)挖掘、成果評(píng)價(jià)和智能管理等。當(dāng)前“中華經(jīng)典古籍庫(kù)”已較好實(shí)現(xiàn)了功能化,如聯(lián)機(jī)字典可選擇同義詞檢索、紀(jì)年換算、瀏覽歷史與書(shū)簽等輔助功能;加載小工具如年表、繁簡(jiǎn)轉(zhuǎn)換、字頻統(tǒng)計(jì)等,可實(shí)現(xiàn)用戶交互式可視化展現(xiàn)。探索古籍?dāng)?shù)據(jù)庫(kù)的跨語(yǔ)境應(yīng)用和跨平臺(tái)操作,加載推理、建模、融合等工具與技術(shù),實(shí)現(xiàn)多元、分時(shí)、動(dòng)態(tài)的古籍引用可視化分析,以及個(gè)性化訂制、推送與交互。未來(lái)可望對(duì)古籍的版本源流、字體演變、字義關(guān)系、紀(jì)年轉(zhuǎn)換等作出智能考察,提供包括知識(shí)探索、時(shí)空軌跡、語(yǔ)義查詢、知識(shí)推理等智慧化服務(wù)。

古籍文獻(xiàn)是一個(gè)有限集合,應(yīng)在征集經(jīng)典文獻(xiàn)的基礎(chǔ)上,各種斷代文庫(kù)、地方文庫(kù)、行業(yè)文庫(kù)、專題文庫(kù)等并聯(lián)導(dǎo)入,創(chuàng)建齊備精良、標(biāo)準(zhǔn)規(guī)范和開(kāi)放共享的國(guó)家古籍文本庫(kù)。古籍標(biāo)準(zhǔn)文本庫(kù)的構(gòu)建,不僅可以聚合同類文本和實(shí)現(xiàn)個(gè)性化訂制,還可自動(dòng)生成各種知識(shí)圖譜,實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)顯示和結(jié)構(gòu)關(guān)系的多維呈現(xiàn),不斷延伸與加注各種知識(shí)點(diǎn)。它們基于字詞、實(shí)體或各種標(biāo)簽而實(shí)現(xiàn)知識(shí)連接,進(jìn)而生成“中國(guó)古典知識(shí)庫(kù)”,“在保障古籍文獻(xiàn)內(nèi)容完整性及內(nèi)部邏輯的基礎(chǔ)上,突破文獻(xiàn)原有結(jié)構(gòu),關(guān)注文獻(xiàn)中的年代、地域、人物、社團(tuán)、著述等實(shí)體的相關(guān)屬性及不同實(shí)體間的關(guān)系,通過(guò)這些實(shí)體及相互關(guān)系對(duì)文獻(xiàn)進(jìn)行深層組織和知識(shí)管理”(70)張力偉:《走向深度學(xué)習(xí)——大數(shù)據(jù)背景下“中國(guó)古典知識(shí)庫(kù)”的構(gòu)想》,《光明日?qǐng)?bào)》,2018年10月15日,第13版。。建立文本庫(kù)的準(zhǔn)入標(biāo)準(zhǔn)和審核機(jī)制,形成一個(gè)集在線閱讀、跨庫(kù)檢索、數(shù)據(jù)服務(wù)、知識(shí)問(wèn)答、熱點(diǎn)追蹤、用戶畫(huà)像等各種功能于一體的智能平臺(tái)。文本庫(kù)作為知識(shí)點(diǎn)或信息點(diǎn)的樞紐,不僅可為各種寫作軟件、語(yǔ)言大模型等提供訓(xùn)練素材,也可為關(guān)聯(lián)知識(shí)提供自動(dòng)校驗(yàn)和修訂推薦,還是一個(gè)增值了的知識(shí)庫(kù)和智慧平臺(tái)。

新舊字體、字形與字符編碼的三次迭代,極大影響了電子文本集與數(shù)據(jù)庫(kù)建設(shè)。統(tǒng)一字符集和標(biāo)準(zhǔn)文本庫(kù)是古籍?dāng)?shù)字化的必要條件,也是構(gòu)建關(guān)系型和結(jié)構(gòu)化古典知識(shí)庫(kù)的基礎(chǔ)。正如朱翠萍所說(shuō):“字符類型多樣、字際關(guān)系復(fù)雜、終端需求不同、生僻字繁多是古籍?dāng)?shù)字化工作時(shí)時(shí)面對(duì)的問(wèn)題,主動(dòng)開(kāi)展字符集整理與規(guī)范工作,是解決古籍排版、數(shù)據(jù)庫(kù)字符呈現(xiàn)、智能處理工具研發(fā)等系列問(wèn)題的必要措施?!?71)張競(jìng)艷:《籍合網(wǎng):數(shù)字化讓古籍活起來(lái)》,《出版人》,2022年第12期。以往不同的語(yǔ)言、媒介和系統(tǒng)之間交換文本信息是困難甚至不可能的,數(shù)字化把文字、聲音、圖形、圖像等信息全部變?yōu)橛?jì)算機(jī)能夠識(shí)別的二進(jìn)制數(shù)字序列,借助數(shù)碼可對(duì)各種信息進(jìn)行統(tǒng)一處理。文本庫(kù)可以通過(guò)建立詞匯表等方式,實(shí)現(xiàn)不同語(yǔ)種的精準(zhǔn)對(duì)譯,促進(jìn)比較文化與文明的研究。文本庫(kù)還可與圖像庫(kù)、聲音(方音)庫(kù)、信息地理系統(tǒng)、社交媒體、虛擬現(xiàn)實(shí)界面等連接融合,創(chuàng)造出全新的應(yīng)用場(chǎng)景??缯Z(yǔ)種、跨媒介的信息標(biāo)準(zhǔn)的統(tǒng)一銜接,也將使得共建“巴別塔”前景重現(xiàn)。

隨著古籍的電子化與數(shù)據(jù)化,字符集、文本庫(kù)、分析工具與智能平臺(tái)已成為學(xué)術(shù)研究的新基礎(chǔ)設(shè)施。標(biāo)準(zhǔn)文本庫(kù)和古典知識(shí)庫(kù)的建成將為數(shù)字化圖書(shū)館、博物館、檔案館的建設(shè)提供有力支持,為用于知識(shí)挖掘的結(jié)構(gòu)化數(shù)據(jù)庫(kù)和智慧平臺(tái)建設(shè)提供堅(jiān)實(shí)基礎(chǔ),促進(jìn)知識(shí)形態(tài)的轉(zhuǎn)型升級(jí)??梢哉f(shuō),統(tǒng)一字符集是繼秦始皇“書(shū)同文字”之后的全新規(guī)范,正如上次是從刻畫(huà)形態(tài)到書(shū)寫形態(tài),這次是從書(shū)寫形態(tài)到數(shù)碼形態(tài)。只有盡早實(shí)現(xiàn)字符編碼和典籍文本的統(tǒng)一,各種新型數(shù)據(jù)庫(kù)和知識(shí)庫(kù)才能順利構(gòu)建和連接,在信息社會(huì)和數(shù)字化文明中產(chǎn)生越來(lái)越廣泛的影響。基于統(tǒng)一字符集和標(biāo)準(zhǔn)文本庫(kù)建設(shè)的古籍?dāng)?shù)字化必將極大促進(jìn)古籍文獻(xiàn)的整理、傳播與研究,解決中文資源的深度利用和全球共享問(wèn)題。當(dāng)然,在數(shù)字化與規(guī)范化帶來(lái)信息交換便利的同時(shí),也要警惕其帶來(lái)的單一化、同質(zhì)化問(wèn)題,為差異留有余地而避免在某些領(lǐng)域積重難返或推倒重來(lái)。

猜你喜歡
字符集異體字古籍
中醫(yī)古籍“疒”部俗字考辨舉隅
異體字字形類似偏旁的互用類型綜合字圖構(gòu)建
關(guān)于版本學(xué)的問(wèn)答——《古籍善本》修訂重版說(shuō)明
天一閣文叢(2020年0期)2020-11-05 08:28:06
偏旁省略異體字研究
MySQL數(shù)據(jù)庫(kù)字符集的問(wèn)題研究
ORACLE字符集問(wèn)題的分析
關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
常用隸書(shū)異體字表(二)
丹青少年(2017年1期)2018-01-31 02:28:30
我是古籍修復(fù)師
金橋(2017年5期)2017-07-05 08:14:41
ORACLE數(shù)據(jù)庫(kù)字符集問(wèn)題及解決方法
如皋市| 忻城县| 霍林郭勒市| 栾川县| 孝义市| 双峰县| 喀什市| 永和县| 江口县| 凤山市| 彰武县| 拉萨市| 杭州市| 渝北区| 宁蒗| 固原市| 昔阳县| 新宾| 奈曼旗| 凌海市| 迁西县| 凤山市| 阳江市| 肥西县| 塘沽区| 南部县| 卢湾区| 久治县| 阳春市| 靖安县| 贺兰县| 聊城市| 南华县| 台州市| 岳池县| 无极县| 鹰潭市| 阳新县| 句容市| 鱼台县| 浮梁县|