我們正處于漢字電子化變革的最高潮,漢字在電子化時代的生存與發(fā)展,也就成了在互聯(lián)網(wǎng)時代,中國文化最緊迫、最復雜和最核心的文化命題之一。
漢字,目前有確切考古證明的歷史,可追溯至約公元前1300年中國商代的甲骨文,迄今已有3000多年。漢字的演變和發(fā)展經(jīng)歷了兩次最重大的變革,第一次是唐宋以降的印刷術變革,第二次便是今天的電子化變革。漢字的電子化啟動于19世紀后期。在20世紀中后期,漢字的電子化先后出現(xiàn)了兩次高潮,第一次,在1980年代中期到1990年代中期,核心內(nèi)容是漢字的計算機處理問題;第二次,1990年代末至今,漢字電子化的重點轉向語音識別、語音合成和語義處理,以及互聯(lián)網(wǎng)時代的數(shù)字遺產(chǎn)保護等方面。今天,我們正處于漢字電子化變革的最高潮,漢字在電子化時代的生存與發(fā)展,也就成了在互聯(lián)網(wǎng)時代,中國文化最緊迫、最復雜和最核心的文化命題之一。
漢字的三道“電子化”門檻
漢字最早的電子化,是中文電碼,又叫中文商用電碼等,是在電報之中傳送漢字信息的方法。中文電碼是歷史上第一個把漢字的方塊型字體,轉化為電子訊號的編碼表。1835年摩爾斯電碼發(fā)明后,只能傳送英語或以拉丁字母拼寫的文字。1880年,清政府雇傭丹麥人發(fā)明了中文漢字電報,該碼表采用四位阿拉伯數(shù)字作代號,從0001到9999按四位數(shù)順序排列,用四位數(shù)字最多可以表示10000個漢字、字母和符號。漢字先按部首,后按筆劃排列,字母和符號放到電碼表的末尾,這一范疇后來不能滿足中國人的姓氏戶籍管理用字,于是,第二字面漢字便出現(xiàn)了??傊瑵h字是十分順利地邁過了“電報門檻”。
1946年,世界上第一臺電子計算機誕生,當時的計算機主要的功能是計算。從1960年代開始,計算機的主要功能開始多樣化,出現(xiàn)了新的主要功能——處理大規(guī)模的數(shù)據(jù),其中主要的項目,便是圖書館的目錄整理。當時,在美國國會圖書館和許多美國大學,都擁有數(shù)量眾多的漢字藏書。利用計算機來管理這批藏書,就必須要有一套有效處理漢字的系統(tǒng)。由此,漢字的電子化(計算機化)時代正式揭幕。這時,漢字的電子化所面臨的命題,通俗地說主要有兩個方面:一,如何把漢字存儲在計算機內(nèi);二,如何在計算機上顯示出漢字。
到了互聯(lián)網(wǎng)時代,漢字的電子化又面臨著全新的挑戰(zhàn),比如,第一,互聯(lián)網(wǎng)上浩如煙海的漢字信息數(shù)據(jù),為中文信息搜索提出了新的挑戰(zhàn);第二,非鍵盤的漢字輸入需要有全新的發(fā)展方案,因為手機、PDA等移動設備已經(jīng)大規(guī)模普及,漢字信息處理已經(jīng)擺脫了計算機,人們可以不用鍵盤,比如漢字手寫輸入,甚至都不必動手,比如漢字的語音輸入等。
電子化“頭痛”
電子化時代的“漢字”,并不僅僅是指中國大陸地區(qū)使用的簡化漢字和標準漢語體系——“普通話”,而是指漢字文化圈里的通行的漢字和標準漢語。今天我們說的“漢字處理系統(tǒng)”,是基于多樣化的漢字字體、多樣化的標準漢語體系、多樣化的漢文化傳統(tǒng)、多樣化的經(jīng)濟和社會發(fā)展水平,是跨國別、跨地域的文化現(xiàn)象和規(guī)律。
漢字文化圈,指的是文化相近,歷史上受中國政治及中華文化影響,過去或現(xiàn)在仍在使用漢字,在歷史上,曾經(jīng)共同使用漢語文言文(日本、韓國、越南稱之為:漢文)作為書面語言,并覆蓋東亞、東南亞部分地區(qū),以及北美、南美、歐洲等特定的人口聚居區(qū)的文化區(qū)域。
漢文化圈的“漢字”,字體多樣化,包括中國大陸地區(qū)、新加坡、部分海外華人聚居區(qū)使用的簡化漢字,中國港澳臺地區(qū)、部分海外華人聚居區(qū)使用的繁體漢字,日本使用的國字,韓國漢字,越南獨有的漢字——喃字。另外,漢語體系也呈現(xiàn)多樣化,大陸地區(qū)使用“普通話”標準,臺灣是“國語”,東南亞的華人聚居區(qū)是“華語”標準。
可以說,多樣性是“漢字”的本質屬性。這意味著即使是同一個漢字,在不同文化地區(qū),它的字體結構有所不同、筆畫多少有所不同、書寫順序有所不同、讀音發(fā)音有所不同,乃至同一個字的拼寫方案也會不同。
正是由于漢字的多樣性,使得漢字在電子化進程中面臨的技術難度極大。漢字的電子化,通俗的說分為六大領域,分別是:基礎研究,比如漢字編碼字符集、通用漢字樣本庫等;輸入技術,比如漢字鍵盤輸入法、手寫輸入、漢字語音輸入、文字識別等;輸出技術,比如漢字激光照排、漢語語音合成等;存儲技術,比如漢字庫標準等;轉換技術,比如繁簡轉換等;信息處理,比如漢字情報檢索、漢字文本校對、機器翻譯等。如漢字語音輸入,既要受到不同標準漢語體系的讀音影響,還要受到中國各地方言口音的影響。目前最讓文化界頭痛的是,中國傳統(tǒng)古籍的數(shù)字化保存,涉及到數(shù)以萬計的中國正體字和異體字、常用字和冷僻字等,既牽扯到漢字字體庫的豐富擴展,又牽扯到繁簡漢字轉換,比如,“二十四史”系列典籍現(xiàn)在最可靠的數(shù)字化文本,依然是圖片格式的,并非字符格式,并未做到真正意義的數(shù)字化,既不能進行檢索,更不能在互聯(lián)網(wǎng)上實現(xiàn)“數(shù)字共享”。電子化對中國傳統(tǒng)文化傳承的促進作用,目前還剛剛啟動,效果還很不理想。
詭異的瑕疵
正是因為漢字文化圈的多樣性,所以,“信息交換”是漢字電子化最基礎和最根本的部分。各個漢字的使用地區(qū)都制訂了一系列漢字字符集標準。比如,中國在1974年8月開始了748工程,包括了用計算機來處理漢字,啟動了各種研究工作,于1980年公布了GB 2312-80漢字編碼的國家標準,最新的GB 18030收錄27533個漢字。中國港澳臺地區(qū)使用Big5碼,收錄13053個漢字。還有“中日韓統(tǒng)一表意文字編碼”,收集了漢語、日語、韓語中的漢字集,越南隨后也加入了這一系統(tǒng)。
不過,漢字字符集標準,并不一定和漢字的規(guī)范標準完全吻合,這聽起來或許有些詭異,但的確是事實。比如,2005年,中國香港公布了《香港電腦漢字字形參考指引》,就和《常用字字形表》(由香港教育局和香港教育學院制定)存在著差異。
此外,我國的漢字研究存在著學術空白,也使得漢字的電子化出現(xiàn)了“瑕疵”。比如,晚清時期,西學東漸,大量的西學文獻和科學著作被翻譯成中文,出現(xiàn)了一大批新造的漢字。比如在晚清,人們常用帶有“口”字旁的字來翻譯外來詞,把Ice-cream翻譯成“冰(口忌)(口廉)”?!?(口忌)(口廉)”二字,在當時很常見。西方的度量衡名稱在晚清,一般有兩種譯法,一是音譯,一是新造漢字。后者,比如:
(1)“(安百)”或“(百安)”表示 hectare(公頃);
(2)“(咅舍)”表示 bushel(蒲式耳);
(3)“(平米)”表示平方米;
這些字,今天已經(jīng)被廢棄,但是在清末卻是作為“常用字”或者“度量單位名稱”被廣泛使用,成為漢字在一個歷史時期的面貌,理應成為“文字記憶”保存下來。可是,這些字被《漢語大字典》所遺漏,在電子化時代也不被提及。
母語漢字的潛在危機
電子化對語言文字最大的損害,是對母語文字毀滅性的沖擊。很多國家對民族語言進行了“計算機化”,通常的做法是取消民族語言中的特殊字符,盡可能以26個標準拉丁字母代替,許多弱勢民族的母語文字因此被拋向滅絕的邊緣。進入了互聯(lián)網(wǎng)時代,互聯(lián)網(wǎng)的通用語言出現(xiàn)了,又進一步強化了對母語文字的沖擊,造成了今天我們所熟知的橫亙在強勢民族和弱勢民族之間的“數(shù)字鴻溝”,數(shù)以百計的非拉丁化的母語文字,被無情地擋在信息社會的門外。
漢字是非拉丁化的文字,電子化對漢語的沖擊,我們不得不加以重視。目前,中國大陸地區(qū)使用的拼音輸入法,是以普通話語音為標準的,也就是說只有學會了漢語拼音方案,才能使用這種輸入法。
眾所周知,漢語在中國大陸地區(qū)有七大方言區(qū):北方方言、吳語、客家話、閩語、粵語、湘語、贛語。還有一些方言區(qū),如晉語、平話和徽語。電子化為母語漢字設置了“數(shù)字門檻”,我們有平穩(wěn)過渡的例子,那就是廣州話拼音方案,由中國在1960年公布,用于拼寫廣州話的語音在中國大陸通行;在海外流行的粵語拼音方案,是中國香港的粵語拼音方案以及粵語耶魯拼法。有粵語的拼音方案,也就出現(xiàn)了粵語拼音輸入法。因為粵語拼音輸入法的重碼率較低,所以它的輸入速度,和漢語拼音輸入法大體持平。
中國各地方言的拼音方案正在陸續(xù)制定和不斷完善,比如,上海話(吳語)拼音方案、平話拼音方案、客家話拼音方案等,一些相應的計算機輸入法也隨之出現(xiàn),比如,上海吳語注音輸入法。
母語漢字,是中國傳統(tǒng)漢文化和藝術的承載,能夠整體完好地跨過電子化的數(shù)字門檻,就是今天的文化傳承的具體內(nèi)涵,是學術界和民間最核心的文化要務之一。中國的母語方言一旦被電子化“絆倒”,那將是民族文化無可估量的損失?,F(xiàn)在通行的做法是,先制定相應的方言拼音方案,然后制定與之配套的計算機輸入法,同時,不斷完善計算機和互聯(lián)網(wǎng)的方言母語字庫和詞匯庫。這個文化路徑是否科學和有效,還有待于未來的實踐加以檢驗,母語漢字潛在的危機,其實并未徹底化解。
微瀾與地震
電子化給漢字帶來最表象的變化,是大量歐美字詞“入侵”,并出現(xiàn)了一大批新造的漢字字詞,以及出現(xiàn)了“火星文”、“腦殘體”等漢字變異形態(tài),而且,漢語語法也相應地發(fā)生了變化。如果說漢語字詞的電子化只是水面泛起的一波微瀾,而漢語語法的電子化,則是不折不扣的語言地震了。
從漢語的發(fā)展史來看,每一次人類社會的技術革命都會給漢語帶來巨大的改變,突出的標志就是出現(xiàn)全新的字詞和語法規(guī)則。19世紀,晚清啟動的中國工業(yè)化進程,促使?jié)h語由古漢語向現(xiàn)代漢語的全面轉型,現(xiàn)代漢語里,70%多的人文學科和生活常用詞,是直接從日本漢字引進的,比如文化、文明、文學、時間、勞動、服務、社會等等常用詞匯。而且,日本漢字的詞匯進入了中國現(xiàn)代社會學科的話語結構,比如概念、化學、經(jīng)濟學、歷史學、美術、民主、生產(chǎn)力、剩余價值、物理學、哲學等。漢語度過了工業(yè)革命,又迎來了信息革命,又出現(xiàn)了大量新字詞,如菜鳥、粉絲、恐龍、東東、美眉……它們是對漢語詞匯的電子化擴展,是漢語積極的信息化轉型。
漢字電子化的消極之處,是漢語常用語中出現(xiàn)了許多的英文語詞,如CPU、DOS等。在漢字“計算機化”早期,計算機科技人員編制了許多漢字編碼規(guī)格,這些漢字編碼規(guī)格缺乏語言學專業(yè)人士的協(xié)助,實質上是按照拉丁字母的做法來處理漢字,弱化漢字的表義功能,把單個漢字當作字母來組詞以表達事物,這就讓漢字的創(chuàng)新能力變得越來越弱,并且被英語世界的資訊技術所束縛??墒?,英文在信息時代不斷創(chuàng)新,比如,Central Processing Unit,中文名稱是“中央處理器”,但為了頻繁使用的需要,英文可以縮寫為CPU,而漢字則始終沒有通行的縮寫。還比如WEB2.0、VCD、DVD等,我們都缺乏相應的漢字縮寫。這就好比是漢字和拉丁字母在進行一場資訊反應的賽跑,漢字總是跑在拉丁字母的后面。
不過,近年來這個局面有所改觀,動態(tài)組字新技術的出現(xiàn),即任何漢字都可以由基本的百多個字根以二維編碼的方式即時組合而成,借由資訊科技重新解放漢字原有的創(chuàng)新力。如BLOG—博客,MMOGAME(在線游戲)—網(wǎng)游,e-mail—電郵。在資訊賽跑中,漢字漸漸跟上了拉丁字母的腳步。
誕生于中國臺灣地區(qū)的火星文,是大量使用同音字、音近字、特殊符號來表音的文字,比如:
醬很好阿! —— “醬”表示“這樣”的合音
你↓到我了!—— 使用“↓”取代“嚇”字(下與嚇同音)
1切斗4幻j,↓b倒挖d! ——標準漢語:一切都是幻覺,嚇不倒我的!)
“腦殘體”誕生于中國大陸,利用形近或音近的生僻字代替常用漢字,隨意加偏旁或改動部首,用特殊字母、符號代替,把文字“二合為一”,或“一分為二”等等。比如:
兲——王八
火星——煋
美金——鎂
2006年1月22—23日,中國臺灣地區(qū)的年度大學學科能力測驗國文科試題出現(xiàn)火星文,有一部份的試題引用了夾雜火星文的文章作為題目,要求考生將其中的火星文改寫成標準漢語,這是漢字電子化的一個里程碑式的事件。但是,火星文在讀音、拼寫、語法上還沒有出現(xiàn)其特有的發(fā)明,還沒有獨立的火星文文學和腦殘體文學,不過是異形字體而已,不必大驚小怪。
比火星文、腦殘體影響更為深刻的,真正將引發(fā)漢語地震的是漢語語法的電子化,如“**+ing”這個語法結構,是漢語附加了“ing”這一英語后綴,如:
睡睡ing:動詞+ing
汗ing:名詞+ing
吃飯ing:短語+ing
我在看書ing:句子+ing
這個語法“地震”,實際上反應了語言學中的“句法借用”現(xiàn)象,是英文的ing語法被復制到漢語中來,兩種不同形態(tài)的語言碰撞在一起,激發(fā)了強烈的新鮮感,同時,這種語法方式簡單明了,適合互聯(lián)網(wǎng)閱讀,因此被廣泛使用。
我們對網(wǎng)絡語言不能狹隘地認為是對漢語的破壞,漢字的規(guī)范必須是開放型的,既不要硬性規(guī)定,也不要過多限制,讓漢字在電子化變革中自然演變,表示平方米的“(平米)”字在歷史中被自然淘汰,那就讓火星文、腦殘體等網(wǎng)絡語言接受歷史的考驗吧。
繁簡漢字的 “變臉”
漢字簡化改革,是近代以來,漢文化圈各個國家普遍推進的文字改革。漢字的電子化,主要的一個方向就是轉換技術。目前對繁簡漢字的電子轉換,瓶頸難題并非技術因素,而是漢字簡化的規(guī)律性困難,集中在三個方面:
第一是“一簡對多繁”,多個繁體字遵循“同音代替”原則,簡化成了同一個字,比如:
并——并、併、並
它——它、牠、祂
臺——臺、臺、檯、颱
第二是“一繁對多簡”,同一個繁體字在簡化中出現(xiàn)了多種字體,比如:
餘——余、馀
麼——么、麼、嗎
第三,某些繁體字在特殊的詞匯中不能被簡化。濛的簡化字是“蒙”,但“濛江”這個地理名詞中的“濛”字卻不能簡化。噁的簡化字是“惡”,但專有名詞“二噁英”中的“噁”字卻不能簡化。
以上三點,意味著繁簡漢字的電子轉換埋伏著十分巨大的安全風險,只能作為人工繁簡轉換的輔助工具。
電子化轉換除了“漢字轉換”、“編碼轉換”之外,還有一個“用語轉換”,中國兩岸三地的部分用語不同,比如
打印機(大陸)——印表機(港臺地區(qū))
激光(大陸)——雷射(港臺地區(qū))
漢字文化圈內(nèi)部的不同國家也存在著用語轉換的問題,比如:“總理塔信#8226;秦那越警中校偕夫人坤仁樸乍曼#8226;秦那越等一行,于昨午赴春武里府視察主辦世界童子軍集會的齊備度?!?泰國《總理親自視察世界童子軍營》,《中華日報》2002年12月11日)其中的“坤仁”是泰語對女士(khun ying)的尊稱,即漢語中的“女士”之意。
漢字文化圈內(nèi)的轉換技術隱含著巨大的安全風險,同時也是技術創(chuàng)新和完善的巨大空間。
數(shù)字遺產(chǎn)
漢字經(jīng)歷了兩次巨大的技術變革,即印刷術和電子化,回顧漢字的印刷術變革,最為沉痛的歷史教訓是《永樂大典》的消亡,明永樂年間修訂《永樂大典》是中國傳統(tǒng)文化最大的一次整理和傳承,可惜《永樂大典》沒有被制版印刷,始終處于手工摹寫的形態(tài),歷經(jīng)數(shù)百年滄海桑田,《永樂大典》幾近消亡。如果封建皇帝以修建圓明園物力的百分之一,完成《永樂大典》的印刷版樣,則中華文化的當代面貌肯定是另一番燦爛景象。
新千年里,聯(lián)合國教科文組織頒布了“數(shù)字遺產(chǎn)憲章”,規(guī)定:“(數(shù)字遺產(chǎn))是由人類的知識和表達方式的獨特資源組成。它包括以數(shù)字方式生成的或從現(xiàn)有的模擬資源轉換成數(shù)字形式的有關文化、教育、科學以及其他領域的信息”。數(shù)字遺產(chǎn)的現(xiàn)代人文主義的全新的文化制度和建設路徑,框定了人類文化遺產(chǎn)的數(shù)字化傳承的未來歸宿。
從唐宋以降一千多年里,中國的傳統(tǒng)文化遺產(chǎn)實現(xiàn)了印刷術承載,如今對漢字而言,向數(shù)字化遺產(chǎn)的轉型,這已經(jīng)是電子化時代漢字未來演變的必然方向。漢字在電子化時代所遇到的挑戰(zhàn)和瓶頸,將不僅僅是IT和互聯(lián)網(wǎng)技術問題,還將是文化語言和人文學科的命題。我們處于漢字電子化的黎明時代,我們無法預測千年之后數(shù)字化的中華文明,但是,我們一定要避免這樣的歷史悲劇:《永樂大典》被擋在了印刷術時代之外,最終幾近消亡?,F(xiàn)在,我們一定盡最大的文化努力,保證中華傳統(tǒng)文化“全身完好”地邁過“電子化門檻”。