信息系統(tǒng)中英文與中文系統(tǒng)的比較

2015-03-08 07:08顧劍

海南大學學報（自然科學版） 2015年2期

顧　劍

(海南大學信息科學技術學院，海南海口 570228)

顧劍

(海南大學信息科學技術學院，海南海口 570228)

摘要：信息系統(tǒng)中英文系統(tǒng)具有文字本身固有的規(guī)律，可以處理所有的正確、現(xiàn)在錯誤將來正確和永遠錯誤3類文字，但中文系統(tǒng)因違背了文字本身固有的規(guī)律：無限性和有序性，因而不可能處理全部漢字.理論和現(xiàn)實都要求中文系統(tǒng)必須要能處理全部漢字，因此，英文與中文系統(tǒng)存在根本性差異，專利《無限有序字符集漢字全集方法和系統(tǒng)》可以徹底解決中文系統(tǒng)實現(xiàn)無限性和有序性問題.

關鍵詞：文字編碼；文字無限性；文字有序性；賬戶實名制；中文系統(tǒng)

本文3個術語的定義：

信息系統(tǒng)：指使用計算機技術的文字信息處理系統(tǒng)，包括對文字的輸入、輸出、處理和存儲等等.

英文系統(tǒng)：指使用基本ASCII編碼處理英文信息和ASCII定義字符圖形的文字信息處理系統(tǒng).

中文系統(tǒng)：指使用擴展ASCII編碼處理漢字信息和漢字字符圖形的文字信息處理系統(tǒng).

信息系統(tǒng)中的字符，特別是漢字字符與現(xiàn)實生活中的漢字字符有著根本的不同.現(xiàn)實生活中的漢字字符涉及的是一個社會的政治經(jīng)濟文化，而信息系統(tǒng)中的漢字字符涉及的則主要是技術，其不同的產(chǎn)品因使用了不同的技術標準而千差萬別.在使用任何一個信息系統(tǒng)之前都必須要選擇使用的字符系統(tǒng)，英文系統(tǒng)普遍存在于信息系統(tǒng)之中，一般無需選擇；中文系統(tǒng)因不同的產(chǎn)品差異很大則必須選擇，例如微軟產(chǎn)品的Windows XP(如圖1所示)與Windows 7(如圖2所示)就不一樣，Ubuntu 10.0中的漢字系統(tǒng)選擇差異則更大(如圖3所示).

圖1微軟Windows XP中漢字選擇圖2微軟Windows 7中漢字選擇圖3Ubuntu 10.0中漢字選擇

如有多少漢字就是一個難題，《漢語大字典》用收列單字五萬六千字左右[1], 《中華字?！酚檬珍浛瑫鴿h字八萬五千余個[2],《新華字典》用收單字10 000余個[3]表述.漢字字符的數(shù)量，在理論上是無限的，在現(xiàn)實中是不確定、發(fā)展的.從技術層面看，英文系統(tǒng)基本使用ASCII標準，而中文系統(tǒng)涉及的概念就非常多，如GB碼、big5碼、ISO碼、輸入碼、交換碼和內碼等.

本文僅從信息系統(tǒng)字符編碼的角度出發(fā)，對英文和中文系統(tǒng)進行比較，并做初步的探討.

1信息系統(tǒng)中字符編碼的作用

信息系統(tǒng)中字符編碼有2個方面作用：1)文字信息的處理；2)文字本身的處理.文字信息的處理和文字本身的處理在技術層面有很多的交叉，對文字本身的處理也可以說是文字信息處理的一部分.因此，將2個問題合為文字信息處理來討論.

在計算機被發(fā)明之前，對文字信息的處理只能是在一個很小或局部的范圍之內進行，如每個單位的人事檔案就是對名字處理.隨著計算機技術的不斷發(fā)展，英文系統(tǒng)已經(jīng)很好地實現(xiàn)了文字信息處理，但是中文系統(tǒng)還沒有從根本上進行解決.

1.1文字輸入文字信息處理的首要任務是文字的輸入，即文字的輸入是文字記錄的前提.英文系統(tǒng)由于ASCII標準的建立，已經(jīng)在理論和實踐上很好地解決了文字輸入的問題，英文是直接“寫”(輸入)的，而中文系統(tǒng)至今不論是在理論層面還是在應用系統(tǒng)中都沒有得到很好地解決.

在信息系統(tǒng)中的中文系統(tǒng)中，給出任意一個漢字A，將其輸入的唯一技術基本流程是

1) 找出全部的漢字圖形和輸入方式對照表；

2) 從頭到尾，一張表一張表，一個漢字圖形一個漢字圖形地去與漢字A比較；

3) 得出比較結果一：如果確認給出的漢字A在某張表中，則用該張表中給出的輸入方式輸入漢字A，輸入成功；

4) 得出比較結果二：如果確認給出的漢字A不在這些表中，輸入失敗.

該技術的核心是漢字圖形和輸入方式對照表，不是直接“寫”(輸入)漢字.由于采用的漢字圖形和輸入方式對照表的差異，導致目前漢字的輸入編碼體系繁多.

此外，用造字技術來解決輸入給出的任意一個漢字A的問題，即在輸入時允許輸入者修改漢字圖形和輸入方式對照表中的漢字圖形.造字技術在整個信息系統(tǒng)中是不可行的，即不能進行彼此交換和傳播，通俗地講就是只在修改的設備上可以看到漢字A，而在其他設備上看到的不是漢字A而是一個空白或一個其他圖形.不僅如此，造字技術還有一個根本的缺陷，即給出的漢字數(shù)量比對照表中的圖形無法解決問題.

中文文字信息處理的基本流程還不能自動完成，其難點是：不論在理論還是在實踐上，計算機技術還沒有辦法準確完成流程中的第二步.

1.2已記錄文字的分類對已輸入文字進行分類是信息處理的基本方法.

英文系統(tǒng)依據(jù)ASCII編碼，可以準確地對所有輸入的文字進行科學分類.如，對于“work”,“workee”和“worker”3個文字，依據(jù)ASCII編碼w是數(shù)77(文中數(shù)字是16進制，下同)、o是6f、r是72、k是6b,因此在信息系統(tǒng)中“work”是數(shù)776f726b，“workee”是數(shù)776f726b6565，“worker”是數(shù)776f726b6572.

在英文系統(tǒng)可以對此進行準確的信息技術領域里的分類和處理，如：

按長度分類：“work”是4個ASCII碼，“worker”是6個ASCII碼，即“work”比“worker”短2字節(jié).

按位置分類：

1) 可準確給出在信息系統(tǒng)的信息中，“work”在前，“worker”后；

2) 可準確給出確定數(shù)量的在“work”和“worker”之間的其他所有4個，5個，6個ASCII碼的“文字”，“workee”就是其中一個；

3) 輸入另一個文字A，可準確給出文字A與“work”和“worker”的相對位置.

4) “work”(776f726b)前面的字是“worj”(776f726a)，后面的字是“"worl”(776f726c).

結論的數(shù)量和意義在理論上是確定的，但因每次計算時的“環(huán)境”不同，結論的數(shù)量和意義可能不同，即不同的使用“環(huán)境”會有不同的結果，但相同的“環(huán)境”一定具有相同的結果.這與使用文字的情況一樣，即同樣的文字，在不同的“環(huán)境”下其含義不同.

5) 用信息處理理論和技術對其進行處理，如用“0”和“01”來代替“work”和“worker”，可以大大提高系統(tǒng)的時間和空間效率，降低系統(tǒng)成本，提高系統(tǒng)可靠性.

依據(jù)文字編碼，對文字進行文字意義上的分類，如：

1) “work”與“worker”前4個ASCII相同，則發(fā)音一般相同；

2) “work”與“worker”前4個ASCII相同，則文字含義一般有相近的意義；

3) 在普通字典中一般是“work”在前，“worker”在后；

4) 輸入文字“workee”,可給出“workee”在“work”之后，在“worker”之前，即3個文字的字典排序是“work”，“workee”，“worker”的結果；

5) 如果有普通電子字典，機器查詢后找不到“workee”,可給出“workee”是一個非規(guī)范文字提示(普通字典一定是排序的，可用索引技術查詢，立即找到“workee”字).

因為中文系統(tǒng)依據(jù)文字編碼無法進行已記錄文字的科學分類和處理.如“坯”和“丕”2個文字，系統(tǒng)依據(jù)文字編碼給不出任何與文字有關的信息：即不能給出2個文字在文字意義上的任何關聯(lián)性，如發(fā)音、筆劃數(shù)、字形結構、在普通字典的位置和文字含義是否接近等.如果輸入另一個文字A，系統(tǒng)更不可能給出文字A與“坯”和“丕”在文字含義上的任何關系.中文系統(tǒng)雖然可以對“坯”和“丕”進行編碼上的排序，但也只是流程第一步中某種漢字圖形和輸入方式對照表中漢字圖形的位置，沒有任何文字上的意義.

1.3不能用big5和GB字符編碼對文字分類現(xiàn)行中文系統(tǒng)中大都使用big5和GB編碼.“坯”和“丕”在GB碼中，“坯”是c5f7,“丕”是d8a7.如果用信息處理的基本處理技術處理，給出的結論是完全錯誤的.

1) 數(shù)c5f7小于數(shù)d8a7，所以“坯”(c5f7)在前,“丕”(d8a7)在后;

2) 數(shù)c5f7和數(shù)d8a7中間有d8a7-c5f7=12b0,即4 784個數(shù)，所以“坯”和“丕”2個字關系不大，且中間有4 784個漢字;

3) “坯”(c5f7)前面的字是“碰”(c5f6)，后面的字是“砒”(c5f8),“丕”(d8a7)前面的字是“卅”(d8a6)，后面的字是“亙”(d8a8).

客觀地講，big5碼至少在理論上考慮了字形的關系，如“汙、汚、汢、汣、汥、汦、汧、汫、汬、汭、汮、汯、汱、汳”14個字，在信息系統(tǒng)中的數(shù)是9b40~9b4d.因此，系統(tǒng)給出以下結論：

1) 數(shù)9b40小于數(shù)9b41，所以“汙”(9b40)在前,“汚”(9b41)在后;

2) 數(shù)9b40和數(shù)9b41連續(xù)，所以“汙”和“汚”2個字之間沒有其他字；

3) “汙、汚、汢、汣、汥、汦、汧、汫、汬、汭、汮、汯、汱、汳”14個字編碼上有前后順序關系，因此可得出前面的字(如“汙”9b40)至少不比后面的字(如“汳”9b4d)筆畫多.

但這些結論是不能用或不完備的，如“汫、汬、汭”中的“汬”字，雖然有文字意義上的關聯(lián)性，但在字形上相差甚遠.

在GB碼中有一級漢字和二級漢字之分，但恰恰是這2個級別的漢字給信息系統(tǒng)造成致命的混亂.GB碼一級漢字按音排序，二級漢字按形排序，在理論和實踐上都給使用者帶來永遠都無解的難題：什么字按音去找？什么字按形去找？最終能使用的技術也只有一個，即人工一個一個圖形去對照.例如，“洪”和“泊”2個字，GB碼給出的是“泊”是一級漢字而“浜”是二級漢字.

2字符編碼的理論基礎

字符編碼必須符合文字本身的內在特征，從信息系統(tǒng)的角度講，最基本的一定是文字的無限性和有序性.

2.1文字的無限性文字的無限性最直接和易理解的是文字的無限發(fā)展和數(shù)量的不確定性.漢語言文字是從無到有逐漸發(fā)展的，經(jīng)歷了甲骨文、文言文和白話文等，即便是在中華人民共和國成立后，中文系統(tǒng)出現(xiàn)以前漢字還在不斷發(fā)展，最好地例證就有新元素的命名、簡化字多個版本的發(fā)布和廢除部分試行的簡化字等.但在中文系統(tǒng)出現(xiàn)后，漢字發(fā)展出現(xiàn)了停滯，字符數(shù)量甚至有減少的趨勢.目前，在我國大陸常用的GB碼圖形有6千多個，在臺灣地區(qū)常用的big5碼圖形有1.3萬個左右.因而如果在中國使用計算機，一般人不但不能使用《漢語大字典》中的5.6萬左右的漢字，即便是《新華字典》中的1萬漢字也無法全部使用.

中文系統(tǒng)中的字符編碼使用定長碼與文字的無限性相違，而英文系統(tǒng)使用不定長編碼則與文字無限性相符.

2.2文字的有序性文字的有序性是文字的根本屬性之一.若文字是無序的，使用者就不可能找出某個確定的文字，也就不可能使用文字.

使用文字一定是依據(jù)其形、音或某種其他特征進行排序，具體的每一個字都是從此序列中找出.通常使用時并沒有意識到這一點，只有在遇到不認識或不會寫的字時才想到怎樣根據(jù)文字的有序性找出.例如要寫“一般”，可“般”字不會寫，可以在字典中按音的排序找到“ban”對應的漢字“般”，從而最終寫出“一般”；請教他人時，被請教的人也要按自己固有的某種順序去找出這個字，只是并未細想查找這個字的方法的有序性.

文字的有序性不僅可以保證很快找到某一個字，而且可以很快確定某一個字是否存在.現(xiàn)行中文系統(tǒng)沒有滿足文字的無限性，也就在根本上不能符合文字的有序性.因此，所有現(xiàn)行中文系統(tǒng)中的輸入都是用遍歷全部漢字圖形的方式去查找需要輸入的文字，即漢字輸入技術基本流程的第二步：檢查其是否存在于某張漢字圖形和輸入方式對照表中.

英文系統(tǒng)采用的ASCII碼充分考慮了文字本身內在的有序性，因此，英文系統(tǒng)中的英文具有文字本義上的有序性，保證了英文系統(tǒng)可依據(jù)編碼進行技術上的處理而得出有實用用途的文字意義上的關聯(lián).

2.3文字的類別任何文字都可以分為：正確、現(xiàn)在錯誤將來正確和永遠錯誤3類.認為計算機中的文字都是正確的，這是一個誤解.存在于信息系統(tǒng)中的文字與書本上的文字一樣，都可能被損毀，損毀后到底是一個正確的字還是一個不正確的字，則是一個不確定的結果.如果一個文字編碼系統(tǒng)不能處理這3類文字，則在理論上是不能處理全部文字的，就是不完備有缺陷的，不可能實現(xiàn)系統(tǒng)的無限性和有序性.

英文系統(tǒng)之所以可做到系統(tǒng)中文字數(shù)量的無限性和有序性，其理論基石就是可以區(qū)分這3類文字. 若把英文系統(tǒng)中的英文與現(xiàn)實社會中的英文等同起來，則英文系統(tǒng)就能處理這3類文字.

3中文系統(tǒng)字符編碼發(fā)展展望

3.1實現(xiàn)字符編碼無限和有序的現(xiàn)實必要性隨著社會的發(fā)展，現(xiàn)有中文系統(tǒng)本身的缺陷在很多領域都越來越明顯.如行政管理部門在很早就提出了各種賬戶實名制的要求，但在技術層面中文系統(tǒng)至今還不能實現(xiàn)[4-7]；在文化教育領域，現(xiàn)行中文系統(tǒng)推廣的最終結果是使用者不需要寫漢字，總在感慨提筆忘字.特別是隨著智能化漢字輸入應用系統(tǒng)的開發(fā)，在中文系統(tǒng)上輸入圖形更方便,遠離漢字字符且呈現(xiàn)出加速的趨勢.

3.2實現(xiàn)字符編碼無限和有序性的可能性現(xiàn)實中的文字一定有3類，則理論上就要求信息系統(tǒng)必須要處理，否則就不能滿足實際需求.只要去研究和實踐，就一定可以做到中文系統(tǒng)中字符編碼的無限性和有序性.英文系統(tǒng)已經(jīng)給出了很好的實例.如果實現(xiàn)了中文系統(tǒng)的無限性和有序性，達到與英文系統(tǒng)同樣的技術水平，則的信息系統(tǒng)會大大推進整個社會，包括技術和人文的巨大進步.

3.3實現(xiàn)字符編碼無限和有序性實踐的可行性雖然計算機和現(xiàn)代信息系統(tǒng)不是使用漢字的人發(fā)明，最先用計算機處理漢字的也不是使用漢字的民族，但按照信息論理論，最終完成漢字無限性和有序性系統(tǒng)的人一定是使用漢字的人，因為漢字內在的信息熵在自然界中是實際存在的，且只有使用漢字的人才可能真正掌握這個熵的含義.

實際上，《無限有序字符集漢字全集方法和系統(tǒng)》[8]專利，不但在理論而且在技術上，給出了解決此問題的完整技術方案.該發(fā)明專利技術指出，中文系統(tǒng)中的字符編碼，一定是一不定長編碼以符合文字的無限性要求；且其最基本的編碼要素要符合漢字內在的規(guī)律：如筆劃形狀、數(shù)量，如偏旁部首，如字形結構等等.若采用此項發(fā)明技術，中文系統(tǒng)一定可以達到英文系統(tǒng)的技術水準，實現(xiàn)文字的無限性和有序性.

參考文獻：

[1] 漢語大字典工作委員會.漢語大字典[M].武漢:湖北辭書出版社， 1995.

[2] 冷玉龍，韋一心.中華字海[M].北京:中國友誼出版公司,1994.

[3] 中國社會科學院語言研究所詞典編輯室.新華字典 [M].10版.北京:商務印書館,2004.

[4] 顧劍.實名存款給金融系統(tǒng)帶來的一個技術問題[J].海南金融,1999,12(增刊):60-62.

[5] 顧劍.實名制給各種卡系統(tǒng)帶來的新問題[J].金卡工程,2000,4:51-55.

[6] 顧劍.實名制帶來漢字處理新課題[J].金融電子化,2002,5:56-57.

[7] 顧劍.實名制帶來漢字處理新課題[N].金融時報,2002-7-16(10).

[8] 顧劍.無限有序字符集漢字全集方法和系統(tǒng):中國,97105292.1[P]. 1997-08-06.

Comparison of the English System and the Chinese System in Information System

Gu Jian

(College of Information Science and Technology, Hainan University, Haikou 570228，China)

Abstract：The English system in information system has the characters of word inherent law, which can handle three kinds of words, correct, present mistake but future correct, and forever mistakes. However, because violating word inherent endless and orderly law, the Chinese system can not handle all Chinese characters. Theory and reality require it must be able to handle all Chinese characters. So, there are some fundamental differences. The patent, Endless and orderly character set Chinese complete character set method and system, which was applied in 1997 and authorized in 2003, can solve these problems.

Keywords：literal code; literal endless character; literal orderly character; account real name system; Chinese characters system

中圖分類號：TP 301

文獻標志碼：ADOl：10.15886/j.cnki.hdxbzkb.2015.0024

文章編號：1004-1729(2015)02-0130-05

收稿日期：------------------------ 2014-12-05

作者簡介：顧劍(1958-)，男，湖南寧遠人，教授.

海南大學學報（自然科學版）2015年2期

海南大學學報（自然科學版）的其它文章: 關于偽Smarandache函數(shù)的一個混合均值; 海南島熱帶雨林滑坡致災因素分析; 基于關鍵事件分析方法的本科教學滿意度提升研究; 不同因素對嗎啡誘導的小鼠CPP實驗的影響; 鮑內臟肽粉的抗氧化活性研究; 一種新型無機防腐涂料SPC-B的應用研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

信息系統(tǒng)中英文與中文系統(tǒng)的比較