【摘 要】漢字是中華民族傳統(tǒng)文化的核心和信息交流的主要工具,古老而復(fù)雜多樣的漢字屬于二維,不像英文等西方文字那樣是一維線形文字,可以直接輸入計(jì)算機(jī),而是需要采用特殊的漢字輸入法軟件.漢字輸入計(jì)算機(jī)是計(jì)算機(jī)中。第一個(gè)環(huán)節(jié),漢字輸入技術(shù)直接影響著中文信息處理的發(fā)展.本文著眼于漢字輸入法軟件在系統(tǒng)中的設(shè)計(jì)和開(kāi)發(fā)過(guò)程,提出一種簡(jiǎn)單、方便的漢字鍵盤(pán)輸入法。首先統(tǒng)計(jì)了國(guó)標(biāo)二級(jí)字庫(kù)中漢字筆畫(huà)信息的各種數(shù)據(jù),這些數(shù)據(jù)主要包括:漢字的平均筆畫(huà)數(shù)及按使用頻度加權(quán)的平均筆畫(huà)數(shù)、能與其它字區(qū)分開(kāi)的漢字前若干筆畫(huà)的平均數(shù)、以各種筆畫(huà)起筆的漢字?jǐn)?shù)、各種筆畫(huà)在漢字字庫(kù)中的出現(xiàn)次數(shù)、漢字字庫(kù)中筆畫(huà)相同的漢字以及漢字字庫(kù)中相鄰筆畫(huà)的頻度等。根據(jù)這些統(tǒng)計(jì)數(shù)據(jù),我們采用書(shū)寫(xiě)漢字時(shí)的筆畫(huà)順序作為漢字輸入碼,設(shè)計(jì)了筆畫(huà)碼漢字輸入法和實(shí)現(xiàn)該輸入方法的鍵盤(pán)。
【關(guān)鍵詞】中文信息處理;自然語(yǔ)言理解;語(yǔ)用統(tǒng)計(jì);模板匹配
中華文化的博大精深給中文應(yīng)用者提供了縱橫馳騁的廣闊空間,由于個(gè)人的受教育程度、職業(yè)需要及文字風(fēng)格的千差萬(wàn)別,多數(shù)人都需要一個(gè)完全按照個(gè)人意愿編制出來(lái)的詞庫(kù),即具有個(gè)性特征的個(gè)人專用詞庫(kù),從這以意義上說(shuō),從Windows95開(kāi)始為用戶提供的“輸入法生成器”。實(shí)在是功德無(wú)量。
Windows98問(wèn)世以后,由于硬盤(pán)與內(nèi)存容量的不斷升級(jí),以及CPU反映能力的加速,使得在Windows平臺(tái)下的自定義輸入法有了更加廣泛的應(yīng)用空間,而且突破了6.5萬(wàn)詞條的限制。從理論上說(shuō),自定義的輸入法可以做得無(wú)窮大。目前我個(gè)人使用的《沈沉詞庫(kù)》的詞條就已達(dá)6萬(wàn)條。WindowsMe與Windows98是姐妹版,同樣可用自定義的方法來(lái)生成自己個(gè)性化的輸入法。但WindowsXP卻把原先的“輸入法生成器”取消了,即使把Windows98下的“輸入法生成器”拷貝到WindowsXP,雖能轉(zhuǎn)換碼表,但卻不能安裝。不論微軟對(duì)WindowsXP如何地自吹自擂,但取消“輸入法生成器”,無(wú)論如何是失算的。
一、基于計(jì)算機(jī)漢字輸入的研究
應(yīng)用需要一些軟件的支持,才能科學(xué),優(yōu)化,好用.目前不少發(fā)明人已擁有一些專用軟件,為有效利用這些軟件資源,節(jié)省人力時(shí)間,降低研究成本和周期.建議:這些軟件集中起來(lái),統(tǒng)一管理。讓需用者登記申購(gòu),一次發(fā)放。這樣供,需,管均受益,并助學(xué)術(shù)繁榮,軟件舉例:
1.靜態(tài)重碼率自動(dòng)收索統(tǒng)計(jì)軟件search
2.漢字詞匯自動(dòng)排序刪除重復(fù)軟件
3.各種輸入法教學(xué)軟件等
4.計(jì)算機(jī)降低重碼軟件
5.計(jì)算機(jī)操作記憶增速軟件.
6.漢語(yǔ)各種專業(yè)詞匯庫(kù)(20多專業(yè))軟件
7.漢語(yǔ)綜合詞匯庫(kù)軟件
8.直接掛接進(jìn)入windows9x編碼生成器的軟件
二、基于智能規(guī)范碼輸入平臺(tái)的實(shí)現(xiàn)
智能規(guī)范碼輸入平臺(tái)是有八個(gè)編碼方案的復(fù)雜系統(tǒng)。由智能規(guī)范拼音、智能規(guī)范雙拼、智能規(guī)范形碼、智能規(guī)范數(shù)碼和普通規(guī)范合碼所組成。其中普通規(guī)范合碼包括規(guī)范拼音、規(guī)范雙拼、規(guī)范形碼、規(guī)范數(shù)碼。智能、普通規(guī)范數(shù)碼在數(shù)字鍵區(qū)輸入漢字。平臺(tái)初始狀態(tài)為智能態(tài)。智能規(guī)范拼音最大輸入6碼,智能規(guī)范雙拼與智能規(guī)范形碼為2碼,智能規(guī)范數(shù)碼為3碼。用快捷鍵相互轉(zhuǎn)換。智能狀態(tài)由轉(zhuǎn)換符轉(zhuǎn)至普通狀態(tài)時(shí),首字符為數(shù)字時(shí)碼長(zhǎng)最長(zhǎng)為6碼,輸入普通規(guī)范數(shù)碼,首字符為字母時(shí)碼長(zhǎng)最長(zhǎng)為4碼。不足碼長(zhǎng)時(shí)用空格返回智能狀態(tài)。
智能規(guī)范碼的用戶范圍是普通人群,特別是中小學(xué)生。所以學(xué)生版在GBK字符集中異體字與不規(guī)范字不參加編碼。由于GBK的字符集里包含了中日韓三國(guó)所使用的漢字,所以日本和韓國(guó)用的漢字也不參加編碼。普通版為GBK字符集,超集版為GB18030字符集。
智能規(guī)范碼輸入平臺(tái)采取雙智能輸入的混合輸入方式,可以減少輸入量即減少碼長(zhǎng),減少鍵選率。加快了輸入速度。
漢字不再需要人工編碼,智能非智能輸入方法已有長(zhǎng)時(shí)的研究和應(yīng)用,關(guān)于智能混合輸入,作者進(jìn)行嘗試,特點(diǎn)很多,尤其對(duì)詞的岐義處理具有一定的特色。可以說(shuō)是具有獨(dú)特風(fēng)格的智能漢字輸入平臺(tái)生成系統(tǒng)。
三、基于語(yǔ)用統(tǒng)計(jì)的智能輸入軟件
1.原理
主要利用語(yǔ)用統(tǒng)計(jì)的數(shù)據(jù)來(lái)消化同音字、詞,以及化解歧義分詞。在學(xué)科分類(lèi)中屬于運(yùn)籌學(xué)范疇。
使用概率統(tǒng)計(jì)運(yùn)籌決策的方案很多,文獻(xiàn)[5]通過(guò)統(tǒng)計(jì)字字相關(guān)的同現(xiàn)概率矩陣來(lái)完成漢語(yǔ)語(yǔ)用統(tǒng)計(jì)庫(kù)結(jié)構(gòu).這個(gè)矩陣的大小是固定不變的.只與字符集的大小有關(guān)。文獻(xiàn)[5]作者通過(guò)搜索了500萬(wàn)字語(yǔ)料給出了一個(gè)3673 X 3673的同現(xiàn)概率矩陣。文獻(xiàn)[4]是基于幾理解和基于語(yǔ)用統(tǒng)計(jì)相結(jié)合的設(shè)計(jì)。該設(shè)計(jì)根據(jù)分詞后的輸入語(yǔ)句查找知識(shí)庫(kù).用句法、詞法、語(yǔ)義和自定義的規(guī)則作為制約對(duì)文章進(jìn)行解析推理,當(dāng)存在同音詞時(shí)。采用最優(yōu)評(píng)價(jià)法來(lái)確定最佳選擇作為轉(zhuǎn)換結(jié)果。同音詞的評(píng)價(jià)值需要考慮詞性、同現(xiàn)概率、近期使用狀況等因素。具有最優(yōu)評(píng)價(jià)值的選擇即為轉(zhuǎn)換結(jié)果。當(dāng)具有最優(yōu)評(píng)價(jià)值的第一選擇而非日標(biāo)選擇時(shí),可選用次優(yōu)選擇或用手工方式進(jìn)行修正,候補(bǔ)修正或人工修正均被記錄,作為下次轉(zhuǎn)換時(shí)修改計(jì)算評(píng)價(jià)值因素的依據(jù),也就是自學(xué)習(xí)功能。
2.典型作品
○蔡榕先生設(shè)計(jì)的最優(yōu)評(píng)價(jià)函數(shù)法拼音漢字轉(zhuǎn)換系統(tǒng);
○蔣先生設(shè)計(jì)的Autoway;
○清華大學(xué)人工智能實(shí)驗(yàn)室夏瑩等研制的智能輸入軟件。
3.優(yōu)點(diǎn)與存在的問(wèn)題
優(yōu)點(diǎn):(1)對(duì)于己經(jīng)進(jìn)行過(guò)語(yǔ)用統(tǒng)計(jì)或者具有相同類(lèi)型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說(shuō)語(yǔ)用統(tǒng)計(jì)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過(guò)程中,語(yǔ)用統(tǒng)計(jì)庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。(2)軟件開(kāi)銷(xiāo)較小,在CPU為486的機(jī)器上就能運(yùn)行。
存在的問(wèn)題:(1)作為一個(gè)整體的同現(xiàn)概率矩陣,不能做到模塊化、積木化。(2)偏重整句處理,當(dāng)出現(xiàn)轉(zhuǎn)換錯(cuò)誤時(shí),需要使用者回頭去糾正,干擾了正常的思維。(3)當(dāng)前,自動(dòng)分詞的準(zhǔn)確度只能達(dá)到98%左右,鍵選率的降低受到限制。
四、基于模板匹配的智能輸入軟件
1.原理
寓漢語(yǔ)語(yǔ)法知識(shí)于巨量的短語(yǔ)串中,進(jìn)而利用這些短語(yǔ)串來(lái)消化同音字、詞.以及化解歧義分詞。這種短語(yǔ)串通常稱之為“模板詞”。
這種系統(tǒng)通過(guò)模板詞搜索引擎來(lái)完成漢語(yǔ)語(yǔ)法體系的組織。需要搜索巨量的語(yǔ)料.獲取巨量的短語(yǔ)串,才有可能大體上包容漢語(yǔ)語(yǔ)法知識(shí)。例如:智能狂拼搜索了100億字語(yǔ)料,模板詞庫(kù)最大時(shí)需要約540MB存儲(chǔ)空間。根據(jù)分詞后的輸入語(yǔ)句查找模板詞庫(kù)和句法規(guī)則庫(kù),然后進(jìn)行匹配處理。如果匹配結(jié)果唯一,則不必再用概率推理;若存在兩個(gè)以上的候選結(jié)果時(shí),則根據(jù)句法規(guī)則或概率推斷進(jìn)一步判定,選出一個(gè)最有希望的可能結(jié)果作為輸出。
2.典型作品
○中文之星數(shù)碼科技有限公司推出的智能狂拼;
○黑馬新技術(shù)公司推出的黑馬智能輸入軟件;
○大自然軟件開(kāi)發(fā)有限責(zé)任公司推出的自然碼2000(句輸入版)。
3.優(yōu)點(diǎn)與存在的問(wèn)題
優(yōu)點(diǎn):對(duì)于幾己經(jīng)搜索過(guò)模板詞的或者具有相同類(lèi)型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說(shuō)模板詞庫(kù)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過(guò)程中,模板詞庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。
存在的問(wèn)題:(1)模板詞數(shù)量巨大,對(duì)電腦硬件有一定的要求。486及以卜的低檔機(jī)難以使用。(2)對(duì)拼音輸入的模板匹配智能輸入軟件而言,通常只支持漢語(yǔ)拼音的26鍵位輸入,注重連續(xù)和完整的音節(jié)輸入,平均碼長(zhǎng)較長(zhǎng),采用簡(jiǎn)化拼音輸入時(shí)鍵選率較高。(3)偏重整句處理。當(dāng)出現(xiàn)匹配錯(cuò)誤時(shí),需要使用者回頭去糾正,干擾了正常的思維。自動(dòng)分詞的準(zhǔn)確度只能達(dá)到98%使鍵選率的降低受到限制。
五、基于上下文關(guān)聯(lián)的智能輸入軟件
1.原理
文獻(xiàn)[5]采用語(yǔ)用統(tǒng)計(jì)來(lái)實(shí)現(xiàn)上下字關(guān)聯(lián)智能輸入。下面介紹的是一種基于模糊控制理.利用上下文關(guān)聯(lián)(向上關(guān)聯(lián)4個(gè)詞語(yǔ),向下關(guān)聯(lián)1個(gè)詞語(yǔ))的語(yǔ)用環(huán)境來(lái)智能選擇重碼字。在學(xué)科分類(lèi)中屬自動(dòng)控制分支非線性控制范疇。將自然語(yǔ)言看成是一個(gè)模糊的集合,將漢字輸入系統(tǒng)作為一個(gè)非線性控制范疇的模糊控制系統(tǒng)來(lái)對(duì)待,預(yù)學(xué)習(xí)工具(或者轉(zhuǎn)換出現(xiàn)錯(cuò)誤時(shí)的手工鍵選信號(hào)),相當(dāng)于一個(gè)傳感器,算法程序、漢語(yǔ)知識(shí)庫(kù)和動(dòng)態(tài)語(yǔ)用統(tǒng)計(jì)庫(kù)作為非線性調(diào)節(jié)器,使得系統(tǒng)的鍵選率和平均碼長(zhǎng)逐漸趨于最優(yōu)。例如,青月亮漢字通上文關(guān)聯(lián)4個(gè)詞,下文關(guān)聯(lián)1個(gè)詞,合計(jì)上下文關(guān)聯(lián)5個(gè)詞,這一調(diào)節(jié)機(jī)制涉及到許多相互矛盾和相互牽制的受控參數(shù),模糊集合的特征函數(shù)從[0,1]區(qū)間連續(xù)取值,可以較為準(zhǔn)確地表現(xiàn)各種語(yǔ)言現(xiàn)象差異,獲得比較好的效果。
2.典型作品
○青月亮科技開(kāi)發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺(tái)GM 3.1
○一筆軟件有限公司推出的一筆智能輸入軟件(26鍵位和10鍵位)
○字原科技有限公司推出的101智能輸入軟件TZ8.2/9.1/20000
3.優(yōu)點(diǎn)與存在的問(wèn)題
優(yōu)點(diǎn):(1)對(duì)學(xué)習(xí)過(guò)或者具有相同類(lèi)型的語(yǔ)料,鍵選率比較低,或者說(shuō)漢語(yǔ)知識(shí)庫(kù)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過(guò)程中,漢語(yǔ)知識(shí)庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。(2)青月亮漢字通作為一種音碼、形碼和筆畫(huà)碼二位一體的通用智能處理平臺(tái),支持26鍵位、10鍵位、8鍵位和5鍵位規(guī)模的鍵兀集,支持GB18030的27533超大字符集,為各種輸入法增加上卜文關(guān)聯(lián)智能輸入的后處理支持.讓這些輸入法變得更易學(xué)、更好用。(3)采用字段輸入,不使用語(yǔ)句級(jí)輸入,使語(yǔ)法規(guī)則簡(jiǎn)約化,易于知識(shí)表達(dá)。此舉不但降低了鍵選率,還大大緩解了輸入過(guò)程中“回頭看”的問(wèn)題.基木上貼近了人們的使用習(xí)慣。(4)程序開(kāi)銷(xiāo)積木化,在CPU為486的機(jī)器上就能運(yùn)行。遵從一系列信急處理用的國(guó)家標(biāo)準(zhǔn)和規(guī)范,特別是與漢字輸入密切相關(guān)的兩個(gè)標(biāo)準(zhǔn)《GB/T 18031-2000信急技術(shù)數(shù)字鍵盤(pán)漢字輸入通用要求》和《GB(待定)信息技術(shù)通用鍵盤(pán)漢字輸入通用要求》。(5)旅拼音輸入時(shí),采用人工分詞。在形式上與英文接軌,既可以避免3%的歧義分詞錯(cuò)誤,也可以兼容簡(jiǎn)拼輸入,大幅度降低鍵選率和平均碼長(zhǎng)。青月亮漢字通在保證支持完整拼音輸入的同時(shí),尤其提倡使用簡(jiǎn)拼輸入(一個(gè)音節(jié)要么只取音節(jié)的首字母,要么就取完整音節(jié))。
存在的問(wèn)題:(1)字段輸入還未能完全根治輸入過(guò)程中“回頭看”的問(wèn)題,每當(dāng)終選字詞有錯(cuò)時(shí),仍然需要近距離的即時(shí)修改。(2)對(duì)“上下文關(guān)聯(lián)”機(jī)制的人機(jī)界,而用戶需要一個(gè)熟悉的過(guò)程。因此,青月亮漢字通也允許使用者關(guān)閉“上下文關(guān)聯(lián)”智能輸入,僅保留“上文關(guān)聯(lián)”機(jī)制和恢復(fù)逐字、逐詞上屏的輸入方式。
六、結(jié)束語(yǔ)
上世紀(jì)八十年代我國(guó)學(xué)者提出的“從開(kāi)發(fā)人腦到開(kāi)發(fā)電腦”、“字為基礎(chǔ)、詞為主導(dǎo)、智能處理”,只是指明了漢字輸入技術(shù)的發(fā)展方向。時(shí)至今日,己有近十種輸入法采用了智能化處理重碼的技術(shù)。這些智能輸入軟件中有的采用人工智能理論,有的依據(jù)概率統(tǒng)計(jì)方法,有的依靠自動(dòng)控制技術(shù),多數(shù)軟件設(shè)計(jì)兩種方法。效果較好的青月亮軟件更是在模糊控制的框架內(nèi)使用了語(yǔ)法規(guī)則和動(dòng)態(tài)語(yǔ)用統(tǒng)計(jì)。(下轉(zhuǎn)第9頁(yè))(上接第4頁(yè))如果像當(dāng)年“萬(wàn)馬奔騰”一樣,智能化軟件也形成“百花齊放、百家爭(zhēng)鳴”的局而,則錢(qián)偉長(zhǎng)教授要求的易學(xué)、易用的理想的輸入方法的實(shí)現(xiàn)為期己經(jīng)不遠(yuǎn)了。
參考文獻(xiàn):
[1]俞士汶.中文輸入中語(yǔ)法分析技術(shù)的應(yīng)用[J].中文信息學(xué)報(bào),1988(3).
[2]王曉龍等.語(yǔ)句級(jí)漢字輸入技術(shù)[J].中文信息學(xué)報(bào),1996(12).
[3]章森等.語(yǔ)句拼音漢字轉(zhuǎn)換的智能處理機(jī)制分析[J].中文信息學(xué)報(bào),1998(2).
[4]蔡榕.最優(yōu)拼音漢字一次輸入變換法及拼音漢字轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)[C].第三屆中文信息處理國(guó)際會(huì)議論文集,1992,10.
[5]夏瑩等.利用上下文相關(guān)信急的漢字文本識(shí)別[J].中文信息學(xué)報(bào),1996(2).
[6]郭進(jìn).統(tǒng)計(jì)語(yǔ)言模型及漢語(yǔ)音字轉(zhuǎn)換的一些新結(jié)果[J].中文信息學(xué)報(bào),1993(1).
[7]仲興國(guó).多詞組一次性拼音漢字變換[J].中文信息學(xué)報(bào),1990(6).
[8]張普.智能化漢字鍵盤(pán)輸入法的最重要發(fā)展方向[M].中國(guó)標(biāo)準(zhǔn)出版社,1997(2).
[9]陳一凡.漢字編碼輸入技術(shù)的發(fā)展趨勢(shì)[J].計(jì)算機(jī)世界,1987,11(8).
[10]黃昌寧.中文信息處理的主流技術(shù)是什么?[J].計(jì)算機(jī)世界報(bào),2002(24).
作者簡(jiǎn)介:何軼智,現(xiàn)就讀于西安外事學(xué)院工學(xué)院09級(jí)電子信息工程專業(yè)。