樊漢超
(西安外事學(xué)院工學(xué)院,陜西西安 710077)
20世紀(jì)80年代錢偉長(zhǎng)教授自行研制和設(shè)計(jì)的“錢碼”問(wèn)世。在推出自己“錢碼”的同時(shí),他認(rèn)為當(dāng)下的輸入方式尚不理想。與此同時(shí),國(guó)內(nèi)第一個(gè)智能拼音軟件程序由林才松和周有光研制成功。經(jīng)過(guò)多年的實(shí)踐證明,要從漢字編碼角度得到一個(gè)易學(xué)、易懂、好用的理想輸入方式較為困難[1-5]。
近年來(lái),計(jì)算機(jī)軟、硬件的發(fā)展速度成幾何級(jí)數(shù)增長(zhǎng),計(jì)算機(jī)信息資源不斷擴(kuò)充,使得智能化的漢字輸入軟件更為方便。眾多智能輸入軟件被研發(fā)的共同目的都是識(shí)別和選定輸入的重碼字符、單詞和詞組,從而縮短平均碼長(zhǎng),推進(jìn)編碼簡(jiǎn)單化和規(guī)范化進(jìn)程[6]。
這一類軟件可稱為是出現(xiàn)最早且理想化的智能輸入軟件。該類輸入軟件的工作原理主要是以理解為基礎(chǔ),利用漢語(yǔ)語(yǔ)法來(lái)合并同音字和詞以及消解歧義分詞,根據(jù)自動(dòng)搜索到的分詞得到同音詞及候選詞,通過(guò)查找知識(shí)庫(kù)得出相關(guān)的規(guī)則,隨后經(jīng)過(guò)進(jìn)一步的推理得出轉(zhuǎn)換結(jié)果。通過(guò)實(shí)時(shí)修正編輯錯(cuò)誤和批量學(xué)習(xí)使得系統(tǒng)能夠不斷完善和改進(jìn),此過(guò)程也可稱作是自學(xué)習(xí)過(guò)程。這類軟件通常表現(xiàn)為計(jì)算機(jī)能夠識(shí)別和處理的一系列固定搭配、公式和可供自定義的規(guī)則,且又是一種人工智能語(yǔ)言,可作為自然語(yǔ)言的分支來(lái)理解[7]。
代表作品:拼音語(yǔ)句輸入系統(tǒng)In Sun(王曉龍等研制,哈爾濱工業(yè)大學(xué));智能ABC(朱守濤研制,北京大學(xué))
性能特點(diǎn):(1)由于該類程序是自行研發(fā)編寫(xiě)的語(yǔ)法體系,包含了最基本、歧義最少的漢語(yǔ)語(yǔ)法重點(diǎn)。所以,該系統(tǒng)的輸入正確率較其他系統(tǒng)更高且更穩(wěn)定。(2)軟件擁有可調(diào)節(jié)的開(kāi)放式知識(shí)庫(kù),因此即使是小型系統(tǒng)的主機(jī)仍可正常運(yùn)行。
存在的問(wèn)題:這一程序也有其自身缺點(diǎn),例如:在逐個(gè)字連續(xù)輸入整句時(shí),由于整句字符過(guò)長(zhǎng),平均碼長(zhǎng)較長(zhǎng),采用簡(jiǎn)化拼音鍵入正確率較高,在整句處理中占有優(yōu)勢(shì),一旦出現(xiàn)轉(zhuǎn)換上的錯(cuò)誤,則需要逐一糾正,通常會(huì)打亂操作者的正常思路?,F(xiàn)階段,在建立系統(tǒng)的知識(shí)數(shù)據(jù)庫(kù)時(shí),漢語(yǔ)語(yǔ)言的表達(dá)和識(shí)別就會(huì)顯得較為困難;自動(dòng)搜索分詞的過(guò)程因存在歧義分詞的緣故,對(duì)詞語(yǔ)識(shí)別的精確度也受影響;語(yǔ)句所用語(yǔ)法不夠規(guī)范,使得篩選率較低,使程序的運(yùn)行受到限制。但由于該類程序并未達(dá)到預(yù)期效果。因此,開(kāi)發(fā)者只能尋找其他更加實(shí)用、更容易被接受的算法。
該軟件是基于理解和語(yǔ)言統(tǒng)計(jì)相結(jié)合的設(shè)計(jì)。輸入軟件的工作原理主要是以語(yǔ)言統(tǒng)計(jì)為基礎(chǔ),利用語(yǔ)言統(tǒng)計(jì)的數(shù)據(jù)來(lái)合并同音字和詞以及消解歧義分詞,通過(guò)統(tǒng)計(jì)字與字的同現(xiàn)概率矩陣來(lái)實(shí)現(xiàn)漢語(yǔ)語(yǔ)言統(tǒng)計(jì)庫(kù)的結(jié)構(gòu),這里的矩陣大小是固定的,只是和字符集的大小有關(guān),根據(jù)輸入語(yǔ)句查找數(shù)據(jù)庫(kù),以詞法、語(yǔ)義、句法和自定義的規(guī)則來(lái)制約文章從而進(jìn)行解析推理,如果存在同音詞,則采取最優(yōu)評(píng)價(jià)法來(lái)確定最佳結(jié)果,如果當(dāng)具有最優(yōu)評(píng)價(jià)意義的第一選擇并非標(biāo)準(zhǔn)選擇時(shí),便可選擇次優(yōu)選擇或手動(dòng)方式進(jìn)行修正,以便下次轉(zhuǎn)換時(shí)修改計(jì)算機(jī)評(píng)價(jià)值,這也是一種自學(xué)習(xí)過(guò)程。這類軟件屬于運(yùn)籌學(xué)范疇[8]。
代表作品:最優(yōu)評(píng)價(jià)函數(shù)法拼音漢字轉(zhuǎn)換系統(tǒng)(蔡榕設(shè)計(jì));Auto Way(蔣子剛設(shè)計(jì));智能輸入軟件(夏瑩等研制,清華大學(xué)人工智能實(shí)驗(yàn)室)。
性能特點(diǎn):(1)與已經(jīng)進(jìn)行語(yǔ)言統(tǒng)計(jì)或?qū)儆谕阮愋偷念I(lǐng)域系統(tǒng)相比,該系統(tǒng)進(jìn)行程序轉(zhuǎn)換的正確率更高,也就是語(yǔ)言統(tǒng)計(jì)具有一定的偏向性。用戶在使用過(guò)程中,該語(yǔ)言統(tǒng)計(jì)數(shù)據(jù)庫(kù)就會(huì)從傳統(tǒng)的通用錄入型向符合用戶端需求的語(yǔ)言習(xí)慣專業(yè)型轉(zhuǎn)變。(2)該軟件所占用的運(yùn)行空間較小,在CPU僅為486的電腦上依然可正常使用,運(yùn)行無(wú)壓力。
存在的問(wèn)題:其作為整體的同現(xiàn)概率矩陣,不能獨(dú)立運(yùn)行、自行分割,而是更偏向于整體化的處理,如果一旦出現(xiàn)轉(zhuǎn)換錯(cuò)誤,便能鍵入返回逐一糾正,通常會(huì)打亂正常思路。(3)該系統(tǒng)軟件的鍵選正確率會(huì)受到限制。因此對(duì)于目前階段,自動(dòng)、自主進(jìn)行分詞的精確度智能可達(dá)到約98%。
該系統(tǒng)是通過(guò)模板搜索引擎來(lái)完成漢語(yǔ)語(yǔ)法體系的組織系統(tǒng)。這類系統(tǒng)軟件的基本工作原理是以模板匹配為基礎(chǔ),將漢語(yǔ)語(yǔ)法知識(shí)寄予在大量的短語(yǔ)串中,進(jìn)而利用這些短語(yǔ)串來(lái)合并同音字和詞以及消解歧義分詞。其需要搜索大量的語(yǔ)句來(lái)獲取短語(yǔ)串,才能大體上包含漢語(yǔ)語(yǔ)法知識(shí),根據(jù)輸入語(yǔ)句查找模板詞庫(kù)和句法規(guī)則庫(kù),然后進(jìn)行匹配處理,如果匹配結(jié)果單一,則不需要概率推理;如果存在兩個(gè)以上的候選結(jié)果,那么就根據(jù)句法規(guī)則或概率推理作進(jìn)一步的決定,選出最終結(jié)果[9]。
代表作品:智能狂拼(中文之星數(shù)碼科技有限公司);黑馬智能輸入軟件(黑馬新技術(shù)公司);自然碼2000(大自然軟件開(kāi)發(fā)有限責(zé)任公司)。
性能特點(diǎn):與已經(jīng)檢索過(guò)的模板詞匯或?qū)儆谕阮I(lǐng)域的系統(tǒng)相比,該軟件的輸入程序轉(zhuǎn)換正確率更高。用戶在使用過(guò)程中,語(yǔ)言統(tǒng)計(jì)數(shù)據(jù)庫(kù)會(huì)從傳統(tǒng)通用錄入型向符合用戶端需求的語(yǔ)言習(xí)慣專業(yè)型轉(zhuǎn)變。
存在的問(wèn)題:(1)模板詞匯數(shù)量眾多,需要較大的存儲(chǔ)空間,這對(duì)電腦的硬件設(shè)施有較高要求,CPU為486及以下型號(hào)的計(jì)算機(jī)則無(wú)法使用。(2)使用拼音輸入和模板進(jìn)行匹配的輸入軟件,通常僅支持26鍵的漢語(yǔ)拼音輸入法,也偏向于整句、整段文字的處理,一旦出現(xiàn)轉(zhuǎn)換錯(cuò)誤,會(huì)打亂正常思路。目前階段,自動(dòng)、自主分詞的精確度智能達(dá)到約98%,鍵選的準(zhǔn)確率受到一定的限制。
該類輸入軟件的基本工作原理是以上下文關(guān)聯(lián)為基礎(chǔ),通過(guò)采用語(yǔ)言統(tǒng)計(jì)來(lái)實(shí)現(xiàn)上下文關(guān)聯(lián)的智能輸入,基于模糊控制,利用上下文的語(yǔ)言環(huán)境來(lái)智能地選擇獲取重碼字。該輸入軟件的調(diào)節(jié)機(jī)制涉及到許多矛盾和相互牽制的受控參數(shù),可以較為精確地表現(xiàn)出各種語(yǔ)言的現(xiàn)象差異,獲得較好的效果。
代表作品:青月亮漢字通智能輸入軟件平臺(tái)GM 3.1(青月亮科技開(kāi)發(fā)有限公司);一筆智能輸入軟件(一筆軟件有限公司);101智能輸入軟件TZ8.2/9.1/2000(字原科技有限公司)。
性能特點(diǎn):和已經(jīng)學(xué)習(xí)過(guò)的或具有相同類型的語(yǔ)言材料的系統(tǒng)程序相比,該程序鍵選率相對(duì)較低。以青月亮漢字通這款通用智能處理軟件為例,其是一種結(jié)合了音碼、形碼和筆畫(huà)碼的智能處理軟件,不僅支持26鍵位的漢語(yǔ)拼音輸入法,也支持10鍵位、8鍵位甚至是5鍵位的輸入法,同時(shí),還支持超大字符集,加強(qiáng)了所輸入文件的上下文關(guān)聯(lián)度,實(shí)用性較強(qiáng),易于表達(dá)理解。
存在的問(wèn)題:(1)字段輸入仍未從根本解決軟件程序的整句型偏向,仍然側(cè)重于整段文字的處理。(2)對(duì)于新開(kāi)發(fā)運(yùn)用的上下文關(guān)聯(lián)技術(shù),需要用戶進(jìn)一步的熟悉運(yùn)用,否則,用戶極有可能因不熟悉運(yùn)用步驟而放棄使用。所以,類似于青月亮漢字通這類的通用智能處理軟件也支持使用關(guān)閉上下文關(guān)聯(lián)的智能輸入法,其保留了原來(lái)逐字逐段的輸入方式。
推動(dòng)以文字為基礎(chǔ),以詞語(yǔ)為主線的智能處理理念,是漢字語(yǔ)言輸入技術(shù)的發(fā)展趨勢(shì)。漢語(yǔ)輸入已經(jīng)發(fā)展到擁有近十種漢字輸入智能化處理方案。有些程序依靠概率統(tǒng)計(jì)的方式方法,有些則是依靠自動(dòng)化控制技術(shù)。其中,運(yùn)行效果較為理想的青月亮文字處理軟件采用了模糊控制的方法,運(yùn)用語(yǔ)法規(guī)則和動(dòng)態(tài)語(yǔ)進(jìn)行統(tǒng)計(jì),并綜合計(jì)算機(jī)智能化技術(shù)將是漢語(yǔ)文字處理軟件的發(fā)展方向。
[1]俞士汶.中文輸入中語(yǔ)法分析技術(shù)的應(yīng)用[J].中文信息學(xué)報(bào),1988(3):59-61.
[2]王曉龍.語(yǔ)句級(jí)漢字輸入技術(shù)[J].中文信息學(xué)報(bào),1996(12):32-35.
[3]章森.語(yǔ)句拼音漢字轉(zhuǎn)換的智能處理機(jī)制分析[J].中文信息學(xué)報(bào),1998(2):87-89.
[4]蔡榕.最優(yōu)拼音漢字一次輸入變換法及拼音漢字轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)[C].上海:第三屆中文信息處理國(guó)際會(huì)議論文集,1992.
[5]夏瑩.利用上下文相關(guān)信急的漢字文本識(shí)別[J].中文信息學(xué)報(bào),1996(2):81-82
[6]郭進(jìn).統(tǒng)計(jì)語(yǔ)言模型及漢語(yǔ)音字轉(zhuǎn)換的一些新結(jié)果[J].中文信息學(xué)報(bào),1993(1):47-49.
[7]仲興國(guó).多詞組一次性拼音漢字變換[J].中文信息學(xué)報(bào),1990(6):61-63.
[8]張普.智能化漢字鍵盤(pán)輸入法的最重要發(fā)展方向[M].北京:中國(guó)標(biāo)準(zhǔn)出版社,1997.
[9]陳一凡.漢字編碼輸入技術(shù)的發(fā)展趨勢(shì)[J].計(jì)算機(jī)世界,1987,11(8):5 -9.
[10]黃昌寧.中文信息處理的主流技術(shù)是什么[J].計(jì)算機(jī)世界,2002(24):94-96.
[11]楊小輝.文字軟件處理實(shí)論[J].電子世界,2012(4):84-87.