王崇良,余朝暉
(1.湖北科技學(xué)院 圖書館,湖北 咸寧 437100;2.湖北科技學(xué)院 學(xué)報編輯部,湖北 咸寧 437100)
自然語言檢索產(chǎn)生于20世紀(jì)50年代的情報檢索計算機(jī)化。從某種意義上說,計算機(jī)應(yīng)用于情報檢索是自然語言檢索得以實現(xiàn)的前提和基礎(chǔ),如果沒有計算機(jī)對文獻(xiàn)原文的處理,就不可能有自然語言檢索的產(chǎn)生。在我國,對于自然語言檢索的重視、探索與研究,始發(fā)于20世紀(jì)80年代初期。張琪玉教授不僅是國內(nèi)較早關(guān)注自然語言檢索的主要學(xué)者,而且還是國內(nèi)研究自然語言檢索最為全面、系統(tǒng)的專家學(xué)者。在他看來,自然語言檢索主要是指“在情報檢索中,直接利用文獻(xiàn)原文中的字詞進(jìn)行標(biāo)引或檢索”[1]的一種檢索語言。隨著計算機(jī)技術(shù)、數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,自然語言檢索必將成為我國情報檢索領(lǐng)域的優(yōu)先選擇和重要發(fā)展趨勢。因此,張琪玉教授從20世紀(jì)90年代開始,就將其研究延伸拓展到自然語言檢索領(lǐng)域,重點研究了自然語言檢索的應(yīng)用方式、檢索效率、控制措施、發(fā)展前途等諸多方面問題,取得了重要理論突破和實質(zhì)性進(jìn)展,為我國自然語言檢索適應(yīng)新的檢索環(huán)境作出了不可磨滅的貢獻(xiàn)。
張琪玉教授是一位信念堅定的辯證思維型學(xué)者,特別善于理性思考問題,立場觀點明確,有著自己獨特的認(rèn)知和深刻見解。因此,我們回顧他對自然語言檢索的治學(xué)道路和研究歷程,可以用兩句話來概況其立場觀點,“既肯定又否定,既呼吁又親自參與研究”。
呼吁:20世紀(jì)80年代初期,張琪玉教授在創(chuàng)制情報檢索語言時,就關(guān)注到自然語言檢索問題。他在《論情報檢索語言的研究、創(chuàng)制與普及》文章中,呼吁我們在研究情報檢索語言過程中,“似乎也應(yīng)把對自然語言檢索法的研究包括進(jìn)去”[2];20世紀(jì)90年代末期,張琪玉在《世紀(jì)之交中國情報語言學(xué)發(fā)展之路》文章中,重點分析研究了論述自然語言檢索者的文章,發(fā)現(xiàn)大多數(shù)文章作者只是將自然語言與人工語言作籠統(tǒng)的比較,沒有對自然語言檢索性能進(jìn)行深入分析與探究。于是,他再次向全國情報檢索語言理論研究者發(fā)出呼吁:“當(dāng)前亟需從情報語言學(xué)角度深入研究自然語言檢索方法,把情報語言學(xué)的原理和方法引進(jìn)自然語言檢索的研究”[3]。
肯定:自然語言檢索方式的產(chǎn)生,使得我國情報檢索語言領(lǐng)域發(fā)生了重大變革和重大突破。由于自然語言檢索在其檢索過程、檢索方法上的方便快捷以及檢索范圍和應(yīng)用領(lǐng)域的不斷擴(kuò)大,越來越多地受到人們的青睞。因此,張琪玉教授對于自然語言檢索方式應(yīng)用于情報檢索是持肯定態(tài)度的,并在多篇文章中闡明了自己的獨特認(rèn)知和深刻見解。在他看來,自然語言檢索方式隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)通訊技術(shù)的快速發(fā)展,“具有不可阻擋的發(fā)展前途,特別是在互聯(lián)網(wǎng)絡(luò)的檢索環(huán)境中,它將成為一種必然的優(yōu)先選擇?!盵4]
否定:自然語言檢索方式有其突出的優(yōu)點,但又有其明顯的缺點是個不爭事實。然而有些文章作者片面地、言過其實地夸大自然語言的檢索功能和檢索效率,似乎它能滿足人們一切檢索需求。對于這些樂觀論者所提出的諸多觀點(如:“自然語言檢索是發(fā)展方向,信息檢索要走自然語言道路”等),張琪玉教授在深入研讀他們所撰寫的文章后,發(fā)現(xiàn)這些文章作者幾乎都不是我國自然語言檢索領(lǐng)域的專門探索者和研究者。因此,張琪玉教授對于這些樂觀論者的觀點,持否定態(tài)度,并在與吳建中通訊訪談《情報檢索語言的發(fā)展趨勢——關(guān)于圖書館未來的對話之九》文章中,闡明和詮釋了其中的根本原因。在他看來,假若“那些論點如果是正確的話,全世界的情報檢索早已全面自然語言化了?!盵4]
親自參與研究:從20世紀(jì)90年代初期開始,張琪玉教授就將研究重點和重心轉(zhuǎn)向了自然語言檢索領(lǐng)域。他在充分利用、借鑒自己在研究情報語言學(xué)過程中所取得的理論成果基礎(chǔ)上,成功地將情報語言學(xué)原理和方法引進(jìn)運用到自然語言檢索研究工作。在他看來,任何一種高質(zhì)量高要求的情報檢索語言,控制是絕對必要的。自然語言的致命弱點就是缺少“控制”,而情報語言學(xué)的精髓就是“對檢索過程進(jìn)行控制”。因此,他就如何提高自然語言檢索效率問題、控制措施問題和發(fā)展前途問題等諸多方面進(jìn)行了持續(xù)研究,使我國自然語言檢索效率得到極大的提高,并廣泛應(yīng)用于數(shù)據(jù)庫資源檢索和網(wǎng)絡(luò)信息資源檢索等諸多方面。
20世紀(jì)90年代中期和21世紀(jì)初,張琪玉教授為了從根本上搞清楚自然語言在情報檢索中的應(yīng)用方式,幫助人們在理論研究層面了解和掌握自然語言應(yīng)用于情報檢索的具體情況,他在《自然語言在情報檢索中的應(yīng)用》和《關(guān)于自然語言檢索問題》兩篇文章中對其進(jìn)行了專門探索和研究。在他看來,隨著網(wǎng)絡(luò)計算機(jī)技術(shù)的快速發(fā)展,自然語言在情報檢索中的應(yīng)用方式將會越來越寬廣,功能和作用將會越來越增強,檢索效率將會越來越提高。但問題的關(guān)鍵是,我們?nèi)绾螌ψ匀徽Z言在情報檢索中的應(yīng)用方式作出正確的評判,將會直接影響到自然語言檢索應(yīng)用發(fā)展前景。基于此,張琪玉教授在充分考量和深入探究國內(nèi)外自然語言在情報檢索中的應(yīng)用方式后,于1996年在《自然語言在情報檢索中的應(yīng)用》文章中,闡明和詮釋了我國自然語言在情報檢索中的應(yīng)用方式。在他看來,目前主要應(yīng)用于:“關(guān)鍵詞法、文本檢索、單漢字檢索、自動分類、自由標(biāo)引”[5]等8個方面。他還特別指出,漢語自動分詞(即漢語分詞技術(shù))是自然語言在情報檢索中應(yīng)用的特殊問題,其分詞原理、技術(shù)和方法,不同于英語、法語、德語等西方語種,必須加大力度對漢語分詞技術(shù)進(jìn)行專門研究,以期探尋到有效解決漢語分詞技術(shù)實施方案。在此基礎(chǔ)上,張琪玉教授還于2004年在其《關(guān)于自然語言檢索問題》文章中,進(jìn)一步闡明和詮釋了自然語言應(yīng)用于情報檢索的性能特點、使用范圍和方法要領(lǐng),重點研究了關(guān)鍵詞檢索、全文檢索、搜索引擎、自動甄別以及自動標(biāo)引和自動分類[6]等方面問題。通過其理論探索和實踐研究,張琪玉教授發(fā)現(xiàn),我國目前自然語言應(yīng)用于情報檢索,只在“關(guān)鍵詞索引及數(shù)據(jù)庫、全文檢索、搜索引擎已經(jīng)實用……至于自動甄別、自動標(biāo)引和自動分類,嚴(yán)格地說都還沒有走出實驗室進(jìn)入廣泛應(yīng)用?!盵7]張琪玉教授的執(zhí)著與探尋,不僅使人們在理論研究層面上明確了自然語言應(yīng)用于情報檢索的主要方式和今后的主攻研究方向,而且還啟迪了人們的研究思維,開闊了人們的研究視野,極大地促進(jìn)和推動了我國自然語言檢索的發(fā)展。
20世紀(jì)90年代中期,張琪玉教授在《自然語言檢索中各種因素對檢索效率的影響》等文章中,對影響自然語言檢索效率的各種因素進(jìn)行了充分考量和深入探究。在他看來,自然語言缺少控制是其影響檢索效率的主要因素;自然語言用詞不規(guī)范性,存在大量同義現(xiàn)象、多義現(xiàn)象和含義模糊現(xiàn)象是其影響檢索效率的客觀因素;未顯示語詞(或概念)之間的關(guān)系,詞匯無語義關(guān)聯(lián)是其影響檢索效率的關(guān)鍵因素。因此,張琪玉教授強烈建議,當(dāng)前我們對于自然語言檢索效率的探索與研究,亟需從情報語言學(xué)研究的角度,引進(jìn)其原理和方法,探尋其有效方法和改進(jìn)途徑,消除各種因素對自然語言檢索效率的影響。為此,張琪玉教授歷經(jīng)多年的探索與研究,創(chuàng)制了“學(xué)科-事物概念組配型”檢索語言,較好地解決了上述各種因素對自然語言檢索效率的影響,極大地提高了我國自然語言檢索效率。在此基礎(chǔ)上,張琪玉教授還從自然語言檢索的“文本類型、專指度、不同標(biāo)引方法、詞表控制”等6個方面對檢索效率的影響進(jìn)行了比較分析探究,找到了有效提高自然語言檢索效率的方法措施和專門對策。在他看來,自然語言檢索在其不同的檢索環(huán)境、不同的檢索條件和不同的檢索范圍內(nèi)進(jìn)行檢索,都有其特定的檢索方法、技巧和措施,我們在實施其檢索過程中,一定要針對具體檢索課題需要,采用相對應(yīng)的最佳檢索方法、策略和手段,使其獲得更好的檢索效率。也就是說,我們在進(jìn)行自然語言檢索時,關(guān)鍵是要掌握其規(guī)律、策略和要領(lǐng)。如:當(dāng)我們對文本進(jìn)行抽詞檢索時,首先想到的應(yīng)是抽取專指詞,需要擴(kuò)檢時再使用較泛指的詞;當(dāng)我們需要進(jìn)行組配檢索時,最好在句、段范圍內(nèi)檢索;當(dāng)我們需要構(gòu)造檢索表達(dá)式時,應(yīng)該用“邏輯和”將其同義詞、近義詞、反義詞、否定詞連接起來包括進(jìn)去[8]等等。張琪玉教授還特別提醒我們,要想提高自然語言系統(tǒng)檢索效率,配備“后控制詞表”是其有效措施和關(guān)鍵所在,并就后控制詞表的控制機(jī)理、編制特點和檢索方法等諸多方面問題,闡明和詮釋了自己獨特認(rèn)知和深刻見解,為我國自然語言檢索效率的提高和實際運用,作出了重要理論貢獻(xiàn)。張琪玉教授通過其持續(xù)研究與深入探尋,為我們提供的理論方法、控制措施和檢索技巧,就是在網(wǎng)絡(luò)信息技術(shù)高度發(fā)達(dá)的當(dāng)今時代,對于我們提高自然語言檢索效率仍然具有重要的現(xiàn)實指導(dǎo)意義,他的思想智慧是超越我們想象的。
在張琪玉教授看來,自然語言應(yīng)用于情報檢索是一種必然趨勢和發(fā)展方向。自然語言檢索隨著網(wǎng)絡(luò)計算機(jī)技術(shù)、數(shù)據(jù)庫資源和網(wǎng)絡(luò)信息資源檢索環(huán)境的不斷變化,必然會產(chǎn)生新的檢索技術(shù)和檢索方法。因此,我們掌握其措施方法和使用要領(lǐng),并對其檢索性能作出客觀評價,特別有助于提高自然語言檢索效率。
1.關(guān)鍵詞檢索評價研究
21世紀(jì)初期,張琪玉教授從“關(guān)鍵詞索引”應(yīng)用角度,回顧了我國關(guān)鍵詞索引的研究過程和應(yīng)用歷程。在他看來,關(guān)鍵詞索引在我國的應(yīng)用與發(fā)展,最開始是“用做檢索刊物的臨時性索引;后來用于數(shù)據(jù)庫的關(guān)鍵詞檢索,代替人工標(biāo)引;再后來關(guān)鍵詞則應(yīng)用于自動主題標(biāo)引和自動分類研究的前期處理?!盵5]張琪玉教授通過其理論探索和應(yīng)用歷程研究,發(fā)現(xiàn)關(guān)鍵詞目前主要應(yīng)用于3個方面:一是題錄數(shù)據(jù)庫;二是全文數(shù)據(jù)庫;三是自動抽取關(guān)鍵詞。在此基礎(chǔ)上,張琪玉教授還對“自由標(biāo)引的關(guān)鍵詞與自動抽取的關(guān)鍵詞、題名中的關(guān)鍵詞與正文中的關(guān)鍵詞、關(guān)鍵詞與規(guī)范詞”[5]的檢索性能和檢索效率進(jìn)行了比較分析研究,發(fā)現(xiàn)它們在檢索質(zhì)量上存在較大差別。為了較好地解決它們之間的檢索差別與缺陷,張琪玉教授認(rèn)為,關(guān)鍵是要找到問題的癥結(jié)所在、創(chuàng)新的途徑和有效的改進(jìn)方法?;诖?,張琪玉教授從兩個方面進(jìn)行了專門研究:
關(guān)于“漢語關(guān)鍵詞法”研究。在張琪玉教授看來,關(guān)鍵詞法是一種“準(zhǔn)情報檢索語言”。就其實質(zhì)而言是一種自然語言檢索法,主要適用于目錄索引編制過程自動化的需要。其優(yōu)點主要表現(xiàn)在:專指度較高、檢索途徑比較多、不用人工標(biāo)引、縮短時差、沒有標(biāo)引失真現(xiàn)象。它可廣泛應(yīng)用于我國“外文文獻(xiàn)的標(biāo)引,中文報刊文獻(xiàn)的標(biāo)引,檔案標(biāo)引”等諸多方面。并用實例對“計算機(jī)抽詞-人工干預(yù)方式”的具體問題用圖示法進(jìn)行了比較分析研究,通過其理論探索和實例分析,張琪玉教授發(fā)現(xiàn)計算機(jī)抽詞-人工干預(yù)方式和自動抽詞方式實際上都是自動抽詞,又都要人工干預(yù)。它們之間的區(qū)別在于“計算機(jī)抽詞-人工干預(yù)方式”是其初級階段,人工干預(yù)多;而“自動抽詞方式”則是其成熟階段,人工干預(yù)少[9]。
關(guān)于“題內(nèi)關(guān)鍵詞索引”研究。在張琪玉教授看來,題內(nèi)關(guān)鍵詞索引也稱之為上下文關(guān)鍵詞索引。它是最早出現(xiàn)的一種利用電子計算機(jī)編制的索引,已經(jīng)實現(xiàn)了索引工作現(xiàn)代化[10]。它能較好地解決自然語言檢索中關(guān)鍵詞法應(yīng)用于漢語特殊問題的需要,回避漢語分詞難題以及改造題名數(shù)據(jù)庫問題。因而受到張琪玉教授的高度重視和密切關(guān)注。他在多篇文章中專門研究了“題內(nèi)關(guān)鍵詞索引”具體編制方法,并且親自編寫應(yīng)用程序,進(jìn)行編制試驗,取得成功與突破。
20世紀(jì)90年代初期,張琪玉教授在《人—機(jī)結(jié)合的題內(nèi)關(guān)鍵詞索引可回避漢語分詞難題》文章中,在我國首次提出了“含糊抽詞”可回避漢語分詞難題的學(xué)術(shù)觀點。在他看來,這種抽詞方法的最大特點就是能分辨出題名中哪個詞或詞素具有檢索意義,幫助我們解決漢語分詞難題?;诖?,張琪玉教授對這種抽詞方法的抽詞原理、抽詞特征、抽詞措施和抽詞辦法等諸多方面問題進(jìn)行了專門探索和實例分析研究。發(fā)現(xiàn)這種抽詞方法,就其本質(zhì)屬性而言,它是“最長抽詞”與“詞素輪排”兩種方法的結(jié)合。究其原因,就是它保留了上下文,雖然是“含糊抽詞”,但關(guān)鍵詞含義的明確性非常好,特別適于瀏覽[11]。在此基礎(chǔ)上,張琪玉教授還提出了8種改進(jìn)題內(nèi)關(guān)鍵詞索引的方法措施。
20世紀(jì)90年代末期,張琪玉教授在《漢語題內(nèi)關(guān)鍵詞索引的一種編制方法》《漢語題內(nèi)關(guān)鍵詞索引的另一種編制方法》和《漢語題內(nèi)關(guān)鍵詞索引的第三種編制方法》3篇文章中,對漢語題內(nèi)關(guān)鍵詞索引的編制原理和編制方法進(jìn)行了專門探索和編程工作。在第一種編制方法中,張琪玉教授介紹了自己用WPS和dBASE結(jié)合使用,編制題內(nèi)關(guān)鍵詞索引的方法和程序[12];在第二種編制方法中,張琪玉教授又介紹了自己用WPS和dBASE結(jié)合使用或單獨使用dBASE,編制題內(nèi)關(guān)鍵詞索引的方法和程序;在第三種編制方法中,張琪玉教授還介紹了自己專門使用dBASE,編制題內(nèi)關(guān)鍵詞索引的方法和程序。并特別指出,在這3種編制方法中,后2種都是在對前一種編制方法程序加以修改而成的。如果我們將第二種編制方法與第一種編制方法進(jìn)行比較,就會發(fā)現(xiàn)第一種編制方法檢索入口位置在“中部”,而第二種編制方法檢索入口位置在“左方”,其編制方法更為簡易和靈活,并能節(jié)省篇幅[13];如果我們將第三種編制方法與第二種編制方法進(jìn)行比較,就會發(fā)現(xiàn)第三種編制方法每條索引款目分為上、中、下三行,檢索入口位置在第二行的“左方”,它較之前兩種方法可讀性好,主要適用于聯(lián)機(jī)檢索環(huán)境[14]。
21世紀(jì)初,張琪玉教授在《改造題名的漢語題內(nèi)關(guān)鍵詞索引數(shù)據(jù)庫》文章中又提出了漢語題內(nèi)關(guān)鍵詞索引第四種編制方法構(gòu)想。在他看來,就是從改造題名入手,采用情報檢索語言的原理和方法加以控制,必然會提高關(guān)鍵詞索引數(shù)據(jù)庫的質(zhì)量[15]?;诖?,張琪玉教授從“題名改造內(nèi)容、編制法要點和檢索性能”3個方面對這種編制方法進(jìn)行了專門探索與研究,發(fā)現(xiàn)這種編制方法,它不僅能使題名用詞得到規(guī)范,而且還可使數(shù)據(jù)庫也得到進(jìn)一步規(guī)范,更加適合于我們在檢索中進(jìn)行瀏覽。此外,張琪玉教授還專門研究了“孤立關(guān)鍵詞與上下文關(guān)鍵詞”[16]專指度問題以及“題名關(guān)鍵詞與正文關(guān)鍵詞”[17]檢索性能問題,目的就是要提高關(guān)鍵詞在網(wǎng)絡(luò)信息資源和數(shù)據(jù)庫資源中的檢索效率。
2.全文檢索評價研究
21世紀(jì)初,張琪玉教授在《全文數(shù)據(jù)庫、全文檢索與全文標(biāo)引》和《全文檢索與索引》等5篇文章中,對全文檢索的檢索原理、檢索性能、檢索系統(tǒng)、檢索方法和結(jié)構(gòu)模式等諸多方面問題進(jìn)行了專門探討和深入研究。在他看來,全文檢索不僅是我國自然語言檢索的主要應(yīng)用領(lǐng)域,而且還是關(guān)鍵詞檢索技術(shù)應(yīng)用于全文檢索的主要途徑?;诖耍瑥堢饔窠淌谑紫汝U明和詮釋了全文檢索的性能。在他看來,所謂全文檢索,“特指對全文數(shù)據(jù)庫中的文本型數(shù)據(jù)進(jìn)行關(guān)鍵字詞匹配檢索”[18]的一種方式,它能極大地提高全文檢索效率。但全文檢索并不是萬能的:從檢索效率角度看,有諸多因素(如:多詞一義、一詞多義、詞義含糊、比喻用法、關(guān)鍵字詞匹配、表達(dá)式構(gòu)造、布爾邏輯算符等)直接影響檢全率和檢準(zhǔn)率;從檢索效果角度看,它與文獻(xiàn)類型密切相關(guān),對于傳統(tǒng)型參考工具書(如:字典、詞典、百科全書等)和古代詩詞全文檢索效果好,而對于新聞資料全文檢索效果不理想。其次,張琪玉教授還專門研究了全文檢索與索引之間的根本區(qū)別。在他看來,索引有標(biāo)目(所謂標(biāo)目,是指對文獻(xiàn)整體主題或局部主題或有信息價值的主題因素的確切表達(dá)和明確指示),而全文檢索則沒有標(biāo)目[19]。并從6個方面闡明和詮釋了全文檢索適應(yīng)的檢索范圍以及全文檢索不適應(yīng)的檢索范圍,目的就是幫助人們掌握和正確使用全文檢索基本方法及其要領(lǐng)。第三,張琪玉教授還專門研究了全文檢索的實質(zhì)內(nèi)涵。在他看來,全文檢索實質(zhì)內(nèi)涵就是通過“對文本數(shù)據(jù)庫進(jìn)行任意字詞的遍歷式匹配檢索,依次找出文本中全部與檢索者所輸入的關(guān)鍵詞或詞的片斷完全一致的地方。”[19]簡單概括地說,就是“關(guān)鍵詞檢索+計算機(jī)輔助文本瀏覽”。第四,張琪玉教授還專門研究了全文檢索系統(tǒng)的檢索性能和理想模式等方面問題。在他看來,要想使全文檢索系統(tǒng)獲得更佳的檢索性能和更高的檢索效率,必須建立一個性能優(yōu)良多功能檢索系統(tǒng),“只有集成多種檢索方法的檢索系統(tǒng)(即目錄體系、索引體系、具有多種功能的計算機(jī)檢索系統(tǒng)),才能較好地滿足多樣性的檢索要求?!盵20]在此基礎(chǔ)上,張琪玉教授前瞻性地研究了全文檢索系統(tǒng)結(jié)構(gòu)模式問題[21]和全文數(shù)據(jù)庫深度檢索模式問題[22],創(chuàng)造性地發(fā)現(xiàn)了理想的檢索系統(tǒng)模式,即為“文本型全文數(shù)據(jù)庫+需要的索引”或“圖像型全文數(shù)據(jù)庫+各種需要的索引”[19]。
3.自動抽詞與自動分詞評價研究
20世紀(jì)90年代末期到21世紀(jì)初期,張琪玉教授在《自動抽詞與自動分詞》《缺乏抽詞詞典是自動抽詞標(biāo)引難以普及的主要原因》等多篇文章中,對自動抽詞與自動分詞進(jìn)行了專門探索和持續(xù)研究。在他看來,兩者既有聯(lián)系又有區(qū)別,自動抽詞是用計算機(jī)從文獻(xiàn)文本中抽出標(biāo)引用詞,而自動分詞則是用計算機(jī)將一個句子切分成詞或詞組?;诖耍瑥堢饔窠淌谑紫汝U明和詮釋了自動抽詞與自動分詞難于實現(xiàn)的原因。在他看來,自動抽詞與自動分詞之所以在我國難于實現(xiàn),是因為有其主觀原因和客觀因素的影響和制約。并在其與吳建中通訊訪談《情報檢索語言的發(fā)展趨勢——關(guān)于圖書館未來的對話之九》文章中探明了其中的緣由,關(guān)鍵是要解決兩個方面問題:“(1)如何從自然語言文本中抽出最能準(zhǔn)確、充分地表達(dá)文獻(xiàn)有價值內(nèi)容的詞;(2)克服自然語言由于不規(guī)范和缺乏語義關(guān)聯(lián)性而對檢索不利的問題。”[23]其次,張琪玉教授還專門研究了自動抽詞難以普及的原因。在他看來,多年以來,我國的一些專家和學(xué)者對于漢語自動抽詞技術(shù)做了很多研究工作,同時也研究出了多種抽詞軟件,但實際使用者卻不多。究其原因,就是缺乏“抽詞詞典”。因此 ,張琪玉教授認(rèn)為:“只有抽詞軟件而無抽詞詞典,是不能建立自動抽詞標(biāo)引系統(tǒng)的?!盵24]他的獨特認(rèn)知和創(chuàng)造性發(fā)現(xiàn),為我國自動抽詞的最終實現(xiàn)找到了問題關(guān)鍵所在,找準(zhǔn)了研究目標(biāo)和發(fā)展方向。為此,張琪玉教授強烈建議,目前要想提高自動抽詞檢索效率,取得突破性研究進(jìn)展,關(guān)鍵是要重視和加強對下列相關(guān)問題進(jìn)行重點研究:“學(xué)科或主題領(lǐng)域特征詞”研究;“文獻(xiàn)結(jié)構(gòu)、敘述模式和表述主題用詞規(guī)律”研究;“分類表詞表及標(biāo)引成果和術(shù)語整理成果”利用;“主題概念詞的同義歸并、等級歸并和學(xué)科歸并”研究;“后控制詞表”引入;“人機(jī)結(jié)合措施”采用[25]等。在此基礎(chǔ)上,張琪玉教授還剖析了我國目前缺乏抽詞詞典癥結(jié)所在:從研究角度看,研究者大多為計算機(jī)專業(yè)工作者,他們只管抽詞軟件研制,鑒定通過則認(rèn)為大功告成,至于編制抽詞詞典,就非自己能力所及;從參與項目合作研究者角度看,客觀地說,圖書情報工作者深入?yún)⑴c抽詞軟件研制項目合作者很少,即使他們?nèi)虆⑴c了抽詞軟件的研制工作,但由于他們自身對抽詞原理、抽詞詞典編制缺少研究,也很少想到自己具有編制抽詞詞典的能力與智慧。也就是說,抽詞軟件研制與編制抽詞詞典之間存在脫節(jié)問題。因此,張琪玉教授號召我國圖情學(xué)界專家學(xué)者,應(yīng)當(dāng)積極承擔(dān)這項研究任務(wù),并將與其“建立實際需要的數(shù)據(jù)庫相結(jié)合”[24]。
20世紀(jì)90年代中期和末期,張琪玉教授在《論后控制詞表》《積極為自然語言與情報檢索語言的結(jié)合創(chuàng)造條件——建議大量編制自然語言詞表》等多篇文章中對自然語言檢索控制措施進(jìn)行了專門探索和深入研究,他創(chuàng)造性地發(fā)現(xiàn)了“自然語言詞表”,不僅是我們對自然語言加以控制的主要形式,而且還是我們彌補自然語言缺陷的重要措施,同時還是我們提高自然語言檢索效率的重要手段,從而為我國自然語言檢索控制措施的改進(jìn)與完善作出了重要理論貢獻(xiàn)。
1.自然語言接口用對應(yīng)表研究
在張琪玉教授看來,自然語言接口又可稱之為自然語言入口,它是檢索系統(tǒng)的前置部分,其功能作用就是將自然語言通過對應(yīng)表轉(zhuǎn)換成人工語言(情報檢索語言)[26]。檢索人員(用戶)只要使用自然語言表達(dá)檢索課題(或文獻(xiàn)主題、或檢索提問)進(jìn)入系統(tǒng),就可以通過“對應(yīng)表”將其自動轉(zhuǎn)換為人工語言的語詞在系統(tǒng)中進(jìn)行實際檢索[27,28],十分方便實用,并可普遍采用。在此基礎(chǔ)上,張琪玉教授還進(jìn)一步明確指出,為了使“對應(yīng)表”一目了然,便于管理和簡化轉(zhuǎn)換程序,還可以將詞表的“雙語種對照索引”也編入對應(yīng)表。這樣一來,在“對應(yīng)表”中,自然語言與情報檢索語言之間就有一對多對應(yīng)關(guān)系,通過人工輔助轉(zhuǎn)換[27,28]。張琪玉教授闡明和詮釋的自然語言接口用對應(yīng)表編制理論與技術(shù)方法,被中國圖書館分類法編輯委員會所采納,廣泛應(yīng)用于《中國圖書館圖書分類法第二版索引》和《中國圖書館分類法第4版索引》以及光盤版等編制實踐,為我國情報檢索語言的自然語言化作出了重要理論貢獻(xiàn)。
2.自動賦詞賦號用對應(yīng)表研究
在張琪玉教授看來,各種自然語言詞表(如:自動抽詞詞典、自動分類用對應(yīng)表、后控制詞表和自然語言接口用對應(yīng)表等)在其檢索功能和控制措施等方面,具有其相似性和相互取代性,可以靈活掌握使用。也就是說,我們可以通過對某種詞表的改進(jìn)或擴(kuò)充,使其具有另一種詞表的控制功能和作用?;诖?,張琪玉教授對自動賦詞賦號用對應(yīng)表進(jìn)行了專門探索與研究,發(fā)現(xiàn)自動賦詞賦號標(biāo)引系統(tǒng)是對自動抽詞標(biāo)引系統(tǒng)的改進(jìn)與提高,其功能作用就是使其自動抽出的自然語言語詞轉(zhuǎn)換成人工語言語詞(檢索詞或分類號)[27,28]。在此基礎(chǔ)上,張琪玉教授還進(jìn)一步研究了“自動賦詞標(biāo)引系統(tǒng)”和“自動賦號標(biāo)引系統(tǒng)”的構(gòu)建問題。在他看來,這兩個系統(tǒng)既可單獨建立,又可合而為一,關(guān)鍵是要根據(jù)實際情況而定,并闡明和詮釋了其編制技術(shù)與編制方法。張琪玉教授還特別提醒我們,自動賦詞賦號標(biāo)引系統(tǒng)所采用或所編制的詞表是其關(guān)鍵所在。在他看來,我們既“可使用現(xiàn)有的詞表或分面分類表,也可仿照詞表和分類表的編制原理,對自動抽詞所抽出的自然語言語詞做有限范圍的控制?!盵27,28]這樣一來,當(dāng)我們的檢索人員(用戶),應(yīng)用其檢索系統(tǒng)進(jìn)行檢索時,不僅可以使用檢索詞或分類號檢索,而且還可以使用自然語言檢索。
3.自動分類用對應(yīng)表研究
20世紀(jì)90年代中期,張琪玉教授在《分類法主題法一體化自動標(biāo)引系統(tǒng)的基本原理和方法》文章中,對基于以體系分類法為基礎(chǔ)的自動分類標(biāo)引問題進(jìn)行了專門探索與研究。在他看來,這種以體系分類法為基礎(chǔ)的自動分類標(biāo)引,必須要建立自動分類標(biāo)引系統(tǒng),必須要使用自動分類詞表,并要遵循自動分類標(biāo)引規(guī)則確定主要分類號。張琪玉教授還特別指出,這種詞表不同于“自然語言接口用對應(yīng)表”“后控制詞表”等,它是“一種詞與分類號的雙向?qū)?yīng)表,由分類號-詞對應(yīng)表和詞-分類號對應(yīng)表兩個部分組成。”[29]目的就是將《中圖法》改造為分類法主題法一體化檢索語言。在此基礎(chǔ)上,張琪玉教授還闡明和詮釋了這種詞表的編制原理和編制方法。當(dāng)我們在編制“分類號-詞對應(yīng)表”時,可先將《中圖法》的分類表改造成分面分類表,把詞對應(yīng)到相應(yīng)的分面中,再賦予《中圖法》的分類號,建立分類號索引,提供分類檢索途徑;當(dāng)我們在編制“詞-分類號對應(yīng)表”時,可將“分類號-詞對應(yīng)表”的款目倒轉(zhuǎn)過來,然后按照詞的字順排列,建立關(guān)鍵詞索引,提供主題檢索途徑,供自動分類標(biāo)引用[29]。他的構(gòu)思和設(shè)想,被《中國圖書館圖書分類法》編委會所采納,并于1994年成功編制出版了《中國分類主題詞表》[30]。
4.后控制詞表研究
20世紀(jì)90年代中期,張琪玉教授在《論后控制詞表》文章中,對后控制詞表的控制機(jī)理、編制特點、編制方式、結(jié)構(gòu)模式和檢索方法等諸多方面問題進(jìn)行了專門探索與研究。在他看來,后控制詞表功能作用強大,控制機(jī)理獨特、編制特點突出、編制方式多種多樣、結(jié)構(gòu)模式多種方式并存、檢索方法多種途徑,它不僅是我們提高自然語言檢索效率的重要手段和有效措施,而且還在我們實施對自然語言檢索過程中,充當(dāng)著轉(zhuǎn)換工具、擴(kuò)檢工具和選擇工具的角色,發(fā)揮著至關(guān)重要的作用。在此基礎(chǔ)上,張琪玉教授還特別提醒我們,后控制詞表專用于文獻(xiàn)檢索而不用于文獻(xiàn)標(biāo)引。因此,其詞表編制必須在“檢索系統(tǒng)中實有的自然語言檢索標(biāo)識的基礎(chǔ)上進(jìn)行編制,否則將會大大降低其控制功能?!盵31]并為我們提供了“分類詞表+字順/輪排表”理想結(jié)構(gòu)模式。張琪玉教授闡述和詮釋的后控制理論及其理想結(jié)構(gòu)模式思想,廣泛應(yīng)用于網(wǎng)絡(luò)信息資源、數(shù)據(jù)庫資源和搜索引擎等諸多方面,為我國自然語言檢索功能的增強和檢索效率的提高作出了重要理論貢獻(xiàn)。
此外,張琪玉教授還對“詞素詞表”控制措施[27,28]、“詞素輪排索引編制法”[32]和“網(wǎng)絡(luò)信息檢索工具”[33,34]等方面問題進(jìn)行了深入探索和專門研究,目的都是為了加強對自然語言進(jìn)行控制,找到有效的改進(jìn)方法和措施,適應(yīng)不同的檢索環(huán)境,提高自然語言檢索效率。
在我國圖書情報學(xué)界,張琪玉教授是一位堅定的辯證思維型學(xué)者。他一直用發(fā)展的觀點、辯證思維的觀點,密切關(guān)注著自然語言和情報檢索語言的走向問題,前瞻性地研究和探索著自然語言和情報檢索語言的發(fā)展前途問題。
首先,張琪玉教授專門探索和研究了自然語言走向問題。在我國圖書情報學(xué)界,對于自然語言和情報檢索語言的走向問題,一直存在著爭議和分歧。張琪玉教授為了從根本上幫助人們認(rèn)識清楚自然語言走向問題,從其檢索性能、檢索效率、控制措施、網(wǎng)絡(luò)信息檢索工具等諸多方面進(jìn)行了理論探索和應(yīng)用研究工作,并在其與張欣毅、張京生通訊訪談《走向自然語言與情報檢索語言結(jié)合之路——與我國著名情報語言學(xué)家張琪玉教授的通訊訪談》文章中,闡明和詮釋了自然語言走向問題,獨具慧眼地發(fā)現(xiàn)了“自然語言的未來與情報檢索語言的未來在某種意義上可以說是同一個問題,即為自然語言的情報檢索語言化或情報檢索語言的自然語言化。”[35]
其次,張琪玉教授還專門探索和研究了自然語言發(fā)展趨勢問題。在他看來,自然語言和情報檢索語言都存在著如何適應(yīng)網(wǎng)絡(luò)檢索問題。也就是說,自然語言要想適應(yīng)網(wǎng)絡(luò)檢索需要,必然要走向控制與規(guī)范;而情報檢索語言要想適應(yīng)網(wǎng)絡(luò)檢索需要,必然要走向自然語言化。更確切地說,自然語言不可能全面取代情報檢索語言,淘汰情報檢索語言?!熬W(wǎng)絡(luò)信息檢索不能唯一地使用自然語言,也必須使用人工語言。”[35]
第三,張琪玉教授還專門探索和研究了檢索系統(tǒng)關(guān)系問題。在他看來,自然語言檢索系統(tǒng)與情報檢索語言檢索系統(tǒng)并不是絕然對立的,它們“各有長處和短處,可以并行發(fā)展,可以互相結(jié)合,互相補充。”[4]并對這種新型情報檢索語言在其沒有完全融合、普及之前并存情況進(jìn)行了預(yù)測:“情報檢索語言與自然語言在一個檢索系統(tǒng)中并用;情報檢索語言增加自然語言成分;自然語言適當(dāng)引進(jìn)情報檢索語言的原理與方法和增加情報檢索語言成分。”[7]他的思想智慧和超前預(yù)測,在當(dāng)今網(wǎng)絡(luò)信息時代已得到充分印證。
張琪玉教授還特別提醒我們,自然語言檢索要想達(dá)到較高的檢索效率,得到人們的認(rèn)可和認(rèn)同,成為一流的語言工具。走向控制與規(guī)范是前提;實現(xiàn)與人工語言對應(yīng)轉(zhuǎn)換是關(guān)鍵;采用后控制詞表、自然語言接口等方法措施是基礎(chǔ);突破自動抽詞標(biāo)引瓶頸是重中之重。
以上筆者從六個方面對張琪玉教授在自然語言檢索領(lǐng)域所取得的學(xué)術(shù)思想成就進(jìn)行了較為清晰的揭示和梳理。從中我們不難發(fā)現(xiàn),他之所以能在自然語言檢索領(lǐng)域取得成功與突破:首先,張琪玉教授從客觀實際的角度,充分考量了我國自然語言研究現(xiàn)狀以及人們對自然語言檢索性能的片面理解,他站在辯證思維發(fā)展的高度,闡明了自己獨特的立場觀點,目的就是幫助和引導(dǎo)人們正確認(rèn)知自然語言的本質(zhì)特性以及改進(jìn)創(chuàng)新的途徑與方法;其次,張琪玉教授還對影響自然語言檢索效率的各種因素進(jìn)行了充分考量與探究,發(fā)現(xiàn)了提高自然語言檢索效率的有效方法和改進(jìn)途徑,較好地解決了各種因素對自然語言檢索效率的影響;第三,張琪玉教授還從理論層面和應(yīng)用層面,重點探索和專門研究了關(guān)鍵詞檢索、全文檢索以及自動抽詞與自動分詞等的性能特點和編制技術(shù)方法。不僅使人們在理論研究層面上明確了自然語言應(yīng)用于情報檢索的主要方式和今后的主攻研究方向,而且還啟迪了人們的研究思維,開闊了人們的研究視野,為我國自然語言檢索取得實質(zhì)性進(jìn)展做出了卓越貢獻(xiàn);第四,張琪玉教授為了實現(xiàn)自然語言的情報檢索語言化,大力加強了對自然語言控制措施與方法的理論探索與研究,創(chuàng)造性地發(fā)現(xiàn)了“自然語言詞表”是對自然語言加以控制的主要形式,是彌補自然語言缺陷的重要措施,是提高自然語言檢索效率的重要手段,為我國自然語言檢索控制措施與方法的突破和創(chuàng)新開辟了新路;第五,張琪玉教授還始終用動態(tài)發(fā)展眼光,前瞻性地研究和探索著自然語言和情報檢索語言的發(fā)展前途問題(或走向問題),為我國自然語言和情報檢索語言適應(yīng)新的網(wǎng)絡(luò)檢索環(huán)境作出了重要理論貢獻(xiàn)。