国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計算機漢語語義組織和檢索述評*

2014-02-12 17:56:04王仕雪
通化師范學院學報 2014年2期
關(guān)鍵詞:全文檢索標引分詞

王仕雪

(湖北民族學院圖書館,湖北恩施445000)

文獻數(shù)據(jù)庫產(chǎn)生以來,人們一直在用基于命令的布爾檢索式來回答比較復雜的檢索提問.90年代,一種以相關(guān)排序和智能文本處理為特征的“自然語言處理”(NLP)系統(tǒng)開始流行.國外對NLP引入信息檢索(IR)已由理論研究開始轉(zhuǎn)向應用,而國內(nèi)尚處于理論探討階段.語義組織與檢索是當今計算機情報檢索領(lǐng)域的一種重要發(fā)展趨勢.語義信息組織和檢索是指利用某一檢索詞進行查詢時,系統(tǒng)基于對語義內(nèi)涵的理解以及用戶提交的查詢詞所表達的概念內(nèi)涵作為搜索依據(jù),對自然語言進行處理,即對該詞的近義詞、同義詞、狹義詞、廣義詞均進行檢索,以達到擴檢、避免漏檢的要求.關(guān)于語義信息組織和檢索,在近30多年來已有很多相關(guān)的研究和實踐.我國在80年代,語義組織與檢索得到廣泛關(guān)注,對各種方法的研究和實驗已展開,并取得了不少成果.主要在以下幾個方面進行了拓展性的研究.

1 漢語自動分詞與自動標引

語義信息組織和檢索是利用計算機,以文本中的詞為處理對象的.西文以兩個空格之間的字符定義為一個詞,故計算機極易識別而將其自動分離出來,漢語則不行,因為漢語句子中詞與詞之間無空格作為分隔標志,而且,一個漢字可以同其他許多漢字進行組合構(gòu)成不同含義的詞和詞組,并無形式化的規(guī)律.因此,計算機難以識別一個句子中哪個漢字或哪幾個漢字的組合是詞而自動把他們分離出來,也難于準確識別對檢索有用詞與無用詞.所以,把句子用計算機切分成詞,并建立知識詞語庫實現(xiàn)語義導航和查詢擴展就成為漢語語義信息組織和檢索的一個前提條件,而且在其他方面也有廣泛的用途.進行漢語分詞技術(shù)的研究,是為了解決自動抽詞問題.漢語分詞在我國提出較早,“最大匹配法”最早出現(xiàn)在1963年《文字改革》雜志上(劉涌泉),80年代提出的漢語分詞方案很多,大致可以分為基于算法的分詞方法和基于知識的分詞方法兩大類,而大多數(shù)方案屬于形式匹配分詞法.

漢語分詞技術(shù)的研究可以說是語義信息組織和檢索研究的“開路先鋒”,如陳培久(1983)的詞典切分組詞法、王永成(1984)的部件詞典法、梁南元(1985)的最佳匹配法OM、北京大學圖書館學系(1987)的主題詞表法、鄧欽與毛玉嬌(1987,1989)的關(guān)鍵詞法、江孝感(1989)的漢語詞素自動詞素分詞法等,都屬于形式匹配分詞法,并且在80年代都已出現(xiàn).到90年代,屬于形式匹配分詞法的新方案較少提出,如趙宗仁(1991)的語詞結(jié)構(gòu)類比法、陳豫和曾民族(1983)的CWSAIS法等.但80年代上述方案有些在90年代有繼續(xù)改進和深入探討,如王永成等的《論中文詞切分中的歧義切分問題》、毛玉姣等的《漢文自動分詞與自動標引的新嘗試》、蘇新寧的《漢語詞切分算法的改進》、龔建偉的《中文自動標引中并行縮略詞串的處理》等.形式匹配分詞法比較簡單可行,都有一定實用價值,例如王永成的部件詞典法抽詞正確率已達到90%左右,已基本達到實用水平.

王瑋的《漢語文獻自動分詞存在的問題與趨向》認為,以上方法都存在優(yōu)劣兩面,至今沒有一種方法完全解決漢語自動分詞存在的詞法的復雜性、切分的模糊性和語法分析問題,有必要向切分詞典設(shè)計、漢語自動分析研究和神經(jīng)網(wǎng)絡(luò)分詞方法方面發(fā)展.

漢語自動分詞與漢語文獻自動標引既有區(qū)別又有緊密聯(lián)系,但是以自動標引作為題名的一些文獻,往往只談如何自動抽詞的方法,而對于自動抽出的詞是否符合文獻標引的要求的問題,卻很少見深入探討的專文發(fā)表.

漢語自動分詞不能脫離分詞詞典(關(guān)鍵詞詞典、停用詞詞典、部件詞典、切分標記詞典等),目前分詞軟件普及的障礙主要是缺少分詞詞典,研究論著也少見.

2 自由標引與自由詞標引

自由標引與自由詞標引雖都屬于在檢索中利用自然語言,但兩者是不能混同的.自由標引是不根據(jù)詞表的一種主題標引法,標引人員在對文獻的情報內(nèi)容進行分析之后,按一定規(guī)則自立標引用詞來表達文獻主題.這種標引方法的優(yōu)點在于:由于不使用詞表控制,標引速度要比使用詞表的主題標引快許多倍,還可降低標引成本;可用與文獻主題專指度一致的詞進行標引,保證較高的檢準率;標引過程是通過標引人員主題分析的,如果標引人員具有一定的業(yè)務(wù)水平,則其標引質(zhì)量可大大高于抽詞標引.自由標引主要適用于報紙文獻、期刊文獻的大型篇名數(shù)據(jù)庫的標引,因為這類文獻內(nèi)容龐雜,新概念多,數(shù)量大,很難編制適用的詞表,而且使用詞表編制用功多,速度慢,建庫單位實際條件往往不許可,自由標引方法在一些單位常見,但討論的論文不多,代表性論文如張琪玉的《論自由標引》、宋明亮的《報紙文獻機助自由標引研究及對漢語后控詞表動態(tài)維護的思考》、高文生的《自由標引和只供檢索的規(guī)范詞表相結(jié)合建立檔案檢索系統(tǒng)的模式》等.

3 自動摘要

自動摘要是利用計算機自動地從原始文獻中提取文摘,方法是將句子視為詞的線性序列,將文本作為句子的線性序列.關(guān)于自動摘要的文獻極多,早在1952年,美國IBM公司的H.P.Luhn就開始了自動編制文摘方法的研究,及至1958年,Luhn第一篇有關(guān)文摘的自動生成方法的文章才開始發(fā)表.這一階段人們只是圍繞文章字詞層面進行特征提取,簡單地依賴粗糙的統(tǒng)計數(shù)據(jù)和不同性質(zhì)的特征的簡單線性疊加.后來人們開始考慮文檔的句法特征和語義特征.建立起以人工智能特別是計算語言學為基礎(chǔ)的方法.

國內(nèi)自動摘要的研究則起步較晚,1985年王兵才撰文介紹國外的自動摘要的研究情況.1980年代末以來,我國先后有大學和研究機構(gòu)開展研究,開發(fā)了一批應用系統(tǒng),并取得了許多重要理論成果.在應用系統(tǒng)的研究方面,80年代末,姚天順開展了面向中文的“基于規(guī)則的漢語自動分詞系統(tǒng)”的研究.90年代初李小濱、徐越開發(fā)了EAAS(English Automatic Abstract System)系統(tǒng).王開鑄在90年代研制了MATAS型軍事領(lǐng)域摘要系統(tǒng)、HIT-863 I型摘要系統(tǒng)、HIT-97 I型英文摘要系統(tǒng)和HIT-863Ⅱ型摘要系統(tǒng).王永成等人從1980年代末開始一直在進行此項研究,取得了較多成果,1997年研制了OA中文文獻自動摘要系統(tǒng).2003年,吳立德研制了文本自動綜述系統(tǒng),鐘義信則先后實現(xiàn)了面向計算機病毒的Glance系統(tǒng),面向新聞報道的News系統(tǒng)和面向神經(jīng)網(wǎng)絡(luò)學習算法領(lǐng)域的Ladies系統(tǒng).

在理論研究方面,比較有新意的有楊建林的《一種使用自動聚類思想的自動文摘方法》,該文將自動聚類方法引入自動文摘研究,并用數(shù)學描述了聚類算法.郭俊文的《中文科技文獻自動文摘系統(tǒng)的研究》描述了一個中文科技文獻自動文摘系統(tǒng),詳細地描述了總體結(jié)構(gòu),各環(huán)節(jié)的內(nèi)部表示和算法.李明的《從字頻統(tǒng)計出發(fā)的中文文摘自動編寫》針對漢字文本的特點,提出一種在單漢字字頻統(tǒng)計分析基礎(chǔ)上實現(xiàn)自動編寫中文文摘的新設(shè)想.洪田玉、陳志剛的《一種跨語言的自動摘要技術(shù)》提出了一種不依賴于任何訓練集和自然語言本身信息的自動摘要方法,該方法利用改進后的PageRank公式和HITS公式對文檔所有句子打分排序,選取得分高的句子作為摘要.

4 自動分類

我國對基于自然語言的自動分類的研究起步較晚,從80年代至今僅有4次實驗.第一次實驗是朱蘭娟進行的,可參見朱蘭娟《中文文獻自動分類的理論與實踐》.第二次實驗是金巍進行的,可參見金巍的《中文文獻自動分類系統(tǒng)——以腫瘤學專業(yè)文獻為例》.第三次實驗是蘇新寧、徐進鴻、史久林合作進行的,可參考《檔案自動分類算法研究》.第四次實驗是葉新明進行的,可參考《基于〈中圖法〉的中文文獻自動分類》.

成穎、史九林的《自動分類研究現(xiàn)狀與展望》認為自動分類包括自動聚類、自動歸類及類號同的自動轉(zhuǎn)換三個方面.該文在回顧我國自動分類的歷史和現(xiàn)狀的基礎(chǔ)上,分析了我國自動分類研究存在的不足,指出基于自然語言語義理解的分類專家系統(tǒng)是自動分類研究的發(fā)展方向.張琪玉的《分類主題法一體化自動標引系統(tǒng)的基本原理和方法》主要是討論自動分類,該文提出用分面技術(shù)來構(gòu)造自動分類用的分類表,根據(jù)體系分類法的類目內(nèi)容范圍劃分規(guī)則來構(gòu)造自動分類規(guī)則,使自動分類的過程大大簡化.李洪清的《一個自動漢語正文分類系統(tǒng)的模型設(shè)計》提出模糊-神經(jīng)方法設(shè)計自動分類模型.鄧要武、王連俊的《圖書自動分類專家系統(tǒng)可行性研究》討論了專家系統(tǒng)技術(shù)用于自動分類的可行性.葉新明、徐進鴻的《中文文獻自動分類研究》提出了中文自動分類的一般模式,同時分析了實現(xiàn)中文文獻自動分類目前所面臨的一些問題.盧香宵、葉新明的《自動分類與手工分類的比較》對兩種標引方式作了一般的比較.

5 文本檢索與全文檢索

文本關(guān)鍵字詞匹配檢索是自然語言檢索中使用最普遍的方法.這種方法不需進行任何標引,檢索時則可用檢索者認為合適的關(guān)鍵性字詞,在文本中進行匹配查找、十分簡便.所謂文本,可以是文獻題名,或文摘,或文獻正文.對儲存文獻正文的數(shù)據(jù)庫的檢索,稱為全文檢索.全文檢索可以說是90年代自然語言檢索的熱點,研究成果甚多.顧耀芳《綜述全文檢索系統(tǒng)》對1991年上半年以前的國內(nèi)全文檢索研究成果作了綜述,包括國外發(fā)展概況、全文檢索系統(tǒng)涵義、全文數(shù)據(jù)庫研制、全文本的前處理、文本檢索技術(shù)等.尹漢軍的《全文檢索與其他檢索的比較》對全文檢索、文獻檢索、標題檢索和受控詞表檢索四種檢索方法作了比較,并分析了產(chǎn)生優(yōu)劣的原因.楊學倫的《全文檢索技術(shù)及其在圖書館中的應用》介紹了全文數(shù)據(jù)庫建設(shè)的前處理和檢索技術(shù),討論了圖書館發(fā)展全文檢索系統(tǒng)的問題.1991年10月18日通過鑒定的“湖北省地方志全文檢索系統(tǒng)”一般認為是我國第一個以一部專著為對象的全文檢索系統(tǒng),陳光祚和謝新洲的《湖北省地方志全文檢索系統(tǒng)》對該系統(tǒng)軟件作了詳細介紹.

信息組織的目的是建立有序、有效的檢索系統(tǒng).信息檢索的最高境界是基于語義概念的智能檢索,這一目標的實現(xiàn),從根本上來說,必須依賴有效的語義信息組織.根植于傳統(tǒng)的分類、分面、主題、術(shù)語學、計算機科學的知識組織方法等技術(shù)的出現(xiàn),為建立互操作的語義知識庫實現(xiàn)漢語語義組織和智能檢索提供了可能.

[1] 包冬梅.網(wǎng)絡(luò)信息語義組織和檢索的實現(xiàn)路徑[J] .圖書情報工作,2006,50(12):12-16.

[2] 孫清蘭.高頻詞與低頻詞的界分及詞頻估算法[J] .中國圖書館學報,1992,18(2):78-81.

[3] 張琪玉.論自由標引[J] .圖書館學刊,1995,17(5):35-37.

[4] 譚翀,陳躍新.自動摘要方法綜述[J] .情報學報,2008,27(1):62-68.

[5] 郭俊文.中文科技文獻自動文摘系統(tǒng)的研究[J] .情報探索,1995(4):26-28.

[6] 成穎,史九林.自動分類研究現(xiàn)狀與展望[J] .情報學報,1999,18(1):20-26.

[7] 顧耀芳.綜述全文檢索系統(tǒng)[J] .現(xiàn)代圖書情報技術(shù),1992(1):7-13.

猜你喜歡
全文檢索標引分詞
結(jié)巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
檔案主題標引與分類標引的比較分析
本刊對來稿中關(guān)鍵詞標引的要求
值得重視的分詞的特殊用法
Oracle數(shù)據(jù)庫全文檢索性能研究
本刊對來稿中關(guān)鍵詞標引的要求
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計
高考分詞作狀語考點歸納與疑難解析
本刊對來稿中關(guān)鍵詞標引的要求
龙岩市| 鹰潭市| 社会| 柳林县| 凉山| 沙雅县| 丽江市| 岫岩| 忻城县| 建湖县| 阳城县| 靖州| 社旗县| 阳山县| 蓝田县| 泰顺县| 赤水市| 康乐县| 大港区| 凤阳县| 乐安县| 开平市| 澄江县| 沐川县| 广州市| 筠连县| 揭西县| 建瓯市| 读书| 铜梁县| 韶山市| 如皋市| 廊坊市| 小金县| 平顺县| 青神县| 湘阴县| 屏山县| 威信县| 浪卡子县| 沧源|