国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計(jì)算機(jī)漢語語義組織和檢索述評(píng)*

2014-02-12 13:30:14王仕雪
關(guān)鍵詞:全文檢索標(biāo)引分詞

王仕雪

(湖北民族學(xué)院 圖書館,湖北 恩施 445000)

計(jì)算機(jī)漢語語義組織和檢索述評(píng)*

王仕雪

(湖北民族學(xué)院 圖書館,湖北 恩施 445000)

基于漢語自動(dòng)分詞與自動(dòng)標(biāo)引、自由標(biāo)引與自由詞標(biāo)引、自動(dòng)摘要、自動(dòng)分類、文本檢索與全文檢索等分析了我國計(jì)算機(jī)漢語語義組織和檢索的研發(fā)過程.

語義組織;自動(dòng)分詞;信息檢索

文獻(xiàn)數(shù)據(jù)庫產(chǎn)生以來,人們一直在用基于命令的布爾檢索式來回答比較復(fù)雜的檢索提問.90年代,一種以相關(guān)排序和智能文本處理為特征的“自然語言處理”(NLP) 系統(tǒng)開始流行.國外對(duì)NLP 引入信息檢索( IR) 已由理論研究開始轉(zhuǎn)向應(yīng)用, 而國內(nèi)尚處于理論探討階段.語義組織與檢索是當(dāng)今計(jì)算機(jī)情報(bào)檢索領(lǐng)域的一種重要發(fā)展趨勢.語義信息組織和檢索是指利用某一檢索詞進(jìn)行查詢時(shí), 系統(tǒng)基于對(duì)語義內(nèi)涵的理解以及用戶提交的查詢?cè)~所表達(dá)的概念內(nèi)涵作為搜索依據(jù), 對(duì)自然語言進(jìn)行處理,即對(duì)該詞的近義詞、同義詞、狹義詞、廣義詞均進(jìn)行檢索, 以達(dá)到擴(kuò)檢、避免漏檢的要求.關(guān)于語義信息組織和檢索, 在近30多年來已有很多相關(guān)的研究和實(shí)踐.我國在80年代,語義組織與檢索得到廣泛關(guān)注,對(duì)各種方法的研究和實(shí)驗(yàn)已展開,并取得了不少成果.主要在以下幾個(gè)方面進(jìn)行了拓展性的研究.

1 漢語自動(dòng)分詞與自動(dòng)標(biāo)引

語義信息組織和檢索是利用計(jì)算機(jī),以文本中的詞為處理對(duì)象的.西文以兩個(gè)空格之間的字符定義為一個(gè)詞,故計(jì)算機(jī)極易識(shí)別而將其自動(dòng)分離出來,漢語則不行,因?yàn)闈h語句子中詞與詞之間無空格作為分隔標(biāo)志,而且,一個(gè)漢字可以同其他許多漢字進(jìn)行組合構(gòu)成不同含義的詞和詞組,并無形式化的規(guī)律.因此,計(jì)算機(jī)難以識(shí)別一個(gè)句子中哪個(gè)漢字或哪幾個(gè)漢字的組合是詞而自動(dòng)把他們分離出來,也難于準(zhǔn)確識(shí)別對(duì)檢索有用詞與無用詞.所以,把句子用計(jì)算機(jī)切分成詞,并建立知識(shí)詞語庫實(shí)現(xiàn)語義導(dǎo)航和查詢擴(kuò)展就成為漢語語義信息組織和檢索的一個(gè)前提條件,而且在其他方面也有廣泛的用途.進(jìn)行漢語分詞技術(shù)的研究,是為了解決自動(dòng)抽詞問題.漢語分詞在我國提出較早,“最大匹配法”最早出現(xiàn)在1963年《文字改革》雜志上(劉涌泉),80年代提出的漢語分詞方案很多,大致可以分為基于算法的分詞方法和基于知識(shí)的分詞方法兩大類,而大多數(shù)方案屬于形式匹配分詞法.

漢語分詞技術(shù)的研究可以說是語義信息組織和檢索研究的“開路先鋒”,如陳培久(1983)的詞典切分組詞法、王永成(1984)的部件詞典法、梁南元(1985)的最佳匹配法OM、北京大學(xué)圖書館學(xué)系(1987)的主題詞表法、鄧欽與毛玉嬌(1987,1989)的關(guān)鍵詞法、江孝感(1989)的漢語詞素自動(dòng)詞素分詞法等,都屬于形式匹配分詞法,并且在80年代都已出現(xiàn).到90年代,屬于形式匹配分詞法的新方案較少提出,如趙宗仁(1991)的語詞結(jié)構(gòu)類比法、陳豫和曾民族(1983)的CWSAIS法等.但80年代上述方案有些在90年代有繼續(xù)改進(jìn)和深入探討,如王永成等的《論中文詞切分中的歧義切分問題》、毛玉姣等的《漢文自動(dòng)分詞與自動(dòng)標(biāo)引的新嘗試》、蘇新寧的《漢語詞切分算法的改進(jìn)》、龔建偉的《中文自動(dòng)標(biāo)引中并行縮略詞串的處理》等.形式匹配分詞法比較簡單可行,都有一定實(shí)用價(jià)值,例如王永成的部件詞典法抽詞正確率已達(dá)到90%左右,已基本達(dá)到實(shí)用水平.

王瑋的《漢語文獻(xiàn)自動(dòng)分詞存在的問題與趨向》認(rèn)為,以上方法都存在優(yōu)劣兩面,至今沒有一種方法完全解決漢語自動(dòng)分詞存在的詞法的復(fù)雜性、切分的模糊性和語法分析問題,有必要向切分詞典設(shè)計(jì)、漢語自動(dòng)分析研究和神經(jīng)網(wǎng)絡(luò)分詞方法方面發(fā)展.

漢語自動(dòng)分詞與漢語文獻(xiàn)自動(dòng)標(biāo)引既有區(qū)別又有緊密聯(lián)系,但是以自動(dòng)標(biāo)引作為題名的一些文獻(xiàn),往往只談如何自動(dòng)抽詞的方法,而對(duì)于自動(dòng)抽出的詞是否符合文獻(xiàn)標(biāo)引的要求的問題,卻很少見深入探討的專文發(fā)表.

漢語自動(dòng)分詞不能脫離分詞詞典(關(guān)鍵詞詞典、停用詞詞典、部件詞典、切分標(biāo)記詞典等),目前分詞軟件普及的障礙主要是缺少分詞詞典,研究論著也少見.

2 自由標(biāo)引與自由詞標(biāo)引

自由標(biāo)引與自由詞標(biāo)引雖都屬于在檢索中利用自然語言,但兩者是不能混同的.自由標(biāo)引是不根據(jù)詞表的一種主題標(biāo)引法,標(biāo)引人員在對(duì)文獻(xiàn)的情報(bào)內(nèi)容進(jìn)行分析之后,按一定規(guī)則自立標(biāo)引用詞來表達(dá)文獻(xiàn)主題.這種標(biāo)引方法的優(yōu)點(diǎn)在于:由于不使用詞表控制,標(biāo)引速度要比使用詞表的主題標(biāo)引快許多倍,還可降低標(biāo)引成本;可用與文獻(xiàn)主題專指度一致的詞進(jìn)行標(biāo)引,保證較高的檢準(zhǔn)率;標(biāo)引過程是通過標(biāo)引人員主題分析的,如果標(biāo)引人員具有一定的業(yè)務(wù)水平,則其標(biāo)引質(zhì)量可大大高于抽詞標(biāo)引.自由標(biāo)引主要適用于報(bào)紙文獻(xiàn)、期刊文獻(xiàn)的大型篇名數(shù)據(jù)庫的標(biāo)引,因?yàn)檫@類文獻(xiàn)內(nèi)容龐雜,新概念多,數(shù)量大,很難編制適用的詞表,而且使用詞表編制用功多,速度慢,建庫單位實(shí)際條件往往不許可,自由標(biāo)引方法在一些單位常見,但討論的論文不多,代表性論文如張琪玉的《論自由標(biāo)引》、宋明亮的《報(bào)紙文獻(xiàn)機(jī)助自由標(biāo)引研究及對(duì)漢語后控詞表動(dòng)態(tài)維護(hù)的思考》、高文生的《自由標(biāo)引和只供檢索的規(guī)范詞表相結(jié)合建立檔案檢索系統(tǒng)的模式》等.

3 自動(dòng)摘要

自動(dòng)摘要是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘,方法是將句子視為詞的線性序列,將文本作為句子的線性序列.關(guān)于自動(dòng)摘要的文獻(xiàn)極多,早在1952年,美國IBM公司的H.P.Luhn就開始了自動(dòng)編制文摘方法的研究,及至1958年,Luhn第一篇有關(guān)文摘的自動(dòng)生成方法的文章才開始發(fā)表.這一階段人們只是圍繞文章字詞層面進(jìn)行特征提取,簡單地依賴粗糙的統(tǒng)計(jì)數(shù)據(jù)和不同性質(zhì)的特征的簡單線性疊加.后來人們開始考慮文檔的句法特征和語義特征.建立起以人工智能特別是計(jì)算語言學(xué)為基礎(chǔ)的方法.

國內(nèi)自動(dòng)摘要的研究則起步較晚,1985年王兵才撰文介紹國外的自動(dòng)摘要的研究情況.1980年代末以來,我國先后有大學(xué)和研究機(jī)構(gòu)開展研究,開發(fā)了一批應(yīng)用系統(tǒng),并取得了許多重要理論成果.在應(yīng)用系統(tǒng)的研究方面,80年代末,姚天順開展了面向中文的“基于規(guī)則的漢語自動(dòng)分詞系統(tǒng)”的研究 .90年代初李小濱、徐越開發(fā)了EAAS(English Automatic Abstract System)系統(tǒng).王開鑄在90年代研制了MATAS型軍事領(lǐng)域摘要系統(tǒng)、HIT-863 I型摘要系統(tǒng)、HIT-97 I型英文摘要系統(tǒng)和HIT-863Ⅱ型摘要系統(tǒng) .王永成等人從1980年代末開始一直在進(jìn)行此項(xiàng)研究,取得了較多成果,1997年研制了OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng).2003年,吳立德研制了文本自動(dòng)綜述系統(tǒng),鐘義信則先后實(shí)現(xiàn)了面向計(jì)算機(jī)病毒的Glance系統(tǒng),面向新聞報(bào)道的News系統(tǒng)和面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies系統(tǒng) .

在理論研究方面,比較有新意的有楊建林的《一種使用自動(dòng)聚類思想的自動(dòng)文摘方法》,該文將自動(dòng)聚類方法引入自動(dòng)文摘研究,并用數(shù)學(xué)描述了聚類算法.郭俊文的《中文科技文獻(xiàn)自動(dòng)文摘系統(tǒng)的研究》描述了一個(gè)中文科技文獻(xiàn)自動(dòng)文摘系統(tǒng),詳細(xì)地描述了總體結(jié)構(gòu),各環(huán)節(jié)的內(nèi)部表示和算法.李明的《從字頻統(tǒng)計(jì)出發(fā)的中文文摘自動(dòng)編寫》針對(duì)漢字文本的特點(diǎn),提出一種在單漢字字頻統(tǒng)計(jì)分析基礎(chǔ)上實(shí)現(xiàn)自動(dòng)編寫中文文摘的新設(shè)想.洪田玉、陳志剛的《一種跨語言的自動(dòng)摘要技術(shù)》提出了一種不依賴于任何訓(xùn)練集和自然語言本身信息的自動(dòng)摘要方法,該方法利用改進(jìn)后的PageRank公式和HITS公式對(duì)文檔所有句子打分排序,選取得分高的句子作為摘要.

4 自動(dòng)分類

我國對(duì)基于自然語言的自動(dòng)分類的研究起步較晚,從80年代至今僅有4次實(shí)驗(yàn).第一次實(shí)驗(yàn)是朱蘭娟進(jìn)行的,可參見朱蘭娟《中文文獻(xiàn)自動(dòng)分類的理論與實(shí)踐》.第二次實(shí)驗(yàn)是金巍進(jìn)行的,可參見金巍的《中文文獻(xiàn)自動(dòng)分類系統(tǒng)——以腫瘤學(xué)專業(yè)文獻(xiàn)為例》.第三次實(shí)驗(yàn)是蘇新寧、徐進(jìn)鴻、史久林合作進(jìn)行的,可參考《檔案自動(dòng)分類算法研究》.第四次實(shí)驗(yàn)是葉新明進(jìn)行的,可參考《基于〈中圖法〉的中文文獻(xiàn)自動(dòng)分類》.

成穎、史九林的《自動(dòng)分類研究現(xiàn)狀與展望》認(rèn)為自動(dòng)分類包括自動(dòng)聚類、自動(dòng)歸類及類號(hào)同的自動(dòng)轉(zhuǎn)換三個(gè)方面.該文在回顧我國自動(dòng)分類的歷史和現(xiàn)狀的基礎(chǔ)上,分析了我國自動(dòng)分類研究存在的不足,指出基于自然語言語義理解的分類專家系統(tǒng)是自動(dòng)分類研究的發(fā)展方向.張琪玉的《分類主題法一體化自動(dòng)標(biāo)引系統(tǒng)的基本原理和方法》主要是討論自動(dòng)分類,該文提出用分面技術(shù)來構(gòu)造自動(dòng)分類用的分類表,根據(jù)體系分類法的類目內(nèi)容范圍劃分規(guī)則來構(gòu)造自動(dòng)分類規(guī)則,使自動(dòng)分類的過程大大簡化.李洪清的《一個(gè)自動(dòng)漢語正文分類系統(tǒng)的模型設(shè)計(jì)》提出模糊-神經(jīng)方法設(shè)計(jì)自動(dòng)分類模型.鄧要武、王連俊的《圖書自動(dòng)分類專家系統(tǒng)可行性研究》討論了專家系統(tǒng)技術(shù)用于自動(dòng)分類的可行性.葉新明、徐進(jìn)鴻的《中文文獻(xiàn)自動(dòng)分類研究》提出了中文自動(dòng)分類的一般模式,同時(shí)分析了實(shí)現(xiàn)中文文獻(xiàn)自動(dòng)分類目前所面臨的一些問題.盧香宵、葉新明的《自動(dòng)分類與手工分類的比較》對(duì)兩種標(biāo)引方式作了一般的比較.

5 文本檢索與全文檢索

文本關(guān)鍵字詞匹配檢索是自然語言檢索中使用最普遍的方法.這種方法不需進(jìn)行任何標(biāo)引,檢索時(shí)則可用檢索者認(rèn)為合適的關(guān)鍵性字詞,在文本中進(jìn)行匹配查找、十分簡便.所謂文本,可以是文獻(xiàn)題名,或文摘,或文獻(xiàn)正文.對(duì)儲(chǔ)存文獻(xiàn)正文的數(shù)據(jù)庫的檢索,稱為全文檢索.全文檢索可以說是90年代自然語言檢索的熱點(diǎn),研究成果甚多.顧耀芳《綜述全文檢索系統(tǒng)》對(duì)1991年上半年以前的國內(nèi)全文檢索研究成果作了綜述,包括國外發(fā)展概況、全文檢索系統(tǒng)涵義、全文數(shù)據(jù)庫研制、全文本的前處理、文本檢索技術(shù)等.尹漢軍的《全文檢索與其他檢索的比較》對(duì)全文檢索、文獻(xiàn)檢索、標(biāo)題檢索和受控詞表檢索四種檢索方法作了比較,并分析了產(chǎn)生優(yōu)劣的原因.楊學(xué)倫的《全文檢索技術(shù)及其在圖書館中的應(yīng)用》介紹了全文數(shù)據(jù)庫建設(shè)的前處理和檢索技術(shù),討論了圖書館發(fā)展全文檢索系統(tǒng)的問題.1991年10月18日通過鑒定的“湖北省地方志全文檢索系統(tǒng)”一般認(rèn)為是我國第一個(gè)以一部專著為對(duì)象的全文檢索系統(tǒng),陳光祚和謝新洲的《湖北省地方志全文檢索系統(tǒng)》對(duì)該系統(tǒng)軟件作了詳細(xì)介紹.

信息組織的目的是建立有序、有效的檢索系統(tǒng).信息檢索的最高境界是基于語義概念的智能檢索, 這一目標(biāo)的實(shí)現(xiàn),從根本上來說,必須依賴有效的語義信息組織.根植于傳統(tǒng)的分類、分面、主題、術(shù)語學(xué)、計(jì)算機(jī)科學(xué)的知識(shí)組織方法等技術(shù)的出現(xiàn), 為建立互操作的語義知識(shí)庫實(shí)現(xiàn)漢語語義組織和智能檢索提供了可能.

[1]包冬梅.網(wǎng)絡(luò)信息語義組織和檢索的實(shí)現(xiàn)路徑[J].圖書情報(bào)工作,2006,50(12):12-16.

[2]孫清蘭.高頻詞與低頻詞的界分及詞頻估算法[J].中國圖書館學(xué)報(bào),1992,18(2):78-81.

[3]張琪玉.論自由標(biāo)引[J].圖書館學(xué)刊,1995,17(5):35-37.

[4]譚翀,陳躍新.自動(dòng)摘要方法綜述[J].情報(bào)學(xué)報(bào),2008,27(1):62-68.

[5]郭俊文.中文科技文獻(xiàn)自動(dòng)文摘系統(tǒng)的研究[J].情報(bào)探索,1995(4):26-28.

[6]成穎,史九林.自動(dòng)分類研究現(xiàn)狀與展望[J].情報(bào)學(xué)報(bào),1999,18(1):20-26.

[7]顧耀芳.綜述全文檢索系統(tǒng)[J].現(xiàn)代圖書情報(bào)技術(shù),1992(1):7-13.

(責(zé)任編輯:徐星華)

Organization and Retrieval of Computer Chinese Semantic Meaning

WANG Shi-xue

(LibraryofHubeiInstituteforNationalities,Enshi,Hubei445000,China)

On the basis of Chinese automatic segmentation and automatic indexing, free indexing and freedom words indexing, automatic abstract, automatic classification, the text retrieval and full-text retrieval, the paper analyzed the development process of our computer Chinese semantic organization and retrieval.

semantic organization; automatic word segmentation; information retrieval

2013-10-25

王仕雪(1968-),女,湖北恩施人,館員.

G613.4

A

1008-7974(2014)01-0139-03

猜你喜歡
全文檢索標(biāo)引分詞
結(jié)巴分詞在詞云中的應(yīng)用
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
值得重視的分詞的特殊用法
Oracle數(shù)據(jù)庫全文檢索性能研究
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
特色數(shù)據(jù)庫全文檢索系統(tǒng)的設(shè)計(jì)
高考分詞作狀語考點(diǎn)歸納與疑難解析
本刊對(duì)來稿中關(guān)鍵詞標(biāo)引的要求
宜章县| 油尖旺区| 长乐市| 孟连| 通辽市| 南投县| 南宫市| 长葛市| 鲜城| 安仁县| 广元市| 广水市| 宁南县| 石河子市| 九江县| 皮山县| 西贡区| 宿州市| 遂川县| 穆棱市| 满城县| 阿拉善左旗| 会理县| 萍乡市| 论坛| 玉林市| 南京市| 临汾市| 吉隆县| 高碑店市| 兴山县| 达日县| 枝江市| 龙陵县| 积石山| 乌兰浩特市| 会东县| 武功县| 邵东县| 广宁县| 南城县|