基于本體的局部文檔分析查詢擴(kuò)展方法研究

2011-09-23 03:43周劍烽

科技傳播 2011年3期

關(guān)鍵詞：查全率本體文檔

周劍烽

中國(guó)人民銀行杭州中心支行，浙江杭州 310001

基于本體的局部文檔分析查詢擴(kuò)展方法研究

周劍烽

中國(guó)人民銀行杭州中心支行，浙江杭州 310001

檢索技術(shù)已經(jīng)成為信息領(lǐng)域的重要技術(shù)之一，查詢擴(kuò)展技術(shù)是信息檢索技術(shù)的一個(gè)關(guān)鍵技術(shù)，對(duì)提高檢索結(jié)果的準(zhǔn)確性和完整性有重要作用。為提高檢索的查全率，本文在分析了傳統(tǒng)查詢擴(kuò)展方法的基礎(chǔ)上，結(jié)合語義檢索技術(shù)的發(fā)展趨勢(shì)，將語義模型中的本體概念融合到查詢擴(kuò)展技術(shù)中，提出了基于本體的局部文檔分析查詢擴(kuò)展方法。實(shí)驗(yàn)結(jié)果顯示，該方法的檢索結(jié)果與人們的認(rèn)識(shí)比較接近，達(dá)到了較好的語義檢索效果。

本體語義檢索查詢擴(kuò)展局部文檔分析

0 引言

目前的信息檢索系統(tǒng)以關(guān)鍵詞匹配為技術(shù)基礎(chǔ)，檢索結(jié)果的優(yōu)劣依賴于用戶給出的檢索關(guān)鍵詞。Furnas第一個(gè)發(fā)現(xiàn)了“詞典問題”（dictionary problem）[1]，即兩個(gè)人使用同樣關(guān)鍵詞描述同一事物的幾率小于20%。同時(shí)Xu Jx和Croft WB等人發(fā)現(xiàn)，49%的用戶僅用一個(gè)關(guān)鍵詞表達(dá)自己的查詢請(qǐng)求，33%的用戶使用兩個(gè)單詞進(jìn)行查詢，用戶平均只使用1.4個(gè)單詞描述他們的查詢[2]。使用的查詢?cè)~越少，結(jié)果命中率就越低，查詢擴(kuò)展技術(shù)由此產(chǎn)生，逐漸發(fā)展成了信息檢索領(lǐng)域的一個(gè)重要研究方向，并已經(jīng)向語義擴(kuò)展方向發(fā)展。

本文將語義本體技術(shù)融合到基于局部文檔分析的查詢擴(kuò)展方法中，得到了一種改進(jìn)的基于本體的局部文檔分析查詢擴(kuò)展方法，從語義角度擴(kuò)展關(guān)鍵詞，從而提高檢索的質(zhì)量。

1 相關(guān)理論

1.1 查詢擴(kuò)展定義

查詢擴(kuò)展就是指利用計(jì)算機(jī)語言學(xué)、信息學(xué)等多種技術(shù)，把與初始查詢相關(guān)的詞或概念以邏輯“或”的方式添加到初始查詢中，得到比初始查詢更長(zhǎng)的新查詢，然后再次檢索文檔，以改善信息檢索的查全率和查準(zhǔn)率，從而解決 “詞不匹配”問題[3]。查詢擴(kuò)展技術(shù)大致可以分為3類：1）基于用戶相關(guān)反饋的方法[4]；2）基于全局文檔集分析的方法[5]；3）基于局部文檔集分析的方法[3]。

1.2 基于局部文檔集分析的方法

基于局部文檔集分析的方法是在基于全局文檔集分析的方法基礎(chǔ)上提出來的，克服了全局分析方法構(gòu)建全局?jǐn)⒃~表計(jì)算量大的問題，同時(shí)也解決了基于用戶相關(guān)反饋方法需要用戶干預(yù)查詢擴(kuò)展的不足。但是該方法的效率取決于參與分析的文檔數(shù)及文檔的大?。ㄔ~量），文檔量大、文檔體積大仍然會(huì)給局部文檔分析帶來巨大的計(jì)算量。同時(shí)由于難以保證待分析文檔的相關(guān)性，造成擴(kuò)展后查詢表達(dá)式相關(guān)性的不確定，影響檢索結(jié)果質(zhì)量。

1.3 本體

本體是共享概念模型的明確的形式化規(guī)范說明[6]。從知識(shí)共享的角度來說，本體是通用意義上的概念定義集合，以分層次的形式化模式定義領(lǐng)域內(nèi)術(shù)語間的相互關(guān)系，提供對(duì)這個(gè)領(lǐng)域知識(shí)的共同理解。實(shí)質(zhì)上本體是一個(gè)領(lǐng)域的抽象知識(shí)化表示形式，具有良好的層次結(jié)構(gòu)，以概念、實(shí)例以及各種關(guān)系表示領(lǐng)域中的信息。通過對(duì)本體中的關(guān)系進(jìn)行推理，可以發(fā)掘隱含信息，實(shí)現(xiàn)語義上的關(guān)聯(lián)。

2 基于本體的局部文檔分析查詢擴(kuò)展方法

為了更好的發(fā)揮基于局部文檔分析的方法優(yōu)勢(shì)，同時(shí)實(shí)現(xiàn)語義支持，本文將本體技術(shù)應(yīng)用到基于局部文檔分析的方法中，提出了基于本體的局部文檔分析查詢擴(kuò)展方法。改進(jìn)后的方法充分利用了本體的優(yōu)良特性，以本體指導(dǎo)整個(gè)查詢擴(kuò)展過程，實(shí)現(xiàn)了對(duì)語義的支持，基本原理為：1）初始查詢請(qǐng)求提交；2）本體化初始查詢請(qǐng)求的關(guān)鍵詞，并利用本體對(duì)關(guān)鍵詞進(jìn)行同義、近義擴(kuò)展；3）進(jìn)行一次檢索；4）從檢索結(jié)果中取N（N取值可以節(jié)）個(gè)文檔進(jìn)行分析，利用文檔矢量（由文檔特征詞權(quán)重構(gòu)成，特征詞權(quán)重根據(jù)出現(xiàn)頻率計(jì)算得到）提取文檔中的特征詞。文檔矢量在對(duì)文檔進(jìn)行預(yù)處理時(shí)形成，重復(fù)使用；5）一次擴(kuò)展后的關(guān)鍵詞集通過本體進(jìn)行二次語義擴(kuò)展。通過本體對(duì)關(guān)鍵詞逐個(gè)進(jìn)行相似度值查詢，根據(jù)相似度值的高低來決定新擴(kuò)展詞的取舍。向一次擴(kuò)展關(guān)鍵詞集合中添加語義相關(guān)的概念、實(shí)例，提高了檢索詞的語義完備性；6）對(duì)步驟4）和5）得到的關(guān)鍵詞集合進(jìn)行交運(yùn)算，得到最終的擴(kuò)展結(jié)果。這一步操作得到的關(guān)鍵詞，既滿足了傳統(tǒng)方法的共現(xiàn)頻率統(tǒng)計(jì)，也滿足了語義相關(guān)性的描述，丟棄了兩種方法產(chǎn)生的不一致的詞，保證了語義相關(guān)性。

圖1 基于本體的局部文檔分析查詢擴(kuò)展方法

擴(kuò)展過程由兩條路，一條為本體擴(kuò)展過程，即步驟5）；一條是傳統(tǒng)的文檔分析過程，即步驟3）和4）。最終通過步驟6）合為一條路，產(chǎn)生最終的檢索詞集合。本體技術(shù)的使用，實(shí)現(xiàn)了對(duì)語義的支持，使擴(kuò)展結(jié)果語義上更加明確，避免二義性。

3 實(shí)驗(yàn)及結(jié)果分析

本文以田徑項(xiàng)目作為領(lǐng)域，構(gòu)建了一個(gè)簡(jiǎn)單的實(shí)驗(yàn)本體。概念：田徑項(xiàng)目，跳躍，徑賽，投擲，接力，公路賽，障礙賽，短跑，長(zhǎng)跑；實(shí)例：競(jìng)走，馬拉松，女子100m欄，男子110m欄， 5000m，10 000m ，4×100m，4×400m，100m，400m，200m，標(biāo)槍，鐵餅，鉛球，鏈球，跳高，跳遠(yuǎn)，三級(jí)跳遠(yuǎn)，撐桿跳高。

本文從網(wǎng)絡(luò)上摘取了60個(gè)與田徑項(xiàng)目相關(guān)的新聞作為實(shí)驗(yàn)文檔，采用分層向量空間模型[7]進(jìn)行文檔的矢量化，得到對(duì)應(yīng)的文檔矢量。

以檢索 “短跑”為例，使用傳統(tǒng)方法和本文方法進(jìn)行對(duì)比實(shí)驗(yàn)，使用查全率和查準(zhǔn)率兩個(gè)指標(biāo)來衡量檢索質(zhì)量。60個(gè)樣本文檔中與“短跑”相關(guān)的文檔總共是16個(gè)。

1）使用本文基于本體的局部文檔分析查詢擴(kuò)展方法，最終檢索結(jié)果如表1所示。

表1 檢索文檔相似度值（其余文檔為零）

根據(jù)文檔相似度值對(duì)結(jié)果進(jìn)行相關(guān)性排序，以一定的閾值獲取最終結(jié)果返回給用戶。相似度閾值分別取0.3，0.4，0.5時(shí)，對(duì)應(yīng)的查全率分別為：100%，87.5%，25%，查準(zhǔn)率相同為：100%。

2）使用傳統(tǒng)局部文檔分析查詢擴(kuò)展方法，最終檢索結(jié)果如表2所示。取同樣的閾值0.3，0.4，0.5，對(duì)應(yīng)的查全率分別為：62.5%，37.5%，37.5%，查準(zhǔn)率相同為100%。

表2 檢索文檔相似度值（其余文檔為零）

圖2 本文方法與傳統(tǒng)方法檢索查全率對(duì)比

兩種方法的查全率對(duì)比如圖2所示。對(duì)文檔相似度的要求也提高，符合的文檔數(shù)量減少，查全率自然降低，閾值為0.3、0.4的時(shí)候，本文的方法對(duì)用戶檢索詞的擴(kuò)展效果更好，相關(guān)性更大，查全率高于原方法。為了使最終結(jié)果文檔數(shù)在一個(gè)合適的范圍內(nèi)，需要在查全率和查準(zhǔn)率之間選擇一個(gè)平衡點(diǎn)，也就是選擇一個(gè)合適的閾值來進(jìn)行控制，實(shí)驗(yàn)中閾值取0.3和0.4都可以，在這個(gè)前提下，本文提出的方法能保證檢索詞的有效性和相關(guān)性，大大提高查全率，并保證查準(zhǔn)率。

4 結(jié)論

對(duì)比結(jié)果，兩種方法查準(zhǔn)率一樣，但查全率差別較大。閾值為0.3、0.4時(shí)，本文方法的查全率遠(yuǎn)高于原方法；閾值為0.5時(shí)，兩種方法查全率差不多，但都比較低。原因?yàn)椋弘S著閾值的提高，

本文針對(duì)基于局部分析的查詢擴(kuò)展不支持語義的弱點(diǎn)，通過融合本體技術(shù)于其中，得到了一個(gè)改進(jìn)的方法。通過實(shí)驗(yàn)結(jié)果數(shù)據(jù)的對(duì)比分析，驗(yàn)證了本文提出的方法的有效性。

[1]Furnas GW，Landauer TK，Gomez LM，Dumais ST. The vocabulary problem in human-system communication. Communication of ACM，1987，30(11):964-971.

[2]崔航，文繼榮，李敏.基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J].軟件學(xué)報(bào)，2003，14(9)：1593-1599.

[3]黃名選，嚴(yán)小衛(wèi)，張師超.查詢擴(kuò)展技術(shù)進(jìn)展與展望[J].計(jì)算機(jī)應(yīng)用與軟件,2007，24(11)：1-4.

[4]宋玲麗，成穎，單啟成.信息檢索系統(tǒng)中的相關(guān)反饋技術(shù)[J].情報(bào)學(xué)報(bào)，2005，24(1)：34-41.

[5]TA Runkler, JC Bezdek. Automatic keyword extraction with relational clustering and Levenshtein distances，9th IEEE International Conference on Fuzzy Systems，IEEE，2000:636-640.

[6]陳泳，林世平.基于本體的語義檢索技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2006(S1)：78-80.

[7]高珊.信息檢索中的查詢擴(kuò)展及相關(guān)技術(shù)研究[D].湖北：華中師范大學(xué)，2008：20-21.

G252.7

1674-6708（2011）36-0054-02

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于本體的局部文檔分析查詢擴(kuò)展方法研究

0 引言

1 相關(guān)理論

2 基于本體的局部文檔分析查詢擴(kuò)展方法

3 實(shí)驗(yàn)及結(jié)果分析

4 結(jié)論