国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Indri的檢索模型研究

2012-07-13 06:30:08王莉軍
電子設計工程 2012年24期
關鍵詞:特征向量結構化文檔

王莉軍

(渤海大學 遼寧 錦州 121013)

Indri是開源的信息檢索工程Lemur的一個子項目。Indri是一個完整的搜索引擎,支持各種不同格式文本的索引創(chuàng)建,提出了優(yōu)秀的文檔檢索模型,支持結構化查詢語言,在研究和實際應用領域都有比較高的價值。Indri系統(tǒng)采用C++語言編寫,提供了方便的API供使用者調用,由于項目本身開源,對于開發(fā)者而言,也可以方便的對其進行二次開發(fā)。

1 Indri檢索模型

Indri結合了推理網(wǎng)絡模型 (Inference net)和語言模型(language modeling)的優(yōu)點,提出了一套檢索模型,其利用推理網(wǎng)絡模型的優(yōu)勢來支持比較復雜的結構化查詢(結構化通常指查詢語言中的用來表達檢索文檔中詞與詞之間聯(lián)系的operators),又利用語言模型及平滑技術對推理網(wǎng)絡中的一些節(jié)點進行有效的預估,從而使查詢得到比較好的效果[1]。這之前,單純的推理網(wǎng)絡模型節(jié)點的預估采用的是規(guī)格化的tf.idf(這個值與詞在文檔中出現(xiàn)的頻率稱正比,與包含該詞的文檔數(shù)成反比)權重,而單純的語言模型則無法支持結構化查詢。所以Indri檢索模型采用了兩種模型相結合的方式[2]。

推理網(wǎng)絡模型網(wǎng)絡圖如圖1所示,實際上是一個貝葉斯網(wǎng)絡(Bayesian networks)。貝葉斯網(wǎng)絡是一個有向,無環(huán)圖。

網(wǎng)絡中每個節(jié)點代表一個事件,有一個連續(xù)或者離散的結果集。每個非根節(jié)點存儲了一個條件概率表,這個條件概率表完全描述了與給定父節(jié)點的情況下該節(jié)點出現(xiàn)相關聯(lián)的結果集的概率。每個與根節(jié)點相關聯(lián)的結果集被指派了一個先驗概率。這樣在已知網(wǎng)絡圖,先驗概率,條件概率表和節(jié)點代表的事件之后,就可以通過網(wǎng)絡計算出檢索文檔中出現(xiàn)查詢的概率,并按照這個概率值的大小進行排序輸出。

圖1 推理網(wǎng)絡模型網(wǎng)絡圖Fig.1 Inference network network diagram

主要包含有以下幾類節(jié)點[3]:

1)文檔節(jié)點 D(Document Node);

2)平滑參數(shù)節(jié)點 alpha,beta(Smoothing parameter nodes);

3)模型節(jié)點 θ(Model nodes);

4)特征表示節(jié)點 r(Representation concept nodes);

5)查詢節(jié)點 q(Belief nodes);

6)信息需求節(jié)點 I(Information need node)。

文檔節(jié)點(Document Node):文檔節(jié)點是文檔表示的一個隨機值。Indri采用二進制特征向量集對文檔進行表示,而不是一般模型中單純的term序列,文檔的特征向量表示可以挖掘出更多的文本的信息,例如短語,是否是大寫字母詞等。文檔中每個term的位置被一個特征向量表示,向量中的元素表示特征的有無。如此一來可以將文檔看作一個多伯努利分布(Multiple-Bernoulli distribution)的抽樣。

舉一個文檔表示很簡單的例子,假設文檔是由5個詞組成的,則我們用下面12個特征組成的特征序列來表示文檔,如下[4],

Document:A B C A B

假設特征序列是[A B C AA AB AC BA BB BC CA CB CC]

平滑參數(shù)節(jié)點:是為模型節(jié)點提供平滑參數(shù)。

模型節(jié)點Model nodes(M):模型節(jié)點代表所謂的特征語言模型。在Indri框架中,它們是平滑過的多伯努利分布,該分布是對文檔表示的一個建模。網(wǎng)絡中可能會有不止一個模型節(jié)點,與同一文檔的不同表示相關聯(lián),如上圖所示,模型節(jié)點包括title,body,h1等3個模型節(jié)點,分別為文檔的title,body,h1部分的表示,這樣就允許模型通過不同的文檔表示來進行預估,合并。

這里需要計算 P(M|D),

特征表示節(jié)點Representation concept nodes(r):特征表示節(jié)點是與上述文檔表示中提到的特征向量直接相關的二進制隨機值。這里,同樣的特征節(jié)點可能會在網(wǎng)絡中出現(xiàn)多次,因為每個相同的特征節(jié)點可能會有一個不同的父節(jié)點。

查詢節(jié)點Belief nodes(q):查詢節(jié)點是用來合并特征節(jié)點或者其他查詢節(jié)點的二進制隨機值。每個查詢節(jié)點關聯(lián)到不同的條件概率表,允許節(jié)點以多種不同的方式合并。查詢節(jié)點是根據(jù)Indri的結構化查詢動態(tài)的添加到網(wǎng)絡中,因此網(wǎng)絡拓撲是隨著每次查詢改變的。這使得網(wǎng)絡很強大,根據(jù)不同的查詢式,使用不同的打分方法。

信息需求節(jié)點Information need node(I):信息需求節(jié)點可以看作一個簡單的查詢節(jié)點,將所有的查詢節(jié)點合并到一個節(jié)點,這個節(jié)點作為rank的基礎[5]。

也就是說 rank的依據(jù)是 P(I=1|D,alpha,beta)。

例如一個查詢:#weight(2.0#or(#1(north korea)iraq )1.0 policy),查詢的意思大概是 “包含韓國或者伊朗以及policy的文檔,并且包含north korea或者iraq所占的比重系數(shù)為2.0,而包含policy的比重系統(tǒng)為1.0”。推理網(wǎng)絡如圖2所示。

圖2 推理網(wǎng)絡Fig.2 Inference network

再例如一個查詢:#combine( #uw8( hurricane wind ).(title)damage),這個查詢的大概意思是“文檔題目域中包含一個8個詞的窗口,窗口中可以無序的包含hurricane和wind兩個詞,并且文檔中包含damage這個詞”。推理網(wǎng)絡如圖3所示。

圖3 推理網(wǎng)絡Fig.3 Inference network

2 Indri查詢語言

為了充分利用上面提到的檢索模型,Indri提供了一套查詢語言可以表達復雜的概念。Indri查詢語言是一種結構化查詢語言,是由一些operation組成的,每個operation代表了推理網(wǎng)絡中的一個查詢節(jié)點(即q節(jié)點)[6]。

Operation可以分為以下幾類:

1)Basic operation

第三,時間和空間延展性的變化帶來的影響?;ヂ?lián)網(wǎng)上沒有時間和空間的限制,企業(yè)只需花費較少的成本就可以加入到全球信息網(wǎng)絡和貿易網(wǎng)絡中,與消費者進行溝通,將產品的信息傳遞到消費者中去。網(wǎng)絡商城的空間可以無限擴張,可以陳列無限多的商品,消費者通過互聯(lián)網(wǎng)可以用很低的價格選購商品,所看到的商品比任何一間大商場的產品都多,方便消費者進行商品的比較和擇優(yōu)。

Indri查詢語言的基本操作是繼承Inquery結構化查詢語言的,舉一些簡單的例子:

#uwN(t1 t2…)包含N個單詞的無序窗口

#odN(t1 t2…)包含N個單詞的有序窗口

#combine(q1 q2…) 合并查詢q1和q2

#weight(w1q1 w1q2…) 合并查詢q1和q2并且設置了每個查詢的權重

#filrej(c s) 當c不滿足的情況下計算表達式s

2)Field operation

這類操作符是為了支持結構化文檔設計的。最簡單的形式,比如term.field,意思是term只有出現(xiàn)在field時才是與查詢相關的。

域可以是文檔中的任何打了標簽的信息。例如可以是文檔的一大段(如一個章節(jié)),一小段(如一個自然段),或者只有幾個句子(如名詞短語等)。一個域也可以多次出現(xiàn)在文檔中。

例如wash.np就可以用來實現(xiàn)這樣的查詢,“查找出現(xiàn)在名詞短語中的wash”。

3)Extent retrieval

Indri也支持用域來在某一區(qū)域中打分。例如查詢#combine[field](q1,…qn),在 field 指定的區(qū)域中對(q1,…qn)進行打分和排序。這樣可以方便地支持類似段落查詢或者語句查詢等這樣的需求。

4)Date and numeric retrieval

Indri來識別數(shù)字相關的性質,包括日期等。為了查詢數(shù)字相關的性質,Indri提供了#less,#greater和 #equal等操作。對 于 日 期 的 查 詢 ,Indri提 供 了 #date:before,#date:before 和#date:before 等操作。

一些相關操作符的計算如下[5]:

3 結 論

Indri的檢索模型合并了推理網(wǎng)絡模型和語言模型,可以比較好的支持結構化查詢和推理網(wǎng)絡節(jié)點的預估,里面還涉及了多伯努利分布,貝葉斯方法等數(shù)學行比較強的推導過程,從測試結果來看,查詢效果比較好,具有較大的參考實用價值。

[1]Strohman T,Metzler D,Turtle H,et al.Indri.A language model-based serach engine for complex queries,IA 2005[C]//Proceedings of the 2nd International Conference on Intelligence Analysis (to appear),2005:5-10.

[2]Strohman T.Dynamic collections in Indri[C]//Technical Report IR-426, University of Massachusetts Amherst,2005:124-125.

[3]Strohman T.Low Latency Index Maintenance in Indri[C]//IR-503, University of Massachusetts Amherst,2006:54-58.

[4]Metzler D,Croft W B.Combining the language model and inference network approaches to retrieval[C]//Info.Proc.and Mgt,2004,40(5):735-750.

[5]Metzler D,Lavrenko V,Croft W B.Formal multiple Bernoulli models for language modeling[C]//2004:540-541.

[6]Zhai C,Lafferty J.A study of smoothing methods for language models applied to information retrieval ACM Trans.Inf.Syst[C]//2004:179-214.

猜你喜歡
特征向量結構化文檔
二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
克羅內克積的特征向量
有人一聲不吭向你扔了個文檔
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
一類特殊矩陣特征向量的求法
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
中華建設(2017年1期)2017-06-07 02:56:14
基于RI碼計算的Word復制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于圖模型的通用半結構化數(shù)據(jù)檢索
計算機工程(2015年8期)2015-07-03 12:20:35
湛江市| 澄江县| 准格尔旗| 玛沁县| 聊城市| 镇平县| 博客| 康乐县| 汤阴县| 清原| 汝城县| 和田县| 板桥市| 蛟河市| 普兰店市| 西华县| 南江县| 和静县| 玛多县| 岳池县| 卢氏县| 永新县| 冷水江市| 安西县| 神木县| 锦屏县| 泰和县| 江华| 福建省| 台东市| 舞钢市| 白朗县| 逊克县| 连平县| 彩票| 阿城市| 武隆县| 曲靖市| 佛山市| 临沂市| 新野县|