国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合領(lǐng)域命名實(shí)體識別的查詢擴(kuò)展方法研究

2012-07-25 11:05:38鄒俊杰余正濤劉躍紅宗煥云
關(guān)鍵詞:互信息命名實(shí)體

鄒俊杰,余正濤+ ,劉躍紅,宗煥云,蘇 磊

(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明650051;2.昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明650051)

0 引 言

查詢擴(kuò)展是提高文本檢索準(zhǔn)確率的最有效的手段,目前已廣泛應(yīng)用于信息檢索和問答系統(tǒng)的文本檢索中[1-6]。其思想是利用和查詢相關(guān)的擴(kuò)展詞對查詢進(jìn)行重構(gòu),以提高檢索準(zhǔn)確率。在通用領(lǐng)域中查詢擴(kuò)展的方法有很多,主要有基于全局分析的查詢擴(kuò)展技術(shù)[2-3],基于局部上下文分析的查詢擴(kuò)展技術(shù)[2],基于語言模型的擴(kuò)展技術(shù)[6],基于隨機(jī)游走模型的查詢擴(kuò)展技術(shù)[7]及基于用戶日志的查詢個(gè)性化擴(kuò)展技術(shù)[8]。但上述方法對特定領(lǐng)域中的問題進(jìn)行擴(kuò)展時(shí)存在查詢結(jié)果偏離特定領(lǐng)域的問題。如:在旅游領(lǐng)域中,使用基于全局分析的查詢擴(kuò)展技術(shù)[2]對問題 “云南的蘋果品質(zhì)怎么樣?”進(jìn)行查詢擴(kuò)展時(shí),會將 “手機(jī)、電腦”之類的詞添加到擴(kuò)展詞列表中,而在旅游領(lǐng)域的受限域文本檢索系統(tǒng)中,擴(kuò)展詞 “手機(jī)、電腦”等通常被認(rèn)為是不合理的查詢擴(kuò)展,其擴(kuò)展的結(jié)果將會使查詢結(jié)果發(fā)生偏離,影響召回?cái)?shù)據(jù)的準(zhǔn)確率,因此需弱化甚至去除這些非領(lǐng)域擴(kuò)展詞帶來的問題。在特定領(lǐng)域文本檢索系統(tǒng)中,由于選取的擴(kuò)展詞符合領(lǐng)域特性,能檢索出相關(guān)性更高的文本,查詢召回的是相應(yīng)的領(lǐng)域文本,而非召回和查詢詞相關(guān)的所有文本,因此加入領(lǐng)域知識來擴(kuò)展查詢詞有利于解決查詢結(jié)果偏離問題。

目前,在特定領(lǐng)域中,查詢擴(kuò)展方法的思想主要是依靠加入特定詞典或者特定規(guī)則來完成查詢擴(kuò)展。比如在國外的生物醫(yī)學(xué)領(lǐng)域中,針對英文單詞的頻繁變化問題,文獻(xiàn) [9]提出了基于規(guī)則的方法來擴(kuò)展查詢,文獻(xiàn) [10-11]用基于生物醫(yī)學(xué)領(lǐng)域的同義詞庫來擴(kuò)展查詢,而類似這些方法有一定局限性。如在領(lǐng)域發(fā)生改變后需根據(jù)不同的領(lǐng)域重新構(gòu)造新規(guī)則或領(lǐng)域詞典,而不同的語言其擴(kuò)展方法可能存在較大差異。因此,這些方法的普適性較低,在一定程度上限制了其推廣。

綜上所述,在特定領(lǐng)域中,僅使用開放域中基本的查詢擴(kuò)展方法會帶來查詢偏離問題,而通過編寫大量規(guī)則或更換領(lǐng)域詞典來解決查詢偏離問題,將會大大降低方法的普適性。為克服上述查詢偏離問題并兼顧查詢擴(kuò)展的普適性,本文根據(jù)特定領(lǐng)域查詢擴(kuò)展的特點(diǎn)提出一種結(jié)合領(lǐng)域命名實(shí)體識別與開放域查詢擴(kuò)展方法進(jìn)行查詢擴(kuò)展,通過實(shí)驗(yàn)表明,該方法不但改善了領(lǐng)域查詢擴(kuò)展的偏離問題,同時(shí)改善領(lǐng)域查詢擴(kuò)展方法的普適性。(本文如果沒有特別指明具體的受限域或特定領(lǐng)域,默認(rèn)為云南旅游領(lǐng)域。)

1 領(lǐng)域命名實(shí)體識別與查詢擴(kuò)展

1.1 領(lǐng)域命名實(shí)體識別

命名實(shí)體識別是自然語言處理中的一項(xiàng)基礎(chǔ)性子任務(wù)。目前在一些受限領(lǐng)域中,命名實(shí)體識別也得到了一定的應(yīng)用。比如文獻(xiàn) [11-12]分別使用支持向量機(jī) (support vector machine)和隱馬爾科夫模型 (hidden Markov model)對生物醫(yī)學(xué)領(lǐng)域的一些實(shí)體進(jìn)行識別,文獻(xiàn) [13]使用了重疊條件隨機(jī)場對旅游領(lǐng)域的景點(diǎn)、特色小吃等實(shí)體進(jìn)行識別,取得了很好的效果。

條件隨機(jī)場是一個(gè)無向圖模型,是一種用來標(biāo)記數(shù)據(jù)的統(tǒng)計(jì)模型。最早是由Lafferty等人在文獻(xiàn) [14]中提出,模型的核心思想來自于最大熵模型,同時(shí)使用了隱馬爾科夫模型中提出的Viterbi算法、前向算法和前向后向算法來求解模型。通常情況下,條件隨機(jī)場都是使用其一階鏈?zhǔn)浇Y(jié)構(gòu),其概率模型的表示形式為

式中:O——觀察序列,L——標(biāo)記序列,Z(O)——?dú)w一化因子,μk——特征權(quán)重,fk——狀態(tài)函數(shù)或轉(zhuǎn)移函數(shù)。當(dāng)?shù)玫綐?biāo)記序列L以后就可以很容易的將序列所對應(yīng)的命名實(shí)體詞序列提取出來。

文獻(xiàn) [13]提出了一種基于層疊條件隨機(jī)場 (CCRFs)的旅游領(lǐng)域?qū)嶓w識別方法,該方法將識別過程分為兩層,低層模型采用字一級進(jìn)行建模,識別地點(diǎn)及簡單景點(diǎn)、特產(chǎn)小吃等,然后將識別結(jié)果傳遞到高層模型,在高層采用詞一級進(jìn)行建模,識別嵌套的景點(diǎn)、特產(chǎn)小吃,本文在其基礎(chǔ)上對旅游領(lǐng)域4個(gè)類別 (景點(diǎn)、地方、風(fēng)土民情、酒店)進(jìn)行標(biāo)注,并對每個(gè)類別再次細(xì)分并標(biāo)注為18個(gè)小類,其類別信息見表1,利用上述標(biāo)注語料,訓(xùn)練出旅游領(lǐng)域的命名實(shí)體識別模型。

表1 旅游領(lǐng)域詳細(xì)類別

文獻(xiàn) [13]的方法在封閉測試中準(zhǔn)確率為91.35%,開放測試中準(zhǔn)確率為87.24%,本文采用相同的方法對上述類別進(jìn)行試驗(yàn),也達(dá)到了85%以上的準(zhǔn)確率。

1.2 基本查詢擴(kuò)展方法

首先介紹本文使用的幾種基本查詢擴(kuò)展方法:

(1)基于TF-IDF的查詢擴(kuò)展:基于TF-IDF的查詢擴(kuò)展模型的基本思想是,先對初檢回來的前N個(gè)信息片段(Snippets)進(jìn)行分詞并去停用詞,然后利用TF-IDF權(quán)重計(jì)算方法式 (2)對Snippets中的詞進(jìn)行計(jì)算,選擇前k個(gè)分值靠前的詞作為查詢擴(kuò)展詞并加入到原始查詢Q中再次檢索

(2)基于互信息的查詢擴(kuò)展:從信息論的角度看,互信息 (mutual information,MI)度量的是兩個(gè)隨機(jī)事件x和y發(fā)生的相互依賴程度,通常為這兩個(gè)隨機(jī)事件發(fā)生的概率p(·)的函數(shù),如下表示

基于互信息的查詢擴(kuò)展方法其核心思想是在文獻(xiàn) [16]的方法上,計(jì)算侯選詞Wi與問句Q的互信息??紤]信息檢索或問答系統(tǒng)中,查詢通常由多個(gè)關(guān)鍵詞構(gòu)成,因此在選取擴(kuò)展詞時(shí),本文先計(jì)算候選擴(kuò)展詞與查詢Q中的每個(gè)詞的互信息,再求和,最后做歸一化處理。其處理過程參照式 (4),式中m代表初始查詢Q中的關(guān)鍵詞數(shù),qt為初始查詢中的關(guān)鍵詞,Zm是歸一化因子,δ是一個(gè)平滑項(xiàng),稱為防零因子,本文取δ=0.01。P(wi,qt)為候選擴(kuò)展詞wi與關(guān)鍵詞qt,同時(shí)出現(xiàn)的概率。式中P(·)的概率值均采用極大似然估計(jì)來計(jì)算

(3)基于局部上下文分析的查詢擴(kuò)展:局部上下文分析[2]的思想是將術(shù)語看成概念,然后在上下文環(huán)境中計(jì)算概念與查詢之間的相關(guān)度并排序,利用排序結(jié)果選取排名靠前的概念作為候選擴(kuò)展詞,通常使用概念和查詢詞的共現(xiàn)頻率的方法來選擇概念。概念的上下文環(huán)境類似于相關(guān)性反饋技術(shù)。對于傳統(tǒng)相關(guān)性反饋技術(shù)計(jì)算其相關(guān)性是根據(jù)初始召回的前N篇相關(guān)文檔與查詢Q對比進(jìn)行分析,而局部上下文分析是從初始召回的前N篇文檔中的每篇文檔中選擇最好的一段,然后將選取的每一段與查詢Q對比來進(jìn)行分析。局部上下文分析技術(shù)是全局分析技術(shù)和局部反饋技術(shù)相結(jié)合的實(shí)用技術(shù),常用于查詢擴(kuò)展。

本文采用類似于文獻(xiàn) [2-3]的方法來對旅游領(lǐng)域的查詢Q進(jìn)行擴(kuò)展。

首先需要確定上下文的段落集SP,利用Google召回的前N個(gè)信息片段集合S= {s1,s2,…,si,…,sn},對每一個(gè)片段si進(jìn)行句子切分,然后利用式 (5)來選取段落。其中l(wèi)ength是統(tǒng)計(jì)si的句子數(shù)目;f(di)是自動摘要提取函數(shù),本文采用了文獻(xiàn) [10]的方法來對文檔di進(jìn)行自動摘要的提取。因摘要提取細(xì)節(jié)不是論文研究重點(diǎn),故本文不對其詳述

然后利用段落集SP,計(jì)算每一個(gè)概念和查詢Q的相關(guān)度SIM (Q,C),計(jì)算公式如下

式中:Z——?dú)w一化因子,δ——為了防止等式為零的平滑因子,tfij、tfcj——詞ti、概念 C 在段落 SPj中的詞頻;N——段落檢索集的段落總數(shù),Ni、Nc——詞ti、概念C在出現(xiàn)在段落檢索集的段落數(shù)目。

接著對計(jì)算結(jié)果進(jìn)行排序。最后選取前k個(gè)概念作為候選詞加入到初始查詢中。為了讓詞的排序有意義,使用Indri檢索平臺 (www.lemurproject.org)的Indri查詢語言對查詢進(jìn)行重構(gòu),重構(gòu)后的查詢表達(dá)式如下式

式中:qi——原始查詢Q中的關(guān)鍵詞,ci——排序以后的第i個(gè)概念,wi——關(guān)鍵詞在查詢時(shí)的權(quán)重,本文使用和文獻(xiàn)[2]類似的方法來計(jì)算權(quán)重,見式 (7)。式中,當(dāng)wi是原始查詢Q對應(yīng)的權(quán)重時(shí)i=0;k表示擴(kuò)展詞的個(gè)數(shù),經(jīng)過多次對k值的實(shí)驗(yàn),本文取k=70

1.3 融合領(lǐng)域命名實(shí)體識別的查詢擴(kuò)展方法

若在開放域的基本查詢擴(kuò)展方法中,通過加入特定詞典或特定規(guī)則來完成特定領(lǐng)域的查詢擴(kuò)展,則限制了查詢擴(kuò)展方法的推廣,不僅使其普適性降低,同時(shí)會帶來查詢偏離問題。為克服上述查詢偏離問題并兼顧查詢擴(kuò)展的普適性,本文根據(jù)特定領(lǐng)域查詢擴(kuò)展的特點(diǎn)提出一種結(jié)合命名實(shí)體識別與開放域查詢擴(kuò)展方法進(jìn)行查詢擴(kuò)展,其處理過程如圖1所示。

圖1 命名實(shí)體識別與基本查詢方法結(jié)合擴(kuò)展過程

為發(fā)揮命名實(shí)體識別與基本查詢擴(kuò)展方法兩者的優(yōu)勢,同時(shí)克服其本身不足,如命名實(shí)體識別技術(shù)存在自身識別準(zhǔn)確率的不理想問題、基本擴(kuò)展方法在特定領(lǐng)域查詢存在偏離問題,本文將兩者進(jìn)行結(jié)合并使用線性差值平滑法,具體結(jié)合方式用如式 (8)進(jìn)行處理

式中:wi——候選詞匯集中的第i個(gè)詞;Λwi——布爾型的概率函數(shù),其表示在段落組成的序列O在進(jìn)行旅游領(lǐng)域命名實(shí)體識別以后,詞wi是否是旅游領(lǐng)域的實(shí)體的概率,如果是,Λwi為1,否則為0;λ∈ [0,1]是平滑參數(shù);p(Wi|Q)為在查詢Q的前提下,詞wi的概率,當(dāng)結(jié)合方法為基于 TF-IDF的查詢擴(kuò)展方法時(shí)p(Wi|Q)=Weigthi,當(dāng)結(jié)合方法為基于互信息的查詢擴(kuò)展方法時(shí)P(Wi|Q)=I(Wi:Q),當(dāng)結(jié)合方法為局部上下文分析時(shí)p(Wi|Q)=SIM (Q,C)。

2 實(shí)驗(yàn)與結(jié)果分析

由于目前沒有比較權(quán)威統(tǒng)一的旅游語料資源,所以本文人工收集了2300篇旅游領(lǐng)域的語料,其中包含了上述18個(gè)不同類別的語料,每個(gè)類別大約有120篇文檔。本文通過統(tǒng)計(jì)語料的詞頻信息篩選出旅游領(lǐng)域的停用詞表,同時(shí)加入了通用的停用詞表一起組成總停用詞庫,同時(shí)實(shí)驗(yàn)中使用的外部信息摘要的片段數(shù)目設(shè)定為100。

2.1 建立識別模型

本文使用人工收集的2300篇旅游領(lǐng)域語料作為訓(xùn)練集(相關(guān)語料資源可到http://www.liip.cn獲?。?,采用文獻(xiàn)[13]中的原子特征模板和復(fù)合特征模板,并利用CRF++工具對其進(jìn)行訓(xùn)練,生成旅游領(lǐng)域命名實(shí)體識別 (SNER)模型,其平均識別準(zhǔn)確率達(dá)到了85%。

2.2 λ參數(shù)的確定

采用逐步迭代的方法來確定式 (8)中的λ。首先從基礎(chǔ)問句語料庫中按18個(gè)類別分別隨機(jī)抽取10個(gè)問句,組成180個(gè)問句集,然后對問句集去停用詞,組成訓(xùn)練問句集QS,最后使用領(lǐng)域命名實(shí)體識別 (SNER)技術(shù)分別結(jié)合TF-IDF方法、互信息方法、局部上下文分析方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)前采用逐步迭代的方法確定各方法的最優(yōu)λ。本文λ取值從0到1,并設(shè)置步長為0.1進(jìn)行迭代求解,得到圖2的實(shí)驗(yàn)結(jié)果。經(jīng)實(shí)驗(yàn)驗(yàn)證,當(dāng)λ分別為0.5、0.8和0.6時(shí)獲得對應(yīng)方法的最優(yōu)解,這樣就確定了上述3個(gè)對比試驗(yàn)中的最優(yōu)λ值。

從圖2可以看出,當(dāng)λ=0時(shí),式 (8)退化為p(wi)=p(wi|Q),即為普通的查詢擴(kuò)展方法,但隨著λ的增加命名實(shí)體技術(shù)所對應(yīng)的Λwi(O)項(xiàng)逐步得到加強(qiáng),其準(zhǔn)確率得到逐步的提高。從圖2數(shù)據(jù)說明隨著λ值的增大,其準(zhǔn)確率不會一直提高,當(dāng)λ增加到一定值時(shí),準(zhǔn)確率達(dá)到最值點(diǎn),隨后隨著λ的增加準(zhǔn)確率會隨之下降,通過實(shí)驗(yàn)室說明隨著λ比重的逐步增加,命名實(shí)體識別技術(shù)也能阻礙查詢擴(kuò)展的準(zhǔn)確率,因此不能只靠命名實(shí)體識別技術(shù)來提高查詢擴(kuò)展的準(zhǔn)確率。

圖2 不同參數(shù)λ的3種方法的平均準(zhǔn)確率

2.3 查詢擴(kuò)展方法對比

為驗(yàn)證方法的有效性和普適性,本文選擇基于TF-IDF的查詢擴(kuò)展方法、基于改進(jìn)的TF-IDF查詢擴(kuò)展方法、基于互信息的查詢擴(kuò)展方法、基于改進(jìn)的互信息查詢擴(kuò)展方法、基于局部上下文分析和結(jié)合命名實(shí)體識別與局部上下文分析的查詢擴(kuò)展作對比實(shí)驗(yàn)。

對比實(shí)驗(yàn)一:基于TF-IDF和基于改進(jìn)的TF-IDF的查詢擴(kuò)展實(shí)驗(yàn)

基于TF-IDF的查詢擴(kuò)展方法,其核心思想[15]如式(2)所示,加入命名實(shí)體識別進(jìn)行改進(jìn),通過線性插值做平滑處理,用改進(jìn)式 (8)進(jìn)行實(shí)驗(yàn),其中P(Wi|Q)取式 (2)所述 Weigthi。具體形式如下

對比實(shí)驗(yàn)二:基于互信息和基于改進(jìn)的互信息查詢擴(kuò)展實(shí)驗(yàn)

基于互信息的查詢擴(kuò)展方法其核心思想?yún)⒁娛?(4),基于改進(jìn)的互信息查詢擴(kuò)展方法,在互信息查詢擴(kuò)展方法的基礎(chǔ)上結(jié)合命名實(shí)體識別技術(shù),進(jìn)行線性插值做平滑處理,用改進(jìn)式 (8)進(jìn)行實(shí)驗(yàn),其中P (Wi|Q)取式 (4)所述I(Wi:Q),具體形式如下

對比實(shí)驗(yàn)三:基于局部上下文分析和基于改進(jìn)的局部上下文分析查詢擴(kuò)展實(shí)驗(yàn)

基于局部上下文分析的查詢擴(kuò)展方法中心思想?yún)⒁娛剑?)所述,對其進(jìn)行改進(jìn),結(jié)合命名實(shí)體識別技術(shù),進(jìn)行線性插值做平滑處理,用式 (8)進(jìn)行實(shí)驗(yàn),其中P(Wi|Q)取式 (6)所述SIM (Q,C)。

在進(jìn)行對比實(shí)驗(yàn)之前需要確定式 (8)中最優(yōu)λ值。也就是確定上述3種不同方法的最優(yōu)λ值,然后依次根據(jù)P(Wi|Q)所取值代入式 (8)進(jìn)行實(shí)驗(yàn)。

2.4 實(shí)驗(yàn)結(jié)果

本文從實(shí)驗(yàn)室2.3萬句的基礎(chǔ)問句語料庫中隨機(jī)抽取100個(gè)問句作為測試問句集。使用基于TF-IDF、基于改進(jìn)的TF-IDF、基于互信息、基于改進(jìn)的互信息、基于局部上下文分析以及基于改進(jìn)的局部上下文分析分別進(jìn)行查詢擴(kuò)展實(shí)驗(yàn),得到表2、表3以及表4中的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)表格中括號里面的內(nèi)容為增長率。

由表2、表3以及表4實(shí)驗(yàn)數(shù)據(jù)說明,領(lǐng)域命名實(shí)體識別技術(shù)對基于TF-IDF、基于互信息及基于局部上下文分析的查詢擴(kuò)展都有較好的表現(xiàn),且測試結(jié)果比較穩(wěn)定。在對比實(shí)驗(yàn)中所使用的基本方法 (基于TF-IDF、基于互信息、基于局部上下文分析)通常都是針對開放域的系統(tǒng),對受限域的問題沒有做相關(guān)優(yōu)化,本文是對特定領(lǐng)域的查詢擴(kuò)展進(jìn)行研究,對于特定領(lǐng)域直接上述基本方法進(jìn)行查詢擴(kuò)展,實(shí)驗(yàn)結(jié)果表明其平均準(zhǔn)確率都不高,而加入特定領(lǐng)域命名實(shí)體識別技術(shù)以后,其準(zhǔn)確率得到了很大的提高,相比其基本擴(kuò)展方法平均P@n提高幅度均超過了50%,且任何單項(xiàng)提高都超過了10.4%以上。當(dāng)然這與將結(jié)果定位在特定領(lǐng)域有關(guān),但實(shí)驗(yàn)確實(shí)說明提高幅度較大。

表2 基于TF-IDF及結(jié)合SNER的IF-IDF的改進(jìn)對比實(shí)驗(yàn)

表3 基于MI及結(jié)合SNER的MI的改進(jìn)對比實(shí)驗(yàn)

表4 基于LCA及結(jié)合SNER的LCA的改進(jìn)對比實(shí)驗(yàn)

通過表2到表4的實(shí)驗(yàn)數(shù)據(jù),可得出以下分析。第一,在特定領(lǐng)域的查詢擴(kuò)展中,對開放域的基本查詢擴(kuò)展方法上融入領(lǐng)域命名實(shí)體識別技術(shù)對獲取領(lǐng)域相關(guān)擴(kuò)展詞有很大提高;第二,在上述對比實(shí)驗(yàn)中,結(jié)合領(lǐng)域命名實(shí)體識別與局部上下文分析查詢擴(kuò)展方法取得的效果最好;第三,因本文研究的是受限域系統(tǒng),評價(jià)擴(kuò)展詞是否是領(lǐng)域相關(guān)擴(kuò)展詞,因此加入領(lǐng)域知識后其準(zhǔn)確率得到一定的提高;第四,本文采用的技術(shù)可應(yīng)用在很多特定領(lǐng)域,只需對相關(guān)領(lǐng)域定義模板并進(jìn)行標(biāo)注,然后利用CRF建立模型,因此本文方法具有一定的普適性。

另外,對本文查詢擴(kuò)展方法進(jìn)行穩(wěn)定性比較,計(jì)算準(zhǔn)確率在p@10到p@70之間的變化情況,實(shí)驗(yàn)中取步長為10。圖3說明在加入領(lǐng)域命名實(shí)體識別技術(shù) (SNER)之前和之后的相關(guān)方法穩(wěn)定性比較。從圖3分析可知,各基本方法加入領(lǐng)域命名實(shí)體識別技術(shù)之后,其下降速率得到明顯的緩解,相對加入領(lǐng)域命名實(shí)體識別技術(shù)之前的基本方法穩(wěn)定。

圖3 3種方法穩(wěn)定性分析

3 結(jié)束語

在受限域問答系統(tǒng)答案文本檢索查詢擴(kuò)展中,將領(lǐng)域命名實(shí)體識別技術(shù)和通用領(lǐng)域基本查詢擴(kuò)展方法相結(jié)合,有助于提高擴(kuò)展效果,其中局部上下文分析查詢擴(kuò)展方法提高最顯著。通過本文對比實(shí)驗(yàn)說明,結(jié)合領(lǐng)域命名實(shí)體識別技術(shù)能很好改善受限域系統(tǒng)的查詢擴(kuò)展性能,并提高查詢擴(kuò)展的穩(wěn)定性。問答系統(tǒng)查詢通常是以問句的形式表述,必然存在語義信息,下一步將在查詢擴(kuò)展中考慮問句的語義信息來提高擴(kuò)展的準(zhǔn)確性。

[1]Attar R,F(xiàn)raenkel A S.Local feedback in full-text retrieval systems [J].ACM,1977,24 (3):397-417.

[2]Xu J,Croft W B.Query expansion using local and global document analysis [C].Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich,Switzerland:ACM,2006:4-11.

[3]Sun R,Ong C-H,Chua T-S.Mining dependency relations for query expansion in passage retrieval[C].Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Seattle,Washington:ACM,2006:382-389.

[4]Callan J P,Croft W B,Broglio J.TREC and TIPSTER experiments with INQUERY [C].Readings in Information Retrieval:Morgan Kaufmann Publishers Inc,1997:436-439.

[5]Jing Y,Croft W B.An association thesaurus for information retrieval[R].USA:University of Massachusetts,1994.

[6]Bai J.Query expansion using term relationships in language models for information retrieval[C].Proceedings of the 14th ACM International Conference on Information and Knowledge Management.Bremen,Germany:ACM,2005:688-695.

[7]Collins-Thompson K,Callan J.Query expansion using random walk models [C].Proceedings of the 14th ACM International Conference on Information and Knowledge Management.Bremen,Germany:ACM,2005.

[8]Cui H,Wen J-R,Nie J-Y,et al.Probabilistic query expansion using query logs [C].Proceedings of the 11th International Conference on World Wide Web.Honolulu,Hawaii:ACM,2002:325-332.

[9]Cohen A M.Unsupervised gene/protein named entity normalization using automatically extracted dictionaries [C].Proceedings of the ACL-ISMB Workshop on Linking Biological Literature,Ontologies and Databases:Mining Biological Semantics.Detroit,Michigan:Association for Computational Linguistics,2005:17-24.

[10]Goldstein J,Kantrowitz M,Mittal V,et al.Summarizing text documents:Sentence selection and evaluation metrics[C].Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Berkeley,California:ACM,1999.

[11] WANG Haochang,ZHAO Tiejun.SVM-based biomedical name entity recognition [J].Journal of Harbin Engineering University,2006,27 (B07):570-574 (in Chinese). [王浩暢,趙鐵軍.基于SVM的生物醫(yī)學(xué)命名實(shí)體識別 [J].哈爾濱工程大學(xué)學(xué)報(bào),2006,27 (B07):570-574.]

[12]CHEN Jin,CHANG Zhiquan.HMM-based biomedical named entity recognition and classification [J].Computer Era,2006,24 (10):40-42 (in Chinese).[陳錦,常致全,許軍.基于HMM的生物醫(yī)學(xué)命名實(shí)體的識別與分類 [J].Computer Era,2006,24 (10):40-42.]

[13]GUO Jianyi,XUE Zhengshan,YU Zhengtao,et al.Named entity recognition for the tourism domain based on cascaded conditional random fields [J].Journal of Chinese Information Processing,2009,23 (5):47-52 (in Chinese). [郭劍毅,薛征山,余正濤,等.基于層疊條件隨機(jī)場的旅游領(lǐng)域命名實(shí)體識別 [J].中文信息學(xué)報(bào),2009,23 (5):47-52.]

[14]Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].International Conference on Machine Learning,2001.

[15]Liu Y,Ciliax B J,Borges K,et al.Comparison of two schemes for automatic keyword extraction from MEDLINE for functional gene clustering [C].Proceedings of the IEEE Computational Systems Bioinformatics Conference.Washington,DC,USA:IEEE,2004:394-404.

[16]C hurch K W,Hanks P.Word association norms,mutual information,and lexicography [J].Comput Linguist,1990,16 (1):22-29.

猜你喜歡
互信息命名實(shí)體
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
改進(jìn)的互信息最小化非線性盲源分離算法
電測與儀表(2015年9期)2015-04-09 11:59:22
曲阳县| 鱼台县| 中西区| 始兴县| 云林县| 扎兰屯市| 崇州市| 开封县| 栖霞市| 正阳县| 尚志市| 东城区| 泸溪县| 和平区| 星子县| 特克斯县| 义马市| 平利县| 萝北县| 宁南县| 长治市| 登封市| 岳阳市| 桦川县| 汝州市| 长岛县| 五台县| 镇宁| 昭觉县| 监利县| 上高县| 喀喇| 米林县| 湘潭市| 宁晋县| 百色市| 清水河县| 甘孜县| 阿荣旗| 瓦房店市| 临湘市|