優(yōu)先聚合運算：用戶需求信息檢索的優(yōu)化

2019-09-10 06:32:32蔣大平

綏化學院學報 2019年8期

蔣大平

（綏化學院圖書館黑龍江綏化 152061）

Web上的充斥著大量信息,我們急需一個有效的信息系統(tǒng),能夠定位和檢索與用戶興趣相關的信息。而相關性評價通?；诙鄠€標準的評價，也就是相關性維度，旨在捕獲所考慮的文檔或文檔上下文的不同方面或?qū)傩裕?］。相關性維度應估計文檔對于用戶的查詢效用，例如，搜索引擎中頁面熱度概念有效利用了文檔相關性評估的評價標準。具體而言，與每個檢索到的文檔相關聯(lián)的總體相關性的得分計算，是基于表示評價標準滿意度的若干得分的計算。作為直接結(jié)果，需要將與單個標準評估相關的得分聚合為表示總體相關性估計的總體得分。盡管這個聚合步驟在文檔的最終排名中起著重要的作用，但在一些研究中，并沒有引起應有的重視。

傳統(tǒng)的平均聚合算子是完全補償?shù)模慈狈M意度評價標準，可以通過另一個剩余滿足來補償［2］。這種性質(zhì)在許多實際應用中并不現(xiàn)實，特別是在信息檢索（IR）領域。

為了說明和評估優(yōu)先級聚合算子，我們使用一個信息檢索個性化設置，信息檢索IR 的個性化設置使用用戶興趣的正式表示即用戶資料，來評估信息檢索相關性與用戶查詢的關系。這種方式特別有效，如果用戶經(jīng)常公式化他的個人資料中固有的興趣查詢，搜索個性化就能戰(zhàn)勝傳統(tǒng)檢索方法，這種方法不考慮用戶的背景和檢索目的，用相同的檢索表達式，面對不同的用戶產(chǎn)生相同的檢索結(jié)果。近年來，越來越多的研究致力于使信息檢索技術盡可能地利用上下文因素，以便為特定用戶定制搜索結(jié)果［3］。

一、優(yōu)先級多準則聚合

在多準則決策設置中，考慮多維標準之間優(yōu)先關系是典型的問題。在缺乏更高優(yōu)先級標準滿意度的情況下，不可能用較低優(yōu)先級的標準滿意度來補償。我們給出下面一個簡單的現(xiàn)實生活中的例子，對其進行解釋。

讓假設李女士正在尋找件羽絨服。她的選擇基于兩種標準。第一個標準是“保暖”，第二標準是“不貴”。對李女士來說，更重要的是保暖，而不是便宜。因此，他想買一件首先是保暖的羽絨服，然后，如果可能的話便宜一些。我們可以考慮兩種情況。

a如果李女士沒有找到任何便宜的保暖羽絨服，他可以買到保暖昂貴的羽絨服（因此，廉價標準的不滿足可以在某種程度上通過保暖標準的滿足來補償）。

b李女士沒有多少錢。她仍然認為保暖比成本更重要，然而，她負擔不起巨額費用。在這種情況下，李女士首先會找一件比較保暖又便宜的羽絨服。因此，在這種情況下，廉價標準的不滿足不能通過保暖標準的滿足來補償。

要注意到，在這兩種情況下，先需要一個優(yōu)先聚合算子，然而，對于第一個合適的算子不同于對于第二種情況合適的算子。與相對于第一種情況，第二種情況的是，羽絨服是保暖的，但不夠便宜，李女士不會考慮；相反，相對于第二種情況第一種情況是，一件便宜但不保暖的羽絨服不會被考慮，因為保暖是最重要的準則。明顯看到，這個問題是一個多準則決策問題，從現(xiàn)實生活實例到信息檢索語境，所考慮的標準是不同的關聯(lián)維度。

二、優(yōu)先聚合運算符

這里涉及兩個優(yōu)先聚合運算符（‘score’運算符和‘a(chǎn)nd’運算符），于2009年由佩雷拉等人首次提出，主要是將所提出的算子應用加權(quán)，聚合中與所考慮的標準即關聯(lián)性維數(shù)相關的重要性權(quán)值基于指定的優(yōu)先級順序。這意味著與標準相關的權(quán)重取決于更高的滿意度［4］。

（一）問題表征。

首先，假設C 集合是評價標準集合，有n 個評價標準組成，即C={C1，C2，…,Cn},

其中，Ci表示對第i個標準的評價函數(shù)。

然后，用D 表示文件集合，d∈D 表示文件元素。聚合函數(shù)F用于計算文件d的對于給定標準的總評分。

Score F（C1(d)，C2(d)，…，Cn(d)）=RSV(d)

這意味著通過考慮同一組標準，對于不同的用戶，給定文檔查詢的相關性評估，可能會產(chǎn)生不同的分數(shù)（不同的RSV）。并且對于同一用戶具有不同搜索意圖的檢索也會產(chǎn)生不同的分數(shù)。這是因為標準的優(yōu)先級順序是用戶依賴的,因此，要對每個標準賦予不同的重要性權(quán)值，使得不同的用戶有不同的標準優(yōu)先級排序，盡可能做到對于同一篇文件不同的用戶使用不同的重要性權(quán)值［5］。

這里，選擇用C1表示最重要標準，用Cn表示最不重要的標準，假設Ci重要性優(yōu)先于Cj，i＜j。假設序列“C0，C1,C2,…,Cn”被看做是用戶定義的標準序列，對于用戶來說，C0是最重要的條件，Cn是最不重要的條件。定義的計算與每個準則Cj相關聯(lián)的權(quán)重數(shù)值的方法既依賴于文檔的滿意度又依賴于用戶興趣。它實際上首先取決于用戶表達的標準偏好順序，并且還取決于文檔對標準Cj-1的滿意度，Cj-1的權(quán)值。

假設對于文件d，標準Ci的重要性權(quán)值λi∈[0,1]。對不同的用戶，任意的文件d，設λ1=1。Ci,i∈[2,n]。λi=λi-1·Ci-1(d)。Ci-1(d)是由文件d確定的標準Ci-1的滿意度。λi-1是標準Ci-1的重要性權(quán)值。

（二）優(yōu)先得分模型。即給出“score”優(yōu)先聚合算子Fs的表達式和性質(zhì)。這個聚合算子允許從多個標準評價中計算總體得分，其中每個標準的權(quán)重取決于滿意度，在最重要的標準上滿意度越高，權(quán)重越高。更重要的標準是，一個不太重要的標準的滿意度越大，對總成績的影響越大。

（三）“and”算子。2009年由Pereira等人提出的優(yōu)先聚合算子“and”。此運算符允許建模，總體滿意度強烈地依賴于最不滿意標準的滿意度［6］。這種算子的與傳統(tǒng)的“and”算子不同。它的特征在于考慮最不重要準則對用戶的滿足程度。如果它根本不重要，則在聚合過程中不應該考慮它的滿意度，而如果它是用戶最重要的標準，則只考慮它的滿意度。標準越不重要，代表整體滿意度的機會就越低。

聚合算子算法：

RSVa(d)=Fa(C1(d)，C2(d)，…，Cn(d))=min({C1(d),C2(d),…,Cn(d)})

對于上例中，設C1(d)代表“保暖”，C2(d)代表“不貴”，C1(d)=0.9，C2(d)=0.2，λ1=1，λ2=0.9。

RSVs(d)=λ1·C1(d)+λ2·C2(d)=0.9+0.18=1.08

RSVa(d)=min({C1(d),C2(d)})=min(0.91+0.180.9)=0.213

RSVs(d)∈[0,2]優(yōu)于RSVa(d)∈[0,1]的結(jié)果。

三、相關標準的優(yōu)先級排序

評估信息檢索算法有效性的傳統(tǒng)方法是基于Cranfield范式的，該范式允許所謂的基于實驗室的評估。實際上，當應用優(yōu)先級聚合策略時，根據(jù)所采用的依賴于用戶的優(yōu)先級化方案，針對相同查詢評估的相同文檔可以產(chǎn)生不同的評估分數(shù)［7］。

相關標準的優(yōu)先級順序取決于用戶的搜索意圖。為了進行有意義的評估，基于相關性維度的語義，我們識別出與不同的搜索意圖相對應的三個用戶類別，在所考慮的相關性維度上歸納出三個不同的優(yōu)先級順序，所識別的類別構(gòu)成了需要考慮到評價目標的評價情景［8］。

第一個評估場景，主要考慮當用戶制定僅關注他/她的興趣的查詢時的情況；在這種情況下，假設用戶旨在定位首先與他/她的興趣相關的文檔，同時要求搜索的文檔do不要關注除了查詢所表示的其他主題之外的其他主題。

比如，假設用戶正在尋找關于“金”的文檔，他/她感興趣的是化學而不是經(jīng)濟學。這意味著用戶正在查找“金”作為化學元素的文檔，而不是“金”作為存儲的價值。根據(jù)這個搜索場景，繼續(xù)識別第一個用戶類別，我們稱之為“覆蓋搜索器”。使用該用戶類別，我們將以下優(yōu)先級順序與四個考慮的關聯(lián)維度關聯(lián)：

coverage appropriateness aboutness reliability

很重要的一點是，稍微不同的優(yōu)先級順序可以與這個用戶類別相關聯(lián)，以及與以下兩個用戶類別一起指定。

第二種情況，當用戶的意圖是找到文件，完全適合他/她的興趣。我們將此第二用戶命名為“適當性搜索者”，我們認為它在四種標準中處于最高優(yōu)先級。

appropriateness aboutness coverage reliability;

我們介紹的第三個用戶類別是指優(yōu)先考慮檢索到的文檔的信息源的可靠性的用戶；我們稱屬于該類別的用戶是謹慎的；這些用戶給予可靠性標準比其他標準更大的優(yōu)先級。使用這個用戶類別，我們將以下優(yōu)先級順序與四個考慮的關聯(lián)維度關聯(lián)起來。

reliability aboutness appropriateness coverage

結(jié)論

不同類型的用戶，具有不同的搜索意圖。優(yōu)先排序聚合方案特點是，對于相同的查詢和相同的用戶，可以根據(jù)相關維度的不同優(yōu)先級順序，獲得不同的文件排序。本文提出的聚合模型是通用的，因此可以應用于任何相關維度的集合。實例證明，優(yōu)先聚合算子的有效性。優(yōu)先級“score”算子塑造了一種情況，不太重要標準的權(quán)值與比較重要標準的滿意度成比例。評估實驗表明，優(yōu)先聚合算子“score”，符允許當用戶制定與興趣相關的查詢時，以及當用戶沒有興趣或制定與用戶興趣無關的查詢時，改變與用戶興趣相關的文檔優(yōu)先級排序。文檔的排序類似于使用平均算子獲得的排序［9］。而優(yōu)先聚合算子“和”的特性也是它與傳統(tǒng)的“和”算子的區(qū)別，即最不滿意標準程度被考慮在總體滿意度中，并且該程度取決于它的滿意度和對用戶的重要性。該模型適用于當每個標準是必不可少的，并且在不影響用戶興趣目的情況下不能丟棄任何需求時，以及根據(jù)這些需求處理用戶偏好順序時，改進文檔的排序。所執(zhí)行的評估表明，當用戶制定與興趣相關的查詢時，所提出的操作符提高了與用戶興趣相關的文檔的排序，否則該操作符不適合。所提出的算子的優(yōu)點是，它們允許以簡單的方式計算標準的權(quán)重。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

優(yōu)先聚合運算：用戶需求信息檢索的優(yōu)化

一、優(yōu)先級多準則聚合

二、優(yōu)先聚合運算符

三、相關標準的優(yōu)先級排序

結(jié)論

二、優(yōu)先聚合運算符

三、相關標準的優(yōu)先級排序