應(yīng)對(duì)海量數(shù)據(jù)檢索：分布式局部索引的架構(gòu)

2013-04-29 00:44:03張滇岳磅江小燕毛睿

計(jì)算機(jī)時(shí)代 2013年8期

張滇岳磅江小燕毛睿

摘要：通過理論分析對(duì)全局和分布式索引架構(gòu)進(jìn)行了比較，分析了分布式全局索引架構(gòu)所能夠應(yīng)對(duì)的數(shù)據(jù)規(guī)模的上界和分布式局部索引架構(gòu)在特定數(shù)據(jù)規(guī)模下相應(yīng)最優(yōu)的機(jī)群規(guī)模等?？梢宰C明，在海量數(shù)據(jù)背景條件下，由于需要求交集的查詢結(jié)果數(shù)據(jù)量過大，會(huì)導(dǎo)致全局索引架構(gòu)在查詢結(jié)果求交集階段處理時(shí)間過長，以致信息檢索系統(tǒng)不能滿足用戶對(duì)系統(tǒng)響應(yīng)時(shí)間的需求，因此局部索引架構(gòu)會(huì)成為在面對(duì)海量數(shù)據(jù)時(shí)信息檢索系統(tǒng)的必然選擇。

關(guān)鍵詞：分布式索引；局部索引；全局索引；海量數(shù)據(jù)

中圖分類號(hào)：TP392 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1006-8228（2013）08-01-04

0 引言

信息檢索系統(tǒng)（IRS：Information Retrieval System）已成為人們?nèi)粘Ｉ詈蛯W(xué)習(xí)中經(jīng)常會(huì)使用到的工具（如文獻(xiàn)檢索、網(wǎng)頁檢索等）。隨著數(shù)據(jù)規(guī)模的增大，信息檢索系統(tǒng)開始采用分布式系統(tǒng)架構(gòu)來解決所面臨的大數(shù)據(jù)問題。由此而引出的索引如何在分布式系統(tǒng)之中組織與分布的問題即是分布式索引架構(gòu)問題。全局索引架構(gòu)（Global Index）與局部索引架構(gòu)（Local Index）是兩種最主要的分布式索引架構(gòu)，幾十年以來，大量的研究和實(shí)驗(yàn)對(duì)它們的優(yōu)缺點(diǎn)進(jìn)行了詳細(xì)分析與比較。

全局索引架構(gòu)針對(duì)整個(gè)數(shù)據(jù)集建立一個(gè)統(tǒng)一的索引，然后根據(jù)索引關(guān)鍵字的順序?qū)⑺饕蟹殖啥鄠€(gè)索引片段，每個(gè)索引片段存放在一個(gè)單獨(dú)的索引節(jié)點(diǎn)上。全局索引架構(gòu)在執(zhí)行一個(gè)檢索時(shí)所需要訪問的索引節(jié)點(diǎn)相對(duì)較少，但這也導(dǎo)致其每次讀取的數(shù)據(jù)量較大；由于數(shù)據(jù)的處理需要集中在中間節(jié)點(diǎn)上進(jìn)行，全局索引架構(gòu)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量更大；所有的數(shù)據(jù)處理操作集中在中間節(jié)點(diǎn)上執(zhí)行，在面對(duì)海量數(shù)據(jù)時(shí)這將成為全局索引架構(gòu)不能滿足用戶需求的關(guān)鍵瓶頸；由于是針對(duì)整個(gè)數(shù)據(jù)集建立倒排索引，因此在全局索引架構(gòu)在面對(duì)索引的更新與增量時(shí)相比局部索引架構(gòu)難度更大。

分布式局部索引架構(gòu)即是將大的數(shù)據(jù)集隨機(jī)或者按照一定的規(guī)則劃分成多個(gè)小數(shù)據(jù)集，針對(duì)每個(gè)小數(shù)據(jù)集建立單獨(dú)的索引塊，一般一個(gè)索引塊會(huì)存放在一個(gè)單獨(dú)的索引節(jié)點(diǎn)上。局部索引架構(gòu)的每個(gè)索引節(jié)點(diǎn)獨(dú)立的完成檢索，因此具有較好的容災(zāi)容錯(cuò)性能；在索引更新及增量時(shí)，由于其每個(gè)索引節(jié)點(diǎn)相互獨(dú)立，因此更新與增量的影響范圍較小；由于索引節(jié)點(diǎn)返回給中間節(jié)點(diǎn)的數(shù)據(jù)都是經(jīng)過處理的，因此相比全局索引架構(gòu)而言局部索引架構(gòu)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量更小。局部索引架構(gòu)的缺點(diǎn)在于檢索的開銷較大，其每一個(gè)檢索條件都會(huì)被發(fā)送到所有索引節(jié)點(diǎn)上去執(zhí)行。

混合索引架構(gòu)結(jié)合了全局索引架構(gòu)與局部索引架構(gòu)的優(yōu)點(diǎn)，但高度的數(shù)據(jù)冗余造成了極大的數(shù)據(jù)膨脹，在大多數(shù)的應(yīng)用當(dāng)中這一點(diǎn)通常無法被用戶接受；同時(shí)副本數(shù)量過多也導(dǎo)致數(shù)據(jù)的更新與增量難度更大。由于混合索引架構(gòu)的明顯缺陷，我們?cè)诤竺娴奈恼轮袑⒉辉賹?duì)其進(jìn)行分析。

1 相關(guān)工作

分布式索引架構(gòu)的研究從上世紀(jì)九十年代初開始，但早期有關(guān)分布式索引架構(gòu)[1，2，5，7，9]的研究由于存在數(shù)據(jù)量較少、硬件環(huán)境限制、應(yīng)用場(chǎng)景不同等問題，導(dǎo)致大家的研究結(jié)果有很大的分歧，對(duì)于當(dāng)前海量數(shù)據(jù)背景下分布式索引架構(gòu)研究的參考意義不大。Cambazoglu等在2006年通過實(shí)驗(yàn)結(jié)果[8]說明局部索引架構(gòu)有較快的響應(yīng)速度，而全局索引架構(gòu)的吞吐率較好，這和我們的觀點(diǎn)是一致的，但實(shí)驗(yàn)的結(jié)果是在較少的數(shù)據(jù)集上取得的（30GB），因此沒有說明全局索引架構(gòu)在響應(yīng)時(shí)間上問題的嚴(yán)重性。

文獻(xiàn)[3，4，7]等都是針對(duì)全局索引架構(gòu)進(jìn)行優(yōu)化，他們或者考慮如何減少網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量[3，6]，或者使用新的數(shù)據(jù)處理方式[4]，但都沒有從根本上解決全局索引架構(gòu)的時(shí)間延遲問題，而且用于實(shí)驗(yàn)的數(shù)據(jù)量都相對(duì)偏小，沒有以海量數(shù)據(jù)為應(yīng)用背景。

2 理論及分析

在介紹本文方法之前，先說明將用到的數(shù)據(jù)結(jié)構(gòu)。倒排索引記錄是Key-Value結(jié)構(gòu)的，其中Key是檢索關(guān)鍵字，Value是由數(shù)據(jù)項(xiàng)組成的有序集合。數(shù)據(jù)項(xiàng)的格式為（ID，score），其中ID表示某個(gè)檢索對(duì)象的編號(hào)（例如文檔編號(hào)），該檢索對(duì)象中含有檢索關(guān)鍵字Key，Value中的數(shù)據(jù)項(xiàng)都是依據(jù)ID排序的；score表示檢索關(guān)鍵字Key在該檢索對(duì)象中相關(guān)性的大小。實(shí)際應(yīng)用之中檢索關(guān)鍵字在一個(gè)檢索對(duì)象中的相關(guān)性信息比較復(fù)雜，我們?cè)谀M實(shí)驗(yàn)中簡(jiǎn)單的使用一個(gè)浮點(diǎn)型的非負(fù)數(shù)值score表示。

2.1 實(shí)現(xiàn)全局索引的關(guān)鍵步驟

在全局索引架構(gòu)下對(duì)用戶檢索的處理步驟如下。

⑴ 用戶提交檢索條件，檢索條件中含有一個(gè)或多個(gè)檢索關(guān)鍵字Key，中間節(jié)點(diǎn)分析檢索條件并將各個(gè)不同的檢索關(guān)鍵字Key發(fā)到其相對(duì)應(yīng)的索引節(jié)點(diǎn)；

⑵ 收到檢索關(guān)鍵字Key的索引節(jié)點(diǎn)即在倒排索引中檢索對(duì)應(yīng)的倒排記錄并將檢索結(jié)果返回給中間節(jié)點(diǎn)，檢索結(jié)果即是倒排記錄中Value；

⑶ 中間節(jié)點(diǎn)會(huì)收到多個(gè)檢索結(jié)果（Value），這些檢索結(jié)果都是以ID排序的數(shù)據(jù)項(xiàng)集合，中間節(jié)點(diǎn)以ID對(duì)這些數(shù)據(jù)項(xiàng)集合求交集，交集中數(shù)據(jù)項(xiàng)的相關(guān)性值（score）是原來各個(gè)集合中有相同ID的數(shù)據(jù)項(xiàng)的相關(guān)性值（score）之和；

⑷ 檢索對(duì)象返回給用戶時(shí)一般需要分頁，中間節(jié)點(diǎn)依據(jù)相關(guān)性值（score）的大小對(duì)交集中的數(shù)據(jù)項(xiàng)進(jìn)行排序，相關(guān)性值（score）大的數(shù)據(jù)項(xiàng)對(duì)應(yīng)的檢索對(duì)象會(huì)先返回給用戶，具體返回的檢索對(duì)象需要依據(jù)數(shù)據(jù)項(xiàng)中的ID查找得到。

磁盤讀取、網(wǎng)絡(luò)傳輸?shù)炔皇潜疚难芯康闹攸c(diǎn)。本文主要的關(guān)注點(diǎn)在于數(shù)據(jù)的處理過程，全局索引架構(gòu)對(duì)數(shù)據(jù)的處理主要是在中間節(jié)點(diǎn)上完成的。假設(shè)：

A.在一個(gè)用戶檢索里面會(huì)有m個(gè)檢索關(guān)鍵字（k1、k2…km）；

B.每個(gè)關(guān)鍵字ki所對(duì)應(yīng)的Value是由ni個(gè)數(shù)據(jù)項(xiàng)組成的串，設(shè)；

C.最終的交集里面有R個(gè)數(shù)據(jù)項(xiàng)。

根據(jù)假設(shè)，可知中間節(jié)點(diǎn)上求交集過程的計(jì)算操作次數(shù)約為n。如果對(duì)交集依據(jù)相關(guān)性大小進(jìn)行全排序的話，其時(shí)間復(fù)雜度為o（Rlog2R），但是一般情況下R較大，而用戶可能只需要查看最相關(guān)的幾個(gè)文檔，這樣我們既可以將相關(guān)性值（score）大的結(jié)果找出來并先返回給用戶，而不需要對(duì)全部的結(jié)果集進(jìn)行排序。具體操作上可以在求交集的過程中將相關(guān)性值（score）大于某個(gè)閾值的數(shù)據(jù)項(xiàng)存在一個(gè)桶里，求交集完成后只要先將桶里面的數(shù)據(jù)項(xiàng)依據(jù)其相關(guān)性值（score）的大小進(jìn)行排序即可，桶里面的數(shù)據(jù)項(xiàng)數(shù)量是應(yīng)用通過閾值控制的，一般遠(yuǎn)小于R。閾值一般由數(shù)據(jù)的規(guī)模和每次返回給用戶的檢索對(duì)象數(shù)量決定。

假設(shè)：

D.桶里面等待排序的數(shù)據(jù)項(xiàng)數(shù)量為R'。

則可以將全局索引架構(gòu)中間節(jié)點(diǎn)的計(jì)算操作次數(shù)tgm表示為：tgm=m+n+R'log2R'。

關(guān)鍵字的個(gè)數(shù)m大多數(shù)情況下都是個(gè)位數(shù)，相比較而言可以忽略不計(jì)；在海量數(shù)據(jù)背景下，n的大小可能是幾千萬、幾億，而存在桶里等待排序的數(shù)據(jù)項(xiàng)的個(gè)數(shù)一般只有幾百、幾千，因而n要遠(yuǎn)大于R'log2R'，因此也可以簡(jiǎn)單地認(rèn)為：tgm≈n。

2.2 實(shí)現(xiàn)局部索引的關(guān)鍵步驟

局部索引架構(gòu)對(duì)用戶檢索的處理過程相比全局索引架構(gòu)而言，在求交集等關(guān)鍵步驟上實(shí)現(xiàn)了并行化，其具體的處理過程如下。

⑴ 用戶提交檢索條件，中間節(jié)點(diǎn)將檢索條件發(fā)到每一個(gè)索引節(jié)點(diǎn)上；

⑵ 局部索引架構(gòu)索引節(jié)點(diǎn)所執(zhí)行的操作與全局索引架構(gòu)整個(gè)系統(tǒng)所執(zhí)行的操作相同，包括檢索條件的分析、檢索關(guān)鍵字查詢、檢索結(jié)果求交集、根據(jù)相關(guān)性值（score）對(duì)交集排序等，只不過這些操作都是本地執(zhí)行，最后索引節(jié)點(diǎn)將按相關(guān)性值排序后的檢索結(jié)果返回給中間節(jié)點(diǎn)；

⑶ 中間節(jié)點(diǎn)接收各個(gè)索引節(jié)點(diǎn)的檢索結(jié)果，這些檢索結(jié)果都是以相關(guān)性值大小排序后的數(shù)據(jù)項(xiàng)集合，中間節(jié)點(diǎn)依據(jù)相關(guān)性值（score）的大小對(duì)這些數(shù)據(jù)項(xiàng)集合進(jìn)行歸并排序，同樣，相關(guān)性值大的數(shù)據(jù)項(xiàng)對(duì)應(yīng)的檢索對(duì)象將優(yōu)先返回給用戶。

除使用2.1小節(jié)的假設(shè)條件外，這里再補(bǔ)充兩個(gè)假設(shè)：

E.分布式信息檢索系統(tǒng)中有N個(gè)索引節(jié)點(diǎn)；

F.每次返回給用戶的結(jié)果集中數(shù)據(jù)項(xiàng)的個(gè)數(shù)為M。

這里需要說明的一點(diǎn)是，M的值并不是分頁后一個(gè)頁面所展示的檢索對(duì)象的數(shù)量，一般而言M是一個(gè)頁面所展示檢索對(duì)象數(shù)量的倍數(shù)，比如10倍，用于應(yīng)對(duì)用戶可能的翻頁，而且M小于R'。

局部索引架構(gòu)索引節(jié)點(diǎn)所執(zhí)行的操作與全局索引架構(gòu)整個(gè)系統(tǒng)所執(zhí)行的操作相同，參考2.1小節(jié)的分析，可以將局部索引架構(gòu)索引節(jié)點(diǎn)的計(jì)算操作次數(shù)tli表示如下：

該表達(dá)式不一定準(zhǔn)確，因?yàn)椴豢赡苊總€(gè)索引節(jié)點(diǎn)在處理檢索時(shí)的時(shí)間復(fù)雜度都是一樣的，實(shí)際上由于局部索引架構(gòu)中數(shù)據(jù)的劃分是隨機(jī)的，具有較好的負(fù)載均衡，雖然會(huì)有偏差，但是可以接受。

與全局索引架構(gòu)一樣，局部索引架構(gòu)的索引節(jié)點(diǎn)也可以設(shè)置閾值，從而只需對(duì)桶里的R'個(gè)數(shù)據(jù)項(xiàng)進(jìn)行排序，索引節(jié)點(diǎn)在給中間節(jié)點(diǎn)返回?cái)?shù)據(jù)時(shí)，不必返回全部R'個(gè)數(shù)據(jù)項(xiàng)，只需返回前M個(gè)相關(guān)性值（score）較大的數(shù)據(jù)項(xiàng)即可。中間節(jié)點(diǎn)會(huì)收到N個(gè)數(shù)據(jù)項(xiàng)集合，每個(gè)集合M個(gè)元素，同樣，中間節(jié)點(diǎn)也只需歸并求出前M個(gè)相關(guān)性值（score）較大的數(shù)據(jù)項(xiàng)即可。

中間節(jié)點(diǎn)使用二路歸并算法對(duì)N個(gè)數(shù)據(jù)項(xiàng)集合進(jìn)行歸并排序，因?yàn)槎嗑€程并行處理時(shí)二路歸并是最優(yōu)的。局部索引架構(gòu)中間節(jié)點(diǎn)的計(jì)算操作次數(shù)tlm1可以表示如下：

tlm1的計(jì)算表達(dá)式是在線程并發(fā)度足夠大的情況下取得的，實(shí)際的線程并發(fā)度是由中間節(jié)點(diǎn)CPU總的核心線程數(shù)目決定的，假設(shè)：

G.中間節(jié)點(diǎn)核心線程數(shù)目為L。

中間節(jié)點(diǎn)共需要運(yùn)行N-1個(gè)線程，則更為精確計(jì)算操作次數(shù)tlm2可以表示如下：

在實(shí)際計(jì)算中，計(jì)算處理程序獨(dú)占整個(gè)CPU是最優(yōu)的情況，這種情況很難達(dá)到，所以tlm2的表達(dá)式中增加了一個(gè)系數(shù)eL和一個(gè)常數(shù)因子bL，并且有eL?1成立。具體eL和bL的值可以通過實(shí)驗(yàn)數(shù)據(jù)計(jì)算得到。

由于系統(tǒng)吞吐率、數(shù)據(jù)到達(dá)中間節(jié)點(diǎn)有先后等因素，可以考慮在中間節(jié)點(diǎn)上不使用多線程并行，而只是簡(jiǎn)單的串行執(zhí)行即可，這樣得到的中間節(jié)點(diǎn)計(jì)算操作次數(shù)tlm3可以表示如下：

tlm3=M*（N-1）

由于索引節(jié)點(diǎn)對(duì)檢索的處理都是并行的，因此只需考慮單個(gè)索引節(jié)點(diǎn)即可，結(jié)合中間節(jié)點(diǎn)上計(jì)算操作的執(zhí)行次數(shù)，則局部索引架構(gòu)下整個(gè)計(jì)算過程的計(jì)算操作次數(shù)tltx可表示如下：

tltx=eltxtli+tlmx+bltx（x=1，2，3）

當(dāng)tli=tlmx時(shí)，即中間節(jié)點(diǎn)與索引節(jié)點(diǎn)的計(jì)算操作次數(shù)相同時(shí)，但是由于二者計(jì)算過程的具體實(shí)現(xiàn)不同導(dǎo)致實(shí)際測(cè)得的計(jì)算時(shí)間是不同的，因此引入上述表達(dá)式中的平衡因子elt以及常數(shù)blt。平衡因子elt及常數(shù)blt可以結(jié)合實(shí)際的測(cè)量數(shù)據(jù)，利用線性回歸模型求出來，在2.3小節(jié)有更為詳細(xì)的分析。

分析比較全局索引架構(gòu)與局部索引架構(gòu)的計(jì)算操作，可以發(fā)現(xiàn)在海量數(shù)據(jù)背景條件下，局部索引架構(gòu)明顯優(yōu)于全局索引架構(gòu)。同時(shí)也應(yīng)該看到，針對(duì)同一個(gè)檢索，局部索引架構(gòu)使用的索引節(jié)點(diǎn)更多，一般情況下局部索引架構(gòu)相比全局索引架構(gòu)在處理一個(gè)檢索時(shí)的開銷更大。

2.3 分析局部索引的簇的大小

將局部索引架構(gòu)的計(jì)算操作次數(shù)tlt看成N的函數(shù)，即：

以執(zhí)行時(shí)間復(fù)雜度最小值為目標(biāo)，對(duì)于給定的n值（數(shù)據(jù)規(guī)模），可以求出最優(yōu)的N值（機(jī)群規(guī)模），該結(jié)論對(duì)于在具體應(yīng)用當(dāng)中確定分布式機(jī)群的規(guī)模有參考價(jià)值。

對(duì)于平衡因子eltx（x=1，2，3）需要結(jié)合試驗(yàn)數(shù)據(jù)利用線性回歸模型求解，這里先給出具體的回歸模型。實(shí)驗(yàn)時(shí)取tlmx=tli（x=1，2，3），即局部索引架構(gòu)索引節(jié)點(diǎn)與中間節(jié)點(diǎn)的計(jì)算操作次數(shù)相同，分別將二者的實(shí)際執(zhí)行時(shí)間記為tlmx（x=1，2，3）和Tli，elmx是Tlmx與tlmx的相關(guān)系數(shù)（x=1，2，3），eli是Tli與tli的相關(guān)系數(shù)，bli和blmx（x=1，2，3）都是常數(shù)因子，則回歸模型可表示如下（x=1，2，3）：

根據(jù)條件tlmx=tli（x=1，2，3），由上面的數(shù)學(xué)模型可得：

計(jì)算機(jī)的實(shí)際計(jì)算時(shí)間和算法時(shí)間復(fù)雜度的關(guān)系是線性的，所以文章中使用的是線性回歸模型。

2.4 數(shù)據(jù)擴(kuò)展和索引架構(gòu)的選擇

僅就計(jì)算的執(zhí)行時(shí)間分析，可以看出在海量數(shù)據(jù)背景下（即n的值較大時(shí)），局部索引架構(gòu)在計(jì)算執(zhí)行時(shí)間上相對(duì)于全局索引架構(gòu)有明顯的優(yōu)勢(shì)；但當(dāng)數(shù)據(jù)量較小時(shí)（即n的值較小時(shí)），這個(gè)優(yōu)勢(shì)并不明顯；可以預(yù)見當(dāng)n變小到一定程度時(shí)，全局索引架構(gòu)與局部索引架構(gòu)的執(zhí)行時(shí)間數(shù)據(jù)就會(huì)相同，這時(shí)n的值對(duì)于根據(jù)數(shù)據(jù)規(guī)模的大小決定采用哪一種索引架構(gòu)具有一定的參考價(jià)值；當(dāng)n的值再變小時(shí)，局部索引架構(gòu)的表現(xiàn)可能會(huì)比較差。

以上分析看似合情合理，但從另一個(gè)角度來考慮的話，就會(huì)發(fā)現(xiàn)問題并非如此。我們把局部索引架構(gòu)索引節(jié)點(diǎn)的個(gè)數(shù)N考慮進(jìn)來，那么關(guān)于執(zhí)行時(shí)間Y的方程就有兩個(gè)自變量（n與N）。由于局部索引架構(gòu)索引節(jié)點(diǎn)的計(jì)算操作與全局索引架構(gòu)中間節(jié)點(diǎn)的計(jì)算操作相同，取N為最優(yōu)值，那么當(dāng)數(shù)據(jù)規(guī)模變小（n的值變?。┑揭欢ǖ脑葧r(shí)，N一定會(huì)變?yōu)?，那么此時(shí)因?yàn)橹挥幸粋€(gè)索引節(jié)點(diǎn)，全局索引架構(gòu)與局部索引架構(gòu)就完全的相同了，因此計(jì)算的執(zhí)行時(shí)間也必然相同。

通過上面的分析可以發(fā)現(xiàn)，在N取最優(yōu)值的情況下，當(dāng)全局索引架構(gòu)與局部索引架構(gòu)的執(zhí)行時(shí)間相同時(shí)，局部索引架構(gòu)就會(huì)退化為全局索引架構(gòu)。

實(shí)際應(yīng)用之中的情況可能會(huì)不同，計(jì)算執(zhí)行時(shí)間的最優(yōu)值并不是用戶最為重要的目標(biāo)，由于全局索引架構(gòu)相對(duì)比較節(jié)省資源，所以在滿足應(yīng)用需求的情況下用戶可能更愿意使用全局索引架構(gòu)。

3 結(jié)束語

本文以海量數(shù)據(jù)為背景條件，研究了信息檢索系統(tǒng)中分布式索引組織架構(gòu)問題。通過分析說明了面對(duì)海量數(shù)據(jù)時(shí)分布式局部索引架構(gòu)是信息檢索系統(tǒng)的必然選擇，分布式全局索引架構(gòu)由于不可接受的時(shí)間延遲問題而被排除。本文對(duì)海量數(shù)據(jù)背景下分布式索引架構(gòu)問題的研究成果不僅僅適用于一般信息檢索系統(tǒng)，對(duì)于數(shù)據(jù)庫的多條件聯(lián)合查詢、相似性搜索中的度量空間索引等也有一定的參考意義，雖然應(yīng)用環(huán)境與具體的問題都不相同，但索引的分布式架構(gòu)組織問題是相同的。未來的工作我們希望可以在完善的實(shí)驗(yàn)環(huán)境下將分布式索引架構(gòu)的其他關(guān)鍵因素納入考慮范圍，例如磁盤讀取、網(wǎng)絡(luò)傳輸?shù)?。由于全局索引架?gòu)在檢索成本上占有優(yōu)勢(shì)，我們下一步的工作還包括優(yōu)化全局索引架構(gòu)的處理模式，目標(biāo)是通過優(yōu)化滿足用戶的需求。本文所有的討論與實(shí)驗(yàn)都是基于現(xiàn)有的軟、硬件環(huán)境，相信在未來，隨著計(jì)算機(jī)軟、硬件技術(shù)的發(fā)展，我們解決這些問題將會(huì)更加的便利。

參考文獻(xiàn)：

[1] RIBEIRO-NETO， B. AND BARBOSA， R. Query performance for tightly coupled distributed digital libraries.In Proceedings of the ACM Digital Libraries， Pittsburgh， PA， I. Witten， R. Akscyn， and F. M. S. III， Eds. 1998. ACM Press，182-190

[2] A. MacFarlane， J. McCann， and S. Robertson. Parallel search using partitioned inverted files. In Proceedings of the 7th International Symposium on String Processing and Information Retrieval， pages 209-220， La Coruna， Spain， September 2000. IEEE Computer Society.

[3] Zhang J， Suel T. Optimized inverted list assignment in distributed search engine architectures[C]. Parallel and Distributed Processing Symposium， 2007. IPDPS 2007. IEEE International. IEEE，2007：1-10

[4] Moffat A， Webber W， Zobel J， et al. A pipelined architecture for distributed text query evaluation[J]. Information Retrieval，2007.10（3）：205-231

[5] Badue C， Baeza-Yates R， Ribeiro-Neto B， et al. Distributed query processing using partitioned inverted files[C]. Proc. SPIRE，2001：10-20

[6] Kayaaslan E， Aykanat C. Efficient query processing on term-based-partitioned inverted indexes[R]. Technical Report BU-CE-1102， Bilkent University， Computer Engineering Department， 2011. Also available at： http：//www. cs. bilkent. edu. tr/tech-reports，2011.

[7] Xi W， Sornil O， Luo M， et al. Hybrid partition inverted files：Experimental validation[M]. Research and Advanced Technology for Digital Libraries. Springer Berlin Heidelberg，2002：422-431

[8] Cambazoglu B B， Catal A， Aykanat C. Effect of inverted index partitioning schemes on performance of query processing in parallel text retrieval systems[M] Computer and Information Sciences-ISCIS 2006. Springer Berlin Heidelberg，2006：717-725

[9] Tomasic A， Garcia-Molina H. Performance of inverted indices in shared-nothing distributed text document information retrieval systems[C].Parallel and Distributed Information Systems， 1993. Proceedings of the Second International Conference on. IEEE，1993：8-17

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

應(yīng)對(duì)海量數(shù)據(jù)檢索：分布式局部索引的架構(gòu)