徐建民,王丹青,謝朋林
(河北大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,河北 保定 071002)
基于科技文獻(xiàn)引用關(guān)系擴(kuò)展的信念網(wǎng)絡(luò)模型
徐建民,王丹青,謝朋林
(河北大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,河北 保定 071002)
信念網(wǎng)絡(luò)信息檢索模型提供了一個可以組合不同證據(jù)的基本框架,通過組合證據(jù)可有效提高檢索效果.科技文獻(xiàn)之間的引用關(guān)系是一種有價值的信息.本文把這種引用關(guān)系量化為文獻(xiàn)關(guān)注度和文獻(xiàn)價值度,并將其作為證據(jù)擴(kuò)展基本信念網(wǎng)絡(luò)模型.考慮到文檔內(nèi)容證據(jù)、關(guān)注度和價值度對查詢結(jié)果排序的影響不同,引入了2個系數(shù)α和β來調(diào)整3種證據(jù)在排序中的作用大小.實驗通過樣本訓(xùn)練確定了α和β的最優(yōu)值,驗證了擴(kuò)展模型的有效性,并分析了擴(kuò)展模型用and和or方式組合證據(jù)的優(yōu)劣.
信念網(wǎng)絡(luò);信息檢索;引用關(guān)系
信念網(wǎng)絡(luò)模型[1](belief network model)是由Ribeiro和Muntz在1996年提出的信息檢索模型,該模型具有很大的靈活性,可用于表示任何經(jīng)典的信息檢索模型,即布爾模型、向量模型和概率模型.此外,該模型可以方便地組合不同的證據(jù)信息,形成擴(kuò)展模型.
提取并組合合理的證據(jù)信息是對基本信念網(wǎng)絡(luò)模型進(jìn)行擴(kuò)展的基本方法.文獻(xiàn)[1]將用戶過去的查詢結(jié)果作為證據(jù)擴(kuò)展了基本信念網(wǎng)絡(luò)模型,得到了良好的檢索效果.Kleinberg的研究[2]定義了表示鏈接信息的網(wǎng)頁權(quán)威度和中心度概念,并提出了著名的HITS算法,這些信息已被Silva和Ribeiro應(yīng)用于Web信息檢索[3-4],同樣得到了很好的效果.在信息檢索中,合理考慮術(shù)語之間的關(guān)系是一種有效地提高檢索性能的方法[5],如文獻(xiàn)[6]依據(jù)同義詞詞林得到術(shù)語的同義詞,并將其作為證據(jù)擴(kuò)展基本信念網(wǎng)絡(luò)模型.文獻(xiàn)[7]依據(jù)領(lǐng)域本體得到了術(shù)語的本體關(guān)聯(lián)詞,將其作為證據(jù)對基本信念網(wǎng)絡(luò)模型進(jìn)行擴(kuò)展.
科技文獻(xiàn)的引用關(guān)系是一種類似于網(wǎng)頁間鏈接關(guān)系的有價值信息[8],這種信息應(yīng)用于信息檢索同樣會起到積極作用.本文將量化的科技文獻(xiàn)引用關(guān)系作為證據(jù)擴(kuò)展基本信念網(wǎng)絡(luò)模型,得到了基于科技文獻(xiàn)引用關(guān)系擴(kuò)展的信念網(wǎng)絡(luò)模型,并通過實驗驗證了其有效性.
如圖1所示,基本信念網(wǎng)絡(luò)模型包括3類節(jié)點(diǎn):查詢節(jié)點(diǎn)q、術(shù)語節(jié)點(diǎn)ki(1≤i≤t)和文檔節(jié)點(diǎn)dj(1≤j≤n).有向邊用于表示索引關(guān)系,如果從術(shù)語節(jié)點(diǎn)ki指向查詢節(jié)點(diǎn)q,則表明該用戶查詢中包含索引術(shù)語ki,從術(shù)語節(jié)點(diǎn)ki指向文檔節(jié)點(diǎn)dj表示術(shù)語ki是文檔dj的索引術(shù)語之一.
圖1 基本信念網(wǎng)絡(luò)模型
基本信念網(wǎng)絡(luò)模型的樣本空間由所有索引術(shù)語組成,即U={k1,k2,…,kt},其中t為U中術(shù)語的個數(shù).每一個術(shù)語稱為一個基本概念,若干個術(shù)語的集合稱為概念.用戶查詢q和每個文檔dj都是由1個或多個術(shù)語構(gòu)成的,都可以看作是U中的一個概念,因此U也被稱為概念空間.
信息檢索的過程可以看作是用戶查詢q與文檔概念dj的匹配過程,由式(1)可得查詢結(jié)果的排序依據(jù).
(1)
在具體實施中,對P(dj|u)和P(q|u)的計算做出不同的規(guī)定將得到不同的經(jīng)典信息檢索模型,如令
(2)
(3)
P(u)=(1/2)t,
(4)
其中,wi,d是術(shù)語ki在文檔d中的tf-idf權(quán)重,wi,u是術(shù)語ki在概念u中的權(quán)重.將公式(2),(3),(4)代入公式(1)即可得到向量模型的計算式.
2.1引用關(guān)系分析
科技文獻(xiàn)間的引用關(guān)系具有以下4個特點(diǎn):
1)存在引用關(guān)系的科技文獻(xiàn)多數(shù)情況下屬于同一個主題,但也存在跨主題的情況;
2)科技文獻(xiàn)之間的引用關(guān)系是跨越一定時間段的,即一個文獻(xiàn)只能引用比它更早發(fā)表的文獻(xiàn),該文獻(xiàn)和其引用的文獻(xiàn)在時間上跨越了一定時間段;
3)科技文獻(xiàn)發(fā)表后,它的內(nèi)容是無法修改的,它的引用關(guān)系也就不能改變;
4)引用關(guān)系隱含著文獻(xiàn)的重要程度.如果一篇文獻(xiàn)被許多同領(lǐng)域的文獻(xiàn)引用說明該文獻(xiàn)受到了廣泛的關(guān)注,是該領(lǐng)域重要的文獻(xiàn).如果一篇文獻(xiàn)引用了若干同領(lǐng)域的重要文獻(xiàn),則通過它可以找到重要文獻(xiàn),說明此文獻(xiàn)在該領(lǐng)域中也是有價值的.因此,通過引用關(guān)系可以知道一篇文獻(xiàn)在該領(lǐng)域中的重要程度.
圖2描述了科技文獻(xiàn)引用關(guān)系,圖中節(jié)點(diǎn)表示文獻(xiàn),越靠上,發(fā)表時間越早.引用關(guān)系用帶權(quán)重的有向邊表示,例如文獻(xiàn)2指向了文獻(xiàn)1,說明文獻(xiàn)2引用了文獻(xiàn)1.邊的權(quán)重代表2篇文獻(xiàn)主題的緊密程度,權(quán)值越大,說明2篇文獻(xiàn)主題越緊密.
圖2 引用關(guān)系示意
2.2引用關(guān)系的定義
文獻(xiàn)[9]給出了關(guān)注度和價值度的定義,但不夠規(guī)范,下面重新給出二者的定義:
定義1 關(guān)注度:科技文獻(xiàn)D在其所屬領(lǐng)域的關(guān)注度定義為它被該領(lǐng)域其他文檔引用的程度,記為attention.
定義2 價值度: 科技文獻(xiàn)d在其所屬領(lǐng)域的價值度定義為它對該領(lǐng)域其他文檔的參考程度,記為value.
由引用關(guān)系的分析和關(guān)注度、價值度的定義可知,一篇文獻(xiàn)被同領(lǐng)域價值度高的文獻(xiàn)引用次數(shù)越多,則該文獻(xiàn)的關(guān)注度越大;一篇文獻(xiàn)引用的同領(lǐng)域關(guān)注度高的文獻(xiàn)數(shù)量越多,則該文獻(xiàn)的價值度越大.綜上,文獻(xiàn)的關(guān)注度受到3個因素的影響:1)文獻(xiàn)被引用的次數(shù);2)引用該文獻(xiàn)的文獻(xiàn)的價值度;3)引用文獻(xiàn)和被引用文獻(xiàn)之間的主題緊密程度.同樣,文獻(xiàn)的價值度也受到3個因素的影響:1)文獻(xiàn)的引用文獻(xiàn)數(shù)量;2)該文獻(xiàn)引用文獻(xiàn)的關(guān)注度;3)引用文獻(xiàn)和被引用文獻(xiàn)之間的主題緊密程度.
每篇文獻(xiàn)都會引用其他文獻(xiàn),也可能被其他文獻(xiàn)引用,所以每篇文獻(xiàn)都有一個關(guān)注度值和一個價值度值.本文將科技文獻(xiàn)的關(guān)注度和價值度作為證據(jù)對基本模型進(jìn)行擴(kuò)展,得到了擴(kuò)展的信念網(wǎng)絡(luò)檢索模型.
3.1拓?fù)浣Y(jié)構(gòu)
基于引用關(guān)系擴(kuò)展的信念網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)如圖3所示,左側(cè)部分是基本信念網(wǎng)絡(luò)模型.文檔節(jié)點(diǎn)di改寫為dcj,表示以文檔內(nèi)容為證據(jù)得到的查詢結(jié)果.右側(cè)增加了一組關(guān)注度節(jié)點(diǎn)daj和一組價值度節(jié)點(diǎn)dvj,它們組成的空間A和V分別代表文獻(xiàn)的關(guān)注度和價值度證據(jù).
當(dāng)用戶提出查詢時,依據(jù)拓?fù)浣Y(jié)構(gòu)將結(jié)合證據(jù)C、證據(jù)A和證據(jù)V計算每篇文檔和查詢的相關(guān)度,對于證據(jù)的結(jié)合可以采用析取、合取2種方法[10],后面的實驗將對2種方式的優(yōu)劣進(jìn)行驗證.
圖3 基于引用關(guān)系擴(kuò)展的信念網(wǎng)絡(luò)模型
3.2概率推導(dǎo)
本文的擴(kuò)展模型仍采用P(dj|q)作為最終排序依據(jù).由于擴(kuò)展模型的證據(jù)來自3方面,即基于文檔內(nèi)容、基于文檔關(guān)注度和基于文檔價值度,因此公式(1)中的P(dj|u)在擴(kuò)展模型中需要賦予新的含義.
在擴(kuò)展模型中,令P(daj|u)表示關(guān)注度證據(jù),取值為文獻(xiàn)dj的關(guān)注度值;令P(dvj|u)表示價值度證據(jù),取值為文獻(xiàn)dj的價值度值;仍令P(dcj|u)表示基于文獻(xiàn)內(nèi)容的證據(jù),其計算方法同公式(3).3種證據(jù)均為0到1之間的數(shù)值,可以單獨(dú)作為排序依據(jù),也可以將其進(jìn)行組合.如果進(jìn)行組合,組合方式有2種,即:合取和析取.合取用and表示,含義是集合求交;析取用or表示,含義是集合求并.采用不同的組合方式可以得到不同的排序計算式.
當(dāng)使用and方式組合證據(jù)時,含義是如果一篇文獻(xiàn)的3種證據(jù)值都相對比較大,它的最終排序就應(yīng)當(dāng)更靠前.依據(jù)這個思想和條件概率可得以下公式:
P(dj|u)=P(dcj|u)×P(daj|u)×P(dvj|u).
(6)
代入公式(1)可得
P(dj|q)=η∑u[P(dcj|u)×P(daj|u)×P(dvj|u)]×P(q|u)×P(u).
(7)
此公式存在一個問題,即擴(kuò)展進(jìn)來的關(guān)注度證據(jù)和價值度證據(jù)如果有1個取值為0,即使文獻(xiàn)內(nèi)容證據(jù)很大,P(dj|q)值也將為0,這明顯是不合理的.針對這個問題,對公式(7)進(jìn)行如下修正:
(8)
當(dāng)使用or方式組合證據(jù)時,含義是如果一篇文獻(xiàn)3種證據(jù)中有一種的值比較大,它的最終排序應(yīng)當(dāng)靠前些.此操作相當(dāng)于求3個集合的并集,由條件概率可得公式
P(dj|u)=1-[(1-P(dcj|u))×(1-P(dcj|u))×(1-P(dvj|u))],
(9)
代入公式(1)可得
P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-P(daj|u))×(1-P(dvj|u))]}×P(q|u)×P(u).
(10)
信息檢索就是要查找同查詢術(shù)語匹配的文檔,內(nèi)容的相似程度是最重要的因素,對最終排序起主要作用,文檔關(guān)注度和價值度只能作為輔助證據(jù),對最終排序起次要作用.由關(guān)注度和價值度的定義可知,關(guān)注度高的文獻(xiàn)被廣泛引用,一定是重要的;價值度高的文獻(xiàn)引用了很多有重要的文獻(xiàn),但它本身內(nèi)容不一定很重要.因此,關(guān)注度所起的作用應(yīng)當(dāng)大于價值度.
考慮到文檔內(nèi)容、關(guān)注度和價值度對查詢結(jié)果排序的影響大小不同,故增加了2個系數(shù)α和β來調(diào)整3種證據(jù)在排序中所起作用的大小.α代表關(guān)注度相對于內(nèi)容證據(jù)作用的大小,β代表價值度相對于關(guān)注度證據(jù)作用的大小,其值均在0到1之間.由于公式(8)乘以任何系數(shù)都不會影響最終排序結(jié)果,因此and組合方式?jīng)]有辦法調(diào)整3種證據(jù)的作用大小.對于or組合方式,公式(10)加上調(diào)節(jié)系數(shù)后變?yōu)?/p>
P(dj|q)=η∑u{1-[(1-P(dcj|u))×(1-α×P(daj|u))×(1-α×β×P(dvj|u))]}×P(q|u)×P(u).
(11)
公式(8)和公式(11)中P(q|u),P(dcj|u),P(u)可分別由公式(2),(3),(4)計算.
4.1測試集
實驗采用的測試集是從中國知網(wǎng)下載的679篇科技文獻(xiàn),其內(nèi)容涉及計算機(jī)技術(shù)、數(shù)據(jù)挖掘、軟件工程、計算機(jī)網(wǎng)絡(luò)、信息檢索等領(lǐng)域.測試集中的文獻(xiàn)在邏輯上形成多個文獻(xiàn)簇,每個文獻(xiàn)簇內(nèi)的所有文獻(xiàn)之間都存在著直接或間接的引用關(guān)系.在程序中每篇文獻(xiàn)以文檔向量的形式出現(xiàn),即di={(ki1,wi1),(ki2,wi2),…,(kit,wit)}.文檔di的關(guān)注度和價值度表示為di(attentioni,valuei).
測試集還包括10個由自然語言構(gòu)成的查詢,對于這些查詢分別構(gòu)建了相關(guān)文檔集,即通過人工主觀判斷的方式為每個查詢找出相關(guān)文檔集合.程序通過對查詢結(jié)果文檔集中每篇文檔與相關(guān)文檔集進(jìn)行對比,就可以判斷檢出的文檔是否為相關(guān)文檔,從而可以計算查準(zhǔn)率/查全率[11].
4.2實驗過程
圖4 查準(zhǔn)率/查全率曲線Fig.4 Precision/Recall curve
在實驗過程中,程序分別按基本模型、擴(kuò)展模型的and和or組合方式進(jìn)行.每種方式都輸入準(zhǔn)備好的10個查詢,并將結(jié)果從大到小排序顯示到一個表格中,結(jié)合排序結(jié)果和該查詢的相關(guān)文檔集計算出對應(yīng)的查準(zhǔn)率/查全率.然后對這10個查詢的查準(zhǔn)率/查全率求取平均值,該平均值連成的曲線即代表指定方式的檢索效果.圖4直觀地顯示出了3種方式的優(yōu)劣.
對于or組合方式,需要找出其調(diào)節(jié)系數(shù)α和β的最優(yōu)值.因此,在運(yùn)用or組合方式進(jìn)行計算時,實驗對α和β選取不同的值進(jìn)行多次驗證,最終找出其最優(yōu)值.
4.3實驗結(jié)果及分析
由于α和β不同值的組合方式非常多,依次測試每種組合不是科學(xué)的方法.本文考慮到關(guān)注度作用大于價值度,故先令β=0,α分別取值0.9到0.1,先找出關(guān)注度的最優(yōu)系數(shù).此時or組合方式的查準(zhǔn)率/查全率值如表1.
表1 α不同取值情況下的查準(zhǔn)率/查全率值
觀察可知,當(dāng)α=0.5時,檢索效果最優(yōu).然后再令α=0.5,β分別取值0.8,0.6,0.5,0.4,0.2,0.1.由結(jié)果可知,當(dāng)β=0.5時,檢索效果最好.因此選定α=0.5,β=0.5作為最優(yōu)調(diào)節(jié)系數(shù).
當(dāng)α=0.5,β=0.5時,擴(kuò)展模型同基礎(chǔ)模型的比較如圖4所示.
圖4顯示的and組合方式僅在查全率低的情況下具有比較高的查準(zhǔn)率,其他情況下的查準(zhǔn)率都比原始模型和or組合方式低.原因是由于它的計算方式?jīng)]有辦法調(diào)整3種證據(jù)影響作用的大小,無法使內(nèi)容證據(jù)起主要作用,一些具有較高關(guān)注度或價值度而內(nèi)容證據(jù)不高的文檔排到了前面,導(dǎo)致了整體查準(zhǔn)率都比較低.
or組合方式在所有查全率情況下幾乎都具有比原始模型更高的查準(zhǔn)率.or組合方式加上調(diào)節(jié)系數(shù)后,考慮了內(nèi)容證據(jù)起主要作用,關(guān)注度和價值度證據(jù)起次要作用,并且關(guān)注度作用大于價值度作用,所以檢索性能最優(yōu).因此擴(kuò)展模型的or組合方式在一定的調(diào)節(jié)參數(shù)范圍內(nèi)檢索性能是優(yōu)于原始模型的,調(diào)節(jié)參數(shù)的最優(yōu)值為α=0.5,β=0.5.
將科技文獻(xiàn)的關(guān)注度和價值度作為證據(jù)應(yīng)用到信念網(wǎng)絡(luò)模型的擴(kuò)展中,分析了擴(kuò)展模型的2種組合證據(jù)的方法,并通過實驗證明or組合方式在一定的調(diào)節(jié)系數(shù)作用下,可以有效提高檢索性能.但本文仍有一些不足之處需要在以后的研究中繼續(xù)完善,如實驗中使用的測試集規(guī)模不夠大、求取α和β的過程比較繁瑣等.
[1]BERTHIER RIBEIRO-NETO, RICHARD MUNTZR.A belief network model for IR[Z].Proceedings of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval,Zurich,Switzerland,1996.
[2]KLEINBERG.Authoritative sources in a hyperlinked environment[Z].Proceedings of the 9th Annual ACM-SIAM Symposium on Discrete Algorithms, San Francisco, California, 1998.
[3]SILVA I,RIBEIRO B,CALADO P, et al.Link-based and content-based evidential information in a belief network Model[Z].Proceedings of 23rd annual international ACM SIGIR conference on Research and development in information retrieval, New York,USA,2000.
[4]CALADO P, ZIVIANI N.Local versus global Link information in the web[J].ACM Transactions on Information Systems, 2003(1):42-63.
[5]徐建民,唐萬生,陳振亞.貝葉斯網(wǎng)絡(luò)在信息檢索中的應(yīng)用[J].河北大學(xué)學(xué)報:自然科學(xué)版,2007,27(1):93-98.
XU Jianmin,TANG Wansheng,CHEN Zhenya.Application of Bayesian network for information retrieval[J].Journal of Hebei University:Natural Science Edition,2007,27(1):93-98.
[6]徐建民,吳樹芳,白彥霞.一個基于同義詞證據(jù)擴(kuò)展的信念網(wǎng)絡(luò)檢索模型[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版,2006,24(4):9-13.
XU Jianmin,WU Shufang,BAI Yanxia.A belief network retrieval model expanded with Synonym-based evidence[J].Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):9-13.
[7]XU Jianmin, TIAN Jinkun, ZHANG Yanchun,et al.Using ontology evidences to extend belief network IR model[J].Proceedings of 10th Computer Application and System Modeling(ICCASM),2010,10:31-35.
[8]XU Jianmin, FU Tingting, LI Huan.Application of extended belief network model for scientific document retrieval[Z].Proceedings of 6th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD’09) , Tianjin,2009.
[9]付婷婷.用于科技文獻(xiàn)檢索的擴(kuò)展信念網(wǎng)絡(luò)模型[D].保定:河北大學(xué),2010.
FU Tingting.Application of extended belief network model for scientific document retrieval[D].Baoding: Hebei University ,2010.
[10]吳樹芳,劉永立,朱杰,等.信念網(wǎng)絡(luò)檢索模型擴(kuò)展研究[J].計算機(jī)工程與應(yīng)用,2009,45(10):151-153.
WU Shufang, LIU Yongli, ZHU Jie, et al.Extended research on belief network retrieval model[J].Computer Engineering and Applications,2009,45(10):151-153.
[11]RICARDO BAEZA-YATES,BERTHIER RIBEIRO-NETO,等.現(xiàn)代信息檢索[M].北京:機(jī)械工業(yè)出版社,2005.
Extendedbeliefnetworkmodelbasedonreferencerelationshipofscientificliteratures
XUJianmin,WANGDanqing,XIEPenglin
(College of Mathematics and Computer, Hebei University, Baoding 071002, China)
The belief network retrieval model which provides a framework for combining different evidences is advantageous to improve retrieval effectiveness.The reference relationship between scientific literatures is a kind of valuable information.This reference relationship was quantified as attention and value in this paper, and it was the evidence for extending the belief network model.Consider the affections of the document content, attention and value were different for the sort of query results, we introduced two coefficients and to adjust the role of the three kinds of evidence for the sort.In our experiments, we determined the optimal value of and through certain sample training, testified the effectiveness of our extending model, and we also analyzed the advantages and disadvantages of the evidences combined byandandor.
belief network; information retrieval; reference relationship
10.3969/j.issn.1000-1565.2013.01.015
2012-09-10
中國博士后科學(xué)基金資助項目(20070420700)
徐建民(1966-),男,河北館陶人,河北大學(xué)教授,主要從事信息檢索、不確定信息處理方向研究.
E-mail:hbuxjm@hbu.cn
TP391
A
1000-1565(2013)01-0077-07
(責(zé)任編輯孟素蘭)