(黑龍江大學信息管理學院 黑龍江哈爾濱 230051)
為了更深入地了解國內學界對信息檢索相關性的研究狀況,本文選用中國知網數(shù)據(jù)的可視化功能繪制信息技術領域(包括圖書情報領域)信息檢索相關性主題詞文獻的科學知識圖譜,對近15年(2002—2016)國內該領域的研究狀況進行了統(tǒng)計研究,并對研究過程中的缺失和改良對策進行了詳細的說明。
本文采用文獻計量法統(tǒng)計和分析信息技術領域(包括圖書情報)信息檢索相關性研究論文,借助文獻的內外部特征,采用文獻計量學中的洛特卡和布拉德福定律的期刊分布等,通過繪制知識結構圖譜來展現(xiàn)該范疇的研究特征以及研究的前沿領域。
為了提高查詢結果的準確度,在中國知網(CNKI)高級檢索界面上,采用邏輯與的檢索方法,運用檢索式主題=(信息檢索and相關性)(精確匹配)檢索2002—2016年中國信息技術領域相關文獻,共得到804篇。
利用中國知網的可視化功能繪制時序分布情況圖(如圖1),結合圖1和表1發(fā)現(xiàn),2004—2011年這一段時間是研究信息檢索相關性的熱潮階段,2011年達到高峰期,所占比例為11.7%,2012—2013年發(fā)文量有所下降,2014 年開始有所回升,所占比例8.4%。但是從2015—2016年發(fā)表的論文數(shù)量開始下滑,且2016年是近15年來發(fā)表信息檢索相關性論文最少的階段,可能在研究相關領域的問題時遇到了瓶頸。
圖1 文獻時序分布圖
表1 文獻時序分布統(tǒng)計表
對近15年的期刊文獻進行詞頻統(tǒng)計,并從中抽取55個高頻關鍵詞,其中關于信息檢索、搜索引擎、查詢擴展、相關性、本性、向量空間模型、文本分類等關鍵詞研究的文獻比較多,而關于相關性反饋、網絡蜘蛛、XML、分詞等方面研究的不多。由齊普夫定律可知,某學科相關論文關鍵詞出現(xiàn)的頻次和規(guī)律能顯示出學科學術研究的熱點以及預示未來發(fā)展趨勢[1]。(見圖2和表2)。
圖2 關鍵詞知識圖譜
表2 對信息檢索相關性詞頻較高的計量研究(部分)
根據(jù)文獻計量學的普賴斯定律,即普賴斯根據(jù)級數(shù)的性質提出的,(其中Nmax為高產作者論文數(shù))這是特洛卡定律的一個重要推論。從中國知網的可視化分析圖譜上可以看出來自江西師范大學的王明文和南京大學的成穎為最高高產作者,發(fā)文量都為8篇,最后得出M約等于2.12,把M向右取整約等于3,則可以得出發(fā)表論文量≥3的則為高產作者(見表3)。
表3 發(fā)文數(shù)在3篇以上的高產作者
由表3可知,高產作者中有來自南京大學的成穎和江西師范大學的王明文(8篇),大連理工大學的林鴻飛、南開大學的黃名遠(7篇),武漢大學的孫建軍(6篇),大連理工大學的林原、江西科技技師學院的王知津(5篇),還有武漢大學陸偉(4篇)等等,由此可知,高等學校專業(yè)教師和圖書館員是我國圖書情報領域信息檢索相關性研究的核心群體,他們擁有豐厚的知識蘊涵以及尖鉆的科研水平,是國內圖情領域信息檢索相關性研究的核心力量,但是公共圖書館對該領域的研究比較薄弱,應鼓勵相關人才加入公共圖書館進行理論分析與實證研究[2]。
通過中國知網的機構分布圖譜可以分析得出,哈爾濱工業(yè)大學發(fā)表的關于信息檢索相關性的論文最多(33篇),且處于領先的行列,可以說是該領域研究的高產機構。南京大學、北京郵電大學機構的發(fā)文量依次為28篇、25篇等等,如表4所示。
表4 文獻來源機構分布統(tǒng)計表(部分)
根據(jù)文獻計量學的洛特卡定律的關于作者地區(qū)結構與科學活動中心的應用,日本學者湯淺光朝提出各國科學論文作者人數(shù)和科學成果占全世界科學家和科學成果總數(shù)的比重作為規(guī)定科學活動中心的指標。他認為,當這個比例超過1/4時,則科學活動的中心轉入該國。但是為了研究我國某研究機構(某地區(qū))科學活動的活躍性,我引入了以下公式:設ci為我國i個機構或地區(qū)的作者人數(shù)(研究某一領域),N表示我國研究某一領域總人數(shù),C是兩者的結構相對數(shù),則:C=Ci/N ×100%。
華東地區(qū)包括我國的山東省、安徽省、江蘇省、浙江省、臺灣省、福建省、江西省和上海,具體的計量統(tǒng)計如表5所示。從表5上也可以看出華東地區(qū)的12所高校中研究信息檢索相關性論文的人數(shù)達到了19人,且在信息檢索相關性的研究方面也處于相對領先的地位,用公式可得,C=(19/55)×100%,計算比例為34.5%,而其他地區(qū)都低于25%,即我國華東地區(qū)是研究信息檢索相關性科學活動最高也是最活躍的地區(qū)。
表5 華東地區(qū)信息檢索相關性論文人數(shù)統(tǒng)計
文獻被引頻次是評價學術質量以及學術影響力的重要尺度。如果一篇文獻被引的頻次越高,說明該篇文獻對學術交流與學術研究的影響力越強[3]。統(tǒng)計結果見表6。
表6 文獻被引頻次統(tǒng)計
從表6可以看出,高被引文獻頻數(shù)大都發(fā)布在2012年之前,且均篇被引頻次最高的是2003年發(fā)表的論文,頻次達到了11.4。普賴斯關于“科學論文在發(fā)表后的2年才能達到被引用的峰值”的理論也從側面解釋了論文的被引頻次年代是遠期大于近期[4]。
為了更好地反映布拉德福關于圖書情報領域的期刊分布情況,現(xiàn)按照期刊進行搜索,文獻量共117篇。由布拉德福定律的定義可知:如果將科學期刊按其刊載某個學科的論文數(shù)量的大小,按照從大到小的順序排列,那么可以分為三個區(qū)域:核心區(qū),相關區(qū),邊緣區(qū),且期刊數(shù)量比成1:a:a2的關系[5]。將下面14種期刊按文獻數(shù)目分類分為3個區(qū)域,載文數(shù)量共為 82篇,如表7所示。
表7 載文期刊分布
由此可以得出:p1:p2:p3=1:a:a2,以上三個區(qū)域期刊數(shù)目比為p1:p2:p3等于3:4:7,即為1:1.33:2.33。何榮利[6]指出“由于期刊文獻分布規(guī)律的發(fā)展,在大部分研究領域中,期刊文獻分布的三個區(qū)域中,期刊數(shù)量的比例已不再呈現(xiàn)整數(shù)關系”,可將以上結果近似看作1/1.33/1.332,其中常數(shù)a為1.33。再按照布氏定律的圖像描述法公式n1/(n1+n2)/(n1+n2+n3)=1:b:b2,即n1/(n1+n2)/(n1+n2+n3)等于3/7/14,即為1/2.33/4.67,同樣近似等于1/2.16/2.162,其中常數(shù)b為2.16,滿足布拉德福定律的圖像描述規(guī)律。
為了了解國內期刊論文、碩博論文、會議論文對信息檢索相關性研究的分布情況,通過中國知網進行統(tǒng)計檢索共得到相關論文804篇,具體分布如表8所示。
表8 文獻來源分布統(tǒng)計
從表8可以看出來,804篇文獻中,碩博士學位論文占比61%,占據(jù)了檢索總文獻的一半多,說明各高校碩博士研究生對信息檢索相關研究作出了重要貢獻,也是該研究范疇的主要群體。從表7可以看出,圖書情報中關于信息檢索相關性的論文達到了82篇,其中10.1%出自圖書情報領域的核心期刊 (基于CNKI 核心期刊統(tǒng)計),雖然所占比例較小,但是從中國知網上也不難看出它們的引用頻次較高,也充分體現(xiàn)了核心期刊的重要研究價值地位。
一方面,用戶不僅需要對所查找的信息有一個明確的認識,更需要將這種認識明確表達出來,也就是要提高用戶對信息需求的表達能力。往往含糊的信息需求表達可以提高信息檢索的相關性。而較準確的信息需要表達反而會降低相關性的準確度。另一方面,用戶在進行信息檢索之前,應該針對自己的信息需求確定最適合自己的檢索系統(tǒng),也就是說應加強用戶對檢索系統(tǒng)的選擇能力。最后,提高用戶的知識理解水平。當用戶檢索時,可以結合自身知識水平和已有的文獻材料判斷檢索結果的相關性程度。
(1)系統(tǒng)設計的角度。在檢索系統(tǒng)構造過程中,應該以用戶信息需要為導向,盡量做到便于用戶使用。信息檢索過程中相關性的好與壞以及信息檢索相關性的不確定因素都是由用戶判斷和引起的,為了減少其不確定性因素,我們應該建立以用戶為中心的思維模式。
(2)算法優(yōu)化的角度。鏈接分析法因其具有的高效率以及應用引文檢索語言的原理,在關鍵詞文本匹配的基礎上,利用Web超鏈接結構,從一個網頁鏈接到另一個網頁,并對它們之間的關系進行分析,以此明確該網頁在檢索結果中的等級。Google和百度正是采用了這種獨特的方法。
(3)提供智能的信息引導功能。根據(jù)用戶信息需求確定用戶檢索的信息領域,為用戶提供詳實、準確的信息分類知識。對于不同的用戶而言,檢索系統(tǒng)會學習用戶提交的關鍵詞和相關信息,并收錄在其用戶模型之中;當用戶再一次提交信息需求任務時,系統(tǒng)會自動跳出用戶相關的關鍵詞,讓用戶點擊確認,避免用戶操作頻繁。
研究表明,信息檢索相關性在國內的研究雖然卓有成效,但主要集中在研究的理論層面,而在實踐方面的研究欠缺,理論研究和實踐應用不能有效結合。在大數(shù)據(jù)環(huán)境下,以用戶信息需求為基礎,簡化計算機檢索系統(tǒng)設計算法,朝著系統(tǒng)和用戶需求的雙重設計理念出發(fā),是解決信息檢索相關性的必要渠道。