●溫芳芳(山西大學(xué)經(jīng)濟與管理學(xué)院,太原 030006)
2008-2013國外信息檢索研究知識圖譜分析
●溫芳芳(山西大學(xué)經(jīng)濟與管理學(xué)院,太原030006)
[關(guān)鍵詞]信息檢索;知識圖譜;研究熱點;CiteSpaceII 2.5高頻及 是主題論文核心內(nèi)容的凝練與濃縮,對某研究領(lǐng)域高頻 利用CiteSpaceII構(gòu)建知識圖譜(圖略), 表42008~2013年信息檢索領(lǐng)域高頻序號 通過高頻和 知識圖譜分析 的揭示能挖掘主題的研究熱點。通過作者之間構(gòu)建的 節(jié)點越大其被使用的頻次越高。通過中心性分析發(fā)現(xiàn),中心度較高的 頻次序號 知識圖譜分析,結(jié)合信息檢索相關(guān)理論,可以判斷2008~2013年國外信息檢索研究主要有六大熱點或前沿性主題。 網(wǎng)絡(luò)可以發(fā)現(xiàn)文章之間的內(nèi)部聯(lián)系和主題研究的前沿。表4是2008~2013年信息檢索領(lǐng)域研究論文頻次不小于23的關(guān)鍵詞,從中可以看出主題領(lǐng)域研究集中在網(wǎng)絡(luò)信息檢索、用戶檢索需求與行為、檢索模型、信息檢索系統(tǒng)、信息檢索技術(shù)、信息檢索決策、信息檢索分類、信息檢索相關(guān)性研究、醫(yī)療健康信息檢索等方面。 有需求(needs)、參與(participation)、設(shè)計(design)、癌癥病人(cancer-patients)、科學(xué)家(scientists)、模型(patterns)、視角(perspective)、查找(seeking)、偏好(preferences)、系統(tǒng)(systems)、決策(decision-making)、癌癥(cancer)、焦點小組(focus groups),它們的中心度在0.59以上,節(jié)點“focus groups”與下一個節(jié)點的中心度之差達(dá)0.22。通過圖的中心勢概念,利用各點中心度差異便于發(fā)現(xiàn)圖的核心點。這樣可以判斷這部分節(jié)點的關(guān)鍵詞是信息檢索研究人員關(guān)注的焦點,即用戶檢索行為、信息檢索模型、信息檢索系統(tǒng)、健康信息檢索及信息檢索決策研究等是近年來該領(lǐng)域科研人員研究的熱點。從參與者、科學(xué)家、焦點小組這些關(guān)鍵詞得知該研究領(lǐng)域使用較多的是觀察、實驗等實證性的研究方法。處于較邊緣的詞雖然不是大多信息檢索科研工作者關(guān)注的熱點,但反映了新興領(lǐng)域和前沿性問題,如本體(ontology)、數(shù)據(jù)融合(data fusion)、社交媒體(social media)、算法(algorithm)、網(wǎng)絡(luò)使用(internet use)、策略(strategies)、焦慮癥(anxiety)、消費者(consumer)、經(jīng)驗(experience)、生命(life)等。 頻次1 Information retrieval173 17 Decision-making35 2 Internet126 18 System32 3 Behavior92 19 Science32 4 Model90 20 Quality31 5 Knowledge76 21 Relevance30 6 Needs66 22 Cancer27 7 Communication65 23 Models26 8 Information seeking64 24 Breast-cancer25 9 Care55 25 Health24 10 Search54 26 Classification24 11 Systems51 27 Online24 12 Impact47 28 National trends survey 24 13 Retrieval42 29 Technology23 14 Health information39 30 Perspective23 15 Performance35 31 Algorithms23 16 Design32 32 Management23
[摘要]以SCI、SSCI收錄的文獻(xiàn)題錄為數(shù)據(jù)樣本,借助可視化工具CiteSpaceII辨識2008~2013年信息檢索研究文獻(xiàn)在年代、國家/地區(qū)、機構(gòu)、作者方面的特征分布,通過對高頻關(guān)鍵詞及其中心性分析,探析國外信息檢索研究的熱點與前沿。
本文數(shù)據(jù)來源于美國科學(xué)情報研究所(Institute for Scientific Information,ISI)出版的Web of Science數(shù)據(jù)庫。檢索策略:主題=“information retrieval”or “information seeking”or“information search”;數(shù)據(jù)庫= (SCI-EXPANDED,SSCI);入庫時間=2008-2013(檢索日期2014年2月22日)。檢索結(jié)果:獲得文獻(xiàn)1306篇。鑒于研究主題關(guān)注國外信息檢索研究進(jìn)展與趨勢,因而只選擇文獻(xiàn)類型為Article、Review、Proceeding Paper的1086篇論文。
本研究采用文獻(xiàn)計量方法,使用美國Drexel大學(xué)陳超美博士團隊開發(fā)的可視化分析工具CiteSpaceII繪制知識圖譜。將2008~2013年間1086篇文獻(xiàn)的題錄信息包括題目、作者、關(guān)鍵詞、摘要、參考文獻(xiàn)、引用頻次等保存為純文本文件,通過導(dǎo)入CiteSpaceII,將時區(qū)分割(Time Slicing)設(shè)置為2008~2013,單個時間分區(qū)的長度(#Years Per Slice)設(shè)置為1年;主題詞來源選擇為標(biāo)題、摘要和關(guān)鍵詞;閾值為前50個高頻或高被引節(jié)點;節(jié)點類型選擇為作者、機構(gòu)、國家、被引參考文獻(xiàn)、被引作者和被引期刊。對文獻(xiàn)的年代、國家/地區(qū)、機構(gòu)、作者方面的特征進(jìn)行分析,并通過關(guān)鍵詞分析探析信息檢索研究的熱點和前沿。
2.1年代分布
根據(jù)文獻(xiàn)的邏輯增長規(guī)律,某領(lǐng)域科學(xué)文獻(xiàn)的增長在學(xué)科發(fā)展初期近似指數(shù)增長曲線,增長到一定時期會漸趨平穩(wěn)并緩慢發(fā)展。對國外信息檢索領(lǐng)域科學(xué)文獻(xiàn)年代分布的研究有利于把握其研究進(jìn)程,預(yù)測未來研究趨勢。從圖可以看出國外2008~2013年間信息檢索學(xué)術(shù)性文獻(xiàn)從2008年176篇到2013年196篇(增長率為10%)的增長趨勢,除2011年小幅下降(發(fā)文量為161篇)外,總體上保持較平穩(wěn)的增長趨勢。這說明該領(lǐng)域的研究基本成熟,可以估計未來一段時期內(nèi)信息檢索科研文獻(xiàn)仍將繼續(xù)保持平衡增長的趨勢。
圖 2008~2013年國外信息檢索研究文獻(xiàn)年代分布
2.2國家/地區(qū)分析
對科學(xué)文獻(xiàn)進(jìn)行國家和地區(qū)分析可以反映某科研領(lǐng)域具有領(lǐng)導(dǎo)力的國家和地區(qū),便于研究揭示學(xué)術(shù)前沿,為研究參考提供捷徑。表1反映了高被引國家TOP10。從被引頻次的排序來看,就國家而言,美國占據(jù)絕對優(yōu)勢,因此,在知識圖譜中的結(jié)點也明顯大于其他國家,中國大陸雖居第二,但仍不及美國的1/4。就區(qū)域來說,北美地區(qū)信息檢索具有極大的學(xué)術(shù)影響力,被引頻次總量達(dá)432;其次是歐洲,被引頻次為241;亞洲(包括中國大陸和臺灣)排第三,被引頻次為128,約占?xì)W洲的54%,不及美洲的30%,與歐美相差甚遠(yuǎn)。從結(jié)點中心性來看,整個知識圖譜
中澳大利亞、德國的中心性較大,其次是中國。澳大利亞、德國在信息檢索領(lǐng)域的研究也是不容忽視的有生力量。
表1 高被引國家TOP10
2.3機構(gòu)分析
通過機構(gòu)分析可以發(fā)現(xiàn)科研團隊、機構(gòu)的學(xué)術(shù)影響力,增強科研合作交流的契合性,為機構(gòu)科研評價提供科學(xué)依據(jù)。表2反映了機構(gòu)發(fā)文量TOP10,它們代表國外信息檢索研究的先進(jìn)水平。這些科研機構(gòu)中美國占75.6%,發(fā)文最多的是美國威斯康辛大學(xué),其次為北卡羅來納大學(xué)和羅格斯州立大學(xué),它們的發(fā)文量分別占前10所機構(gòu)發(fā)文量的15.5%、13%和10.6%,有明顯數(shù)量優(yōu)勢。除美國高校外,英國倫敦大學(xué)、芬蘭坦佩雷大學(xué)、加拿大麥克吉爾大學(xué)在信息檢索領(lǐng)域的研究也較活躍。
表2 機構(gòu)發(fā)文量TOP10
2.4作者分析
有學(xué)術(shù)影響力的作者群體的狀況集中體現(xiàn)了學(xué)科科研實踐的趨向,是某一學(xué)科領(lǐng)域科研活動的縮影之一。通過對作者群體進(jìn)行研究,可以把握學(xué)科科研活動的深度和廣度。[1]作者學(xué)術(shù)影響力可以通過科研文獻(xiàn)的數(shù)量和質(zhì)量兩個指標(biāo)衡量:洛特卡通過揭示科學(xué)家數(shù)量與發(fā)文數(shù)量之間的關(guān)系反映科學(xué)家的“科學(xué)生產(chǎn)率”;[2]作者被引頻次在一定程度上體現(xiàn)了科學(xué)家在某學(xué)科的建樹和貢獻(xiàn)及該研究領(lǐng)域?qū)ζ淇蒲谐晒恼J(rèn)可程度。筆者將作者發(fā)文量與被引頻次結(jié)合得出他們的平均被引頻次,綜合評價高產(chǎn)作者的貢獻(xiàn)度。表3反映了發(fā)文量TOP12的高產(chǎn)作者,可以看出發(fā)文量較多的12名作者中86.6%的高產(chǎn)作者來自英美國家,其中73.3%來自美國,13.3%來自英國。Jimmy Huang是紐約大學(xué)信息技術(shù)學(xué)院教授,關(guān)注信息檢索及其在網(wǎng)絡(luò)和醫(yī)療領(lǐng)域的應(yīng)用,5年間在國際高影響力的期刊發(fā)表10篇論文,成為最高產(chǎn)作者;Hamid R.Jamali是伊朗卡里斯米大學(xué)圖書情報學(xué)系副教授,從事信息計量、信息檢索行為的研究,作者被引頻次最高;由英國聯(lián)合信息系統(tǒng)委員會(JointInformationSystemsCommittee,JISC)館藏基金提供支持,Hamid R. Jamali與英國倫敦大學(xué)信息行為與評估研究中心的Ian Rowlands、David Nicholas合作發(fā)表5篇論文,對英國科研人員和學(xué)生的信息檢索行為進(jìn)行系列研究以評估英國電子期刊的利用及其效果。該研究關(guān)注學(xué)生實際的而非感知的信息檢索行為,并從科研機構(gòu)和科研主題差異調(diào)查分析科研人員的信息檢索行為的異同,填補了信息檢索行為研究在這兩個領(lǐng)域的空白,具有較高的研究意義和價值。這三位作者的總被引頻次和平均被引頻次都得以印證。高產(chǎn)作者的研究領(lǐng)域及被引情況可從側(cè)面反映5年間該領(lǐng)域的研究熱點。除以上討論的信息檢索行為研究外,經(jīng)筆者深入挖掘,表3中90%的美國科研人員(如Jimmy Xiangji Huang,Katrina Armstrong,J.Sanford Schwartz,Lila J.Finney Rutten,Jeff Niederdeppe)均涉足醫(yī)療信息與健康信息檢索的研究,說明美國信息檢索研究更堅持其傳統(tǒng)的實用主義價值理念,與社會應(yīng)用需求緊密呼應(yīng)。
表3 高產(chǎn)作者TOP12
(1)網(wǎng)絡(luò)信息檢索。Miranda, H.等[3]提出無線自組織網(wǎng)絡(luò)信息傳播和檢索的算法,它的實現(xiàn)方式:保持?jǐn)?shù)據(jù)足夠遠(yuǎn)的距離防止過度的冗余,但同時仍足夠接近每個參與者。Chan, C. C. H.[4]提出“信息檢索智能蜘蛛”,運用數(shù)據(jù)挖掘技術(shù)區(qū)分不同的客戶;通過開發(fā)URL搜索代理軟件和拍賣數(shù)據(jù)代理軟件隨時自動收集相關(guān)信息,信息收集存儲到數(shù)據(jù)庫后利用神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)聚類和價格預(yù)測。
(2)用戶信息檢索行為研究。該主題的研究集中在:信息檢索行為理論研究、特殊群體信息檢索行為、信息檢索行為的影響因素研究等方面。Al-Maskari, A. 和Sanderson, M.調(diào)查發(fā)現(xiàn),有信息檢索經(jīng)驗和高認(rèn)知技能的參與者在信息檢索時比經(jīng)驗較少并具有較低認(rèn)知能力的人效率更高;[5]用戶信息檢索的滿意度受信息系統(tǒng)的效率、用戶查詢效率、用戶努力、用戶性格和期望的影響。[6]Andualem, M.等[7]認(rèn)為年齡、性別、收入、計算機素養(yǎng)、病人狀況、工作經(jīng)驗和工作地點與健康專家的信息需求和檢索行為有重要關(guān)系。
(3)信息檢索模型研究。該主題的研究集中在:信息檢索建模、傳統(tǒng)模型的改進(jìn)、語義檢索模型(如基于本體的檢索模型)、模型的評估與應(yīng)用等。Ajayi, A. O.等[8]提出改進(jìn)的基于邏輯的模糊信息檢索模型,該模型將會話發(fā)起協(xié)議與用戶間有限的帶寬及用戶的電腦配置考慮在內(nèi),利用統(tǒng)一建模語言和Borland JBuilder執(zhí)行。Fernandez, M.等[9]探索了基于本體的信息檢索模型定義,以領(lǐng)域知識庫為導(dǎo)向研究在大型的文件存儲機構(gòu)中的語義檢索,一方面強調(diào)語義視角下完全成熟本體(fully fledged ontologies)的使用,另一方面強調(diào)將非結(jié)構(gòu)化內(nèi)容考慮在檢索空間范圍。
(4)信息檢索系統(tǒng)研究。該主題的研究集中在:信息檢索系統(tǒng)的開發(fā)方法、發(fā)展改進(jìn)、評估、系統(tǒng)與用戶的關(guān)系及系統(tǒng)應(yīng)用實例研究等方面,涉及最典型的系統(tǒng)類型就是語義檢索系統(tǒng),諸如基于本體的檢索系統(tǒng)、多詞標(biāo)注的云信息檢索系統(tǒng)等。Torres-Parejo, U.等[10]提出多詞標(biāo)注的云信息檢索系統(tǒng),該系統(tǒng)概括數(shù)據(jù)庫的內(nèi)容并向用戶提供簡單易懂的界面幫助他們獲取信息,它采用基于多詞標(biāo)注云的可視化界面展示數(shù)據(jù)庫的內(nèi)容來幫助用戶查詢。
(5)信息檢索相關(guān)性與分類研究。信息檢索相關(guān)性研究有系統(tǒng)相關(guān)性和用戶相關(guān)性兩個派別。He, D. Q.等[11]使用偽相關(guān)反饋和交互式相關(guān)反饋研究了翻譯增強(Translation Enhancement,TE)的相關(guān)反饋方法。Ghorab, M. R.[12]開展了用戶相關(guān)性的信息檢索分類研究,洞察個性化信息檢索系統(tǒng)從建立到評估的不同階段,即信息收集、信息表示、個性化實施及系統(tǒng)評估,并將系統(tǒng)分為三種類型,個體化的信息系統(tǒng)、基于團體的信息系統(tǒng)和整合層面的信息系統(tǒng)。
(6)信息檢索技術(shù)研究。該主題的研究集中在:
語義技術(shù)、基于內(nèi)容的信息檢索技術(shù)、多智能體技術(shù)、自然語言技術(shù)、基于網(wǎng)絡(luò)的技術(shù)、問答技術(shù)、結(jié)構(gòu)化文檔檢索(Structured Document Retrieval,SDR)技術(shù)、移動代理技術(shù)(mobileagenttechnology)、跨語言檢索技術(shù)、數(shù)據(jù)融合(Data Fusion)、模糊信息檢索技術(shù)等方面。Dogan,E.等[13]展現(xiàn)了一個具有擴展性的基于內(nèi)容的混合型音頻信息分類檢索系統(tǒng),為了節(jié)省檢索時間采用了基于散列(hash-based)的索引技術(shù)。
文章以SCI、SSCI收錄的文獻(xiàn)題錄為數(shù)據(jù)樣本,借助CiteSpaceII揭示2008~2013年信息檢索領(lǐng)域的研究文獻(xiàn)在年代、國家/地區(qū)、機構(gòu)、作者方面的特征分布。研究發(fā)現(xiàn):信息檢索研究文獻(xiàn)呈平穩(wěn)增長趨勢;北美特別是美國代表國外信息檢索研究的前沿,澳大利亞、德國也是信息檢索不可忽視的有生力量;75.6%的科研團隊來自美國;在TOP12位的高產(chǎn)作者中86.6%來自英美國家,并且90%的美國信息檢索研究人員涉足醫(yī)療健康信息檢索。通過對關(guān)鍵詞進(jìn)行中心性分析,發(fā)現(xiàn)網(wǎng)絡(luò)信息檢索、用戶檢索行為研究、檢索模型研究、信息檢索系統(tǒng)研究、信息檢索相關(guān)性與分類研究、信息檢索技術(shù)、醫(yī)療健康信息檢索等是近幾年來該領(lǐng)域研究的熱點,信息檢索決策、基于本體的信息檢索、信息檢索算法、社交媒體、數(shù)據(jù)融合等是信息檢索研究前沿。通過筆者對文獻(xiàn)的內(nèi)容分析,發(fā)現(xiàn):(1)國外對信息檢索的研究已滲透到社會各個領(lǐng)域并與社會信息需求緊密交互;(2)善于運用觀察、實驗等實證方法,關(guān)注和解決不同環(huán)境不同群體中信息檢索的實際問題;(3)科研文獻(xiàn)的新穎性、創(chuàng)新性尤其突出,不乏可供國內(nèi)借鑒的新理念、新方法和新技術(shù)。這些理念、方法和技術(shù)若能踐行于我國的信息檢索研究,無論對信息檢索科學(xué)研究還是對整個社會的應(yīng)用實踐都具有非同尋常的價值和意義。
[參考文獻(xiàn)]
[1]邱均平,馬瑞敏.基于CSSCI的圖書館、情報與檔案管理一級學(xué)科文獻(xiàn)計量評價研究[J].中國圖書館學(xué)報,2006(1):24-29.
[2]LotkaAJ.The frequencydistributionofscientificproductivity[J].Journal of the Washington Academy of Science,1926,16(12):317-323.
[3]Miranda H,etal.Analgorithmfordisseminationandretrieval of information in wireless ad hoc networks[J]. Concurrency and Computation: Practice and Experience, 2009,21(7):889-904.
[4]Chan,H.Intelligent spider for information retrieval to supportmining-basedprice predictionfor onlineauctioning [J].Expert Systems with Applications,2008,34 (1):347-356.
[5]Al-Maskari A,Sanderson M.The effect of user characteristics on search effectiveness in information retrieval [J].Information Processing & Management,2011,47 (5):719-729.
[6]Al-Maskari A,Sanderson M.A review of factors influencinguer satisfactionininformation retrieval[J].Journal of the American Society for Information Science and Technology,2010,51(5):859-868.
[7]Andualem M,et al.Information needs and seeking behaviour among health professionals working at public hospital and health centres in Bahir Dar,Ethiopia[J]. BmcHealthServicesResearch,2013,13(534):9.
[8]Ajayi A O,et al.An adaptive fuzzy information retrieval model to improve response time perceived by e-commerce clients[J].Expert Systems with Applications,2010,37(1):82-91.
[9]Fernandez,et al.Semantically enhanced Information Retrieval:Anontology-basedapproach[J].Journalof Web Semantics,2011,9(4):434-452.
[10]Torres-Parejo U,et al.MTCIR:A multi-term tag cloud information retrieval system[J].Expert Systems with Applications,2013,40(14):5448-5455.
[11]He D,Wu D.Enhancing query translation with relevance feedback in translingual information retrieval [J].Information Processing & Management,2011, 47 (1):1-17.
[12]Ghorab M R,et al.Personalised information retrieval: survey and classification[J].User Modeling and User-Adapted Interaction,2013,23(4):381-443.
[13]Doǒgan E,et al.A flexible andscalable audio informationretrievalsystemformixedtypeaudiosignals[J].International Journal of Intelligent Systems,2011,26 (10):952-970.
[收稿日期]2014-03-18 [責(zé)任編輯]王鈞梅
[作者簡介]溫芳芳(1985-),女,山西大學(xué)經(jīng)濟與管理學(xué)院碩士生,助理館員,研究方向:信息組織。
[文章編號]1005-8214(2015)01-0055-04
[文獻(xiàn)標(biāo)志碼]A
[中圖分類號]G252.8;G252.7