王 星 袁衛(wèi)
近年來,我國人文社會科學研究發(fā)展迅猛,學術成果激增,社會影響不斷擴大。人文社會科學學術成果對社會的發(fā)展具有十分重要的意義。在學術成果的評價方面,劉大椿指出,目前對人文社會科學成果的復雜性研究不夠和對成果評價指標的非單一性認識不夠,已有評價方法存在很多局限,對本土化規(guī)律的揭示不夠。[1]跨學科、跨機構、跨領域等學術合作催生出大量面向重大現(xiàn)實問題的新理論、新思想和新方法,這些新知識借助文獻網(wǎng)絡平臺迅速傳播,共同編織出一幅巨大的學術成果跨界影響網(wǎng)絡圖。所謂學術成果的跨界影響力,主要是指由學術成果所產(chǎn)生的某一領域?qū)ζ渌I域的影響程度,統(tǒng)稱為跨界影響力,主要反映學術影響廣度??缃缬绊懥Φ难芯磕繕耸墙沂咎N藏于文獻之中的跨界影響規(guī)律,并基于所發(fā)現(xiàn)的狀態(tài)規(guī)律,分析形成跨界輻射的差異。探索這一課題將為充實和發(fā)展人文社會科學成果評價體系提供新思路,為科研管理、學科建設和學術評審提供決策參考。[2]
選擇從文獻的角度探索學術合作規(guī)律和分析跨界影響的首要問題是從怎樣的數(shù)據(jù)出發(fā)研究跨界影響。學術影響力評價研究中的數(shù)據(jù)產(chǎn)生方法主要有兩類:第一類是直接測量法,即設計評價指標,收集同行專家意見,形成學術成果影響力評價得分,指標體系設計的數(shù)據(jù)來自現(xiàn)成的數(shù)據(jù)。代表性的方法如同行評議法,它是期刊選文和學位論文審核中較為常見的一種反映學術成果影響力的方法。然而將同行評議法直接用于跨界影響評價存在著困難:一是跨界評審專家需要精通各個領域,跨行專家遴選很困難;二是得到的數(shù)據(jù)主觀性強,成本高,可比性差。[3]第二類方法是客觀估計法,這種方法以關系估計為核心,測量數(shù)據(jù)并非現(xiàn)成的,而是在大量微觀的客觀數(shù)據(jù)基礎上估計產(chǎn)生的。代表性的研究如國際上著名的SCI、SSCI以及南京大學的CSSCI核心期刊評價方法。[4]這些方法都是以引文數(shù)據(jù)為基礎,從文獻間的引證關系出發(fā)設計的期刊影響力評價方法。然而,引證關系在揭示中文跨界學術影響方面存在時間滯后、自引比例較大、跨學科指向不明和數(shù)據(jù)規(guī)模小等局限性。[5]來自科學網(wǎng)有關引文數(shù)據(jù)規(guī)模的報告顯示,根據(jù)引用率進行的熱點論文統(tǒng)計中,2010年美國熱點論文數(shù)最多,為1 070篇;截至2011年11月,中國熱點論文數(shù)僅為196篇,占國際學術熱點論文數(shù)的9.9%。[6]學術熱點常常是理論與現(xiàn)實的結(jié)合點,是領域交叉的重要成果,熱點不足暴露出引文數(shù)據(jù)作為反映時代客觀問題方面的設計不足,僅依賴引證關系將低估廣大哲學社會科學工作者的跨界實踐研究。目前關于學術專業(yè)深度的研究與評價較多,但對學術交叉廣度的跨界影響研究較少,2010年基于引文的學術影響力因子中擴充了文獻對其他學科影響廣度和時間跨度的評價內(nèi)容,這一變化反映出學術界對跨學科和跨時間評價的廣泛需求。[7]
綜上所述,直接測量或僅使用引證關系而試圖揭示人文社會科學學術合作規(guī)律,很難把握人文社會科學學術思潮的相互作用、相互影響等客觀規(guī)律,也不足以反映不同學科、不同群體的學術交流活動的差異性。本文從更易實現(xiàn)且可建立更為客觀、更具實時性和預見性的讀者文獻搜索數(shù)據(jù)入手,探討跨界關系矩陣的估計與算法建模問題。
我們從現(xiàn)代科學交流模式的變化和科學家文獻交流特點入手,來探討文獻的跨界學術影響力的數(shù)據(jù)構成和定義。
美國社會學家羅伯特·默頓1985年在《科學的規(guī)范結(jié)構》中提出了學術成果作用的定義,指出其價值是在科學家之間起著根本的交流作用。這個定義強調(diào)了交流能力對衡量學術成果價值的基礎性作用。文獻的跨界影響力研究的本質(zhì)是要在知識傳播的微觀結(jié)構下,發(fā)現(xiàn)科學家通過所選文獻而產(chǎn)生的不同領域交流方面的差異,進而揭示知識傳播的微觀結(jié)構在連接不同領域之間彼此影響中的積極作用。
從交流關系看,基于引文關系的學術影響力因子是從知識創(chuàng)作和信息加工交流關系出發(fā)所建立的學術成果評價理論的代表,它反映了較大時間跨度上作者與作者之間的交流關系,表達了知識的繼承性與持續(xù)性交流信息,反映了知識縱向交流特征,是利用知識傳承關系衡量知識創(chuàng)造力的客觀工具。然而,文獻的橫向交流作為科學研究成果的影響作用不容忽視。橫向交流可以反映協(xié)作性和競爭性。建立在引文基礎上的學術影響力因子在反映橫向交流能力方面存在兩個基本的不足:一是引文網(wǎng)主要反映作者與作者通過最終成果所建立起來的交流,很難體現(xiàn)同時期作者與讀者之間的交流關系;二是引文關系更注重反映文獻對新成果的結(jié)果影響,但對文獻的社會化影響效果反映不充分。在橫向跨學科影響上,塔佳(Talja)、瓦卡瑞(Vakkari)、弗萊(Fry)和沃特斯(Wouters)指出跨學科性與一個領域的科學家使用其他學科的文獻有關,科學家對文獻的選擇行為可用于度量學科之間聯(lián)系的程度。[8]從文獻的影響效果來看,跨界影響強調(diào)作品的影響應貫穿于對其他學者的研究過程中,這個過程包含由學者選擇作品所建立的文獻對研究者的提供、傳遞、獲取和利用行為數(shù)據(jù)。基于以上分析,使用學者下載文獻行為數(shù)據(jù)作為研究跨界影響力的基礎數(shù)據(jù)是合適的。
事實上,20世紀80年代之后,網(wǎng)絡和數(shù)字文獻革命對傳統(tǒng)文獻交流模式產(chǎn)生巨大沖擊。陳雅和鄭建明指出,專業(yè)知識的演進規(guī)律和更新模式已不再是現(xiàn)代文獻交流的主要模式,知識如何通過載體流通所得到的交流規(guī)律和模式越來越受到重視,特別是網(wǎng)絡文獻交流模式。[9]文獻交流模式內(nèi)容的變化突出了文獻在溝通學術交流中的提供、傳遞、獲取和利用價值,也使其成為測量學術跨界影響力的重要渠道。通過知識庫的網(wǎng)絡交流數(shù)據(jù),不僅可以體現(xiàn)作者之間的交流,而且可以反映作者與讀者之間的交流。網(wǎng)絡文獻交流對于學術的跨界影響所起的作用是通過改善接收者的知識結(jié)構,形成接收者新的思考或?qū)κ挛锏膽B(tài)度和行為,從而影響到學者所屬學科對學術方向的把握、科研機構對學術合作伙伴的選擇。由于在交流過程中接收者充當了對知識認可信息的發(fā)送者,通過文獻的交流形成了人與人之間雙向的知識交換,由此帶來不同機構或?qū)W科之間的相互滲透。這種建立在學者與學者之間通過文獻所發(fā)生的學術交流所引起的宏觀層面不同學界的互相影響原理如圖1所示:
在圖1中,學者1通過閱讀學科文獻B實現(xiàn)了跨學科學術需求的一致性,學者1與學者2通過閱讀文獻B實現(xiàn)了學科和機構學術需求的一致性,一旦這種一致性在統(tǒng)計規(guī)模上實現(xiàn)了顯著性,這一微觀數(shù)據(jù)可用于度量跨界影響關系。
從跨學科交流關系的估計樣本選擇來看,把握理性讀者的可長期跟蹤交流關系是產(chǎn)生可靠估計的關鍵。理性讀者有兩項基本假設:第一,可表示性:理性讀者研究興趣由其文獻選擇來表示,即理性讀者的選文模式能夠體現(xiàn)其學術旨趣;第二,抗干擾性:理性讀者應滿足時間稀缺性質(zhì),即理性讀者不會浪費時間大量下載與自己研究不相關的文獻,因而其選擇的文獻中不屬于其學術興趣的雜質(zhì)非常少。一些利用大型的公開網(wǎng)如Google、Baidu等搜索引擎的讀者,雖然瀏覽頁面數(shù)量很大,但讀者身份較為龐雜,瀏覽信息過于繁雜,精準度不高,很難滿足這兩點基本要求,在反映讀者學術旨趣方面具有較大的隨意性,不易形成穩(wěn)定的結(jié)論。直接使用期刊網(wǎng)的用戶則不能保證人文社會科學讀者的代表性。為獲得充足的有代表性的樣本,我們認為應以人文社會科學讀者群為對象,將其對中文知識網(wǎng)的中文信息搜索作為基礎數(shù)據(jù),這樣,既反映了群體的學術旨趣,又可獲得長期跟蹤和驗證結(jié)果的實驗環(huán)境。
綜上所述,以科學家學術主旨為引導獲取文獻的交流數(shù)據(jù)提供了形成知識橫向傳遞和利用的微觀結(jié)構,以網(wǎng)絡文獻搜索行為數(shù)據(jù)為基礎建立跨界影響是可行的。
學術成果跨界影響力研究的關鍵是掌握跨界合作規(guī)律和一個學科對其他學科的輻射差異。從科學學的歷史和發(fā)展現(xiàn)狀來看,科研機構和學科是學術發(fā)展的基本要素,科研機構是學術活動的基本單位,學科規(guī)定了學術共同體活動的范疇與邊界,學術成果則構成了學術共同體的實踐和理論,學術成果的跨機構和跨學科規(guī)律是跨界影響力的主要內(nèi)容。[10]科學家是科學交流的主體并最終決定跨界影響,而且也是學科評價服務的最終用戶。于是,建立在以學者研究行為為基礎的學術共同體和學術機構群體科學交流活動不僅為跨界研究提供基礎,而且基于文獻下載數(shù)據(jù)所獲得的跨界交流模式將有利于為學者研究提供更好的服務。從文獻來看,學者的研究身份主要是兩個:一是作為成果的創(chuàng)作者,二是作為預備新成果的讀者。傳統(tǒng)的引文分析主要強調(diào)作者身份,而忽略讀者身份。事實上,讀者是創(chuàng)作中的主要身份,貫穿研究全程,它能夠記錄更廣泛的學術交流線索,通過學者對文獻的選擇行為可以幫助機構選擇期刊,引導讀者閱讀文獻,指導作者針對自己的研究成果進行投稿。
跨機構影響研究主要考慮跨機構合作行為,目標是對機構合作建模和對合作結(jié)構的估計。跨科研機構研究合作網(wǎng)絡可由科研機構學者的合作網(wǎng)絡數(shù)據(jù)生成,跨學科關系網(wǎng)絡由科研機構學者的合作網(wǎng)絡估計生成。一般來說,跨機構發(fā)表的成果越多,越能說明這種跨界合作在學術領域中產(chǎn)生的影響力。對跨學科的研究主要考慮兩種對話行為:使用文獻和創(chuàng)作文獻。一個領域的研究人員使用其他學科文獻的程度可以用來衡量一個學科的跨學科性,跨學科創(chuàng)作關系定義為不同學科作者之間的合作關系;跨學科使用文獻影響則主要針對由讀者和作者針對共同的文本所產(chǎn)生的對話與共鳴所引起的。其中作品的學科歸屬比較容易定義,但是讀者的學科歸屬則受學術旨趣影響常常發(fā)生變化,需要基于讀者的學術旨趣分布定位獲得跨學科的影響強度。我們將著重給出基于共讀文獻的跨學科影響,即一學科的文獻被另一個學科的學者閱讀,以及文獻被兩個不同學科學者閱讀所產(chǎn)生的學術交流影響。
跨界影響力關系估計模型主要解決兩個問題:一是關系的識別,二是關系結(jié)構的分布。目前的算法主要分為兩大類:一類是基于矩陣分解的模塊發(fā)現(xiàn)算法,典型的方法如模塊社群挖掘法(Block Models Community)[11]、連通社群挖掘法(Link Community)[12],這些算法的前提是關系定義清楚,算法主要解決關系的模塊分布,其優(yōu)點表現(xiàn)為可與并行計算結(jié)合,運算快,不必事先確定群個數(shù),有較好的理解性,能處理大型網(wǎng)絡數(shù)據(jù)等,適用于互連結(jié)構的發(fā)現(xiàn);另一類是將關系的識別與結(jié)構的模塊分布結(jié)合起來的方法,如社群提取算法(Community Extraction)[13],適用于稀疏結(jié)構的發(fā)現(xiàn)。在跨界問題研究中,跨學科的問題數(shù)量中等,可以采用二步圖和第一類方法結(jié)合的方法;跨機構合作關系數(shù)量大,需要同時解決關系發(fā)現(xiàn)與結(jié)構發(fā)現(xiàn)算法,比較適合用第二類方法來解決。下面是幾類模型和它們在跨界研究中的應用。
社群挖掘算法是近年來發(fā)展較快的一種對關系分塊的算法,多用于社群發(fā)現(xiàn)。其中較為典型的方法是2004年紐曼(Newman)提出的模塊Q方法,Q方法的基本原理是使用模塊劃分評分函數(shù)實現(xiàn)最大化網(wǎng)絡模塊劃分。其中Q的表達式如下:
式中Wvw表示實際圖頂點v和w之間的邊數(shù)(在加權圖,為邊的權重),Pvw表示隨機圖模型中頂點v和w之間期望的邊數(shù);m是總邊數(shù)(在加權圖中,為權重之和),常數(shù)項1/2m是歸一化常數(shù);如果社群Cv=Cw(即頂點v和w屬于同一個社群),示性函數(shù)δ(Cv,Cw)=1,否則為0。Q定義了實際圖社群邊連通密度相對于隨機圖的差異,社群內(nèi)邊密度與隨機圖期望邊密度相比越大,表明社群結(jié)構越明顯。我們將使用Q方法估計跨機構合作關系矩陣和跨學科影響矩陣。
社群挖掘算法比較適用于模塊特征突出且不同模塊之間分割的社群挖掘問題。它的缺點是當模塊之間的質(zhì)量差別比較懸殊時,點數(shù)較小的模塊容易被與之相連的點數(shù)和度較大的模塊吞噬,不易在算法中被發(fā)現(xiàn)。[14]社群挖掘算法①社群挖掘算法需要考慮帶邊權重的WFN算法,我們將另文說明這些新用法??捎糜诳鐚W科和跨機構關系模塊的提取。在跨學科研究中,學科合作具有規(guī)模不等和合作不平衡等特點,直接使用Q算法,將掩蓋小學科的特色合作,在使用該算法時將設計基于學科規(guī)模和關系密切等因素的帶權重FN算法解決。
連通社群挖掘算法是近幾年比較流行的社群挖掘算法,與模塊算法側(cè)重于對網(wǎng)絡節(jié)點的劃分不同,它的主要特點是對邊聚類,由此可以發(fā)現(xiàn)連接多個群之間的節(jié)點。如果將其用于跨學科研究,則可以發(fā)現(xiàn)不同學科群之間起著橋梁作用的學科。連通社群挖掘算法由兩部分構成:
第一步:計算邊的相似矩陣,然后利用分層聚類算法根據(jù)邊的相似矩陣對邊聚類。兩條邊的相似系數(shù)一般使用Jaccard系數(shù)如下:
其中eik、ejk為共享同一個節(jié)點k的兩個條,n+(i)表示節(jié)點i的所有鄰居(全文中有關節(jié)點的鄰居是指與該節(jié)點右邊相連的其他節(jié)點)。S(eik,ejk)衡量的是節(jié)點i與節(jié)點j共同的鄰接數(shù)占它們所有不同鄰居總數(shù)的比例,比例越大,表明eik和ejk相似度越高。
第二步:連通社群挖掘算法采取用邊分離密度確定社群個數(shù)并對網(wǎng)絡聚類。分離密度D的具體定義如下:
其中,mc表示第c個社群中邊的個數(shù),nc表示第c個社群中節(jié)點的個數(shù),表示第c個社群的密度,Dc是圖的邊密度M—估計量。分離密度D越大,表示聚類的效果越好。該算法的優(yōu)點是可以發(fā)現(xiàn)連通社群,并產(chǎn)生跨社群的連接節(jié)點,缺點是具有對稀疏結(jié)構或發(fā)散結(jié)構的排斥性。[15]
社群提取算法是彭捷和朱冀于2010年提出的算法,該算法試圖挖掘網(wǎng)絡中的主要結(jié)構特征,其原理是根據(jù)社群的顯著性依次提取社群出來,而將剩余的節(jié)點和節(jié)點之間的關系當做“背景”看待,適用于稀疏圖結(jié)構提取。假設一個無向網(wǎng)絡圖G=(V,E),節(jié)點個數(shù)為n,那么這個網(wǎng)絡圖可以用n×n的鄰接矩陣A=[Aij]表示。如果Aij大于0,則表示節(jié)點i和節(jié)點j之間有邊存在;若Aij=0,則表示節(jié)點i和節(jié)點j之間沒有邊。由于是無向圖,因此矩陣A是一個對稱矩陣。記所要提取的社群為S,剩下的節(jié)點集合記為SC。社群選擇標準是使W值最大,W定義如下:
社群提取算法的原理是一個社群應該是內(nèi)部節(jié)點之間的連接較稠密,與外部節(jié)點的連接稀疏,具體算法步驟如表1所示:
表1 社群提取算法主要計算步驟
該算法的優(yōu)點是可以產(chǎn)生按模塊顯著性排序的社群結(jié)構,缺點是模塊移除會影響到最初的連接結(jié)構,可能產(chǎn)生不穩(wěn)定的結(jié)構。
不同科研機構的學者因為同一研究主題合作完成學術成果而產(chǎn)生機構之間的互相滲透,將這樣的關系從合作文獻中提取出來,就形成了科研機構合作網(wǎng)絡。
實證研究選擇了1 482所大學學術科研機構作為圖的節(jié)點,從文獻中產(chǎn)生了8 018條機構合作關系,顯示機構合作網(wǎng)絡圖中節(jié)點度數(shù)的分布近似冪律分布,這表明網(wǎng)絡存在“小世界”現(xiàn)象,是比較典型的一類稀疏網(wǎng)絡。
我們使用WFN-Q算法對訓練數(shù)據(jù)進行了30次實驗,結(jié)果比較穩(wěn)定,共產(chǎn)生9大子群和103個機構合作小社群,節(jié)點數(shù)為2或1的小群做忽略處理(見圖2)。
圖2 學術機構社群結(jié)構圖
仔細觀察圖2,9大子群中,北京地區(qū)高校處于機構合作網(wǎng)絡的中心地位;每一個子群具有明顯的星型結(jié)構,反映了20世紀90年代后國家高等教育發(fā)展的非均衡性和區(qū)域分層帶動高等教育建設格局;每一子群中處于中心地位的科研機構的科研水平排在國內(nèi)前列。陜西省和東北三省屬于同一個群,但它們之間的地理距離相差很大。進一步分析數(shù)據(jù)表明,陜西省與東北三省的聯(lián)系主要是以中國科學院為橋梁。作為中國主要自然科學研究機構的中國科學院主要與理工科類院校有很強的合作關系。中國社會科學院、中國科學院、中國人民大學、北京大學、吉林大學、清華大學、南京大學、復旦大學等科研機構在連接學術機構的合作方面起著紐帶作用。
進一步分析表明,每一子群具有明顯的地理區(qū)域特征,結(jié)果如圖3所示:具有相同紋理的?。ㄖ陛犑?、自治區(qū))屬于同一個社群,灰度由深至淺表示群組的節(jié)點數(shù)量由大到小,可以看出分為9個不同的群,這正好對應著WFN算法得到的9個節(jié)點數(shù)最大的社群。星型結(jié)構中的強校紐帶作用比較突出,呈現(xiàn)出明顯的差異序社會合作模式。
圖3 WFN算法得出的社群地理分布特征
學科機構合作網(wǎng)絡提取的目標是獲取一個學科與另一個學科的合作規(guī)律,這些規(guī)律包括社群的發(fā)現(xiàn)和連接社群之間的輻射帶的發(fā)現(xiàn),往往是那些集中了某些競爭力強的大學首先取得明顯的發(fā)展,既而形成與多個社群的輻射、帶動整個學科的發(fā)展。這種資源趨優(yōu)集聚和輻射的現(xiàn)象,在高等教育領域比較普遍。既有比較宏觀的、大規(guī)模的集聚,又有帶狀的社群的溝通。
下面以歷史學科為例說明機構合作網(wǎng)絡的功能。
其中相同線型的邊表示屬于相同的社群。餅圖的節(jié)點表示它們屬于不同的社群。節(jié)點越大表示相應節(jié)點的中間性值越大。
圖4 歷史學科機構合作網(wǎng)絡的社群挖掘
我們使用2011年上半年從中國知網(wǎng)對某大學博士生和教師相關文獻的搜索數(shù)據(jù),有效文獻53 268篇,學者300位分屬22個學科,文獻來自37個學科。對數(shù)據(jù)做二分圖轉(zhuǎn)化和過濾程序后,使用社區(qū)提取方法得到共讀文獻的跨學科影響,文獻學科網(wǎng)絡聚類將跨學科影響關系分為4類;人文社會科學類(人文:灰色圓形類和社會科學:白色圓形類),理工類多為白色方形和灰色方形。見圖5。
可以看出,人文與社會科學兩類聯(lián)系很緊密;計算機科學與技術在理工科類和人文社會科學類中起到關鍵的聯(lián)系作用。
圖5 文獻跨學科影響社群結(jié)構圖
其中最大群是社會科學及其相關學科社群,由政治學、經(jīng)濟學、法學、統(tǒng)計學、藥學、社會學、公共衛(wèi)生與預防醫(yī)學、環(huán)境科學與工程、臨床醫(yī)學、體育學、大氣科學、管理學、農(nóng)學、測繪科學與技術、水利工程、兵器科學與技術、核科學與技術、口腔醫(yī)學、石油與天然氣工程、動力工程與工程熱物理學科20個機構構成。經(jīng)濟學在這個群中連通性最強,其中跨學科最強的關系是兵法學與經(jīng)濟學、社會學與經(jīng)濟學、法學與政治學、管理學與經(jīng)濟學、公共衛(wèi)生與預防醫(yī)學-經(jīng)濟學、政治學與法學。
第二大群是人文學科及其相關學科社群,包括哲學、新聞傳播學、戲劇與影視學、中國語言文學、歷史學、外國語言文學、基礎醫(yī)學、其他醫(yī)學、美術學、設計學、民族學、中醫(yī)學、地理學、海洋科學、礦業(yè)工程、音樂與舞蹈學、藝術學理論、地質(zhì)學、紡織科學與工程。其中中心學科是中國語言文學,跨學科最強的關系是哲學—中國語言文學、中國語言文學—新聞傳播學、新聞傳播學—哲學、歷史學—中國語言文學、歷史學—傳播學、外國語言文學—中國語言文學。
第三大群是工程類學科組成的群,包括計算機科學與技術、信息與通信工程、食品科學與工程、系統(tǒng)科學、化學、機械工程、軍事學、數(shù)學、生物學、化學工程與技術、其他工學、特種醫(yī)學、物理學、冶金工程。其中核心學科是計算機科學與技術,跨學科最強的關系是計算機科學與數(shù)學、信息與通信工程—計算機科學、生物學—計算機科學。
第四大群是城鄉(xiāng)規(guī)劃學、建筑學、地球物理學學科組成的社群。
從跨學科文獻閱讀來看,自然科學向人文社會科學的滲透強于人文社會科學向自然科學的滲透,人文社會科學各門類之間的交融面上發(fā)揮連接橋梁的學科是經(jīng)濟學、政治學、法學、哲學、新聞學、語言文學等。
通過研究文獻中的跨界評價數(shù)據(jù)和模型,從科學家網(wǎng)絡文獻交流數(shù)據(jù)出發(fā),探討跨界影響力關系估計問題。我們將跨界關系映射到圖中的節(jié)點和節(jié)點之間的關系估計問題,綜合利用模塊社群挖掘算法、連通社群挖掘方法和社群提取方法,揭示了人文社會科學跨機構合作和跨學科合作的基本模式。實驗從多方面驗證了方法的有效性,并給出了應用于人文社會科學領域的實例和分析結(jié)果。主要結(jié)果包括跨機構影響中的星型結(jié)構和地域特點,星型結(jié)構中的強校紐帶作用比較突出,呈現(xiàn)出明顯的差序社會合作模式??鐚W科影響研究中,互連結(jié)構揭示了經(jīng)濟學、社會學等學科對于溝通人文與社會科學,計算機科學對于溝通人文與理工科之間的橋梁關系。
基于上述討論,我們認為文獻的跨界評價方面還有如下有待研究的問題,希望對本領域的其他研究者有所啟發(fā):
第一,深入研究海量文獻的跨學科識別技術。當前許多學術成果都是跨學科研究的結(jié)果,其中不僅有跨學科機構,也有跨學科的人員合作。我們僅在一級學科上進行了跨學科影響關系的探討,如果能增強學術成果跨學科識別技術的識別,特別是基于文本和內(nèi)容的學科識別技術,將有利于在跨界影響的基礎上開展有效率的海量復雜文獻的讀者推薦應用。目前已有研究主要面向主題識別的有效性提出,著眼于如何有效判定兩篇文章是否描述同一主題,但是面向?qū)W科識別效率的工作較少,因此不能落實到合理定義兩篇文獻的學科相似性。
第二,算法挖掘模式的深入研究。本文所提及的幾個算法雖然都被證實能夠發(fā)現(xiàn)重要的關系模式,但也遺漏了一些模式,比如連通社群挖掘算法易于發(fā)現(xiàn)互連結(jié)構,散射結(jié)構模式容易被忽略。改進算法以適應更廣泛的需求是一個待研究的問題。
第三,加強跨學科熱點文獻提取模型的研究,當前對文獻的提取假設數(shù)據(jù)是不發(fā)生變化的靜態(tài)數(shù)據(jù),因而可以在其上建立宏觀的跨界關系等。但是對于熱點問題或主題提取等問題,則需要頻繁更新的復雜網(wǎng)絡數(shù)據(jù)方法。
第四,加強學術影響力因子與跨界影響力數(shù)據(jù)的對比分析,對兩種不同的數(shù)據(jù)做深入的對比研究。由于受數(shù)據(jù)收集時間所限,結(jié)論的穩(wěn)定性還需要更長時間的比較與深入研究。
在我國,基于海量文獻數(shù)據(jù)的跨界影響力研究剛剛起步,本文主要研究基于客觀數(shù)據(jù)的跨界影響力方法。但無論是來自于客觀的數(shù)據(jù)還是評分數(shù)據(jù),都有各自的優(yōu)點,只有將兩者有效地結(jié)合起來,才能建立起更有價值的能經(jīng)得起實踐考驗的文獻評價體系,從而為政府決策提供更可靠的數(shù)據(jù),為廣大學者提供更便捷的學術服務。
[1]劉大椿主編:《人文社會科學研究成果評價體系研究》,北京,經(jīng)濟科學出版社,2009。
[2]魏巍、劉仲林:《國外跨學科評價理論新進展》,載《科學學與科學技術管理》,2011(4)。
[3]袁曦臨、劉宇:《人文社會科學評價的復雜性與引文評價指標的修正》,載《圖書情報工作》,2010(14)。
[4]邱均平、熊尊妍:《中國人文社會科學著者的引文分析》,載《現(xiàn)代情報》,2008(8)。
[5]李燕:《關于引文評價指標中的三個問題》,載《農(nóng)業(yè)圖書情報學刊》,2011(3)。
[6]潘鋒、張笑:《2010年中國科技論文統(tǒng)計結(jié)果發(fā)布》,見科學網(wǎng),http://news.sciencenet.cn/htmlnews/2011/12/256428.shtm。
[7]宋歌:《社會網(wǎng)絡分析在引文評價中的應用研究》,載《圖書情報工作》,2010(14)。
[8]Talja,S.,Vakkari,P.,F(xiàn)ry,J.&Wouters,P.“The Impact of Research Cultures on the Use of Digital Library Resources”.Journal of the American Society for Information Science and Technology,2007,58:1674–1685.
[9]陳雅、鄭建明:《基于科學交流的網(wǎng)絡文獻交流模式分析》,載《情報科學》,2005(10)。
[10]谷景亮、賈培民、鐘彩霞等:《科研機構創(chuàng)新能力綜合評價應用研究》,載《醫(yī)學信息學雜志》,2007(6)。
[11]Newman M.“Fast Algorithm for Detecting Community Structure in Networks”.Physical Review,2004,69(6).
[12]Yong-Yeol Ahn,James P.Bagrow,Sune Lehmann.“Link Communities Reveal Multiscale Complexity in Networks”.Nature,2010,466:761-764.
[13]Yunpeng Zhao,Elezaveta Levina,Ji Zhu.“Community Extraction for Social networks”.Proceedings of the National Acadenny of Sciences of the United States of America,2011,108(18):7321-7326.
[14]S.Fortunato,M.Barthélemy.“Resolution Limit in Community detection”.Proceedings of the National Acadenny of Sciences of the United States of America,2007,104:36-41.
[15]Ernesto Estrada.“Community Detection Based on Network Communicability”.Chaos,2011,21,016103.
[16]武書連主編:《挑大學選專業(yè):2011高考志愿填報指南》,北京,中國統(tǒng)計出版社,2011。