陳曉鈺 馬海群
(1.黑龍江大學信息管理學院 黑龍江哈爾濱 150080)(2.黑龍江大學信息資源管理研究中心 黑龍江哈爾濱 150080)
在大數(shù)據(jù)時代的背景下,開放數(shù)據(jù)浪潮席卷了全世界[1]。2009年美國政府門戶網(wǎng)站的正式啟用是開放數(shù)據(jù)的一個里程碑事件,各國政府、公司、高校等都緊隨其后進行了自己的研究。而在這次開放數(shù)據(jù)浪潮的帶動下,由政府信息公開制度嬗變而來的開放政府數(shù)據(jù)(Open Government Data,簡稱 OGD)進入到了國內(nèi)信息管理、法學及相關(guān)領(lǐng)域的學者和專家們的研究視野[2]。而伴隨著近年來學者們對開放政府數(shù)據(jù)研究的深入發(fā)展,越來越多的研究方向得以顯現(xiàn),例如以開放政府數(shù)據(jù)為根據(jù)研究經(jīng)濟增長模式、研究開放政府數(shù)據(jù)的理論與體系建設(shè)、深入探索國內(nèi)開放政府數(shù)據(jù)政策演變路徑等。短時間內(nèi),大量且駁雜的文獻涌入使用戶的信息搜集與篩選處理變得更為困難,該領(lǐng)域的真實發(fā)展狀況也變得模糊不清。因此,運用文獻計量法對開放政府數(shù)據(jù)領(lǐng)域進行全面系統(tǒng)的趨勢分析就顯得尤為重要。
本文對2004年10月至2021年4月期間發(fā)表的有關(guān)開放政府數(shù)據(jù)的研究文獻進行了整體分析,以便未來的學者了解這一領(lǐng)域的研究現(xiàn)狀,找到研究空白,為開放政府數(shù)據(jù)的發(fā)展打下堅實基礎(chǔ)。另外,從整體的角度對開放政府數(shù)據(jù)領(lǐng)域進行深入研究,還可以提高信息獲取利用的高效性與準確性,在當前國家總體安全觀的背景下更好地推動我國社會與技術(shù)發(fā)展。
由于大多數(shù)學者或研究人員對中國知網(wǎng)的檢索方式與數(shù)據(jù)庫比較熟悉與認同,因此本文所采集到的數(shù)據(jù)均是來自于中國知網(wǎng)CNKI,采用高級檢索方式,檢索主題為“主題”=“開放政府數(shù)據(jù)”,時間一欄的截止日期選取為2021年4月,將匹配設(shè)置為“精確”,共檢索到符合要求的文獻1992篇,包括1576篇學術(shù)期刊論文、208篇學位論文及其他相關(guān)知識成果。
本文擬采用適當?shù)奈墨I計量方式,結(jié)合布拉德福定律、齊普夫定律、洛特卡定律等規(guī)律,分析開放政府數(shù)據(jù)領(lǐng)域的文獻增長規(guī)律、老化規(guī)律等,以期得出該領(lǐng)域的發(fā)展趨勢。與此同時,本研究還借助了文本挖掘與可視化分析軟件——CiteSpace,呈現(xiàn)其相關(guān)因素的知識圖譜。庫恩范式、普萊斯理論、格蘭諾維思理論、馬爾科夫模型理論、知識單元離散與重組理論是該軟件分析與研究的理論基礎(chǔ)[3]。與其他可視化軟件相比,CiteSpace具有更加清晰的數(shù)據(jù)處理能力、理想的可視化效果,其清晰明確又簡潔大方的界面為用戶帶來了最大程度的便利,因此更適合描述總結(jié)我國開放政府數(shù)據(jù)領(lǐng)域的演進歷程和研究態(tài)勢。
筆者經(jīng)過篩選,考慮到信息不全的情況,如無作者、無年代等現(xiàn)象,再排除書評、會議記錄、圖書推介、時論摘要、新聞等無關(guān)文獻,最終得到有效論文1441篇。
對這些文獻的年度發(fā)文量和累積發(fā)文量進行統(tǒng)計分析可發(fā)現(xiàn),開放政府數(shù)據(jù)領(lǐng)域相關(guān)文獻的總體研究趨勢基本可以劃分成三個階段。第一階段,在2004年到2012年之間,有關(guān)開放政府數(shù)據(jù)的論文發(fā)行量基本為個位數(shù),說明在這一時期,還很少有人將情報學領(lǐng)域的研究重點放在開放政府數(shù)據(jù)上,這還是一個尚未形成完整研究體系的研究空白。第二階段,2013年至2018年,在這近6年的時間里,人們對這一領(lǐng)域的研究探索正在不斷地深入。從整體的態(tài)勢來看,年度發(fā)文量穩(wěn)步增長,甚至是大幅度躍進,都從方方面面顯示出了開放政府數(shù)據(jù)的地位正在逐步加強,人們對這一領(lǐng)域的研究工作也不斷地重視。第三階段,即從2019年至2021年,這一階段處于該領(lǐng)域的成熟穩(wěn)定期。2019年后每年的發(fā)文量基本都持續(xù)穩(wěn)定在最高點附近,說明近幾年相關(guān)學者對該領(lǐng)域已經(jīng)有所建樹,建立了一批比較穩(wěn)定與固定的研究團隊,進而推動此領(lǐng)域的成熟發(fā)展(見圖1)。這樣的趨勢呈現(xiàn)也與2009年美國建立開放政府門戶網(wǎng)站后我國大力推廣的數(shù)據(jù)開放觀念有關(guān)[4]、與近些年來圖書情報及大數(shù)據(jù)等相關(guān)領(lǐng)域技術(shù)的高速發(fā)展有著密切聯(lián)系。在技術(shù)和相關(guān)理論強力支撐的基礎(chǔ)上,眾多學者關(guān)于開放政府數(shù)據(jù)的研究成果才得以發(fā)展產(chǎn)生。
圖1 2004—2021年國內(nèi)開放政府數(shù)據(jù)研究論文年度發(fā)文量趨勢圖
另外,隨著社會的發(fā)展,文獻發(fā)表年代與累積量二者之間逐漸呈現(xiàn)出了一定的規(guī)律。普萊斯曾經(jīng)提出科學文獻增長規(guī)律,即F(t)=aebt,這就是著名的普萊斯指數(shù),它以指數(shù)函數(shù)的形式清晰地反映出了當今時代文獻發(fā)表的增長規(guī)律。本文的研究對象的整體趨勢基本符合指數(shù)增長規(guī)律,即研究初期文獻發(fā)表量極少,且增長速度極慢,2015年后文獻增長速率逐漸變大,增長速度逐漸加快,符合普萊斯指數(shù)特點。這一趨勢說明了現(xiàn)階段開放政府數(shù)據(jù)領(lǐng)域的研究正處于發(fā)展時期,越來越多的學者涉足該領(lǐng)域豐富了知識成果庫。但由于如檢索誤差和研究領(lǐng)域不同等原因的存在,實際曲線與擬合指數(shù)曲線F(t)=0.3814e0.4828t之間還存在著一定的偏差(見圖2),但我們也可以以此為依據(jù)大致推斷出未來開放政府數(shù)據(jù)領(lǐng)域的研究狀況基本呈上升或持平趨勢,處于成熟期。
圖2 2004—2021年國內(nèi)開放政府數(shù)據(jù)研究論文累積增長圖
塞繆爾·克萊門特·布拉德福于1878年在倫敦出生,早期是一位化學家,后進入圖書館工作,是英國著名的圖書館員與科學文獻分類專家,他創(chuàng)立了英國國際書目學社,并提出了布拉德福定律[5],成為了現(xiàn)在圖書情報領(lǐng)域文獻計量學著名三大定律之一的提出者。
布拉德福長期從事于文獻的研究,在圖書館開展有關(guān)科學和技術(shù)期刊中文章的收集、分類和摘錄統(tǒng)計等具體工作。他在工作中發(fā)現(xiàn),在學科期刊上發(fā)表非對應學科文章是一種非常常見的現(xiàn)象。因此,布拉德福假設(shè)在期刊發(fā)表上的文章分布有某種模式:在某一領(lǐng)域內(nèi)更具有權(quán)威性的文章可能集中在少數(shù)專業(yè)期刊上,而與這一領(lǐng)域有關(guān)的“邊緣雜志”和“普通雜志”上發(fā)表的文章則占據(jù)了該領(lǐng)域研究成果的大部分。為了證實這一想法,布拉德福及其助理瓊斯分別選擇了兩個專題“應用地球物理學”和“潤滑學”,對圖書館收藏的期刊中與此專題有關(guān)的論文逐一進行統(tǒng)計[6],并順利得出了結(jié)論。這樣布拉德福就證實了他最初的猜測,為布拉德福定律的得出打下了最堅實的根基。1934年1月,布拉德福在《工程》周刊的“圖書與文獻”部分發(fā)表了一篇題為《特定學科的情報源》的文章[7],提出了與某一特定主題有關(guān)的出版物在期刊上的分布并不均勻,而是顯現(xiàn)出集中和離散狀況的文獻分散規(guī)律,即具有里程碑意義的布拉德福定律。該定律可以用文字表述為:如果將科技期刊按其刊載某專業(yè)論文的數(shù)量以遞減順序排列,則可分出一個核心區(qū)和相繼的幾個區(qū)域,每區(qū)刊載的論文量相等,此時核心期刊和相繼區(qū)域期刊數(shù)量成1∶a∶a2的關(guān)系[8]。布拉德福定律的產(chǎn)生推動了學術(shù)界發(fā)展,提高了文獻信息的利用率。
筆者將2004年10月—2021年4月開放政府數(shù)據(jù)領(lǐng)域內(nèi)所選取的研究論文數(shù)據(jù)的期刊分布情況,按照布拉德福定律,歸納成三部分,且三部分之間的論文發(fā)表數(shù)量大致相等。第一部分,選取的是期刊載文量在21—91篇之間的9本期刊,可稱為“核心”期刊領(lǐng)域;第二部分,稱為“相關(guān)區(qū)”期刊,即載文量在3—20篇之間的71本期刊;第三部分,可作為“離散區(qū)期刊”,期刊載文量為1—2篇,期刊數(shù)量為283本。從數(shù)量分布規(guī)律來看,三個區(qū)域之間的關(guān)系近似符合布拉德福文獻離散規(guī)律,即每個區(qū)域發(fā)表的論文數(shù)量基本相等,期刊區(qū)域之間的數(shù)量成1∶a∶a2的關(guān)系(見表1)。
表1 期刊分區(qū)表單位:篇
期刊刊載文章的數(shù)量可以有效反映和說明開放政府數(shù)據(jù)領(lǐng)域的研究現(xiàn)狀、研究情況和期刊分布狀況。開放政府數(shù)據(jù)領(lǐng)域中的核心期刊大致有以下9種,以《電子政務》為首,緊跟其后的是圖書情報領(lǐng)域的各個重要期刊,而位列最后的是《中國行政管理》。從這種現(xiàn)象中不難發(fā)現(xiàn),目前國內(nèi)關(guān)于開放政府數(shù)據(jù)領(lǐng)域的研究大部分還是集中在圖書情報領(lǐng)域的研究學者之中,但仍有其他方向例如政法領(lǐng)域的學者參與涉獵,并提出重要想法建議,推動整個開放政府數(shù)據(jù)領(lǐng)域的發(fā)展。9大“核心期刊”共發(fā)表期刊論文386篇,占全部論文的34.526%。這說明開放政府數(shù)據(jù)研究的文獻發(fā)表情況相對比較集中,已經(jīng)形成了相對成熟穩(wěn)定的重要期刊集合,得到了廣大研究學者的充分肯定,獲得了國內(nèi)重要期刊的認可,具有一定的權(quán)威性(見表2)。
表2 開放政府數(shù)據(jù)領(lǐng)域核心期刊載文量分布
由于本文數(shù)據(jù)的選取截止到2021年4月,并不是一個完整的年度,所以數(shù)據(jù)圖像僅供現(xiàn)階段參考。用布拉德福曲線展現(xiàn)開放政府數(shù)據(jù)領(lǐng)域的文獻數(shù)量分散情況,橫坐標表示期刊數(shù)量累計和對數(shù)[9],縱坐標代表論文累計數(shù)(見圖3)。從圖3可以看出,開放政府數(shù)據(jù)領(lǐng)域的文獻數(shù)量分散曲線基本可以分成兩個部分進行歸納:在圖像的前半部分,各個數(shù)據(jù)點之間間隙較大,數(shù)據(jù)點集合形成的趨勢呈上升狀,說明該部分期刊數(shù)量較少,但各期刊的發(fā)文量均較多,研究成果在開放政府數(shù)據(jù)領(lǐng)域中有一定的分量,屬于核心期刊區(qū)域;而圖像的后半部分,數(shù)據(jù)點比較集中相互連接,基本呈現(xiàn)直線狀,期刊間離散程度較小,分散程度較低,其中有69種期刊發(fā)表了2篇論文,214期刊發(fā)表了1篇論文,后半部分曲線分別與“相關(guān)”和“邊緣”期刊區(qū)域相對應。從整體來看,數(shù)據(jù)點之間的離散程度越來越低,論文累計數(shù)卻在持續(xù)增加,這種趨勢剛好與布拉德福定律描述的某一專業(yè)內(nèi)期刊論文在期刊信息源上發(fā)表不平衡的現(xiàn)象相吻合,并說明現(xiàn)階段開放政府數(shù)據(jù)領(lǐng)域正處于成熟發(fā)展時期,越來越多的學者參與研究并在不同學科的期刊上發(fā)表了研究成果。
圖3 開放政府數(shù)據(jù)領(lǐng)域文獻數(shù)量分散曲線圖
美國哈佛大學教授、著名語言學家和情報學家喬治·金斯利·齊普夫最早提出了“最省力法則”的概念,此理論提出初期強調(diào)的是運動和道路的概念,但卻為齊普夫定律解釋了內(nèi)在成因,為其創(chuàng)建提供了堅實的基礎(chǔ)[10]。早在1898年, 德國語言學家F.W.Kaeding就開始了對詞頻的研究,并編寫了世界上第一部頻率詞典《德語頻率詞典》[11],隨后,艾思杜、貢東兩位學者也分別著眼于詞頻這一方向進行了自己的研究。齊普夫在前人研究成果的基礎(chǔ)上,采用大量的數(shù)據(jù)系統(tǒng)鉆研,經(jīng)過艱巨的統(tǒng)計計算和結(jié)論再驗證后,最終確定了常數(shù)C的性質(zhì), 成功論證了詞的頻率與等級序號之間關(guān)系的定量形式,將文獻中詞匯出現(xiàn)頻率的分布規(guī)律以定量的形式表現(xiàn)出來。人們?yōu)榱讼螨R普夫表示尊敬,感謝他為揭示這種分布規(guī)律而作出的巨大貢獻,將這一定律命名為“齊普夫定律”[10]。齊普夫定律的內(nèi)容可以大致概括為:若用f表示頻次,r表示等級序號,則有: f*r=C(C為常數(shù)),其中C是一個圍繞中心數(shù)值而波動的值,并不是恒量。
齊普夫定律作為文獻計量領(lǐng)域的三大定律之一,為用戶進行信息搜尋、文獻檢索、文獻標引等提供了有效保障,使廣大學者在詞匯的使用控制方面有了更深層次的理解,為其他學科的進步奠定了良好的理論基礎(chǔ),有效推動社會共同進步發(fā)展。
高頻詞的數(shù)量對研究結(jié)果有決定性影響。為了排除低頻詞干擾研究結(jié)果,確定一定數(shù)量的高頻詞是進行詞頻分析的基礎(chǔ)。本文共選取了1441篇論文作為原始數(shù)據(jù),其中提供關(guān)鍵詞的文章共1395篇,檢索到有效關(guān)鍵詞2354個。由于關(guān)鍵詞具有一定程度的主觀性,常常會出現(xiàn)一種意義多種表達形式的情況,因此本文對高頻關(guān)鍵詞進行了合并統(tǒng)計,如將“政府數(shù)據(jù)開放”“開放政府數(shù)據(jù)”“政府數(shù)據(jù)公開”等關(guān)鍵詞統(tǒng)一歸納為“政府數(shù)據(jù)開放”;將“大數(shù)據(jù)時代”“大數(shù)據(jù)”合并為“大數(shù)據(jù)”一詞等。經(jīng)過筆者歸納整合,統(tǒng)計出開放政府數(shù)據(jù)領(lǐng)域排名前50位的高頻關(guān)鍵詞,并根據(jù)齊普夫定律進行了相應數(shù)據(jù)的排列整理(見表3)。
表3 開放政府數(shù)據(jù)領(lǐng)域前50位高頻關(guān)鍵詞
齊普夫定律主要研究的是關(guān)鍵詞的詞頻,而文章的關(guān)鍵詞在某種程度上也反映出了該篇論文的研究主題,能夠簡要概括此篇論文的研究方向,使讀者能夠迅速識別獲取研究重點。統(tǒng)計某一專業(yè)研究領(lǐng)域內(nèi)的高頻關(guān)鍵詞更是能很好地反映出目前該領(lǐng)域的研究現(xiàn)狀、研究熱點,進而有效預測整體發(fā)展方向。
由表3可以發(fā)現(xiàn),在開放政府數(shù)據(jù)領(lǐng)域的研究中,排在前幾位的關(guān)鍵詞分別是政府數(shù)據(jù)開放、數(shù)據(jù)開放、政府數(shù)據(jù)、大數(shù)據(jù)、開放政府等詞語。政府數(shù)據(jù)開放是該領(lǐng)域研究成果關(guān)鍵詞的首選,能夠直接點明主題,其次是數(shù)據(jù)開放和政府數(shù)據(jù)二詞,二者均是比較廣義的類型且覆蓋面寬泛,再次是大數(shù)據(jù)的時代背景和技術(shù)支持,然后是電子政務一詞,能夠與前文中核心期刊的歸納相互呼應。除此之外,從表中可以看出,各組序號和頻次的乘積均為上下波動的常數(shù)。由此不難發(fā)現(xiàn),開放政府數(shù)據(jù)領(lǐng)域的關(guān)鍵詞詞頻規(guī)律與齊普夫定律基本相符,即f*r=C。表3中的50位高頻關(guān)鍵詞高度概括了開放政府數(shù)據(jù)領(lǐng)域的研究熱點,若將數(shù)據(jù)選取的截止時間變動后再進行對比,就能夠發(fā)現(xiàn)該領(lǐng)域近些年的研究趨勢與發(fā)展變動情況。
以表3中已按照齊普夫定律處理好的數(shù)據(jù)為依據(jù),以序號r為橫坐標,以頻次f為縱坐標繪制,可得到開放政府數(shù)據(jù)領(lǐng)域關(guān)鍵詞頻次分布曲線散點圖圖像(見圖4)。在圖像初期各散點之間離散程度較大,變化較快,說明該部分關(guān)鍵詞在領(lǐng)域內(nèi)出現(xiàn)概率較大,是整個開放政府數(shù)據(jù)領(lǐng)域的研究主體,熱度較高;而圖像的后半部分趨勢較平緩,因變量隨自變量波動變化不明顯,表明該領(lǐng)域內(nèi)研究成果的關(guān)鍵詞逐漸變得復雜多樣,研究面不斷拓寬,吸引了更多學者加入探討,反映出了開放政府數(shù)據(jù)領(lǐng)域高速發(fā)展并逐漸走向成熟的客觀現(xiàn)象。再從圖像的整體趨勢來看,圖像呈遞減趨勢,頻次隨著序號的增大而降低。添加擬合曲線后可以發(fā)現(xiàn),該散點圖與冪函數(shù)y=557.03x-1.06圖像基本相近,符合齊普夫詞頻分布的基本圖像走勢。
圖4 開放政府數(shù)據(jù)領(lǐng)域關(guān)鍵詞頻次分布曲線散點
在此基礎(chǔ)上,再分別以表3中序號r與頻次f的數(shù)值取對數(shù)作為橫縱坐標,繪制開放政府數(shù)據(jù)領(lǐng)域關(guān)鍵詞頻次分布對數(shù)曲線圖(見圖5)。由于散點連線與直線y=-1.0598x+2.7459之間的擬合度達0.9646,因此序號r對數(shù)與頻次f對數(shù)之間的關(guān)系可以近似地看作線性關(guān)系,這就說明開放政府數(shù)據(jù)領(lǐng)域內(nèi)的關(guān)鍵詞詞頻規(guī)律是基本符合齊普夫定律內(nèi)容的。
圖5 開放政府數(shù)據(jù)領(lǐng)域關(guān)鍵詞頻次分布對數(shù)曲線圖
美國著名學者和科學計量學家洛特卡(Alfred J .Lotka)于1926年首先提出了文獻計量領(lǐng)域三大經(jīng)典定律之一的洛特卡定律,它從文獻計量學、科學計量學、圖書情報學等角度,深入探討學者著作的科學文獻數(shù)量與學者數(shù)量之間的定量關(guān)系,是一個研究著者生產(chǎn)率頻率分布的重要定律[12]。1926年,洛特卡首先研究了科學文獻數(shù)量與作者人數(shù)之間的關(guān)系,并創(chuàng)造性地提出了“科學生產(chǎn)率”的概念。在此概念的基礎(chǔ)上,洛特卡針對化學和物理學兩大領(lǐng)域內(nèi)的學科專家及其著作情況進行了數(shù)據(jù)統(tǒng)計歸納,在龐大數(shù)據(jù)庫支撐的背景下才得出了規(guī)律性結(jié)論, 為洛特卡定律的形成準備好了基石。因此,該定律的形成是以“科學生產(chǎn)率”為基礎(chǔ)經(jīng)大量統(tǒng)計研究而出現(xiàn)的。洛特卡定律可以用文字表示為:在某一段時間內(nèi),寫x篇論文的作者占作者總數(shù)的比例與其撰寫的論文數(shù)x的平方成反比關(guān)系。即,其中f(x)為寫x篇論文的作者占作者總數(shù)的百分比,x為論文篇數(shù),C為某特征常數(shù)[12]。
洛特卡定律反映出了論文數(shù)量與論文作者二者之間的不平衡分布現(xiàn)象,即少數(shù)作者寫出了大量的文獻,而大多數(shù)作者所著知識成果卻只占已發(fā)表文獻中的一小部分。洛特卡定律的出現(xiàn),為人們進行信息資源管理與信息有效利用提供了便利條件,能夠起到“風向標”的作用,指引領(lǐng)域研究動向,方便該領(lǐng)域內(nèi)的學者之間相互交流;為研究人才分布、尋找并掌握領(lǐng)域精英學者信息提供理論支撐,便于文獻管理,引領(lǐng)發(fā)展,共同進步。
由于洛特卡定律也適用于作者合著的情況,因此在本文的研究中,只要是參與文獻發(fā)表的作者就被視作單獨發(fā)表了1篇文章,經(jīng)統(tǒng)計,在本文所選取的1441篇文獻中,剔除掉空白作者等無法統(tǒng)計的情況外,共收集到為開放政府數(shù)據(jù)領(lǐng)域作出貢獻的有效作者1547名。在文獻作者分布領(lǐng)域,普萊斯首先注意到高產(chǎn)作者研究的重要性。他發(fā)現(xiàn)75%的學者在他的一生中只發(fā)表了1篇文章,而另有10%的科學家在其一生中所發(fā)表的論文數(shù)量占所有論文庫的二分之一[9]。在開放政府數(shù)據(jù)領(lǐng)域僅發(fā)表1篇論文的學者占整體著作者的80.2844%,大致符合普萊斯定律,且說明了當前開放政府數(shù)據(jù)領(lǐng)域的研究作者群體相對龐大,研究人員較分散的現(xiàn)狀。普萊斯定律可以定量地用數(shù)學公式表示為,其中I代表著該領(lǐng)域內(nèi)發(fā)表論文數(shù)量最多的作者的論文數(shù),n(x)代表編寫了x篇文獻的作者數(shù)量,N是該領(lǐng)域內(nèi)的著者總數(shù),該公式意在表明撰寫了論文數(shù)據(jù)庫中一半論文的高產(chǎn)作者數(shù)量等于全部科學作者總數(shù)的平方根。將本文所選取的作者數(shù)量數(shù)據(jù)代入,則N是1547,則開放政府數(shù)據(jù)領(lǐng)域內(nèi)高產(chǎn)作者數(shù)量為1547的平方根,可以近似地看作該領(lǐng)域共有40位高產(chǎn)作者。除此之外,普萊斯根據(jù)洛氏定律, 借用數(shù)學結(jié)論, 經(jīng)推導得出:m≈0.749,因此高產(chǎn)作者最低發(fā)文量,其中 maxn代表最高產(chǎn)作者的論文發(fā)表數(shù)量,將表4數(shù)據(jù) maxn=33代入后可得N≈4.30,即發(fā)文量在5篇以上的作者屬于開放政府數(shù)據(jù)領(lǐng)域內(nèi)的核心作者[15],即黃如花、馬海群、陳美、翟軍、鄭磊等人是這個領(lǐng)域的核心作者,如表4所示。
表4 作者發(fā)文分布數(shù)據(jù)
洛特卡定義描述的是在某一段時間內(nèi),寫了x篇論文的作者總數(shù)的比例與撰寫數(shù)量x平方之間的關(guān)系,即,其中c為洛特卡定律常數(shù)[14]。為了計算方便減少誤差,且能夠使圖像更加干凈簡潔,文章將刪除核心作者即發(fā)文量在5篇以上的作者的相關(guān)數(shù)據(jù)。為了對此定義進行驗證,本文采取最小二乘法的方式來求取自變量x的指數(shù)n的具體數(shù)值。表5所顯示的是開放政府數(shù)據(jù)領(lǐng)域所發(fā)表著作作者的分布情況,而表6所顯示的是將論文數(shù)x與作者數(shù)y分別進行對數(shù)運算后求得的n的結(jié)果。
表5 開放政府數(shù)據(jù)領(lǐng)域論文作者分布數(shù)據(jù)
表6 x指數(shù)n的計算數(shù)據(jù)
圖6所示的是開放政府數(shù)據(jù)領(lǐng)域內(nèi)發(fā)文量不多于5篇的論文作者的洛特卡分布散點圖。該圖像以論文數(shù)x的對數(shù)為橫坐標,以作者數(shù)y的對數(shù)為縱坐標,采用表6中的數(shù)據(jù)繪制而成。散點之間的連線可以擬合成表達式為y=-2.9131x+3.1222的一次函數(shù)圖像,該函數(shù)圖像與散點連線圖之間的擬合程度高達0.9947,基本重合。其斜率-2.9131的絕對值與5.3數(shù)據(jù)分析部分中利用最小二乘法求得的指數(shù)n值基本無差,均與洛特卡定律給出的數(shù)值2相接近,這就說明無論采取什么樣的辦法,從何種角度對杰出作者進行分析統(tǒng)計后都會得到一樣的結(jié)果,則可以近似地看作開放政府數(shù)據(jù)領(lǐng)域論文發(fā)表情況與領(lǐng)域內(nèi)學者之間的數(shù)量關(guān)系符合著名的洛特卡定律。
圖6 開放政府數(shù)據(jù)領(lǐng)域論文著作者洛特卡分布曲線
由于大多數(shù)學者或研究人員還是對中國知網(wǎng)的檢索方式與數(shù)據(jù)庫全面程度比較熟悉與認同,因此本部分中所采集到的數(shù)據(jù)均是來自于中國知網(wǎng)CNKI,采用高級檢索方式,標簽選擇“期刊”,檢索主題為“主題”=“開放政府數(shù)據(jù)”,文獻來源為“CSSCI”,時間跨度為2019年至2020年,共檢索到相應文獻196條,排除書評、圖書推介、序等無關(guān)文獻,最終得到有效論文193篇。
對所選取的數(shù)據(jù)進行有效引文分析能夠從大量的文獻中研究開放政府數(shù)據(jù)的熱點與發(fā)展趨勢,并對其進行歸納分析與深層刨析,總結(jié)近幾年來此領(lǐng)域的發(fā)展,對開放政府數(shù)據(jù)日后的研究方向預測具有重大意義。
本部分研究采用引文分析法與定性定量法相結(jié)合的方式,以Citespace的可視化分析圖譜為根據(jù),在JAVA的大環(huán)境下,將抽象數(shù)據(jù)轉(zhuǎn)換為可以生動表明該領(lǐng)域發(fā)展熱點重點的關(guān)鍵詞共現(xiàn)圖譜以及研究熱點聚類圖譜等。采用CitespaceV5.8.R1軟件,時間切片中的# Years Per Slice設(shè)置為1年,年限為對應年限;節(jié)點類型根據(jù)研究方向不同而改變;Selection Criteria中的g-index選擇k=25;連線強度(Links)選擇Cosine;Pruning選擇為Pathfinder + Pruning sliced networks + Pruning the merged network;Visualization選擇為Cluster View-Static + Show Merged Network[3]。將CNKI中按要求檢索出來的文獻根據(jù)以上參數(shù)設(shè)置進行可視化處理,研究2019年至2020年兩年內(nèi)開放政府數(shù)據(jù)領(lǐng)域的共引關(guān)鍵詞、共引作者等情況。
關(guān)鍵詞圖譜中節(jié)點的大小代表關(guān)鍵詞出現(xiàn)頻率的大小;節(jié)點的顏色代表著該關(guān)鍵詞常出現(xiàn)的年份,節(jié)點顏色越深代表這一年與這一關(guān)鍵詞相關(guān)的文獻越多;節(jié)點之間連線的顏色代表著產(chǎn)生關(guān)聯(lián)的年份,粗細代表兩者的關(guān)聯(lián)性情況,連線越粗,共現(xiàn)頻率和關(guān)聯(lián)性越大。圖7中灰色代表2019年,黑色代表2020年。
在最終繪制而成的共詞網(wǎng)絡圖譜中,如果文獻中關(guān)鍵詞共同出現(xiàn)的頻次越高說明其關(guān)系越密切,同時也證明這一組關(guān)鍵詞已經(jīng)成為了學術(shù)界和研究領(lǐng)域內(nèi)的重要話題。從圖7所呈現(xiàn)的信息來看,政府數(shù)據(jù)、開放政府數(shù)據(jù)、政府數(shù)據(jù)開放、數(shù)據(jù)治理等都是與開放政府數(shù)據(jù)研究有關(guān)的重要關(guān)鍵詞。若從量化的視角看文章之間關(guān)鍵詞的緊密關(guān)系,則如表7所示,以政府數(shù)據(jù)開放、數(shù)據(jù)開放、政府數(shù)據(jù)三個關(guān)鍵詞的頻次最高。值得注意的是,關(guān)鍵詞的頻次與中心度并不完全一致,如政府數(shù)據(jù)的頻次為34,中心度為0.59,卻高于頻次以數(shù)據(jù)45排在榜首,但中心度僅有0.3的“政府數(shù)據(jù)開放”一詞,這一現(xiàn)象說明政府數(shù)據(jù)方向在短時期內(nèi)成為了學術(shù)界研究的重點和熱點。除此以外,由圖7我們也可以清晰地發(fā)現(xiàn),眾多關(guān)鍵詞不斷涌現(xiàn),研究人員對于開放政府數(shù)據(jù)以及相似領(lǐng)域研究的涉及面正在不斷延伸擴寬。
圖7 研究關(guān)鍵詞共現(xiàn)圖譜
表7 2019—2020年開放政府數(shù)據(jù)研究的主要高頻關(guān)鍵詞(排名前8)
運用CitespaceV5.8.R1軟件,選擇“Author”,最終輸出研究作者共現(xiàn)圖譜。如圖8所示,圓圈代表作者發(fā)文量,顏色深淺程度代表相應的發(fā)文年份,名字字體越大代表著該作者在此領(lǐng)域的研究成果越豐厚、越具有權(quán)威性,比如陳美、陳朝兵、翟軍等。圓圈之間的連線代表著作者之間的合作關(guān)系,顏色的飽和度分別代表其合作的年份,例如以翟軍為中心的作者集群為首,多位學者的研究均嘗試以合作的方式進行,并不斷向新的領(lǐng)域邁進,且翟軍的研究在2019年和2020年均取得了一定的知識成果。若將數(shù)據(jù)庫中數(shù)據(jù)的檢索面擴展到2016—2020年這5年,再對其進行作者共現(xiàn)圖呈現(xiàn)則如圖9所示。通過兩張圖片的橫向?qū)Ρ群罂梢园l(fā)現(xiàn),曾經(jīng)在開放政府數(shù)據(jù)領(lǐng)域作出突出貢獻的學者,如黃如花團隊針對該方向的研究基本遍布在2016—2018年這三年內(nèi),并在近兩年漸漸脫離此方向的研究,著手更廣闊的領(lǐng)域。
圖8 2019—2020年研究作者共現(xiàn)圖譜
圖9 2016—2020年研究作者共現(xiàn)圖譜
運用Citespace軟件,選擇“Country”,最終可輸出研究機構(gòu)圖譜。當前該領(lǐng)域的主要研究機構(gòu)以四川大學、華中師范大學、西南財經(jīng)大學等高校為主,且各高校之間基本獨立研究,基本沒有機構(gòu)間的連線合作,缺少機構(gòu)間的相互配合。研究中發(fā)現(xiàn),華中師范大學在開放政府數(shù)據(jù)領(lǐng)域的研究基本集中在2020年。上海大學等機構(gòu)雖然研究的數(shù)量不如上文中提到的那些機構(gòu),但是也在2019和2020兩年內(nèi)對開放政府數(shù)據(jù)領(lǐng)域進行了一定數(shù)量與質(zhì)量的研究探索,為豐富CSSCI數(shù)據(jù)庫貢獻了力量。從以上這些信息中我們可以得到這樣的結(jié)論:近年來,以四川大學為首的高校研究機構(gòu)致力于獨立研究,機構(gòu)間的相互配合合作較少。雖然有的機構(gòu)在某些年份沒有新的理論成品輸出,但是從整體的角度來說,在該領(lǐng)域的發(fā)展過程中不斷地有傳統(tǒng)的機構(gòu)離開也有新的機構(gòu)加入,所以關(guān)于開放政府數(shù)據(jù)的研究效果成就依舊可觀。
高被引文獻反映的是文獻被引用情況,能夠作為這一研究領(lǐng)域的前沿狀況高度概括當前領(lǐng)域內(nèi)的研究熱點,能夠有效指引該領(lǐng)域的學術(shù)發(fā)展方向。被引用的文章是豐富該領(lǐng)域知識成果庫的重要知識來源,文獻被引用頻次能夠反映出該篇論文在領(lǐng)域內(nèi)的重要程度,引用頻次越高說明在此領(lǐng)域內(nèi)受到的關(guān)注程度越高。如表8所示,在2019—2020年中國知網(wǎng)收錄的CSSCI期刊中,被引量最大的一篇論文是由王偉玲和王晶共同著作的《我國數(shù)字經(jīng)濟發(fā)展的趨勢與推動政策研究》,它以45的頻次位列榜首,這就說明在開放政府數(shù)據(jù)的學科范圍內(nèi),該篇文章所研究的方向是現(xiàn)階段領(lǐng)域內(nèi)的研究熱點,在眾多學者中受到了最廣泛的關(guān)注并且研究內(nèi)容觀點得到了大部分領(lǐng)域?qū)W者們的肯定,能夠有效啟發(fā)研究者的思路,具有十分重要的借鑒參考意義,為開放政府數(shù)據(jù)領(lǐng)域的建設(shè)發(fā)展提供了最堅實的理論基礎(chǔ)。
表8 前10篇高被引文獻
文獻和其他有機生命體一樣也會涉及到“老化”的問題,會隨著時間的推遲而降低使用效果,面臨著老舊現(xiàn)象,而文獻過時就會大幅度降低其存在價值,影響整個領(lǐng)域的發(fā)展動態(tài)。1943年高斯納爾首次提出了“文獻老化”一詞并于1944年專門針對高校圖書館的文獻老化現(xiàn)象作出了具體的研究論述,這就是當今時代文獻計量學六大規(guī)律之一的文獻老化規(guī)律的產(chǎn)生期始。目前,備受認同的揭示文獻老化程度與速度,定量分析文獻過時規(guī)律的方式主要有以下兩種:(1)文獻半衰期指數(shù)。1958年,美國的專家貝爾納就提出了半衰期指數(shù)的概念[15],這一計算方式是從某一領(lǐng)域整體的角度來衡量文獻老化規(guī)律的,即在整個領(lǐng)域內(nèi)的全部文獻中,50%尚存在參考價值的文獻的發(fā)表時間跨度。時間間隔越短,半衰期越短,就說明該領(lǐng)域文獻更迭速度越快,可供參考引用的高價值文獻越豐富,大量的論文得以流通,學科進步高速。(2)普萊斯指數(shù)。1971年普萊斯針對文獻老化現(xiàn)象提出了一個衡量指標,即后人所稱的“普萊斯指數(shù)”。這一指數(shù)的出現(xiàn)同樣是為了衡量文獻的老化程度與速度,但與半衰期指數(shù)相比它更具優(yōu)勢[15],普萊斯指數(shù)能夠具體地針對某一時期甚至是某一本特定期刊的發(fā)展情況作出大致判斷,判斷該期刊的走向與新陳代謝速度。普萊斯指數(shù)可以被具體地表示為在某一知識領(lǐng)域內(nèi), 把年限不超過5年的文獻的引文數(shù)量與引文總量相比較而得到的數(shù)值,即半衰期與普萊斯指數(shù)呈現(xiàn)反比的關(guān)系,半衰期越短,普萊斯指數(shù)越大,領(lǐng)域內(nèi)知識成果更新越快,文獻過時的速度越快。因此,不同學科之間的文獻老化指數(shù)不可以橫向比較,領(lǐng)域不同,文獻的老化速度就不一致。
對文獻老化規(guī)律進行統(tǒng)計分析有利于指導文獻收藏利用[16],減少用戶及圖書館員的檢索工作負擔,使學者們能夠跟隨最新的知識成果進行知識再創(chuàng)造,提升研究人員的研究效率,為各行業(yè)人才提供更好的服務。此外,對文獻進行老化速度統(tǒng)計對文獻的價值評價也起到了可靠的參考作用,間接反映出整個領(lǐng)域的科學發(fā)展規(guī)模與趨勢,為更全面徹底地對領(lǐng)域發(fā)展現(xiàn)狀進行了解提供有效支撐。
不同于現(xiàn)有的國內(nèi)開放數(shù)據(jù)研究進展與趨勢分析成果[17],該篇文章針對中國知網(wǎng)數(shù)據(jù)庫中開放政府數(shù)據(jù)領(lǐng)域符合要求的相關(guān)文獻進行了文獻計量統(tǒng)計,以期對該主題的文獻計量學經(jīng)典規(guī)律進行檢驗總結(jié)。利用Excel和Citespace軟件分別從文獻增長規(guī)律分析角度[18]、布拉德福定律角度、齊普夫定律角度、洛特卡定律角度以及引文共現(xiàn)分析和文獻老化規(guī)律的角度對開放政府數(shù)據(jù)領(lǐng)域做出統(tǒng)計研究并得到了以下結(jié)論:
(1)現(xiàn)階段,開放政府數(shù)據(jù)領(lǐng)域的發(fā)展正處于成熟階段。2019年后發(fā)文量波動不大,趨于穩(wěn)定,領(lǐng)域的發(fā)展正處于興盛時期。
(2)經(jīng)過數(shù)據(jù)統(tǒng)計、整理與匯總,開放政府數(shù)據(jù)領(lǐng)域的發(fā)展情況大致符合布拉德福定律1∶a∶a2的規(guī)律,有些許偏差但屬于誤差范圍內(nèi),產(chǎn)生這種現(xiàn)象的原因可能是數(shù)據(jù)清洗有出入等主客觀方面。
(3)開放政府數(shù)據(jù)領(lǐng)域的詞頻分布規(guī)律符合齊普夫定律,可以被表達為y=557.03x-1.06的形式。
(4)洛特卡定律詳盡地解釋說明了論文數(shù)量與論文作者之間的數(shù)量關(guān)系。在經(jīng)過本文的研究后可以發(fā)現(xiàn)開放政府數(shù)據(jù)領(lǐng)域的發(fā)展狀況與該定律之間相差不大。
(5)通過引文共現(xiàn)與文獻老化規(guī)律從關(guān)鍵詞等方面對該領(lǐng)域進行全面分析后可以得出:一是該領(lǐng)域的機構(gòu)與作者之間缺乏合作、缺少配合,多產(chǎn)作者大多都分屬不同院校,且研究著力點不太一致,所以作者與機構(gòu)之間的相互溝通協(xié)調(diào)就困難重重。二者之間的互幫互助互補或許會是開放政府數(shù)據(jù)研究領(lǐng)域磨合產(chǎn)生新的探索之路的機會。其二,近年來情報學領(lǐng)域保持高速發(fā)展態(tài)勢,研究范圍不斷拓廣,正在形成獨立強大的作者群。其三是該領(lǐng)域的文獻更替老化速度與其他學科相比而言比較緩慢。這也與學科性質(zhì)相關(guān),理科的論文發(fā)表需要大量復雜而重復的實驗推斷,或許會降低其文章的發(fā)表速度。