摘 要:本文研究電子檔案領(lǐng)域的發(fā)展現(xiàn)狀及規(guī)律。應(yīng)用信息計量學(xué)的基本原理,研究電子檔案領(lǐng)域文獻(xiàn)在時間上、空間上、文獻(xiàn)作者、所用詞頻的分布規(guī)律。電子檔案領(lǐng)域自1998年進(jìn)入快速發(fā)展階段,可以用二項式擬合其發(fā)展趨勢;作者分布不滿足洛特卡定律,核心作者群尚未形成;期刊分布符合布拉福德定律,電子檔案領(lǐng)域的核心期刊群已經(jīng)形成。本文還對近年來電子檔案領(lǐng)域的研究熱點進(jìn)行統(tǒng)計。
關(guān)鍵詞:電子檔案;文獻(xiàn)計量;中文分詞
電子檔案具有儲存密度大、易修改、易加密和易管理等特點,是紙質(zhì)檔案的一種重要補充形式,受到了廣大檔案管理者的持續(xù)關(guān)注1。傳統(tǒng)的檔案管理理論和方法在電子檔案管理方面并不完全適用,為電子檔案問題打造科學(xué)的理論方法已經(jīng)成為一個重要的學(xué)科方向2。本文對電子檔案文獻(xiàn)進(jìn)行統(tǒng)計分析,揭示該領(lǐng)域的發(fā)展現(xiàn)狀。
1 數(shù)據(jù)來源及分析方法
進(jìn)入中國知網(wǎng)cnki知識發(fā)現(xiàn)網(wǎng)絡(luò)平臺,選擇期刊數(shù)據(jù)庫,輸入檢索主題“電子檔案”,限定年份為1990年至2016年,得到以該主題為研究內(nèi)容的期刊論文5609篇。將檢索得到的論文全部選中,選擇以EndNote格式導(dǎo)出參考文獻(xiàn),儲存為txt文本文件。將此文件輸入到劉啟元等人編寫的SATI軟件中做進(jìn)一步分析3。首先將字段轉(zhuǎn)換為xml格式數(shù)據(jù),再進(jìn)行字段抽取、頻次統(tǒng)計等工作。
2 電子檔案相關(guān)論文的時間分布
本文統(tǒng)計了26年間以電子檔案為研究對象的論文數(shù)量,最早的一篇文獻(xiàn)是北京市海威電氣公司姚良清發(fā)表于1991年檔案學(xué)研究的《檢索軟件是電子檔案系統(tǒng)的關(guān)鍵》。按照文獻(xiàn)數(shù)量和增長速度電子檔案研究可以分為萌芽期、快速增長期和穩(wěn)定期增長三個階段。其中1990年至1997年為電子檔案研究的萌芽期,共發(fā)表了相關(guān)文獻(xiàn)40篇,占發(fā)文總量的0.7%;1998年至2012年為電子檔案研究文獻(xiàn)的快速增長期,從1998年的15篇增長到2012年的556篇,平均增速達(dá)29.4%,期間共發(fā)表了相關(guān)文獻(xiàn)3099篇,占發(fā)文總量的55.3%;2013年至2016年為電子檔案相關(guān)論文的穩(wěn)定增長階段,從2013年的562篇到2016年的609篇,平均增幅僅為2.7%,較前一階段顯著下降,達(dá)到一個較為穩(wěn)定的階段,共發(fā)文2470篇,占比44%。
電子檔案主題研究論文的數(shù)量隨時間增長,這是文獻(xiàn)增長的正常規(guī)律,反映出知識增長的速度。文獻(xiàn)增長與時間的關(guān)系可以用線性擬合表示:
f(t)=27.9t-55698 其中1990 式中t代表年份,f(t)代表某年產(chǎn)生的文獻(xiàn)數(shù)量,擬合度R2=0.881。若應(yīng)用指數(shù)增長模型得到: f(t)=9×10-21e0.243t 其中1990 式中e代表自然對數(shù),擬合度R2=0.926。若應(yīng)用冪增長模型得到: f(t)=t488.1 其中1990 擬合度R2=0.927。若應(yīng)用二次多項式模型得到: f(t)=1.401t2-5589t+6×106 其中1990 擬合度R2=0.981。 綜上,應(yīng)用二次多項式模型擬合度最高,目前一個階段電子檔案研究論文產(chǎn)出量可以應(yīng)用二次多項式模型進(jìn)行預(yù)測。 3 電子檔案研究的作者分析 定義有效發(fā)文量為每篇論文作者數(shù)量相加總和。例如論文甲有作者(A,B,C),乙有作者(A,D),假設(shè)每篇論文作者貢獻(xiàn)等同,則有2篇論文,4個作者,5篇有效發(fā)文量,平均每篇文章署名2.5個作者。定義某作者發(fā)文比例為發(fā)表文章數(shù)量比上有效發(fā)文量。例如作者B發(fā)文1篇,發(fā)文比例為20%。 本文統(tǒng)計了所有作者的發(fā)文量、有效發(fā)文量和發(fā)文比例。5609篇論文共有6230名作者,7416篇有效發(fā)文量,平均每篇文章署名1.3人。發(fā)文量最多的作者是吉林大學(xué)的王萍,26年間共發(fā)表相關(guān)研究21篇論文,發(fā)文比例為0.28%。發(fā)文量前10的作者共發(fā)表95篇論文,發(fā)文量前100的作者共發(fā)文483篇論文,發(fā)文量前1000的作者共發(fā)文2186篇。 描述作者分布規(guī)律的洛特卡定律指出4,在發(fā)展成熟的學(xué)科領(lǐng)域,發(fā)表1篇論文作者的數(shù)量是發(fā)表n篇論文作者數(shù)量的n2倍。本文中發(fā)表1篇論文的作者有5440人,發(fā)表2篇論文的作者有577人,約為發(fā)表2篇論文的作者的9.4倍。發(fā)表3篇論文的作者有139人,發(fā)表1篇論文的作者是其39倍??梢钥吹?,在電子檔案研究領(lǐng)域,發(fā)表一篇論文的作者數(shù)量偏多,發(fā)表多篇論文的研究者數(shù)量不足,洛特卡定律不完全適用。描述作者分布規(guī)律的普賴斯理論指出,核心作者發(fā)文量大于0.749乘以作者最多發(fā)文量的開方。本文中核心作者的標(biāo)準(zhǔn)為發(fā)文量大于3.43篇的作者,共有74人,占6230名作者的1.19%,發(fā)表了405篇研究論文,占7416篇有效發(fā)文量的5.46%。遠(yuǎn)未達(dá)到核心作者發(fā)文量占總發(fā)文量40%的規(guī)律。 綜上,電子檔案領(lǐng)域的作者分布不滿足洛特卡定律,電子檔案領(lǐng)域的核心作者群尚未形成。 4 電子檔案研究的期刊分布 本文統(tǒng)計了所有研究電子檔案問題的期刊來源。5609篇論文共來自1320本期刊,平均每本期刊發(fā)表4.25篇論文。發(fā)文最多的期刊是蘭臺世界,共載文398篇。發(fā)文超過100篇的期刊有9種,共發(fā)文1691篇,占30.14%。發(fā)文超過10篇的期刊有71種,共發(fā)文3369篇,占60.06%。 描述文獻(xiàn)分散的布拉福德定律指出5,針對某一研究方向,期刊可以分為核心區(qū)、相關(guān)區(qū)和外圍區(qū),若每個區(qū)域包括的論文數(shù)量相近,則區(qū)域期刊數(shù)量成指數(shù)增長。本文將1320本期刊按布拉福德定律分成三個部分。核心區(qū)包含11種期刊占比0.83%,載文量為1854篇占比33.05%;相關(guān)區(qū)包含111種期刊占比8.4%,載文量1869篇占比33.33%;外圍區(qū)包含1198種期刊占比90.75%,載文量1886篇占比33.62%。三個區(qū)域期刊數(shù)量為11:111:1198,期刊數(shù)量成約成10.08倍的指數(shù)增長。
綜上,電子檔案領(lǐng)域的期刊分布符合布拉福德定律,電子檔案領(lǐng)域的核心期刊群已經(jīng)形成。
5 研究熱點分析
首先,研究熱點體現(xiàn)在作者自己選擇的論文關(guān)鍵詞上。對5609篇論文選擇關(guān)鍵詞進(jìn)行字段抽取,再進(jìn)行頻次統(tǒng)計,得到關(guān)鍵詞展現(xiàn)出的研究熱點。刪除諸如“電子檔案、檔案管理、信息化”等無意義的關(guān)鍵詞后,得到排名前10的研究熱點為:歸檔、檔案利用、儲存載體、數(shù)字化、辦公自動化、國家檔案局、電子檔案袋、數(shù)字檔案館、憑證作用、高校。
第二,研究熱點體現(xiàn)在論文的題目中。對5609篇論文選擇題目進(jìn)行字段抽取,然后進(jìn)行中文分詞工作,再對分開的詞組進(jìn)行頻次統(tǒng)計,得到論文題目展現(xiàn)出的研究熱點。忽略諸如“淺談、研究、問題”等無意義的詞組后,得到排名前10的研究熱點為:高校、紙質(zhì)、歸檔、安全、保護(hù)、企業(yè)、醫(yī)院、數(shù)字化、檔案袋、系統(tǒng)。
第三,研究熱點體現(xiàn)在論文摘要中。對5609篇論文選擇摘要進(jìn)行字段抽取,然后進(jìn)行中文分詞工作,再對分開的詞組進(jìn)行頻次統(tǒng)計,得到論文摘要展現(xiàn)出的研究熱點。經(jīng)過中文分詞從摘要中共得到14756條詞組,忽略諸如“文件、發(fā)展、信息”等無意義的詞組后,得到排名前10的研究熱點為:紙質(zhì)、系統(tǒng)、歸檔、數(shù)字化、高校、網(wǎng)絡(luò)、企業(yè)、醫(yī)院、檔案館、儲存。
6 總結(jié)
本文應(yīng)用文獻(xiàn)計量學(xué)的基本規(guī)律研究電子檔案領(lǐng)域的發(fā)展情況,包括文獻(xiàn)增長規(guī)律,文獻(xiàn)在期刊中的分布規(guī)律,作者分布規(guī)律。這些規(guī)律都是運用統(tǒng)計學(xué)方法得到的,有各自的限定條件和局限性,研究時應(yīng)注意聯(lián)系學(xué)科實際討論。本文同時應(yīng)用中文分詞處理模式,對論文的題目、摘要和關(guān)鍵詞進(jìn)行提取,得到電子檔案領(lǐng)域的研究熱點,可以供相關(guān)研究者參考。
參考文獻(xiàn)
[1]劉念, 唐一鴻, 李名選. 基于電子檔號章的檔案安全保障系統(tǒng)研究與實現(xiàn)[J]. 檔案學(xué)研究,2016(2):115-117.
[2]郭楠. 人事電子檔案信息安全保障策略研究[J]. 社會科學(xué)(文摘版), 2016(10):00097-00097.
[3]劉啟元, 葉鷹. 文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實現(xiàn)——以中外圖書情報學(xué)為例[J]. 信息資源管理學(xué)報,2012(1):50-58.
[4]王洵. 洛特卡定律[J]. 情報科學(xué), 1981(6):74-78.
[5]唐奇. “核心出版社”圖書采購策略研究——以南開大學(xué)經(jīng)管類圖書采購為例[J]. 圖書館工作與研究,2015,1(11):104-109.
作者簡介
袁碩(1989-),江蘇淮安人,天津理工大學(xué)圖書館助理館員。